Encore un moment de curiosité "pour voir", et une surprise à l'arrivée. En consultant le fichier robots.txt de Google.com on découvre un fichier très fourni et deux indications: Il est possible de "pressentir" l'arrivée de nouveaux services Google en étudiant les changements de ce fichier puisqu'il interdit l'accès aux urls des services Google, y compris ceux qui sont en train de naitre; D'autre part, alors que le protocole ne définit qu'un principe d'exclusion, voilà que Google met en oeuvre une directive Allow. Mais quel robot pourra la suivre puisque cette directive n'est pas une recommandation publique ?

A moins que ?

Il s'avère qu'il existe une spécification présentée comme une proposition d'évolution de la spec originale et datant de novembre 1996. Ce Draft de l'IETF a donc près de 10 ans et n'a soit disant pas été implémenté.

Deux évolutions majeures sont la possibilité de définir des règles d'inclusion avec une directive Allow:, et d'utiliser des caractères joker comme * dans la définition des URLs inclues ou exclues.

Coïncidence, Google Sitemap propose depuis peu un outil pour tester la syntaxe d'un fichier robots.txt vis-à-vis des capacités de GoogleBot. Et cela donne ceci:

Résultats URL

URL Googlebot
http://www.feuilledunet.info/ Autorisée par ligne 2: Allow: / Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.
http://www.feuilledunet.info/wp-admin/post.php Bloquée par ligne 3: Disallow: /wp-admin/*.php

GoogleBot supporte dès aujourd'hui les 2 extensions majeures de la spec restée dormante depuis tant d'années. 

Edit: J'ai fini par trouver que c'est officiellement documenté, c'est ici 

Average Rating: 4.9 out of 5 based on 202 user reviews.

Premier billet sur ce sujet, à suivre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>