Feuille du Net » Blog Archive » Google renouvelle la syntaxe de robots.txt

Google renouvelle la syntaxe de robots.txt

Encore un moment de curiosité "pour voir", et une surprise à l'arrivée. En consultant le fichier robots.txt de Google.com on découvre un fichier très fourni et deux indications: Il est possible de "pressentir" l'arrivée de nouveaux services Google en étudiant les changements de ce fichier puisqu'il interdit l'accès aux urls des services Google, y compris ceux qui sont en train de naitre; D'autre part, alors que le protocole ne définit qu'un principe d'exclusion, voilà que Google met en oeuvre une directive Allow. Mais quel robot pourra la suivre puisque cette directive n'est pas une recommandation publique ?

A moins que ?

Il s'avère qu'il existe une spécification présentée comme une proposition d'évolution de la spec originale et datant de novembre 1996. Ce Draft de l'IETF a donc près de 10 ans et n'a soit disant pas été implémenté.

Deux évolutions majeures sont la possibilité de définir des règles d'inclusion avec une directive Allow:, et d'utiliser des caractères joker comme * dans la définition des URLs inclues ou exclues.

Coïncidence, Google Sitemap propose depuis peu un outil pour tester la syntaxe d'un fichier robots.txt vis-à-vis des capacités de GoogleBot. Et cela donne ceci:

Résultats URL

URL Googlebot
http://www.feuilledunet.info/ Autorisée par ligne 2: Allow: / Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.
http://www.feuilledunet.info/wp-admin/post.php Bloquée par ligne 3: Disallow: /wp-admin/*.php

GoogleBot supporte dès aujourd'hui les 2 extensions majeures de la spec restée dormante depuis tant d'années. 

Edit: J'ai fini par trouver que c'est officiellement documenté, c'est ici 

 Votes | Moyenne: 0 out of 5 Votes | Moyenne: 0 out of 5 Votes | Moyenne: 0 out of 5 Votes | Moyenne: 0 out of 5 Votes | Moyenne: 0 out of 5 (Votez !)
Loading ... Loading ...


Réagir, laisser un commentaire :