Google renouvelle la syntaxe de robots.txt

In: Seo

20 juin 2006

Encore un moment de curiosité "pour voir", et une surprise à l'arrivée. En consultant le fichier robots.txt de Google.com on découvre un fichier très fourni et deux indications: Il est possible de "pressentir" l'arrivée de nouveaux services Google en étudiant les changements de ce fichier puisqu'il interdit l'accès aux urls des services Google, y compris ceux qui sont en train de naitre; D'autre part, alors que le protocole ne définit qu'un principe d'exclusion, voilà que Google met en oeuvre une directive Allow. Mais quel robot pourra la suivre puisque cette directive n'est pas une recommandation publique ?

A moins que ?

Il s'avère qu'il existe une spécification présentée comme une proposition d'évolution de la spec originale et datant de novembre 1996. Ce Draft de l'IETF a donc près de 10 ans et n'a soit disant pas été implémenté.

Deux évolutions majeures sont la possibilité de définir des règles d'inclusion avec une directive Allow:, et d'utiliser des caractères joker comme * dans la définition des URLs inclues ou exclues.

Coïncidence, Google Sitemap propose depuis peu un outil pour tester la syntaxe d'un fichier robots.txt vis-à-vis des capacités de GoogleBot. Et cela donne ceci:

Résultats URL

URL Googlebot
http://www.feuilledunet.info/ Autorisée par ligne 2: Allow: / Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.
http://www.feuilledunet.info/wp-admin/post.php Bloquée par ligne 3: Disallow: /wp-admin/*.php

GoogleBot supporte dès aujourd'hui les 2 extensions majeures de la spec restée dormante depuis tant d'années. 

Edit: J'ai fini par trouver que c'est officiellement documenté, c'est ici 

Premier billet sur ce sujet, à suivre

Comment Form

About this blog

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Quisque sed felis. Aliquam sit amet felis. Mauris semper, velit semper laoreet dictum, quam diam dictum urna, nec placerat elit nisl in quam. Etiam augue pede, molestie eget, rhoncus at, convallis ut, eros. Aliquam pharetra.

Photostream

  • Rédacteur: Vous avez aussi la possibilité d'utiliser iCab comme navigateur. La version 3.0.5 convient aux uti [...]
  • Rédacteur: WaMCom n'est visiblement plus disponible sur le site de l'Université de Francfort. Concernant Flas [...]
  • Rédacteur: Google Analytics a finalement ajouté bing comme moteur de recherche reconnu dans les fichiers urchi [...]
  • Rédacteur: Avec le lancement de bing.com, une bonne occasion d'enrichir et de compléter les moteurs à prendre [...]
  • Rédacteur: Rainet a fait évoluer ses tablettes pour lave-vaisselle. [...]