Quand le butinage s’achève, en faire une feuille.
In: Seo
20 juin 2006Encore un moment de curiosité "pour voir", et une surprise à l'arrivée. En consultant le fichier robots.txt de Google.com on découvre un fichier très fourni et deux indications: Il est possible de "pressentir" l'arrivée de nouveaux services Google en étudiant les changements de ce fichier puisqu'il interdit l'accès aux urls des services Google, y compris ceux qui sont en train de naitre; D'autre part, alors que le protocole ne définit qu'un principe d'exclusion, voilà que Google met en oeuvre une directive Allow. Mais quel robot pourra la suivre puisque cette directive n'est pas une recommandation publique ?
A moins que ?
Il s'avère qu'il existe une spécification présentée comme une proposition d'évolution de la spec originale et datant de novembre 1996. Ce Draft de l'IETF a donc près de 10 ans et n'a soit disant pas été implémenté.
Deux évolutions majeures sont la possibilité de définir des règles d'inclusion avec une directive Allow:, et d'utiliser des caractères joker comme * dans la définition des URLs inclues ou exclues.
Coïncidence, Google Sitemap propose depuis peu un outil pour tester la syntaxe d'un fichier robots.txt vis-à-vis des capacités de GoogleBot. Et cela donne ceci:
Résultats URL
| URL | Googlebot |
| http://www.feuilledunet.info/ | Autorisée par ligne 2: Allow: / Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes. |
| http://www.feuilledunet.info/wp-admin/post.php | Bloquée par ligne 3: Disallow: /wp-admin/*.php |
GoogleBot supporte dès aujourd'hui les 2 extensions majeures de la spec restée dormante depuis tant d'années.
Edit: J'ai fini par trouver que c'est officiellement documenté, c'est ici
Premier billet sur ce sujet, à suivre
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Quisque sed felis. Aliquam sit amet felis. Mauris semper, velit semper laoreet dictum, quam diam dictum urna, nec placerat elit nisl in quam. Etiam augue pede, molestie eget, rhoncus at, convallis ut, eros. Aliquam pharetra.