Après 25 ans d'existence, les robots.txt pourraient enfin devenir un standard du web

03 juillet 2019 à 09h24
1
Google robots.txt

Google souhaite que les robots.txt, ou protocole d'exclusion des robots (REP), deviennent un standard du web. En collaboration avec l'auteur original du protocole de 1994, le géant du web a documenté le fonctionnement du REP et l'a soumis à l'IETF (Internet Engineering Task Force), l'organisme qui élabore et promeut les standards Internet.

Créés en 1994 par Martijn Koster, le fichier robots.txt est largement utilisé par les éditeurs web. Toutefois, il n'est jamais devenu une norme Internet.

Une ébauche des robots.txt soumise à l'IETF

Le fichier robots.txt célèbre son 25ème anniversaire. Placé à la racine d'un site internet par son créateur, il donne des indications aux « spiders », les robots des moteurs de recherche. En somme, c'est un fichier d'instructions, personnalisable par l'éditeur d'un site web.

Les fichiers robots.txt prévalent largement sur la toile, mais ils ne sont jamais devenus une norme internet. Notamment parce que les différents robots ne les interprètent pas de la même façon. Mais aussi parce qu'ils ne s'attaquent pas aux problèmes modernes du web.

Ainsi, Google souhaite standardiser le fichier robots.txt, afin que tous les robots crawlers l'interprètent de la même manière. Pour cela, et en collaboration avec l'auteur original du protocole de 1994, des webmasters et d'autres moteurs de recherche, Google a documenté le fonctionnement du REP avec le web moderne. Et bien-sûr, la demande à été soumise à l'IETF.

« L'ébauche proposée du REP reflète plus de 20 ans d'expérience dans le monde réel en matière de règles robots.txt, utilisées à la fois par Googlebot et d'autres grands robots, ainsi que par environ un demi-milliard de sites Web qui font confiance au REP. [...] Il ne change pas les règles créées en 1994, mais définit tous les scénarios pour l'analyse et l'adaptation de robots.txt, et les étend au web moderne ».

La standardisation des robots.txt est donc en cours d'élaboration. Pour ce faire, Google s'est entouré de développeurs web afin de recueillir leurs commentaires. Ainsi, le protocole sera ajusté au fur et à mesure de leurs retours, notamment en ce qui concerne la quantité d'informations qu'ils sont prêt à transmettre à Googlebot, et donc susceptible d'apparaître dans les résultats de recherche.




Source : 9to5google
Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
1
0
jvachez
Ce fichier est une très mauvaise idée. C’est plutôt une faille de sécurité. Il facilite le travail des hackeurs qui auront facilement la liste des répertoires où ils peuvent trouver des données intéressantes.
Voir tous les messages sur le forum

Actualités du moment

Pour leur premier vol commercial, les ballons internet Loon décolleront du Kenya
🔥 Soldes Cdiscount : Smart TV LED 4K UHD TCL 60
Facebook déclasse les post sensationnalistes visant la santé et les aliments
Mercedes classe A : une hybride rechargeable débarquerait en septembre
Porsche Taycan : son prototype final s’offre une tournée mondiale avant sa sortie d’usine
Cyberpunk 2077 aura droit à trois prologues différents selon les choix du joueur
Prendre de bonnes photos de feu d'artifice avec son smartphone, ce n'est pas si compliqué !
Agacé par un article du Wall Street Journal sur le départ de Jony Ive, Tim Cook répond
Le Galaxy A80 et son triple appareil photo rotatif officiellement disponibles à 659 €
Haut de page