Après 25 ans d'existence, les robots.txt pourraient enfin devenir un standard du web

Christelle Perret Contributrice
03 juillet 2019 à 09h24
0
Google robots.txt

Google souhaite que les robots.txt, ou protocole d'exclusion des robots (REP), deviennent un standard du web. En collaboration avec l'auteur original du protocole de 1994, le géant du web a documenté le fonctionnement du REP et l'a soumis à l'IETF (Internet Engineering Task Force), l'organisme qui élabore et promeut les standards Internet.

Créés en 1994 par Martijn Koster, le fichier robots.txt est largement utilisé par les éditeurs web. Toutefois, il n'est jamais devenu une norme Internet.

Une ébauche des robots.txt soumise à l'IETF

Le fichier robots.txt célèbre son 25ème anniversaire. Placé à la racine d'un site internet par son créateur, il donne des indications aux « spiders », les robots des moteurs de recherche. En somme, c'est un fichier d'instructions, personnalisable par l'éditeur d'un site web.

Les fichiers robots.txt prévalent largement sur la toile, mais ils ne sont jamais devenus une norme internet. Notamment parce que les différents robots ne les interprètent pas de la même façon. Mais aussi parce qu'ils ne s'attaquent pas aux problèmes modernes du web.

Ainsi, Google souhaite standardiser le fichier robots.txt, afin que tous les robots crawlers l'interprètent de la même manière. Pour cela, et en collaboration avec l'auteur original du protocole de 1994, des webmasters et d'autres moteurs de recherche, Google a documenté le fonctionnement du REP avec le web moderne. Et bien-sûr, la demande à été soumise à l'IETF.

« L'ébauche proposée du REP reflète plus de 20 ans d'expérience dans le monde réel en matière de règles robots.txt, utilisées à la fois par Googlebot et d'autres grands robots, ainsi que par environ un demi-milliard de sites Web qui font confiance au REP. [...] Il ne change pas les règles créées en 1994, mais définit tous les scénarios pour l'analyse et l'adaptation de robots.txt, et les étend au web moderne ».

La standardisation des robots.txt est donc en cours d'élaboration. Pour ce faire, Google s'est entouré de développeurs web afin de recueillir leurs commentaires. Ainsi, le protocole sera ajusté au fur et à mesure de leurs retours, notamment en ce qui concerne la quantité d'informations qu'ils sont prêt à transmettre à Googlebot, et donc susceptible d'apparaître dans les résultats de recherche.




Source : 9to5google
1 réponses
0 utilisateurs
Suivre la discussion

Les actualités récentes les plus commentées

Émissions de CO2 : Bruno Le Maire milite pour le déplafonnement du malus automobile
Le minage de cryptomonnaies participe au réchauffement climatique
Il faudrait 20 ans pour bâtir une ville habitable sur Mars, d'après Elon Musk
Mustang Mach-E : Ford lâche la cavalerie électrique… et ça va faire mal
L'iran coupe à son tour Internet pour enrayer les révoltes populaires
L'Assemblée adopte la surveillance des réseaux sociaux par l'administration fiscale
Alain Damasio, Ken Loach... 111 assos et intellectuels se lèvent contre Amazon
The Mandalorian : que vaut le premier épisode de la série TV Star Wars ?
Pornhub blacklisté par PayPal, qui ne veut plus servir d’intermédiaire pour payer ses contributeurs
Le trou dans la couche d'ozone n'a jamais été aussi petit depuis les années 1980

Notre charte communautaire

1. Participez aux discussions

Nous encourageons chacun à exprimer ses idées sur les sujets qui l'intéressent, et à faire profiter l'ensemble de la communauté de son expertise sur un sujet particulier.

2. Partagez vos connaissances

Que vous soyez expert ou amateur passionné, partagez vos connaissances aux autres membres de la communauté pour enrichir le niveau d'expertise des articles.

3. Échangez vos idées

Donnez votre opinion en étayant votre propos et soyez ouverts aux idées des autres membres de la communauté, même si elles sont radicalement différentes des vôtres.

4. Faites preuve de tolérance

Qu'il s'agisse de rédacteurs professionnels ou amateurs, de lecteurs experts ou passionnés, vous devez faire preuve de tolérance et vous placer dans une démarche d'entraide.

5. Restez courtois

Particulièrement lorsque vous exprimez votre désaccord, critiquez les idées, pas les personnes. Évitez à tout prix les insultes, les attaques et autres jugements sur la forme des messages.

6. Publiez des messages utiles

Chaque participation a vocation à enrichir la discussion, aussi les partages d'humeurs personnelles ne doivent pas venir gêner le fil des échanges.

7. Soignez votre écriture

Utilisez la ponctuation, prohibez le langage SMS et les majuscules, relisez-vous afin de corriger un peu les fautes de frappe et de français : trop de fautes n’engagent ni à lire le message, ni à répondre à une question.

8. Respectez le cadre légal

Ne publiez pas de contenus irrespectueux, racistes, homophobes, obscènes ou faisant l'apologie de courants radicaux, qu'ils soient politiques ou religieux. N'utilisez pas plusieurs comptes utilisateurs.

9. Ne faites pas de promotion

Ne profitez pas d'une discussion pour faire la publicité d'un produit, d'un service ou même de votre site web personnel.

10. Ne plagiez pas

Exprimez uniquement vos opinions ou partagez des idées en citant vos sources.

scroll top