Moteurs de recherche et données confidentielles

Panda Software
13 juin 2000 à 08h23
0
Cette édition d’Oxygen3 24h-365d met en garde les utilisateurs quant à certaines utilisations frauduleuses des moteurs de recherche, qui permettent aux attaquants d’accéder à des données confidentielles sur les sites Web, et propose différents moyens de les neutraliser.

Il existe deux techniques bien différentiées pour capturer des adresses et les stocker dans une base de données, et la plupart des moteurs de recherche Internet sont dotés de l’une ou de l’autre. La première consiste en des formulaires dans lesquels les utilisateurs peuvent entrer manuellement un URL, alors que la seconde est basée sur des moteurs de recherche qui utilisent des robots.

Ces robots sont des programmes qui analysent constamment, et automatiquement, les sites Web, sautant de lien en lien, et rassemblant au passage toutes les informations disponibles sur les pages et les documents demandés. Le problème se pose lorsque ces robots indexent des documents dans leurs bases de données. Tout d’abord, si des documents sont stockés dans un site Web, il se peut qu’ils le soient de manière cachée en raison de leur contenu confidentiel ou pour éviter tout simplement que des profanes n’en prennent connaissance. Les attaquants utilisent les moteurs de recherche qui emploient des robots pour deux raisons précises : soit pour fouiller les bases de données et récolter une moisson d’adresses avec des noms de fichiers susceptibles de contenir des informations secrètes, soit pour établir avec précision si des applications avec des vulnérabilités reconnues sont installées sur le serveur.

Il est bien sûr possible d’inclure un fichier (robots.txt) dans le répertoire racine du serveur Web, pour donner aux robots l’instruction de ne pas insérer dans leurs bases de données certains fichiers et dossiers, mais cette mesure est dangereuse et peut entraîner des problèmes pour la sécurité. En effet, la plupart des attaquants lisent le fichier http://www.servidor.com/robots.txt, pour savoir quelles sont les données que l’utilisateur ne veut justement pas insérer. Dans ce cas-là, la meilleure chose à faire est d’inclure une commande – comme celle indiquée ci-dessous – qui empêchera les robots d’indexer depuis le dossier racine.

robots.txt

User-agent: *

Disallow: /

Il arrive parfois que les pages soient inclues dans un domaine et il n’y ait pas d’option pour insérer le fichier robots.txt dans le dossier racine. Dans ce cas, éviter l’indexage d’une page Web précise n’est possible qu’en ajoutant l’étiquette :

META NAME="ROBOTS" CONTENT="NOINDEX"

Si, en plus, vous désirez empêcher les robots d’indexer les liens sur une page Web, ajoutez l’étiquette :

META NAME="ROBOTS" CONTENT="NOFOLLOW"

Quelles que soient les circonstances, la méthode la plus sûre est de ne pas introduire de fichiers confidentiels dans les sites Web publics accessibles à tous ; ceci évitera non seulement de devoir mettre en place l’une ou l’autre des procédures décrites ci-dessus, mais éliminera également tout problème de sécurité potentiel.

Réalisé en collaboration avec Panda Software
Modifié le 01/06/2018 à 15h36
0 réponses
0 utilisateurs
Suivre la discussion

Les actualités récentes les plus commentées

Normandie : la plus grande route solaire du monde est un échec
Matrix 4 officiellement annoncé, avec Keanu Reeves et Carrie-Ann Moss
PS5 : la fuite d'un brevet révèle un design plutôt original
L'astéroïde Apophis qui frôlera la Terre en 2029 est-il vraiment dangereux ?
A peine lancée aux USA, Apple annonce que sa Card serait sensible au jean et au cuir
Un chercheur français a trouvé une faille critique dans le système de vote russe
Xiaomi Mi Mix 4 : un monstre de puissance doté d'un capteur photo 108 mégapixels
Surprise : les GAFA jugent la taxe GAFA
Drako GTE : la nouvelle hypercar électrique aux 1200 chevaux a été dévoilée
Le site des impôts affecté par le piratage de 2000 boîtes mails

Notre charte communautaire

1. Participez aux discussions

Nous encourageons chacun à exprimer ses idées sur les sujets qui l'intéressent, et à faire profiter l'ensemble de la communauté de son expertise sur un sujet particulier.

2. Partagez vos connaissances

Que vous soyez expert ou amateur passionné, partagez vos connaissances aux autres membres de la communauté pour enrichir le niveau d'expertise des articles.

3. Échangez vos idées

Donnez votre opinion en étayant votre propos et soyez ouverts aux idées des autres membres de la communauté, même si elles sont radicalement différentes des vôtres.

4. Faites preuve de tolérance

Qu'il s'agisse de rédacteurs professionnels ou amateurs, de lecteurs experts ou passionnés, vous devez faire preuve de tolérance et vous placer dans une démarche d'entraide.

5. Restez courtois

Particulièrement lorsque vous exprimez votre désaccord, critiquez les idées, pas les personnes. Évitez à tout prix les insultes, les attaques et autres jugements sur la forme des messages.

6. Publiez des messages utiles

Chaque participation a vocation à enrichir la discussion, aussi les partages d'humeurs personnelles ne doivent pas venir gêner le fil des échanges.

7. Soignez votre écriture

Utilisez la ponctuation, prohibez le langage SMS et les majuscules, relisez-vous afin de corriger un peu les fautes de frappe et de français : trop de fautes n’engagent ni à lire le message, ni à répondre à une question.

8. Respectez le cadre légal

Ne publiez pas de contenus irrespectueux, racistes, homophobes, obscènes ou faisant l'apologie de courants radicaux, qu'ils soient politiques ou religieux. N'utilisez pas plusieurs comptes utilisateurs.

9. Ne faites pas de promotion

Ne profitez pas d'une discussion pour faire la publicité d'un produit, d'un service ou même de votre site web personnel.

10. Ne plagiez pas

Exprimez uniquement vos opinions ou partagez des idées en citant vos sources.

scroll top