Moteurs de recherche et données confidentielles

Cette édition d’Oxygen3 24h-365d met en garde les utilisateurs quant à certaines utilisations frauduleuses des moteurs de recherche, qui permettent aux attaquants d’accéder à des données confidentielles sur les sites Web, et propose différents moyens de les neutraliser.

Il existe deux techniques bien différentiées pour capturer des adresses et les stocker dans une base de données, et la plupart des moteurs de recherche Internet sont dotés de l’une ou de l’autre. La première consiste en des formulaires dans lesquels les utilisateurs peuvent entrer manuellement un URL, alors que la seconde est basée sur des moteurs de recherche qui utilisent des robots.

Ces robots sont des programmes qui analysent constamment, et automatiquement, les sites Web, sautant de lien en lien, et rassemblant au passage toutes les informations disponibles sur les pages et les documents demandés. Le problème se pose lorsque ces robots indexent des documents dans leurs bases de données. Tout d’abord, si des documents sont stockés dans un site Web, il se peut qu’ils le soient de manière cachée en raison de leur contenu confidentiel ou pour éviter tout simplement que des profanes n’en prennent connaissance. Les attaquants utilisent les moteurs de recherche qui emploient des robots pour deux raisons précises : soit pour fouiller les bases de données et récolter une moisson d’adresses avec des noms de fichiers susceptibles de contenir des informations secrètes, soit pour établir avec précision si des applications avec des vulnérabilités reconnues sont installées sur le serveur.

Il est bien sûr possible d’inclure un fichier (robots.txt) dans le répertoire racine du serveur Web, pour donner aux robots l’instruction de ne pas insérer dans leurs bases de données certains fichiers et dossiers, mais cette mesure est dangereuse et peut entraîner des problèmes pour la sécurité. En effet, la plupart des attaquants lisent le fichier http://www.servidor.com/robots.txt, pour savoir quelles sont les données que l’utilisateur ne veut justement pas insérer. Dans ce cas-là, la meilleure chose à faire est d’inclure une commande – comme celle indiquée ci-dessous – qui empêchera les robots d’indexer depuis le dossier racine.

robots.txt

User-agent: *

Disallow: /

Il arrive parfois que les pages soient inclues dans un domaine et il n’y ait pas d’option pour insérer le fichier robots.txt dans le dossier racine. Dans ce cas, éviter l’indexage d’une page Web précise n’est possible qu’en ajoutant l’étiquette :

META NAME="ROBOTS" CONTENT="NOINDEX"

Si, en plus, vous désirez empêcher les robots d’indexer les liens sur une page Web, ajoutez l’étiquette :

META NAME="ROBOTS" CONTENT="NOFOLLOW"

Quelles que soient les circonstances, la méthode la plus sûre est de ne pas introduire de fichiers confidentiels dans les sites Web publics accessibles à tous ; ceci évitera non seulement de devoir mettre en place l’une ou l’autre des procédures décrites ci-dessus, mais éliminera également tout problème de sécurité potentiel.

Réalisé en collaboration avec Panda Software