Moteurs de recherche et données confidentielles

Panda Software
13 juin 2000 à 08h23
0
Cette édition d’Oxygen3 24h-365d met en garde les utilisateurs quant à certaines utilisations frauduleuses des moteurs de recherche, qui permettent aux attaquants d’accéder à des données confidentielles sur les sites Web, et propose différents moyens de les neutraliser.

Il existe deux techniques bien différentiées pour capturer des adresses et les stocker dans une base de données, et la plupart des moteurs de recherche Internet sont dotés de l’une ou de l’autre. La première consiste en des formulaires dans lesquels les utilisateurs peuvent entrer manuellement un URL, alors que la seconde est basée sur des moteurs de recherche qui utilisent des robots.

Ces robots sont des programmes qui analysent constamment, et automatiquement, les sites Web, sautant de lien en lien, et rassemblant au passage toutes les informations disponibles sur les pages et les documents demandés. Le problème se pose lorsque ces robots indexent des documents dans leurs bases de données. Tout d’abord, si des documents sont stockés dans un site Web, il se peut qu’ils le soient de manière cachée en raison de leur contenu confidentiel ou pour éviter tout simplement que des profanes n’en prennent connaissance. Les attaquants utilisent les moteurs de recherche qui emploient des robots pour deux raisons précises : soit pour fouiller les bases de données et récolter une moisson d’adresses avec des noms de fichiers susceptibles de contenir des informations secrètes, soit pour établir avec précision si des applications avec des vulnérabilités reconnues sont installées sur le serveur.

Il est bien sûr possible d’inclure un fichier (robots.txt) dans le répertoire racine du serveur Web, pour donner aux robots l’instruction de ne pas insérer dans leurs bases de données certains fichiers et dossiers, mais cette mesure est dangereuse et peut entraîner des problèmes pour la sécurité. En effet, la plupart des attaquants lisent le fichier http://www.servidor.com/robots.txt, pour savoir quelles sont les données que l’utilisateur ne veut justement pas insérer. Dans ce cas-là, la meilleure chose à faire est d’inclure une commande – comme celle indiquée ci-dessous – qui empêchera les robots d’indexer depuis le dossier racine.

robots.txt

User-agent: *

Disallow: /

Il arrive parfois que les pages soient inclues dans un domaine et il n’y ait pas d’option pour insérer le fichier robots.txt dans le dossier racine. Dans ce cas, éviter l’indexage d’une page Web précise n’est possible qu’en ajoutant l’étiquette :

META NAME="ROBOTS" CONTENT="NOINDEX"

Si, en plus, vous désirez empêcher les robots d’indexer les liens sur une page Web, ajoutez l’étiquette :

META NAME="ROBOTS" CONTENT="NOFOLLOW"

Quelles que soient les circonstances, la méthode la plus sûre est de ne pas introduire de fichiers confidentiels dans les sites Web publics accessibles à tous ; ceci évitera non seulement de devoir mettre en place l’une ou l’autre des procédures décrites ci-dessus, mais éliminera également tout problème de sécurité potentiel.

Réalisé en collaboration avec Panda Software
Modifié le 01/06/2018 à 15h36
0
0
Partager l'article :

Actualités récentes

Equipement télétravail pas cher : écran Dell QHD 27 pouces est bradé chez Fnac et Darty
La PlayStation 2 fête ses 20 ans ! Quels sont vos meilleurs souvenirs avec cette console ?
Google Assistant : enfin la programmation des lumières (et intégration de Fitbit)
Filmez l'action avec votre smartphone : stabilisateur smartphone 3 axes DJI pas cher
Qui est Relativity Space, la start-up spatiale qui vient de lever 500 millions de dollars ?
Promo de Noël avant le Black Friday : PC portable Gamer Lenovo Légion à prix cassé
Le premier
Nikon laisse fuiter la roadmap de ses prochains objectifs
Vivaldi présente Vivaldi Mail, disponible en technical preview
Les iPhone 6S et iPhone SE (1re gen) n'auraient pas le droit à iOS 15
Haut de page