Oui, Internet peut vous oublier ! Une bonne partie des pages mises en ligne finissent par disparaître d'après cette étude

Camille Coirault
Publié le 24 mai 2024 à 09h47
 Même le web a la mémoire courte © Stock-Asso / Shutterstock
Même le web a la mémoire courte © Stock-Asso / Shutterstock

Non, Internet n'est pas éternel ! Une récente étude a fait remonter le fait qu'une grande partie des pages web finit par disparaître, laissant derrière elles un grand vide.

À l’ère du tout numérique, on pourrait facilement penser du web qu'il est une archive impérissable, que rien ne peut éroder. S'il y a une véritable volonté stratégique de quelques entreprises de faire disparaître des pages web en les déréférençant, Google par exemple, un phénomène tout autre se déroule discrètement.

Une étude récente du Pew Research Center révèle une réalité étonnante : une proportion assez importante des pages web disparaît au fil du temps, laissant des trous béants dans notre mémoire collective numérique.

Le « link rot » ou l'érosion silencieuse du web

Le phénomène du « link rot » (que l'on peut traduire par « pourrissement des liens ») a été l'objet de l'étude du Pew Research Center. En analysant un échantillon de près d'un million de pages enregistrées par l'organisation à but non lucratif Common Crawl, l'institut de recherche a établi un constat assez alarmant. 38 % des pages accessibles en 2013 ne l'étaient plus en octobre 2023.

Encore plus inquiétant, un quart des pages ayant été en ligne lors de cette décennie ont aujourd'hui complètement disparu. Une véritable érosion de l'information, touchant autant des sites d'actus, gouvernementaux et même le sacro-saint Wikipédia.

L'étude révèle également que 21 % des sites gouvernementaux parmi un échantillon de 500 000 comportaient au moins un lien brisé. Ce chiffre grimpe à 23 % pour les sites d'actualités analysés, soit 2 063 au total. Quant à Wikipédia, 54 % des 50 000 pages en anglais examinées présentaient au moins un lien cassé dans leur section « Références ». C'est la fête aux « Error 404 » !

Graphique illustrant le pourcentage de pages web de chaque année qui n'étaient plus accessibles en octobre 2023 © Pew Research Center
Graphique illustrant le pourcentage de pages web de chaque année qui n'étaient plus accessibles en octobre 2023 © Pew Research Center
Diagramme montrant le pourcentage de pages web gouvernementales contenant au moins un lien brisé © Pew Research Center

Les réseaux sociaux et la volatilité des contenus

L'étude s'est également penchée sur la durabilité des contenus partagés sur les réseaux sociaux, en particulier ceux présents sur X.com. Entre le 8 mars et le 27 avril de l'année dernière, Pew a collecté un échantillon plutôt conséquent de 4,8 millions de tweets. Quelques semaines seulement ont suffi pour que 18 % de ces derniers disparaissent de la sphère publique le 15 juin.

Si cette volatilité est préoccupante, c'est qu'elle s'explique en grande partie par des actions humaines, et non des défaillances techniques. Dans 60 % des cas, les tweets disparus l'ont été en raison de la suppression ou du passage en privé des comptes d'utilisateurs, voire de leur suspension par la plateforme elle-même.

Autre fait intéressant : les disparités linguistiques touchant ces disparitions. Les tweets partagés en turc et en arabe étaient particulièrement touchés par ce phénomène d'éphémérité. Avec respectivement 49 % et 42 % de disparition pendant toute la période d'observation, des chiffres assez élevés. Les comptes comportant des biographies ou des photos de profil par défaut étaient également plus susceptibles de voir leurs tweets s'évaporer dans la nature.

Les informations disponibles sur la toile sont donc loin d'être pérennes et s'altèrent avec le temps. Bien heureusement, des sites d'archives web comme Internet Archive ou Common Crawl préservent une partie des pages supprimées sous forme de copies. La fragilité de la mémoire numérique est donc bien une réalité, mais nous avons heureusement les moyens pour garantir une meilleure préservation de ces données.

Source : PC Mag

Par Camille Coirault

Une fois réveillé dans le bateau arrivé en Morrowind, j’avais mis le doigt dans l'engrenage. Un autre de mes doigts fut lui aussi coincé entre les pages des livres d’auteurs classiques : Charles Baudelaire, Émile Zola, Choderlos de Laclos ou Victor Hugo pour ne citer qu’eux. Vingt ans après, quelques milliers d'heures à jouer, à lire, et me voilà ! Mon coeur balance toujours entre ma passion de la tech, des jeux vidéo et mon amour incommensurable pour les Lettres. Spoiler : je n’ai pas choisi et cela ne risque pas d’arriver de sitôt.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

A découvrir en vidéo

Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Commentaires (10)
max6

Je me pose quand même une question, pourquoi devrions-nous garder tout ce qui existe à un instant T sur internet en quoi cela devrait-il être différent de la vie réelle ?
Est-ce que je devrais aussi garder toutes les notes que j’ai prises mes listes de course et enregistrer toutes le conversation que j’ai dans la journée ?
Et pourquoi, quel en serait l’intérêt ? à part nécessiter des moyens colossaux en matériel et en énergie.

Kaggan

en soit, c’est plus une démarche globale qu’une volonté de tout garder. Les sociétés anciennes sont très mal connus. Même le moyen age a d’énorme trou et on pense avoir des sources correctes pour l’Europe mais clairement pas pour tout. La chine qui a conservé énormément de documents à travers le temps, on connait un peu plus de choses. Après, ça reste les grandes lignes. Pour les gens plus classiques, on a finalement assez peu d’infos car c’est plus des textes de religieux ou des extrapolations de procès verbaux. Comment vivait un paysan au XVIIeme siècle, on a quelques infos mais pas tant que ça (on a les grandes lignes mais sans plus). Si on remonte à plus de 1000 ans, on n’a quasiment aucune info (par rapport à tout ce qui a existé). Au final, il y a plein de civilisations qui on disparut et dont les traces qu’on a viennent principalement des autres civilisations qui les ont côtoyés. Du coup, transmettre des textes et des infos classique de notre monde actuel pour les générations future et un enjeux majeur de notre histoire et de ce qu’on va léguer. Il y a déjà des capsules temporelles qui sont disséminés un peut partout mais seule une toute petite partie a de réelles chances d’atteindre leur objectifs.
Même côté des projets de protections de l’information et des connaissances ayant existé par le passé, très peu nous ont atteint. La grande bibliothèque de Bagdad, qui était le lieu qui visait à rassembler toute la connaissance du monde (en entrant dans la ville, on payait moins de taxes si on prêtait un livre qui sera copié puis rendu) a survécu 4 siècles avant d’être détruites par l’armée mongole, représentant une immense perte pour l’époque. Si le projet avait survécu jusqu’à aujourd’hui, notre connaissance du moyen age et de l’antiquité européenne, asiatique et moyen orientale serait incroyablement plus grand.

ezechielxae

En faite c’est juste normal que les sites web disparaissent…

Il suffit que je ne paye plus mes serveurs, et mes sites sont deconnectes, que je ne renouvelles pas les noms de domaines, et ca pointera sur un site de ventes de nom de domaines, pour mes site faudra connaite l’adresse IP.

Il faut comprendre que beaucoup de site web sont hebergés non pas par des multinationnales, mais par des particuliers, ou petite entreprise, quand l’un d’eux arretent son activité sur le web, le site fini par disparaitre… et c’est toujours frustant…

Heureusement parfois la « TimeMachine » sur https://archive.org/ est passé par la, ou quelqu’un a demandé a leur bot de le faire, indexer, archiver le site avant sa disparition.

e_garfield

Donc en fait non « Internet ne vous oublie pas », ça n’a rien à voir avec internet qui n’est juste qu’un « réseau ». Si à l’autre bout du réseau y a plus le serveur… forcement ça marche pas. Donc ça c’est pour les sites.

Pour les liens, c’est pareil, si ça pointe vers un fichier qui n’est plus où il est censé être… oué, tu le trouves plus.

Donc tous les sites dont l’infra est toujours identique sont TOUJOURS là, les fichiers et liens pareil donc internet N’oublie carrément PAS.

L’intéressant c’est plus sur twitter, pareil c’est pas vraiment internet, mais comment twitter gère ses données et fait potentiellement du ménage.
Donc 1/5 tweet plus accessibles, dedans t’as 60% qui vient d’un compte qui n’est plus visible… bon c’est un peu la même histoire que le reste, si la ressource n’est plus là, bha elle est plus là.

image

Et après, ça dit que les trucs virés, sont sur des comptes neufs avec personne qui les regarde, ce serait donc à twitter (pas internet) de s’expliquer sur sa politique de nettoyage.

thot69

Mon site perso a disparu après la fermeture des pages perso d’Orange ; je ne pense pas que l’humanité sera pénalisée par l’absence de documentation sur le Nanoréseau.

Tout n’est pas indispensable sur le web…

Laurent_Marandet

On trouve souvent des docs techniques qui ont dix à quinze ans et qui sont complètement obsolètes, voire même bourrées d’erreurs, même sur les sites de fabricants de matériel informatique.

jvachez

Avec la fermeture des skyblogs énormément d’anciens contenus français ont disparu.
C’est une grande partie de « l’histoire » de France sur la vie des jeunes de cette époque qui a disparu.

V-Luminis

Bonjour,

C’est évidemment une expression métaphorique, je pense que vous êtes passés à côté. Pour le reste vous avez bien raison.

e_garfield

Non, clairement, je ne vois pas où est la métaphore.

rv69720

D’un côté certaines informations sont encore disponibles car qqun paye pour qu’elle le soit (ex : des sites de marques qui laissent encore des références de produits qui ne sont plus vendus, avec la page support : notice, logiciels à télécharger), mais jusqu’à quand ?
D’un autre, des pages perso, des forums qui disparaissent car plus personne n’a payé l’hébergeur ou le service (autrefois gratuit) a disparu. (là c’est dommage).
Après, les réseaux sociaux, c’est comme la mode, ça va, ça vient et ça s’en va… Perso ça ne me manque pas. Par contre celui qui est harcelé, diffamé, c’est dur d’attendre 10 ans pour qu’on ne s’intéresse plus à lui… Si, il y a les complotistes qui ressortent des vieux trucs (enfin, juste des ragots, pas des preuves !)