Que contient The General Index, cette énorme archive d'articles scientifiques de 38 To ?

Vincent Touveneau
Cryptomonnaies
19 octobre 2021 à 16h26
1
file transfer

On se félicite toujours des initiatives pour rendre accessibles les documents dignes d'intérêt. The General Index, un projet mené par un vétéran de l’open source, regroupe des millions d’articles scientifiques dans un répertoire gigantesque.

Son créateur, Carl Malamud, parle d’une « carte du savoir humain » qui demande encore des améliorations.

Rendre des articles scientifiques payants accessibles au public

Il faut d’abord resituer le personnage de Carl Malamud, informaticien et défenseur des ressources libres depuis la création de l’Internet. Son dernier projet, baptisé The General Index, est un répertoire compressé de dizaines de millions de fichiers qui totalisent 38 terabytes de données.

Dans une vidéo parue récemment, Carl Malamud décrit ce répertoire de la façon suivante : « C’est un outil de recherche, un dictionnaire du savoir, un équipement qui peut occuper une place centrale dans la pratique de la science à l’ère moderne. C’est un outil d’utilité publique. Nous ne revendiquons pas la propriété de ce fichier général. Il appartient au domaine public. C’est une série de faits non biaisés dont vous pouvez disposer à votre convenance. Il n’y a pas de droits réservés. »

Cet Index Général répond à un problème précis. En effet, la plupart des articles scientifiques de renommée internationale sont payants. Cette exclusivité coupant les moins fortunés de savoirs essentiels, des initiatives comme le Sci-Hub, sorte de Pirate Bay scientifique, ont vu le jour. Malheureusement, Sci-Hub se trouve sous la menace constante d’une suppression par les autorités. C’est sous une forme différente que le General Index se présente.

Une initiative qui demande encore beaucoup de travail

Là où The General Index se différencie de Sci-Hub, c’est que son fonctionnement le fait passer sous les radars du domaine public. En téléchargeant cette nouvelle base de données, vous n’avez pas accès à des articles entiers, mais vous pouvez taper quelques mots-clés qui vous permettront de trouver l’article plus facilement dans une ressource gratuite.

En résumé, l’archive de Carl Malamud est loin d’être une bibliothèque géante où chacun pourrait se servir gratuitement en produits payants. Selon le propre aveu de son créateur, l’index possède encore des failles techniques qu’il faudrait améliorer : « Dans certains cas, l'extraction de texte a échoué, et quelques fois, les métadonnées ne sont pas disponibles ou peut-être incorrectes. »

The General Index est déjà disponible sur le répertoire du site archive.org. L’extraction de ces fichiers est un processus long et fastidieux à cause de la taille imposante de l’archive qui frôle les 9 terabytes compressés. En revanche, de nombreuses personnes ont uploadé l’archive sous un subreddit appelé /r/DataHoarder, ce qui permet d’y accéder via BitTorrent.

Source : Vice

Vincent Touveneau

Cryptomonnaies

Cryptomonnaies

Globe-trotter qui ne quitte pas son bloc-notes. La musique dans la peau, avec un penchant pour l'actu crypto.

Lire d'autres articles

Globe-trotter qui ne quitte pas son bloc-notes. La musique dans la peau, avec un penchant pour l'actu crypto.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

  • Indépendance
  • Transparence
  • Expertise

L'équipe Clubic sélectionne et teste des centaines de produits qui répondent aux usages les plus courants, avec le meilleur rapport qualité / prix possible.

Haut de page

Sur le même sujet