Que contient The General Index, cette énorme archive d'articles scientifiques de 38 To ?

Vincent Touveneau
Cryptomonnaies
19 octobre 2021 à 16h26
1
file transfer

On se félicite toujours des initiatives pour rendre accessibles les documents dignes d'intérêt. The General Index, un projet mené par un vétéran de l’open source, regroupe des millions d’articles scientifiques dans un répertoire gigantesque.

Son créateur, Carl Malamud, parle d’une « carte du savoir humain » qui demande encore des améliorations.

Rendre des articles scientifiques payants accessibles au public

Il faut d’abord resituer le personnage de Carl Malamud, informaticien et défenseur des ressources libres depuis la création de l’Internet. Son dernier projet, baptisé The General Index, est un répertoire compressé de dizaines de millions de fichiers qui totalisent 38 terabytes de données.

Dans une vidéo parue récemment, Carl Malamud décrit ce répertoire de la façon suivante : « C’est un outil de recherche, un dictionnaire du savoir, un équipement qui peut occuper une place centrale dans la pratique de la science à l’ère moderne. C’est un outil d’utilité publique. Nous ne revendiquons pas la propriété de ce fichier général. Il appartient au domaine public. C’est une série de faits non biaisés dont vous pouvez disposer à votre convenance. Il n’y a pas de droits réservés. »

Cet Index Général répond à un problème précis. En effet, la plupart des articles scientifiques de renommée internationale sont payants. Cette exclusivité coupant les moins fortunés de savoirs essentiels, des initiatives comme le Sci-Hub , sorte de Pirate Bay scientifique, ont vu le jour. Malheureusement, Sci-Hub se trouve sous la menace constante d’une suppression par les autorités . C’est sous une forme différente que le General Index se présente.

Une initiative qui demande encore beaucoup de travail

Là où The General Index se différencie de Sci-Hub, c’est que son fonctionnement le fait passer sous les radars du domaine public. En téléchargeant cette nouvelle base de données, vous n’avez pas accès à des articles entiers, mais vous pouvez taper quelques mots-clés qui vous permettront de trouver l’article plus facilement dans une ressource gratuite.

En résumé, l’archive de Carl Malamud est loin d’être une bibliothèque géante où chacun pourrait se servir gratuitement en produits payants. Selon le propre aveu de son créateur, l’index possède encore des failles techniques qu’il faudrait améliorer : « Dans certains cas, l'extraction de texte a échoué, et quelques fois, les métadonnées ne sont pas disponibles ou peut-être incorrectes. »

The General Index est déjà disponible sur le répertoire du site archive.org . L’extraction de ces fichiers est un processus long et fastidieux à cause de la taille imposante de l’archive qui frôle les 9 terabytes compressés. En revanche, de nombreuses personnes ont uploadé l’archive sous un subreddit appelé /r/DataHoarder, ce qui permet d’y accéder via BitTorrent .

Source : Vice

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
1
2
nicgrover
Il ne me reste qu’à acheter quelques DD…
Voir tous les messages sur le forum

Lectures liées

ClicBot : construisez et programmez votre robot !
Apple : si le casque AR est annoncé en 2022, n'espérez pas pouvoir l'acheter
Apple : vers un casque de réalité augmentée
La nature ne nous a fait que 5 doigts ? En voila un 6e, robotique, que l'on adopte en un rien de temps
Carrefour Flash, comment fonctionne le premier magasin totalement automatisé de Paris ?
Alphabet (Google) va intégrer des robots à ses équipes pour les tâches d'entretien
Niantic lève 300 millions pour partir à la conquête du metaverse
Hey Disney : un assistant vocal s'invitera dans les hôtels de Disneyland dès l'année prochaine
Rolls-Royce passe les 600 km/h avec un avion électrique, un record
Ces gants haptiques vous permettront de toucher des objets dans le metaverse
Haut de page