Une IA qui résume des études scientifiques en une phrase : l'avenir des moteurs de recherche ?

27 novembre 2020 à 17h15
14
Semantic Scholar site © Semantic Scholar
© Semantic Scholar

Des chercheurs américains ont mis au point un logiciel capable d'effectuer automatiquement un « tl;dr ».

« Too long; didn't read » (« trop long, pas lu »). Résumée en « tl;dr », cette abréviation est couramment utilisée sur Internet. Elle peut notamment être employée par l'auteur d'une publication à rallonge afin d'en proposer un bref résumé à ses lecteurs. Si cela s'avère utile pour un post de quelques paragraphes, que dire dans le cas d'une étude scientifique de plusieurs dizaines de pages ?

Machine learning

C'est précisément à ce domaine que se sont attaqués les chercheurs de l'Allen Institue for AI, fondé par Paul Allen, feu cofondateur de Microsoft. Ils ont en effet apporté une nouvelle brique au sein du projet « Semantic Scholar », un moteur de recherche de documents scientifiques fonctionnant à l'aide de l'intelligence artificielle. Le nouvel outil, évidemment baptisé « TLDR », a pour but de résumer automatiquement en une phrase les articles de la base de données.

Pour y parvenir, l'IA s'appuie sur des réseaux de neurones profonds et sur l'apprentissage automatique (ou machine learning). Il a donc fallu commencer par « l'entraîner » via une grande quantité de données à analyser. L'outil a d'abord appris à générer des phrases concises, à partir de dizaines de milliers d'articles scientifiques, chacun associé à un titre. Puis il s'est formé au travail de synthèse, en étudiant un autre corpus d'études, possédant chacune un résumé.

Capable de générer ses propres phrases

Ce n'est toutefois pas la première initiative de ce type. Depuis 2018, le site Paper Digest  propose ainsi de « résumer des articles académiques grâce à l'intelligence artificielle ». Mais d'après Dan Weld, qui dirige le projet Semantic Scholar, celui-ci ne reprend que des phrases clés du texte, tandis que TLDR est capable de synthétiser le contenu avec ses propres mots. Des termes peuvent néanmoins rester techniques et s'adressent donc à un public d'initiés. Mais l'équipe du projet espère pouvoir prochainement produire des résumés accessibles au grand public. Les retrouvera-t-on bientôt dans nos moteurs de recherche ?

Cela paraît aujourd'hui prématuré. Pour l'heure, TLDR ne fonctionne que sur le corpus couvert par Semantic Scholar, à savoir « seulement » dix millions de documents, uniquement consacrés à l'informatique. D'autres disciplines devraient cependant suivre dans les mois à venir.

Source : Nature

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
14
10
Voir tous les messages sur le forum

Lectures liées

Amsterdam a inauguré le tout premier pont en acier imprimé en 3D
Face au blocus des communications à Cuba, les USA envisagent de déployer Internet via des ballons
La Défenseure des droits s'oppose aux caméras de reconnaissance des individus dans l'espace public
Voici CAPS, la capsule volante française autonome, passe-partout et monoplace (Vidéo)
Végétaliser les villes ? Google veut cartographier les quartiers prioritaires
Les chasseurs d’ondes de l’ANFR à la recherche des fréquences suspectes (Vidéo)
Après le supersonique, United Airlines veut des avions à propulsion électrique
Elon Musk réserve chez Virgin Galatics quand Bezos dézingue son concurrent
Une IA appréhende les politiciens qui passent trop de temps sur leur smartphone durant les sessions au parlement
Haut de page