Une IA qui résume des études scientifiques en une phrase : l'avenir des moteurs de recherche ?

27 novembre 2020 à 17h15
14
© Semantic Scholar

Des chercheurs américains ont mis au point un logiciel capable d'effectuer automatiquement un « tl;dr ».

« Too long; didn't read » (« trop long, pas lu »). Résumée en « tl;dr », cette abréviation est couramment utilisée sur Internet. Elle peut notamment être employée par l'auteur d'une publication à rallonge afin d'en proposer un bref résumé à ses lecteurs. Si cela s'avère utile pour un post de quelques paragraphes, que dire dans le cas d'une étude scientifique de plusieurs dizaines de pages ?

Machine learning

C'est précisément à ce domaine que se sont attaqués les chercheurs de l'Allen Institue for AI, fondé par Paul Allen, feu cofondateur de Microsoft. Ils ont en effet apporté une nouvelle brique au sein du projet « Semantic Scholar », un moteur de recherche de documents scientifiques fonctionnant à l'aide de l'intelligence artificielle. Le nouvel outil, évidemment baptisé « TLDR », a pour but de résumer automatiquement en une phrase les articles de la base de données.

Pour y parvenir, l'IA s'appuie sur des réseaux de neurones profonds et sur l'apprentissage automatique (ou machine learning). Il a donc fallu commencer par « l'entraîner » via une grande quantité de données à analyser. L'outil a d'abord appris à générer des phrases concises, à partir de dizaines de milliers d'articles scientifiques, chacun associé à un titre. Puis il s'est formé au travail de synthèse, en étudiant un autre corpus d'études, possédant chacune un résumé.

Capable de générer ses propres phrases

Ce n'est toutefois pas la première initiative de ce type. Depuis 2018, le site Paper Digest propose ainsi de « résumer des articles académiques grâce à l'intelligence artificielle ». Mais d'après Dan Weld, qui dirige le projet Semantic Scholar, celui-ci ne reprend que des phrases clés du texte, tandis que TLDR est capable de synthétiser le contenu avec ses propres mots. Des termes peuvent néanmoins rester techniques et s'adressent donc à un public d'initiés. Mais l'équipe du projet espère pouvoir prochainement produire des résumés accessibles au grand public. Les retrouvera-t-on bientôt dans nos moteurs de recherche ?

Cela paraît aujourd'hui prématuré. Pour l'heure, TLDR ne fonctionne que sur le corpus couvert par Semantic Scholar, à savoir « seulement » dix millions de documents, uniquement consacrés à l'informatique. D'autres disciplines devraient cependant suivre dans les mois à venir.

Source : Nature

Soyez toujours courtois dans vos commentaires
et respectez le réglement de la communauté.
14
10
Voir tous les messages sur le forum

Actualités récentes

CES 2021 : notre récap' des meilleures tendances et annonces laptop
Soldes d'hiver : dates, bons plans et promotions, tout savoir de l'édition 2021
GameStop retrouve des couleurs, comme jamais depuis 5 ans !
L'énergie nucléaire est l'avenir de l'exploration spatiale, d'après Rolls-Royce et l’Agence spatiale du Royaume-Uni
Apple va produire le biopic sur Napoléon de Ridley Scott
Rétrospective : le grand bilan spatial de 2020
Fraichement annoncé, le Samsung Galaxy S21 est déjà en précommande
Bill Gates devient le plus grand exploitant agricole privé des États-Unis
Rechargez rapidement votre smartphone avec cette batterie externe Belkin à moins de 25€
RED by SFR : le forfait BIG RED 200 Go à prix choc se termine ce soir à minuit !
Haut de page