Une IA qui résume des études scientifiques en une phrase : l'avenir des moteurs de recherche ?

27 novembre 2020 à 17h15
14
Semantic Scholar site © Semantic Scholar
© Semantic Scholar

Des chercheurs américains ont mis au point un logiciel capable d'effectuer automatiquement un « tl;dr ».

« Too long; didn't read » (« trop long, pas lu »). Résumée en « tl;dr », cette abréviation est couramment utilisée sur Internet. Elle peut notamment être employée par l'auteur d'une publication à rallonge afin d'en proposer un bref résumé à ses lecteurs. Si cela s'avère utile pour un post de quelques paragraphes, que dire dans le cas d'une étude scientifique de plusieurs dizaines de pages ?

Machine learning

C'est précisément à ce domaine que se sont attaqués les chercheurs de l'Allen Institue for AI, fondé par Paul Allen, feu cofondateur de Microsoft. Ils ont en effet apporté une nouvelle brique au sein du projet « Semantic Scholar », un moteur de recherche de documents scientifiques fonctionnant à l'aide de l'intelligence artificielle. Le nouvel outil, évidemment baptisé « TLDR », a pour but de résumer automatiquement en une phrase les articles de la base de données.

Pour y parvenir, l'IA s'appuie sur des réseaux de neurones profonds et sur l'apprentissage automatique (ou machine learning). Il a donc fallu commencer par « l'entraîner » via une grande quantité de données à analyser. L'outil a d'abord appris à générer des phrases concises, à partir de dizaines de milliers d'articles scientifiques, chacun associé à un titre. Puis il s'est formé au travail de synthèse, en étudiant un autre corpus d'études, possédant chacune un résumé.

Capable de générer ses propres phrases

Ce n'est toutefois pas la première initiative de ce type. Depuis 2018, le site Paper Digest  propose ainsi de « résumer des articles académiques grâce à l'intelligence artificielle ». Mais d'après Dan Weld, qui dirige le projet Semantic Scholar, celui-ci ne reprend que des phrases clés du texte, tandis que TLDR est capable de synthétiser le contenu avec ses propres mots. Des termes peuvent néanmoins rester techniques et s'adressent donc à un public d'initiés. Mais l'équipe du projet espère pouvoir prochainement produire des résumés accessibles au grand public. Les retrouvera-t-on bientôt dans nos moteurs de recherche ?

Cela paraît aujourd'hui prématuré. Pour l'heure, TLDR ne fonctionne que sur le corpus couvert par Semantic Scholar, à savoir « seulement » dix millions de documents, uniquement consacrés à l'informatique. D'autres disciplines devraient cependant suivre dans les mois à venir.

Source : Nature

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
14
10
enrico69
Résumer une étude en une phrase… Déjà que l’on manque de plus en plus de nuance dans notre société
cirdan
Franchement, devoir s’en remettre de plus en plus à l’IA pour sa musique, ses films, trier ses mails, choisir le prochain resto, lire ses articles de presse, … ça devient gavant.<br /> Quelles que soient les bonnes intentions de ce projet, ça restera un algorithme qui choisira ce que je dois lire, ma manière de le lire et je ressens un vrai ras-le-bol de toutes ses annonces sur les IA qui prétendent orienter mes choix et guider ma vie.<br /> Il est clair qu’on a plus que jamais besoin de garder notre libre-arbitre.
cirdan
Je suis assez d’accord mais il ne faut jamais perdre de vue que ce sont bien les humains qui programment cette IA. Un peu d’utopie n’est pas inutile pour envisager l’avenir sereinement…
carinae
Ce que tu dis n’est pas très objectif😉. L’IA peut avoir beaucoup d’avantages notamment en terme de traitement de l’information car il ne t’a pas échappé qu’on croule sous l’information. Même sur les forums certains posts sont trop longs pour être lus.<br /> Le problème avec l’IA c’est d’éviter les biais et notamment les filtres de bulles dans certains domaines… Mais sinon ça peut être très efficace .,. Ça pourrait être intéressant pour le secteur de la santé par exemple…vu son efficacité…
cirdan
carinae:<br /> il ne t’a pas échappé qu’on croule sous l’information<br /> Complètement d’accord mais c’est à nous à sélectionner.<br /> carinae:<br /> Même sur les forums certains posts sont trop longs pour être lus.<br /> Peut-être mais est-ce vraiment une IA qui doit décider de ce que nous devons retenir d’un article ? Serais-tu d’accord pour qu’une IA abrège ce que tu as mis longtemps à écrire et à exprimer ? Il vaut peut-être mieux un post très long lu par quelques intéressés qu’un post revu par une IA survolé par beaucoup. Ca n’est que mon opinion !<br /> carinae:<br /> Ça pourrait être intéressant pour le secteur de la santé par exemple…vu son efficacité…<br /> Alors là c’est autre chose. Une IA scientifique n’a pas la même fonction qu’une IA pour la presse, par exemple.<br /> Une IA scientifique va traiter des données et en tirera des conclusions : aide à la découverte de nouveaux traitement, production de modèles de molécules… Mais ce sont des données concrètes et mesurables qui sont à la base de départ.<br /> Par contre, une IA pour la presse va devoir réinterpréter une idée. Ce qui est spirituel n’est pas mesurable et l’aléatoire entre forcément en jeu.<br /> Alors qu’une IA scientifique oriente tes recherches et te propose une expérience «&nbsp;évaluable&nbsp;», une IA pour la presse oriente tes idées et ne te propose que son «&nbsp;point de vue&nbsp;».<br /> Quoi qu’il en soit, pour le coup j’espère que mon post n’est pas trop long. Et tant pis s’il ne sera pas lu jusqu’au bout !
carinae
Alors effectivement je suis totalement d’accord avec toi. Ce n’est pas a une IA de décider pour nous Je n’avais pas tellement en tête une IA scientifique mais plutôt une IA permettant le traitement de l’information car c’est surtout la a mon sens qu’il y en a le plus besoin. Typiquement pour la détection massive de virus pour exemple.<br /> Mais quelque part tout cela existe depuis fort longtemps…avec les cookies par exemple
cirdan
carinae:<br /> Mais quelque part tout cela existe depuis fort longtemps…avec les cookies par exemple <br /> Oui, il faudrait déjà cibler ce qui mérite véritablement d’être appelé «&nbsp;IA&nbsp;». Un prochain débat peut-être ? <br /> Bonne journée à toi.
sebstein
Dans ce cas-ci, il ne s’agit pas de te dire ce que tu dois lire ou pas, mais justement te donner une brève idée du contenu pour savoir rapidement si tu dois perdre ton temps ou pas sur ce contenu. Il est évident que tu n’as pas la possibilité de lire entièrement des millions d’études… donc, savoir en un coup d’œil celles qui peuvent d’intéresser, ça peut être utile.
Fei666
C’est le rôle de l’abstract ça.<br /> Pour moi semantic scholar a plus un rôle d’indexation, trouver des mots-clés pertinents en plus de ceux qui sont fournis.
kyaude
‹&nbsp;Alors effectivement je suis totalement d’accord avec toi. Ce n’est pas a une IA de décider pour nous&nbsp;› : +++.<br /> Personne ne peut juger du niveau de notre ignorance, l’ignorance n’est pas un manque de qqc mais un trop plein de certitudes préprogrammées qui nous feront passer à côté de l’extrapolation qu’un esprit imaginatif , c’est ce qui arrivera en utilisant des synthèses interdisciplines que l’IA privatisera pour élaborer les brevets en résultant tout en freinant nos possibilités d’en faire de même.
sebstein
Des chercheurs américains ont mis au point un logiciel capable d’effectuer automatiquement un « tl;dr ».<br /> Ca dit bien ce que ça veut dire : le but, c’est de résumer en quelques phrases le contenu d’une étude…<br /> Puis il s’est formé au travail de synthèse, en étudiant un autre corpus d’études, possédant chacune un résumé.<br /> Il faut croire que tous les scientifiques ne sont pas aussi rigoureux…<br /> Après, un abstract ça prend souvent une page, ici on parle d’un résumé très succinct, une phrase ou un peu plus.
Fei666
sebstein:<br /> Ca dit bien ce que ça veut dire : le but, c’est de résumer en quelques phrases le contenu d’une étude…<br /> C’est ce que je dis, le TL;DR dans les articles scientifiques c’est l’abstract. C’est son rôle, c’est ça qui va dire si tu dois continuer de lire l’article ou non.<br /> sebstein:<br /> Il faut croire que tous les scientifiques ne sont pas aussi rigoureux…<br /> Après, un abstract ça prend souvent une page, ici on parle d’un résumé très succinct, une phrase ou un peu plus.<br /> Abstract d’une page ? J’aimerai bien voir ça. J’ai pris 3 articles au hasard sur Nature on a des abstracts de 131, 155 et 161 mots. Très loin d’une page
simdia
Justement un gros problème de cette génération et les suivantes.<br /> Du superficiel et aucune profondeur. Du « court » et plus de « long ».<br /> Et il faut vraiment ne pas connaître la programmation pour parler « d’Intelligence Artificielle ».<br /> Déjà que les humains la confondent avec la brillance (apprendre et comprendre vite – dans des champs bien limités - les fameux QI) qui elle n’est qu’une infime partie de l’intelligence qui elle est impossible à mesurer.
Voir tous les messages sur le forum

Actualités du moment

Cinq mangas à lire sans modération, même hors confinement !
Enfin Noël avec Bouygues : une Smart TV Samsung dès 29€ avec Bbox Fibre
L'excellent Google Pixel 5 à un prix digne du Black Friday à la Fnac
Free lance son Black Friday avec une nouvelle offre choc 60 Go à 10,99€/mois
Pour le Black Friday, la solution de retouche photo en ligne Pixlr est en promo à moitié prix !
Apple retire discrètement le serveur web Zoom caché via une mise à jour sur Mac
Mini critique Truth Seekers (S01)
Mini critique The Mandalorian (S02E01)
Mini critique Moonbase 8 (S01E01)
Les meilleures séries d'anthologie
Haut de page