Microsoft : la détection des contenus dits toxiques au cœur d'un nouveau brevet

Mis au point par Xiaoran Zhang, Emilia Stoica et Clayton Holz, Toxic Content Detection with Interpretability Feature permet de repérer les messages comportant des propos déplacés.

Le United States Patent and Trademark Office (l’équivalent de l’INPI américain) a délivré un nouveau brevet à Microsoft, jeudi 1er octobre 2020. Son objet : une méthode de détection de contenu électronique toxique.

À quoi ça sert concrètement ?

Déposé en mars 2019, ce brevet « utilise un identificateur de mots-clés probablement toxiques pour déterminer de manière probable les mots-clés indicatifs d'un contenu toxique ».

Prenons un exemple pour clarifier : dans les grands groupes, les départements des relations humaines effectuent régulièrement des enquêtes auprès des travailleurs. Les réponses récoltées comportent parfois des commentaires injurieux, menaçants, racistes, homophobes, etc. La méthode développée par les trois ingénieurs facilite leur repérage.

Concrètement, il s'agit d’automatiser la recherche de contenus toxiques dans les commentaires. Comment ? En identifiant un potentiel de toxicité. L’une des possibilités pour la mettre en place est de nourrir et d’entrainer un algorithme de deep learning.

Apprendre par la probabilité

Pour cela, un humain-entraîneur donne deux ensemble de messages à l’algorithme : un, comportant des messages toxiques, l’autre sans. L’algorithme va alors déterminer la récurrence de mots-clés probablement toxiques dans chaque ensemble. Si le mot-clé dans l’ensemble toxique apparaît un nombre de fois (à déterminer) supérieur à son apparition dans l’ensemble non-toxique, le mot-clé est considéré comme indiquant du contenu toxique.

Une fois une liste de mots-clés obtenue, l’algorithme sera en état d’identifier de manière probable les messages toxiques dans un ensemble de messages aléatoire : il lui suffit d’identifier le nombre de mots-clés dans chaque message.

L'avenir du brevet n'est pas fixé : Microsoft peut décider d'en faire un produit, mais la plus forte hypothèse est que la méthode soit intégrée à Teams. Messages (privés ?) et retranscriptions vidéos pourraient ainsi être soumis à une analyse de toxicité…

Source : NeoWin

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
8
9
Voir tous les messages sur le forum

Actualités récentes

PlayStation : un changement de stratégie préjudiciable pour l'avenir de la PS5 ?
Test OnePlus Watch : une première montre connectée abordable et endurante
Les Apple AirPods Pro à prix choc chez Amazon ce weekend !
Netflix, Disney+, Apple TV+ et Prime video : quelles sont les nouveautés de la SVoD en mai 2021 ?
Nouveau shitcoin en vue ? Carole Baskin, la défenseuse des grands félins, lance sa crypto CAT
Le Mac mini avec puce M1 est en promotion avec un SSD de 256 Go ou 512 Go
Carte mémoire microSDXC SanDisk Extreme 512 Go à -50% !
Test du Xiaomi Mi 11 Ultra : le meilleur photophone du monde manque d’endurance
Telegram intègre directement un service de trading crypto (mais pour une seule cryptomonnaie)
Le premier transistor recyclable est là ! Vers une solution pour les déchets électroniques ?
Haut de page