La linguistique au service de la lutte contre le spam

Guillaume Belfiore
Par Guillaume Belfiore, Rédacteur en chef adjoint.
Publié le 28 juillet 2011 à 14h37
00C8000002646918-photo-spam-logo.jpg
L'université de Cornell dans l'état de New York annonce que des chercheurs travaillent à l'identification des spams déguisés sous la forme d'opinions d'utilisateurs sur Internet.

Avant d'effectuer un achat il est courant de consulter les sites spécialisés afin de lire les retours des utilisateurs et se faire une idée de la qualité du produit en question. Reste que certaines plateformes sont victimes de spams publiés par des personnes laissant de fausses opinions positives afin de vendre leurs produits ou au contraire tentant de dénigrer la concurrence.

Des chercheurs ont alors mis au point un logiciel capable de repérer ces pratiques. Après avoir testé 800 opinions pour les hôtels à Chicago, l'outil aurait correctement identifié 90% des réponses biaisées. Plus précisément, l'algorithme du logiciel serait capable de reconnaître certains points récurrents dans la structure linguistique utilisée pour ces opinions fictives.

L'étudiant Myle Ott explique : « c'est la première étude de ce genre et il reste encore beaucoup de travail à faire mais je pense que notre approche peut aider les sites d'opinons à identifier les fausses critiques. ». Pour mettre au point son logiciel, le chercheur a demandé à un groupe de personnes de rédiger une vingtaine de critiques positives fictives sur ces hôtels de Chicago. Ces dernières ont ensuite été comparées avec des opinions légitimes. Examinées par un groupe de personnes, ces dernières ont été incapables de discerner les véritables opinions de celles volontairement biaisées.

Le même processus a été effectué sur ordinateur, lequel a réussi à distinguer les variantes linguistiques utilisées. Ainsi l'internaute rédigeant une opinion légitime emploiera des termes relativement concrets tels que « salle de bains », « enregistrement » ou « prix ». Par opposition les rédacteurs de fausses critiques auraient tendance à vouloir insister sur le cadre fictif avec des termes de type « voyage d'affaires », « vacances », « mon mari ». Les résultats de ce logiciel montrent également qu'une opinion légitime contient généralement plus de noms communs tandis qu'un avis biaisé comporte davantage de verbes.

Le chercheur précise que les prochains travaux permettront d'étendre les capacités de cet algorithme afin qu'il puisse être appliqué sur d'autres types de produits.
Guillaume Belfiore
Rédacteur en chef adjoint
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Abonnez-vous à notre newsletter !

Recevez un résumé quotidien de l'actu technologique.

Désinscrivez-vous via le lien de désinscription présent sur nos newsletters ou écrivez à : [email protected]. en savoir plus sur le traitement de données personnelles