La linguistique au service de la lutte contre le spam

Par Guillaume Belfiore, Rédacteur en chef adjoint.

Publié le 28 juillet 2011 à 14h37

L'université de Cornell dans l'état de New York annonce que des chercheurs travaillent à l'identification des spams déguisés sous la forme d'opinions d'utilisateurs sur Internet.

Avant d'effectuer un achat il est courant de consulter les sites spécialisés afin de lire les retours des utilisateurs et se faire une idée de la qualité du produit en question. Reste que certaines plateformes sont victimes de spams publiés par des personnes laissant de fausses opinions positives afin de vendre leurs produits ou au contraire tentant de dénigrer la concurrence.

Des chercheurs ont alors mis au point un logiciel capable de repérer ces pratiques. Après avoir testé 800 opinions pour les hôtels à Chicago, l'outil aurait correctement identifié 90% des réponses biaisées. Plus précisément, l'algorithme du logiciel serait capable de reconnaître certains points récurrents dans la structure linguistique utilisée pour ces opinions fictives.

L'étudiant Myle Ott explique : « c'est la première étude de ce genre et il reste encore beaucoup de travail à faire mais je pense que notre approche peut aider les sites d'opinons à identifier les fausses critiques. ». Pour mettre au point son logiciel, le chercheur a demandé à un groupe de personnes de rédiger une vingtaine de critiques positives fictives sur ces hôtels de Chicago. Ces dernières ont ensuite été comparées avec des opinions légitimes. Examinées par un groupe de personnes, ces dernières ont été incapables de discerner les véritables opinions de celles volontairement biaisées.

Le même processus a été effectué sur ordinateur, lequel a réussi à distinguer les variantes linguistiques utilisées. Ainsi l'internaute rédigeant une opinion légitime emploiera des termes relativement concrets tels que « salle de bains », « enregistrement » ou « prix ». Par opposition les rédacteurs de fausses critiques auraient tendance à vouloir insister sur le cadre fictif avec des termes de type « voyage d'affaires », « vacances », « mon mari ». Les résultats de ce logiciel montrent également qu'une opinion légitime contient généralement plus de noms communs tandis qu'un avis biaisé comporte davantage de verbes.

Le chercheur précise que les prochains travaux permettront d'étendre les capacités de cet algorithme afin qu'il puisse être appliqué sur d'autres types de produits.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !