La linguistique au service de la lutte contre le spam

Guillaume Belfiore
Lead Software Chronicler
28 juillet 2011 à 14h37
0
00C8000002646918-photo-spam-logo.jpg
L'université de Cornell dans l'état de New York annonce que des chercheurs travaillent à l'identification des spams déguisés sous la forme d'opinions d'utilisateurs sur Internet.

Avant d'effectuer un achat il est courant de consulter les sites spécialisés afin de lire les retours des utilisateurs et se faire une idée de la qualité du produit en question. Reste que certaines plateformes sont victimes de spams publiés par des personnes laissant de fausses opinions positives afin de vendre leurs produits ou au contraire tentant de dénigrer la concurrence.

Des chercheurs ont alors mis au point un logiciel capable de repérer ces pratiques. Après avoir testé 800 opinions pour les hôtels à Chicago, l'outil aurait correctement identifié 90% des réponses biaisées. Plus précisément, l'algorithme du logiciel serait capable de reconnaître certains points récurrents dans la structure linguistique utilisée pour ces opinions fictives.

L'étudiant Myle Ott explique : « c'est la première étude de ce genre et il reste encore beaucoup de travail à faire mais je pense que notre approche peut aider les sites d'opinons à identifier les fausses critiques. ». Pour mettre au point son logiciel, le chercheur a demandé à un groupe de personnes de rédiger une vingtaine de critiques positives fictives sur ces hôtels de Chicago. Ces dernières ont ensuite été comparées avec des opinions légitimes. Examinées par un groupe de personnes, ces dernières ont été incapables de discerner les véritables opinions de celles volontairement biaisées.

Le même processus a été effectué sur ordinateur, lequel a réussi à distinguer les variantes linguistiques utilisées. Ainsi l'internaute rédigeant une opinion légitime emploiera des termes relativement concrets tels que « salle de bains », « enregistrement » ou « prix ». Par opposition les rédacteurs de fausses critiques auraient tendance à vouloir insister sur le cadre fictif avec des termes de type « voyage d'affaires », « vacances », « mon mari ». Les résultats de ce logiciel montrent également qu'une opinion légitime contient généralement plus de noms communs tandis qu'un avis biaisé comporte davantage de verbes.

Le chercheur précise que les prochains travaux permettront d'étendre les capacités de cet algorithme afin qu'il puisse être appliqué sur d'autres types de produits.

Guillaume Belfiore

Lead Software Chronicler

Lead Software Chronicler

Responsable du développement éditorial sur la partie Logiciel et Services Web sur Clubic. Précédemment journaliste, je traitais l'actualité web et mobile au sens large. Je m'intéressais aux entrailles...

Lire d'autres articles

Responsable du développement éditorial sur la partie Logiciel et Services Web sur Clubic. Précédemment journaliste, je traitais l'actualité web et mobile au sens large. Je m'intéressais aux entrailles des navigateurs web, aux nouveaux smartphones mais aussi aux systèmes d'exploitation, aux questions de sécurité ou à l'actualité e-business en général. Sinon je dois avouer que j'ai un faible pour tout ce qui touche au web design et c'est généralement le code source d'une page web que je lis en premier.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires

Haut de page