BLEND Web Mix : les défis des moteurs de recherche face au Web social

Guillaume Belfiore
Lead Software Chronicler
02 octobre 2013 à 08h13
0
A l'ère du Web social et des contenus créés par les utilisateurs, la notion de « Big Data » prend de plus en plus d'importance et ouvre de nouveaux défis pour les moteurs de recherche dont le processus d'indexation est en perpétuelle évolution.

Associée au Web, la notion de « Big Data » vise à indexer puis à traiter un flux d'informations grandissant et comme le souligne Mohand Boughanem chercheur au Laboratoire Irit de l'université Paul Sabatier de Toulouse : « une information non trouvée est une information morte ». De simples pages HTML statiques, la Toile compte désormais un nombre de données toujours plus important avec la publication de contenus sociaux, la multiplication des partages et les divers moyens de communication.

06677448-photo-big-data-et-web-social.jpg


Pour souligner l'énorme quantité de données à traiter, M. Boughanem revient sur les chiffres-clés du Web social avec 400 millions de messages publiés sur Twitter chaque jour et 600 000 publications et 510 000 commentaires sur Facebook chaque minute. Twitter enregistrerait quotidiennement 2 milliards de requêtes tandis que Google traiterait 23 pétaoctets de données en 24 heures.

Si les moteurs de recherche disposent d'éléments plus ou moins maitrisés par les spécialistes pour l'indexation des pages HTML classiques, comme le contenu de ces dernières ou le nombre de liens pointés vers celles-ci... le chercheur souligne que les moteurs ont dû concevoir de nouvelles méthodes pour faciliter l'indexation en temps réel des publications - parfois éphémères - créées par les internautes. Au travers de ses recherches, M. Boughanem explique ainsi que l'importance d'un tweet peut être mesurée par le texte-même du message, la présence d'un lien, ou d'un hashtag (#mot-clé). En revanche, le nombre d'abonnés au compte Twitter de l'auteur - et donc son influence potentielle - ou le nombre de republications (retweets) n'auraient aucun impact sur l'indexation et ne seraient donc pas des critères de choix pour les moteurs de recherche.

Pour l'exploitation des signaux sociaux, les travaux des moteurs de recherche s'articulent autour de deux axes : connaitre davantage l'internaute et déterminer la pertinence du contenu d'une donnée en fonction d'une requête.

Le profilage de l'internaute est effectué en fonction de ses relations sur divers sites Internet communautaires, les commentaires laissées sur les pages Web et les diverses activités comme les annotations de contenus. M. Boughamen souligne que le processus est relativement difficile dans la mesure où 60% des internautes eux-mêmes ne souhaiteraient pas obtenir des recherches personnalisées mais des résultats davantage objectifs.

0258000006677432-photo-signaux-sociaux-et-google.jpg


Plusieurs éléments permettent de juger la nature du contenu et sa pertinence face à une requête spécifique. Outre la présence d'un terme spécifique, les moteurs analysent la quantité des commentaires, l'autorité de l'auteur ou le nombre de fois que celle-ci a été partagée. En outre, une page peut-être remontée au sein des résultats si celle-ci a été publiée par l'un de ses amis. Outre le nombre de liens retours, les signaux sociaux prennent de plus en plus de poids au sein de l'index de Google et la priorité est naturellement donnée au réseau social de la firme californienne.

En plus de l'indexation du contenu, les moteurs de recherche ont d'autres défis à l'horizon. Selon M. Boughamen, 60% des recherches comporteraient trois requêtes. Ces dernières permettent ainsi à l'internaute de raffiner ses mots-clés afin de faciliter la visibilité du résultat souhaité. Plutôt que de retourner plusieurs milliers liens, il revient donc au moteur de recherche d'agréger ces données puis de les condenser avant de les retourner à l'internaute. C'est notamment la thématique choisi par les ingénieurs de Microsoft tentant de transformer Bing en tant que moteur de décision ou permettant d'effectuer d'emblée un tâche précise.

A lire également :
BLEND Web Mix : quand les designers se mélangent aux développeurs…
BLEND Web Mix : Machine Learning, aux frontières de l'IA
BLEND Web Mix : le fondateur d'OverBlog ouvre le bal


Guillaume Belfiore

Lead Software Chronicler

Lead Software Chronicler

Responsable du développement éditorial sur la partie Logiciel et Services Web sur Clubic. Précédemment journaliste, je traitais l'actualité web et mobile au sens large. Je m'intéressais aux entrailles...

Lire d'autres articles

Responsable du développement éditorial sur la partie Logiciel et Services Web sur Clubic. Précédemment journaliste, je traitais l'actualité web et mobile au sens large. Je m'intéressais aux entrailles des navigateurs web, aux nouveaux smartphones mais aussi aux systèmes d'exploitation, aux questions de sécurité ou à l'actualité e-business en général. Sinon je dois avouer que j'ai un faible pour tout ce qui touche au web design et c'est généralement le code source d'une page web que je lis en premier.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires

Haut de page

Sur le même sujet