Espace membre :
flechePublicité

Google : bientôt l'indexation en temps réel

Publiée par Guillaume Belfiore le Jeudi 4 Mars 2010

PubSubHubbub
Le blog américain ReadWriteWeb rapporte que Google serait en train de travailler sur un dispositif capable d'indexer en quelques secondes le contenu soumis par les éditeurs. Pour cela la firme de Mountain View s'appuierait sur la technologie open source de PubSubHubbub.

Basé sur les protocoles Atom/RSS, PubSubHubbub permet de dynamiser un flux d'informations en mettant ce dernier à jour dès que possible. Pour faire simple PubSubHubbub est au flux RSS ce que le Push est au courrier électronique. Pour ce faire l'éditeur de contenu doit créer un noyau central (un "hub") sur lequel le contenu sera rafraîchi en temps réel. Ce hub sera chargé d'envoyer une notification au flux RSS, lequel se mettra donc à jour quasi-instantanément. Plusieurs sites Internet sont déjà dotés de PubSubHubbub tels que Twitter, les blogs Wordpress ou encore Google Reader.

En matière d'indexation, Google devrait donc faire en sorte que chaque éditeur soit doté de la technologie c'est-à-dire en déclarant leurs hubs respectifs. Si ce dispositif ne remplacerait par l'indexation classique, cela permettrait aux magazines ainsi qu'aux petits blogs d'être plus rapidement visibles au sein du moteur de recherche.

Brett Slatkin, ingénieurs chez Google et principal développeur de PubSubHubbub déclare : « Mes supérieurs me demandent de promouvoir cette technologie ouverte même auprès de nos concurrents ». Cela signifie donc que ce protocole devrait également trouver sa place sur les autres moteurs de recherche.
_
 
le 04 Mars 10 à 15h40
Edition
Message très intéressant
  
Aucune ville candidate pour se renommer PubSubHubbub ?
 
le 04 Mars 10 à 15h42
Edition
  
Si cette techno permet à n'importe quel site de dire à n'importe quel moteur (compatible) qu'il se met à jour, alors c'est carrément une bonne nouvelle.
 
le 04 Mars 10 à 15h47
Edition
  
Ca existe déjà, ca se nomme "google sitemaps" selon moi...
 
le 04 Mars 10 à 16h08
Edition
  
Je suis d'accord avec Startide, mais en même temps, n'est-ce pas le but d'un hub RSS traditionnel... ?
 
le 04 Mars 10 à 16h14
Edition
  
Startide --> pas vraiment.
Google Sitemap te permet de donner plus d'info à Google sur les pages de ton site via un fichier XML. Mais la mise à jour est quand même dépendante de la fréquence de visite du bot de Google.
Tu peux effectivement "influencer" cette fréquence à l'aide de sitemap, mais dans le cas des Hub, la notification est "poussée" vers Google directement, au lieu de devoir attendre que le Google bot "tire" cette information par lui-même. Le délai est donc beaucoup plus court.
 
le 04 Mars 10 à 16h20
Edition
  
+1 Silik
On notera aussi que "google sitemaps" est destiné uniquement au bot google et que, a terme, google espere que la techno PubSubHubbub devienne un standard pour l'ensemble des moteurs de recherche....c'est plutôt une bonne chose je trouve !
 
le 04 Mars 10 à 16h30
Edition
  
Sillik > je sais, c'est pas exactement pareil, mais bon fondamentalement c'est plus ou moins la même chose quand même. Tu fais toi même le référencement à la place de google et tu lui donnes le truc. Surtout que les sitemaps finalement c'est toi qui les soumettais à google dans mon souvenir (c'est un peu vieux), c'était un genre de "push" quelque part.
 
le 04 Mars 10 à 16h30
Edition
  
C'est marrant, il me semble qu'au début des moteurs de recherche, pour se faire référencer une page, il fallait la soumettre soi-même. Retour aux sources ?

C'est con, il y a 2-3 ans, j'avais eu la même idée...
 
le 04 Mars 10 à 16h53
Edition
  
Startide > oui et non. Quand tu soumets ton Sitemap à Google, tu soumets uniquement l'URL. C'est le google bot qui décide quand il vient le télécharger pour vérifier si il a été mis-à-jour.
 
le 04 Mars 10 à 17h01
Edition
  
oui j'entend bien, mais il pourrait aussi bien le faire tout de suite dans l'absolu...

Je sais pas si ca risque pas de faire exploser leur infra tout ce push quand même...
 
le 04 Mars 10 à 17h19
Edition
  
Woaw... les autres moteurs vont se chier dessus en lisant ça
 
le 04 Mars 10 à 17h59
Edition
  
Startide a écrit:
oui j'entend bien, mais il pourrait aussi bien le faire tout de suite dans l'absolu...

Je sais pas si ca risque pas de faire exploser leur infra tout ce push quand même...

Ca serait même moins gourmand en ressources si le robot ne passe pas sur le site quand il n'y a pas de changement. C'est le hub (faisant office d'interface) qui donnerait l'information à Google si j'ai bien compris.

Mais pour les sites actifs/réactifs c'est vrai que ça sera des données en plus.
 
le 04 Mars 10 à 18h11
Edition
  
Ca existe déjà chez orange depuis plus de deux ans ... Ca fonctionne sur le même principe. Les éditeurs de contenu on un "mini" indexeur chez eux qui indexe sur demande le contenu et envois le résultat chez orange. Par contre, pour faire original, c'est une méthode fermé proprio orange ...
 
le 04 Mars 10 à 23h17
Edition
  
y' plus qu'à lui changer de nom car PubSubHubbub c'est tout de même la grosse loose
 
le 04 Mars 10 à 23h46
Edition
  
Ce n'est qu'un plus car celà ne peut pas remplacer la technique actuelle du robot. Je suppose que les métadonnées du site son envoyées avec le contenu à jour. Cependant, il est plus interessant de faire aspirer une page complète plutot que le contenu seul du billet (ou du contenu quelqu'il soit).
 
le 05 Mars 10 à 06h32
Edition
  
Google site map + flux rss indexe en temps réel, rien de neuf. Et concernant les liens de site, google avance la dessus ?
 
 
Pour participer, inscrivez-vous ou connectez-vous avec votre compte clubic.com ou Facebook Connect
flechePublicité

Top logiciels PIM & collaboration

Post-It Notes
Post-it virtuels officiels
Google Calendar Sync
Synchroniser Google Agenda avec Microsoft Outlook
Mon Journal Intime
Créer un journal intime illustré
Rainlendar
Calendrier sur le bureau Windows hautement customisable!
Mozilla Sunbird
Calendrier partageable avec support iCal
Mira
Répertoire d'adresse complet
Glossaire High-Tech : #  A B C D E F G H I J K L M N O P Q R S T U V W X Y Z