Google & Crawl Ajax

Googlebot

Pour ceux qui surveillent un peu l’activité des robots de Google sur leur site web, vous n’aurez pas été sans remarquer ces derniers temps que google s’amuse à crawler les appels ajax que vous avez pu placer sur vos pages.

Et il ne se contente pas de télécharger l’url, il l’appelle avec tous les paramètres que vous avez pu lui passer en simulant le referer etc.

Exemple :
66.249.75.43 – – [03/Jan/2013:09:49:21 +0100] « POST /op/ajax-page HTTP/1.1″ 200 28 « http://www.mondomaine.com/p/produit/idproduit » « Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) »

L’adresse IP est bien celle de Google et de Googlebot :
43.75.249.66.in-addr.arpa       name = crawl-66-249-75-43.googlebot.com.

Et alors ?
Alors ça a des implications plus ou moins utiles ou gênantes selon les cas.

Deux exemples concrets :

  • J’ai placé des avis sur mes produits, ou une fonctionnalité utilisateur générant du contenu, mais c’est en Ajax.
    Google peut voir ce contenu si l’appel fait par le robot permet d’afficher le flux en question
  • Je place des données utilisateur ou d’autres contenus qui peuvent gêner le robot (genre liens externes)
    Google aussi peut le voir.

Pour le moment, bien que Google crawle ces url’s en envoyant les données POST etc, je n’ai pas réussi a trouver de cas ou il indexe réellement ces contenus (test : site:http://www.monsite.com/ « mon contenu ajax »). Mais si ils crawlent ces derniers, c’est bien qu’ils cherchent un moyen de le faire.

On pourrait aussi émettre l’hypothèse que c’est Preview qui utilise Googlebot pour effectuer un rendu de la page. (vous savez, le machin qui s’affiche a droite des résultats de recherche quand vous en sélectionnez un).

Google aborde le sujet dans les FAQ de webmaster Tools, mais globalement pour expliquer comment rendre une application Ajax compatible SEO avec #! (pour identifier un changement d’url).

Il semble qu’il ai commencé a crawler maladroitement l’Ajax et le javascript en fin d’année dernière (2011), mais la performance des moteurs d’interprétation (il ne serait pas idiot de penser qu’ils ont utilisé webkit, la base de chrome) s’améliore nettement ces derniers temps. A tel point qu’il arrive a crawler des contenus encapsulés dans plusieurs niveaux d’inclusion JS.

Si vous comptiez donc cacher du contenu a Google grace au Javascript, c’est mort !

On sait d’ailleurs depuis peu de temps que Google indexe les commentaires de blog posés via disqus ou Facebook pour augmenter les contenus UGC. Il ne serait donc pas illogique de le faire pour tout le reste.

A suivre, pour voir si Google commence a indexer les fragments Ajax, ce qui ouvrirait potentiellement de nouvelles opportunités de business ou de simplification de business existants.

Vous aimerez aussi...