annuaire-info

Bien plus qu'un annuaire d'annuaires !

Nouveau robot Yahoo!

Les robots de Yahoo qui visitent nos sites affichent généralement un user agent qui contient les mots Yahoo! Slurp. Par exemple:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearc
h/slurp)

Depuis juillet 2008, des robots de Yahoo visitent plus discrètement nos sites en se faisant passer pour un simple navigateur. Le user agent utilisé est:
Mozilla/5.0 (X11; U; Linux i686 (x86_64); en-US; rv:1.8.1.4) Gecko/20080721 BonEcho/2.0.0.4

Les adresses IP de ces robots sont les mêmes que celles des robots utilisant le user agent Yahoo! Slurp habituel. Ils lisent des pages HTML et les fichiers CSS en indiquant des referrers, comme le ferait un navigateur standard.

On peut penser que le but est la détection de certains types de spam, quoique l’efficacité de la méthode est probablement limitée puisque les adresses utilisées sont celles de Yahoo.

Publié le 21 août 2008 à 11h59 sous Robots, Yahoo! Search


7 commentaires à propos de “Nouveau robot Yahoo!”

  1. A noter que le crawler en question ne semble pas lire les fichiers robots.txt, alors que les Sitemaps sont téléchargés « régulièrement ».

    Ecrit le 21 août 2008 à 15h28 par Didier_S

  2. J’avais cru comprendre qu’ils faisaient ça depuis le début de l’année déjà… Mais c’est vrai qu’avec la même IP, c’est quand même limité pour tracker les cloackers ^^

    Ecrit le 21 août 2008 à 18h00 par TOMHTML

  3. ou pour lutter contre le cloaking par user-agent ?

    Google doit certainement faire la même chose

    Ecrit le 23 août 2008 à 12h00 par ranks

  4. Il est étonnant que Yahoo n’ai pas pensé a l’ip (ce ne sont pas des débutant quand même ;-). Manœuvre déguisé pour endormir les cloackeurs et ne pas les pousser a chercher la parade ?

    Ecrit le 10 septembre 2008 à 9h29 par Radio RCM

  5. En même temps Yahoo! c’est quoi ? 10% des parts de marché…

    Ecrit le 18 janvier 2009 à 21h44 par schroumyziguac

  6. il paraît plus facile de changer le nom de l’user agent que de modifier les ip, c’est certainement pour cela que seul le nom est modifié.

    Ecrit le 22 janvier 2009 à 22h17 par alpha

  7. D’un autre coté, un robot devrait utiliser une adresse appartenant à Yahoo…

    Ou alors un webmaster gérant un grand nombre de site pourrait s’apercevoir de quelques choses d’anormal en consolidant les ip provenant des visiteurs en supposant que le robot va visiter un grand nombre de sites via la même adresse ip, ou le même (petit) groupe d’adresses ip.

    Ecrit le 27 avril 2009 à 20h41 par Aytechnet

Sorry, the comment form is closed at this time.