Yahoo! Slurp, robots.txt et balise META "robots"
|
Si aucune ligne User-agent: Slurp n'est présente dans le fichier robots.txt, Yahoo! Slurp suivra les instructions destinées à tous les robots. |
Les instructions destinées uniquement à Yahoo! Slurp
|
Ces instructions commenceront par une ligne User-agent: Slurp. Le protocole d'exclusion des robots précise que les instructions Disallow: qui suivent demandent à Slurp de ne pas visiter les adresses commençant par le texte mentionné. |
||||
|
User-agent: Slurp
Disallow: /seo/ Disallow: /referencement.php |
||||
|
Ces instructions interdisent à Slurp de visiter le répertoire /seo/ et le fichier /referencement.php. |
Ecarts par rapport au standard
|
Slurp reconnaît l'instruction non standard Crawl-delay:. L'instruction Crawl-delay: définit un temps d'attente minimum entre deux accès successifs du robot au site. Elle permet donc d'éviter toute surcharge en espaçant les visites du robot. L'instruction suivante demande à Slurp d'attendre 10 secondes entre deux visites successives. |
||||
|
User-agent: slurp
Crawl-delay: 10 |
||||
|
Slurp accepte l'instruction non standard Allow:. Allow: autorise explicitement l'accès aux adresses concernées. Nous déconseillons son utilisation, car Yahoo! ne publie pas les règles suivies par ses robots quand une URL est concernée à la fois par une instruction Allow: et par une instruction Disallow:. |
||||
|
Slurp donne un sens spécial aux caractères * et $. Le caractère * remplace n'importe quelle séquence de caractères dans l'adresse. Le caractère $ à la fin d'une instruction Disallow: fera en sorte que cette instruction sera interprétée de manière non standard. Slurp ne visitera pas les adresses correspondant exactement au texte qui précède le signe $. Les caractères * et $ peuvent être utilisés séparément ou dans la même ligne. Le caractère $ doit être le dernier de la ligne d'instruction. S'il ne l'est pas les caractères suivants sont ignorés. |
||||
|
User-agent: Slurp
Disallow: /*.txt$ |
||||
|
L'instruction précédente interdit à Slurp de lire les fichiers .txt partout sur le site. |
||||
|
User-agent: Slurp
Disallow: /*-archive. |
||||
|
Cette instruction interdit à Slurp de lire les adresses dont le nom inclut la chaîne de caractères -archive.. Il s'agira, par exemple, des adresses /recherche-archive.php?info=23&date=0612 ou /france/ici-archive.php ou encore /la-bas-archive.html. |
||||
|
User-agent: Slurp
Disallow: /*?page= Disallow: /*&page= |
||||
|
Ces instructions interdisent à Slurp d'accéder aux adresses dynamiques comprenant le paramètre page. Il s'agira, par exemple, des adresses /index.php?page=3&date=061104 et /trouver.php?lettre=alpha&page=4, mais l'accès à /index.php et /trouver.php est autorisé. |
||||
|
Autre particularité du comportement du robot de Yahoo : Slurp lit la page d'accueil du site même si son accès est interdit par le fichier robots.txt. Le contenu de la page ne sera toutefois pas indexé par le moteur de recherche et les liens qui y sont trouvés ne seront pas suivis. |
Yahoo! Search et balise META "robots"
|
Si la directive noindex est présente, la page n'apparaîtra jamais dans les résultats de Yahoo! Search. Nous ne savons pas si Slurp respecte la directive nofollow. Exemple : |
||||
| <meta name="robots" content="noindex"> | ||||
|
Yahoo! Search respecte la directive spéciale noarchive. Quand cette directive se trouve dans une page indexée, aucune version en cache de celle-ci n'est accessible via le moteur de recherche : |
||||
| <meta name="robots" content="noarchive"> | ||||
|
|
Autres pages concernant les robots
|
Le Protocole d'Exclusion des Robots Le Protocole d'Exclusion des Robots. Introduction à l'emploi du fichier robots.txt et de la balise META "robots". Syntaxe du fichier robots.txt Aperçu et exemples de toutes les instructions standards. Utilisation de la balise META "robots" Présentation et exemples de toutes les directives standards. Googlebot (robot de Google), robots.txt et META "robots", extensions et particularités MSNBot (robot de MSN Search), robots.txt et META "robots", extensions et particularités Slurp (robot de Yahoo! Search), robots.txt et META "robots", extensions et particularités Questions fréquentes à propos du Protocole d'Exclusion des Robots - FAQ Les questions et surtout les réponses sur robots.txt et META "robots". L'Encyclopédie des Robots du Web un répertoire de plusieurs dizaines de robots (spiders,crawlers, probes,...) qui circulent sur le web. L'encyclopédie contient des informations pour décider en connaissance de cause si le robot est le bienvenu ou non sur votre site. Nos autres documentations et outils pour le référencement |