annuaire-info

Bien plus qu'un annuaire d'annuaires !

Le fichier robots.txt

Le fichier robots.txt permet au webmaster d’indiquer aux robots du web quelles adresses doivent ou ne doivent pas être visitées par les robots du web.

Voici quatre exemples classiques.

Autoriser l’accès à tous les robots dans tout le site

Il est très simple d’autoriser la visite de toutes les pages de son site à tous les robots. Il suffit de ne pas y mettre de fichier robots.txt ou d’y mettre un fichier robots.txt entièrement vide ou de mettre ce contenu dans le fichier:
User-agent: *
Disallow:

Interdire l’accès à tous les robots dans tout le site

Pour interdire tout accès à tous les robots, utilisez ce fichier robots.txt:
User-agent: *
Disallow: /

Interdire l’accès d’un répertoire à tous les robots

Pour interdire l’accès à un ou plusieurs répertoires et autoriser l’accès à tous les autres répertoires, créez votre robots.txt en vous inspirant de l’exemple suivant:
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/

Ce fichier interdit aux robots d’accéder à toutes les adresses commençant par http://www.votre_site.com/images/ et http://www.votre_site.com/cgi-bin/.

Interdire l’accès à tout le site à un robot déterminé

Pour interdire l’accès au site à un ou plusieurs robots et autoriser l’accès à tous les autres robots, créez votre robots.txt comme ce modèle:
User-agent: gigabot
User-agent: exabot
Disallow: /

Ce fichier interdit tout accès au site aux robots des moteurs Gigablast et Exalead. Pour chaque robot concerné, il faut donc se renseigner pour savoir quel nom exact doit être utilisé dans le fichier robots.txt. Pour beaucoup de robots, vous pouvez trouver cette information dans notre répertoire des robots.

Créer son propre robots.txt

Pour générer un fichier robots.txt adapté à votre site, il est nécessaire de maîtriser la syntaxe simple de robots.txt.

Le fichier robots.txt doit être créé avec un éditeur comme Bloc-notes de Windows qui permet de enregistrer un fichier texte sans y ajouter de caractères de contôle.

La syntaxe de robots.txt n’est pas compliquée, mais elle doit être strictement respectée si on veut éviter les mauvaises surprises.

Syntaxe du fichier robots.txt

Voici trois articles qui présentent tout ce qu’il faut savoir sur la syntaxe robots.txt standard :

  1. Les blocs d’instructions dans robots.txt
  2. La directive User-agent
  3. La directive Disallow

Nous expliquons aussi quelques extensions au standard soutenues par Google, Yahoo et Microsoft :

  1. Extensions à la directive Disallow
  2. La directive Allow
  3. La directive Sitemap

Directives propriétaires

D’autres directives qui ont été proposées par une entreprise n’ont été adoptée que par un seul robot ou par quelques acteurs du web. Elles sont alors ignorées par les autres robots, mais elles peuvent parfois être très utiles.

FAQ robots.txt

Vous avez d’autres questions concernant robots.txt ? Consultez la FAQ robots.txt ou ajoutez-y votre question.



Aucun commentaire à propos de “Le fichier robots.txt

Soyez le premier à commenter !

Ajout de commentaire