annuaire-info

Bien plus qu'un annuaire d'annuaires !

Protocole d’exclusion des robots

Le « protocole d’exclusion des robots » (Robots Exclusion Protocol) définit le format du fichier robots.txt et de la balise META « robots ». Il a été standardisé et approuvé le 30 juin 1994. Diverses extensions ont été proposées après cette date. Nous en parlerons également tout en indiquant ce qui fait partie du standard original et ce qui fait partie des extensions et qui risquent de ne pas être compris par tous les robots.

Comment le webmaster envoie un message aux robots

Le protocole d’exclusion des robots définit deux techniques complémentaires de communication entre le gestionnaire d’un site web et les robots qui le visitent: le fichier robots.txt et la balise META « robots ». Elles permettent au webmaster d’informer les robots. Il est important de bien comprendre que les robots font exactement ce qu’ils veulent de cette information.

S’ils sont « polis » (comme ceux de Google, Yahoo ou Microsoft), ils vont faire leur possible pour respecter vos demandes de ne pas visiter certaines parties de votre site. S’ils sont mal intentionnés (comme les robots des spammeurs et des hackers), ils peuvent utiliser le contenu de votre robots.txt pour savoir où aller faire leurs mauvaises actions.

A la fin de cet article, nous présentons une technique complémentaire qui permet de bloquer efficacement les robots malveillants.

Fichier robots.txt

Le fichier robots.txt consiste principalement en une série d’instructions qui indique quelles pages vous ne souhaitez pas voir visitées par les robots du web. Le fichier pourra comprendre une série d’instructions destinées à tous les robots et des instructions spécifiques pour l’un ou l’autre robot particulier.

Il s’agit bien d’un message destiné aux robots et non d’un dispositif qui rendrait la visite du robot techniquement impossible.

Voyez aussi nos pages d’informations détaillées sur le fichier robots.txt.

META « robots »

La balise META « robots » est une ligne de code HTML à placer dans le code source d’une page. Elle indique aux robots des moteurs de recherche ce qu’ils peuvent faire ou non avec le contenu de la page. Ici aussi, il s’agit d’un mécanisme qui suppose la collaboration du moteur de recherche.

Alors que le contenu du fichier robots.txt peut s’adresser à tous les robots, la balise META « robots » ne s’adresse qu’aux robots des moteurs de recherche.

Voyez aussi notre page d’informations détaillées sur la balise META « robots ».

X-Robots-Tag

La balise META « robots » ne peut se placer que dans les pages HTML. Pour obtenir un résultat équivalent avec des fichiers PDF, des images, des vidéos ou d’autres fichiers, vous pouvez utiliser le X-Robots-Tag dans l’en-tête HTTP renvoyée par le serveur web. Il s’agit d’une extension du protocole orginal. Elle a été proposée par Google en 2007.

Fichier .htaccess

Si votre site est installé sur un serveur Apache, vous pouvez placer un fichier appelé .htaccess dans le répertoire racine de votre site. Ce fichier n’a en soi rien à voir avec le protocole d’exclusion des robots, mais il est particulièrement efficace, car il peut être utilisé pour bloquer l’accès au site à certaines adresses IP ou à certains « user agents« . Ici il ne s’agit plus de demander quelque chose aux robots, mais d’imposer une interdiction. Cette technique est la seule qui est efficace pour arrêter des robots malveillants.

Demande spéciale de suppression de contenu

Google, à travers ses « outils pour webmaster », vous permet de demander la suppression urgente d’une ou plusieurs de vos pages de son index. Considérez cette demande comme pratiquement irréversible. Utilisez-la donc avec une grande prudence.



Aucun commentaire à propos de “Protocole d’exclusion des robots”

Soyez le premier à commenter !

Ajout de commentaire