La directive Allow
La directive Allow ne fait pas partie du standard robots.txt original. Google, Yahoo et Microsoft l’ont ajoutée dans une extension au standard, mais elle n’est pas prise en charge par les autres robots. Voyez également l’extension de la directive Disallow et l’extension de la directive Sitemap dans robots.txt.
Uilisation de Allow:
Le but principal de robots.txt étant d’interdire l’accès à certaines adresses, la directive Allow permet d’ajouter des exceptions aux interdictions définies par des directives Disallow.
Selon Google, on peut faire ceci:
User-agent: googlebot
Disallow: /abc/
Allow: /abc/xyz/
De cette manière, les robots de Google n’auront pas accès au répertoire /abc/ à l’exception du sous-répertoire /abc/xyz/.
Directive ambiguë
Une sérieuse difficulté dans l’emploi de Allow est l’absence de règles de priorité non ambiguës entre Allow et Disallow. Dans le cas suivant, nous ne savons pas si l’accès à /test/matt-cutts.pdf est autorisé ou interdit:
User-agent: googlebot
Disallow: /test/*.pdf$
Allow: /test/matt-cutts
Tant que cette situation n’est pas clarifiée, la directive Allow ne peut pas être utlisée de manière fiable.
Incompatibilités entre l’extension et le standard original
Les directives Allow sont purement et simplement ignorées par les robots qui respectent uniquement les directives robots.txt standard.