annuaire-info

Bien plus qu'un annuaire d'annuaires !

Duplicate content et variantes de l’URL

Nous avons déjà parlé de duplicate content. Pourtant une question qui revient souvent est de savoir comment faire avec les variantes d’une URL qui pointent vers exactement le même contenu. Il existe de très nombreux cas de variantes de l’URL:

  • http//www.mon_site.com/fleur-iris-512.html
  • http//www.mon_site.com/index.php?fleur=512
  • http//www.mon_site.com/boutique-2/
  • http//www.mon_site.com/boutique-2/partenaire=12345
  • http//www.mon_site.com/index.php?portable=512
  • http//www.mon_site.com/index.php?portable=512&session_id=98764321
  • http//www.mon_site.com/blog/duplicate-content/
  • http//www.mon_site.com/blog/duplicate-content/page-1
  • http//www.mon_site.com/
  • http//mon_site.com/
  • http//www.mon_site.com/
  • http//www.mon_site.com/index.php

Pourquoi éviter le duplicate content

Quand un internaute tape une requête sur un moteur de recherche, il ne souhaite pas tomber deux fois sur la même page. Google, comme les autres moteurs, essaie donc d’éviter de proposer plusieurs fois le même document dans des résultats. Si deux URL correspondent à la même page, deux cas sont possibles:

  • Google voit que les deux URL correspondent à un contenu unique. Dans ce cas, Google désigne une de ces URL comme URL canonique (en principe, celle qui a le plus de backlinks de qualité et qui est la plus courte) et il alloue tout le poids des backlinks à cette URL canonique. L’autre URL n’est plus indexée indépendamment. Il arrive (rarement) que Google ne sélectionne pas l’URL que vous estimez être la plus importante.
     
  • Google ne voit pas que les deux URL correspondent à un même contenu. Les backlinks sont donc répartis entre les deux URL et elles pourraient apparaître toutes les deux dans les résultats de recherche. Le classement de l’une ou l’autre page sera nécessairement moins bon que le classement d’une page qui recevrait tous les backlinks.

Ce n’est qu’en cas de duplicate content massif et franchement abusif que Google pénalise explicitement un site. Sans cela, si vous ne prenez pas soin d’éviter le duplicate content, Google ne vous pénalisera pas vraiment, mais vous n’aurez pas optimisé votre référencement et votre positionnement ne sera pas aussi bon que ce qu’il pourrait être.

Comment limiter les dégats du duplicate content

On peut appliquer la stratégie suivante:

  1. Toujours utiliser la même URL pour faire un lien vers une page. Cela semble évident, mais on voit encore beaucoup de site où les http://mon_site.com/, les http://www.mon_site.com/ et les http://www.mon_site.com/index.php sont joyeusement utilisés un peu partout. Fuyez les CMS qui ne sont pas conscients de ce problème ou ajoutez-y un bon plugin de référencement !
     
  2. Faire une redirection 301 de la mauvaise URL vers la bonne URL. Si votre site est installé sur un serveur web Apache, cette redirection peut se faire au moyen d’un fichier .htaccess.
     
  3. Si vous faites un sitemap, placez-y les URL canoniques uniquement.

Ce qu’il ne faut pas faire

Si vous ne pouvez pas faire une redirection 301, Google vous suggère d’interdire l’accès à la page en utilisant un fichier robots.txt. Ainsi Google ne perdra pas son temps à indexer une URL dont le contenu est déjà présent dans ses bases de données sous une autre URL. Ce n’est pas bénéfique pour votre référencement, car le seul résultat que vous obtenez est d’exclure une URL de l’indexation, sans aucune contrepartie pour l’URL canonique correspondante ou pour le reste de votre site.

N’utilisez pas non plus nofollow pour éviter le duplicate content. nofollow réduit à zéro la valeur des liens auxquels il s’applique, mais il n’interdit pas l’indexation de ses liens, par exemple, quand le moteur de recherche les retrouve ailleurs, sans le nofollow.

 

Publié le 28 septembre 2007 à 16h31 sous Google


Un commentaire à propos de “Duplicate content et variantes de l’URL”

  1. Bonjour

    Suite à de nombreux changements sur ma galerie photo au niveau de l’URL rewriting, j’ai opté pour une méthodologie qui évite de recourir à un htaccess complexe : la redirection 301 directement dans la page web ;-)

    Le principe est fort simple : une page dynamique, quelle que soit son URL, retourne une ou plusieurs variables qu’il est possible de lire dans le code. Il suffit alors de générer l’URL « normale » de ladite page, et de la comparer avec l’URL d’arrivée. Le cas échéant, on balance une redirection 301 dans le code (header) et le tour est joué ;-)

    Exemple :
    l’URL « normale » =>
    http://www.aube-nature.com/photo,heron-garde-boeuf,4084,186.php

    Quelques URL « anormales » (issues de mes anciennes formules de rewriting) =>
    http://www.aube-nature.com/photo,toto,4084,186.php
    http://www.aube-nature.com/photo,heron-garde-boeuf,4084,186,2.php
    http://www.aube-nature.com/img.php?id=4084&categ=186

    (évidemment je ne gère pas « toutes » les formes et utilises des erreurs 404 le cas échéant…)

    L’avantage est que l’on peut au besoin, modifier le rewriting en vue d’optimisations (si on y insère des mots-clés par exemple), sans perte de trafic et de positionnement ;-)

    Ecrit le 29 mai 2008 à 13h59 par Cédric

Ajout de commentaire