Duplicate content
Dans un article récent sur le duplicate content, Google réexplique ce qu’est le duplicate content et comment l’éviter.
Duplicate content, une définition
On parle de duplicate content quand des portions importantes de pages web sont identiques ou très semblables. Le plus souvent, l’apparition de duplicate content n’est pas mal intentionnée (CMS ou forum qui créent plusieurs versions de la même page, version “imprimante” ou “mobile” de la page). Dans quelques cas de duplicate content, il s’agit de spammeurs qui visent des requêtes populaires ou de nombreuses variantes de requêtes plus rares.
Ce qui n’est pas du duplicate content
La traduction d’un site n’est, en aucun cas, une cause de duplicate content. La citation de brefs extraits n’est pas non plus du duplicate content.
Pourquoi Google s’intéresse au duplicate content
Simplement parce que l’internaute n’apprécie pas de trouver plusieurs fois la même page dans les résultats de recherche. Pour le webmaster et pour Google, il est important que l’URL indiquée pour une page soit la plus appropriée (www.annuaire-info.com/referencement/ plutôt que www.annuaire-info.com/referencement/index.php).
Comment Google traite le duplicate content
Quand Google détecte deux pages quasi identiques (par exemple, une page normale et la version “imprimante” de la page), Google choisit une page pour les résultats de recherche et exclut l’autre. Dans des cas rares où Google voit de la malice dans le duplicate content, il peut y avoir une pénalisation des pages concernées, mais, le plus souvent, le filtrage se limite à exclure les copies trop ressemblantes. Ceci veut dire que dans la plupart des cas, la seule sanction du duplicate content est que Google ne choisit pas la version de la page que vous préférez.
Suggestions de Google concernant le duplicate content
- interdire certaines URL: plutôt que de laisser Google choisir une URL ou l’autre, vous pouvez interdire la lecture de certaines pages (robots.txt) ou son indexation (balise META).
- utiliser la redirection 301: ne conservez pas des anciennes pages dont le contenu est proche de celui des nouvelles pages. Faîtes une redirection 301 de l’ancienne adresse vers la nouvelle. Google saura ainsi que la page a définitivement changé d’adresse.
- nommage cohérent des liens: soyez cohérents dans le nommage des liens. Cela évitera que les moteurs hésitent entre /exemple/ ou /exemple ou /exemple/index.html.
- identifier une version nationale par son TLD (domaine): Google considérera toujours que www.exemple.fr est un site français. Cela n’est pas certain pour fr.exemple.com ou www.exemple.com/fr.
- prudence avec la syndication: assurez-vous que les reproductions de vos articles contiennent un lien vers l’original. Google essaie d’afficher la page la plus appropriée, dans les résultats de recherche. Ce n’est pas obligatoirement celle que vous souhaitez, même si la règle du lien vers l’original a été respectée.
- utliser le “domaine favori” dans les outils webmaster de Google (anciennement Sitemaps)
- minimiser les répétitions de textes: par exemple, plutôt qu’un long texte de copyright au bas de chaque page, préférez un bref lien qui renvoie vers une page détaillant les conditions d’utilisation et de reproduction.
- éviter les pages presque vides: les internautes n’aiment pas les pages quasi vides du genre “Tous nos appartements à louer à Houte-Si-Plout” avec comme sous-titre “Actuellement, il n’y a pas d’appartement à louer à Houte-Si-Plout“. Google vous invite à les éviter ou, au moins, à en interdire l’indexation.
- maîtriser son CMS: les blogs, les forums et les CMS en général ont tendance à afficher de nombreuses fois la même information.
- à propos des copies illégales de votre contenu: il est peu probable qu’un site qui copie illégalement votre contenu puisse nuire à votre présence dans les résultats de recherche, affirme Google. Si vous découvrez un cas sérieusement gênant, vous pouvez contacter Google en invoquant la loi américaine Digital Millenium Copyright Act. Google s’engage à  prendre les mesures appropriées. Ne faites pas cela à la légère, car cela pourrait vous coûter cher en frais de justice américains.
