Matt Cutts: vidéos 1 à 10
Matt Cutts, ingénieur et porte-parole officiellement non officiel de Google, a profité du week-end pour mettre en ligne 10 mini-vidéos sur son blog. Entre les bons mots et les généralités, nous avons recueilli quelques informations et confirmations concrètes.

- la conformité W3C n’est pas un critère pris en compte par Google (car énormément de pages avec un contenu de qualité ne sont pas conformes)
- pour Google, <b> et <strong> sont équivalents
- pour Google, <i> et <em> sont équivalents
Cloaking
Définition de Google : le cloaking consiste à présenter aux moteurs de recherche un contenu différent de celui présenté aux internautes.
- la géolocalisation (présentation d’un contenu différent selon la localisation de l’internaute) n’est pas du cloaking
- … sauf si on localise spécialement Googlebot !
- si un site d’e-commerce avec des URL longues et compliquées les remplace par des URL simples uniquement pour Googlebot (donc non accessibles aux internautes), c’est du cloaking.
- des tests de pages en variant aléatoirement le contenu entre des versions A et B pourraient être pris pour du cloaking par Googlebot. A déconseiller !
Doublons (duplicate content)
Les algorithmes de Google détectent le duplicate content à différents stades du processus d’indexation. Les doublons exacts sont détectés, mais aussi différents types de similarités partielles.
- page HTML et sa version imprimable : pas de problème
- page HTML et version .doc correspondante : pas de problème
- même contenu traduit dans des langues différentes : pas de problème
- versions nationales d’une page, mais dans la même langue : similarité importante
La similarité de deux pages peut entraîner le déclassement d’une des pages au profit de l’autre et éventuellement une pénalisation.
Préférez toujours les URL réécrites aux URL avec paramètres !
- URL avec ID de session : à éviter absolument
- URL avec code d’identification de produit (du style MC6789B12) : à éviter
- URL avec plus de 2 paramètres : à éviter
- URL avec 1 ou 2 paramètres : acceptable pour Google, mais déconseillé pour d’autres moteurs de recherche
Pas de faveur pour les .gov ou les .asso.fr
Aucun type de domaine n’est favorisé. Le fait est que de nombreux sites gouvernementaux (.gov aux Etats-Unis) sont des sites de qualité qui se retrouvent donc automatiquement bien classés, mais ils le seraient aussi bien avec un autre top level domain.
Les résultats complémentaires
- le nombre de résultats d’une recherche affichant des résultats complémentaires est fantaisiste
- les pages en résultats complémentaires sont crawlées beaucoup moins souvent que celles de l’index principal
- … d’où des dates pas toujours très fraîches, pour certaines caches de résultats complémentaires
- La fraîcheur des résultats et le rythme des crawls devraient s’améliorer durant cet été !
Ne perdez pas votre temps à :
- essayer de comprendre l’organisation et le fonctionnement des data centers.
- essayer de comprendre la logique des mises à jour des index, des mises à jours des algo, des mises à jour des données.
Consacrez plutôt votre temps à :
- vous assurer que l’ensemble de votre site est accessible aux robots (à tester avec un navigateur « texte »).
- créer du « bon contenu« .
- faire connaître votre site et à le rendre attractif.
Et voilà ! Il n’y a plus qu’à mettre tout cela en pratique.
Voici les vidéos en anglais : 1 2 3 4 5 6 7 8 9 10

Super article ! Merci pour l’info.
Je fais suivre.
Ecrit le 14 août 2006 à 0h05 par Ced'
Créer du bon contenu, un point à retenir.
Merci pour cette info.
Ecrit le 21 août 2006 à 20h54 par math