annuaire-info

Bien plus qu'un annuaire d'annuaires !

Quality Rater Guidelines

Quality Rater Guidelines peut se traduire par « Consigne de qualité pour les évaluateurs« . C’est le titre d’un document confidentiel de Google qui circule sur le web depuis quelques jours.

Ce n’est pas la première fois qu’on parle d’évaluateurs humains chez Google. Depuis 2004, des offres d’emploi de Google parlent de fonctions d’évaluateur (quality rater), mais c’est la première fois qu’un document décrivant précisément les critères d’évaluation est dévoilé:

Compréhension des requêtes

Toutes les évaluations de qualité sont faites en tenant compte de trois paramètres:

  • la requête
  • la langue
  • le pays

Pourquoi ces paramètres ? Simplement parce qu’un internaute français ou allemand espére trouver des documents dans sa langue, mais aussi parce qu’un internaute américain qui fait la recherche « football » recherche des pages à propos du football américain, alors qu’un internaute anglais recherche des pages sur le football européen.

Interprétation dominante et interprétation possible

Pour une requête donnée, plusieurs interprétations sont souvent possibles. Par exemple, « mars » peut évoquer la planète Mars, le mois de mars ou une barre chocolatée et « bruni » peut être le nom de famille de l’épouse du président français ou le participe passé du verbe brunir. Dans ces exemples, la première interprétation est l’interprétation dominante et les autres sont ce que Google appelle des interprétations possibles.

Requête large et requête spécifique

« téléphone portable » est une requête large. « Sony Ericsson Z530i » est une requête spécifique. Pour une requête large, Google souhaite que la page de destination soit générale, alors que pour une requête spécifique, la page de destination doit, bien entendu, être spécifique.

Quantité d’informations disponibles

Une page qui ne contient qu’un lien ou qu’un bref article ne constitue habituellement pas un bon résultat, sauf si très peu d’informations sont disponibles ailleurs sur le web sur le sujet de la requête.

Actualité

L’interprétation de la requête « George Bush » en 1994 ou en 2008 ne renvoie pas à la même personne. L’évaluation doit se baser uniquement sur le sens actuel de la requête.

Types de requêtes

Requête de navigation (navigational)

Une requête de navigation est une requête qui est tapée dans le but d’accéder à une page bien déterminée. La plupart des internautes qui tapent « tf1 » recherchent le site www.tf1.fr.

Requête d’information (informational)

Une requête d’information est une requête qui est tapée dans le but d’accéder à une ou plusieurs pages d’information sur le sujet. L’objectif est d’en savoir plus sur le sujet. La plupart des internautes qui tapent « tsunami » recherchent des renseignements sur ce phénomène.

Requête de transaction (transactional)

Une requête de transaction a pour objectif la réalisation d’une transaction, gratuite ou payante. L’objectif est d’acheter un produit ou un service ou de télécharger gratuitement un logiciel, un film, d’accéder à un programme de divertissement,… . « téléchargement sonnerie nokia » est un exemple de requête de ce type.

De nombreuses requêtes entrent dans plusieurs de ces catégories.

Grille d’évaluation

Les pages qui apparaissent dans les résultats de recherche sont évaluées selon la grille suivante.

Résultat vital (vital)

C’est uniquement quand il existe une interprétation dominante pour une requête de navigation que la page de destination attendue est qualifiée de « résultat vital ». Il peut s’agir de la page officielle correspondant à une marque ou une personne. Ce n’est pas nécessairement la page qui contient les informations les plus complètes ou les plus à jour sur le sujet. Ceci s’applique exclusivement aux requêtes de navigation. La plupart des requêtes ne sont donc pas concernées.

Résultat utile (useful)

Quand la page de destination est très satisfaisante, complète ou de haute qualité ou qu’elle fait autorité, on dira qu’elle constitue un « résultat utile ».

Résultat pertinent (relevant)

Une page est qualifiée de « résultat pertinent » si elle comporte une information intéressante mais limitée ou incomplète ou si elle ne fait pas autorité sur le sujet.

Résultat non pertinent (not relevant)

Bien que la page ait un certain rapport avec le sujet, elle n’apporte guère d’information intéressante. Cela peut être le cas d’une page dont le contenu est dépassé ou dont le contenu n’intéresse qu’un nombre réduit d’internautes.

Une page contenant des liens vers des pages pertinentes sera jugée non pertinente si elle ne contient elle-même aucune information intéressante.

Résultat hors sujet (off-topic)

La page n’a qu’un rapport lointain ou aucun rapport avec la requête ou elle ne tient pas compte d’un des mots de la requête. Par exemple, pour la requête « voiture allemande », la page www.toyota.fr est un « résultat hors sujet ». Une page sans information en rapport avec la requête et qui, comme sur un moteur de recherche, impose de compléter un formulaire pour aboutir à des informations intéressantes est hors sujet.

Les mots clés dans l’URL ne doivent pas intervenir dans l’évaluation. Une même page qui est accessible par plusieurs URL doit avoir la même évaluation quelle que soit l’URL.

Cas de non évaluation

Des raisons techniques ou autres peuvent rendre l’évaluation impossible.

Page non disponible (didn’t load)

Pour des raisons techniques, la page n’apparaît pas (erreur 404 ou autre) ou n’est pas lisible ou elle demande l’introduction d’identifiants avant l’affichage du contenu.

Langue étrangère (foreign language)

La page obtenue n’est pas en anglais et elle n’est pas non plus dans la langue de l’évaluation.

Impossible à évaluer (unratable)

Pour une autre raison, l’évaluateur ne s’estime pas en mesure d’évaluer la page.

Recherche de spam

Certaines pages utilisent des techniques destinées à tromper les algorithmes des moteurs de recherche. Pour chaque page, un des trois attributs suivants doit être sélectionné: spam, spam possible ou aucun spam.

Aide à la détection du spam

La plupart des pages de spam n’offre aucune valeur ajoutée aux visiteurs. Les spammeurs rentabilisent leurs pages grâce aux liens commerciaux qu’elles contiennent.

Les pages suivantes ont une valeur ajoutée et ne doivent donc pas être considérée a priori comme du spam: comparateurs de prix, descriptifs de produits, pages d’astuces, pages de citations, pages de contact, pages « bons plans ».

Les pages suivantes sont des pages de spam quand elles sont sans contenu original: page de liens commerciaux, page parking de domaine, page d’affilié. Des sources fréquentes de contenu recopié sont Wikipedia, DMOZ, les flux RSS et les moteurs de recherche.

Les pages utilisant des textes ou des liens cachés sont des pages de spam seulement si l’intention est de tromper les moteurs de recherche.

Certaines pages de spam utilisent une redirection JavaScript ou des frames pour présenter un contenu aux visiteurs et un autre aux moteurs de recherche. Des pages qui utilisent anormalement des mots clés sont des pages de spam.

Autres attributs

Il s’agit des attributs « pornographique » et « malveillant ». Une page est dite « malveillante » si elle propose le chargement de virus ou de spyware ou si elle affiche des fenêtres multiples qu’il semble difficile d’interrompre.

Que retenir de ce document ?

Les temps deviennent durs pour les spammeurs. Le poids des astuces de référencement diminue progressivement au fur et à mesure que l’évaluation humaine prend de l’ampleur. Quant aux spammeurs, ils savent que leurs sites n’ont aucun avenir et qu’ils ne peuvent viser que des coups d’éclats dans le court terme.

Les webmasters doivent plus que jamais mettre l’accent sur la qualité et l’originalité du contenu de leur site. La présence d’évaluateurs humains renforce probablement aussi les sites « politiquement corrects » et conformes aux idées dominantes.

Publié le 22 mars 2008 à 13h42 sous Google


3 commentaires à propos de “Quality Rater Guidelines”

  1. Dommage que tu n’indiques pas où on peut trouver le texte original. Merci pour l’article.

    Ecrit le 23 mars 2008 à 11h29 par Evelyne

  2. Pour trouver le texte original, rechercher « Quality Rater Guidelines » sur Google ! Je ne publie pas de lien ici puisque cette diffusion d’un document confidentiel est probablement illégale, même si je ne vois pas en quoi cette diffusion porterait préjudice à Google.

    Laissons à Google la responsabilité de la diffusion du lien… 😉

    Ecrit le 24 mars 2008 à 9h10 par Jean-Luc

  3. Oui, c’est un document confidentiel et sa publication est vraiment illégale.
    Cette diffusion porterait préjudice aux évaluateurs sans aucun doute. Google voit la diffusion de cette documention et décide de faire quelquechose. Oui, terminer le travail. Le résultat, c’est que les évaluateurs perdent l’emploi, grâce à la stupidité et égoïsme des gens qui ne pensent pas avant de publier ce document confidentiel. Je te conseille de quitter les détails immédiatement.

    Ecrit le 4 avril 2008 à 0h42 par Amicifoneoptis

Sorry, the comment form is closed at this time.