Qui, aujourd’hui, ne connaît pas Google, et n’utilise pas au moins l’un des services qu’elle propose ? L’entreprise a su, grâce à son moteur de recherche, se rendre indispensable pour beaucoup d’internautes. Cette position dominante de la société américaine n’est pas sans danger, car elle lui confère un pouvoir considérable sur les internautes : savoir ce qu’ils lisent et les inciter à lire tel ou tel document.
La plupart des internautes ne connaissent ni les URL à entrer dans le champ d’adresse du navigateur, ni les signets, et utilisent exclusivement Google, moteur de recherche par défaut de leur navigateur, pour se rendre sur leurs sites préférés. Une telle pratique témoigne du besoin sur Google a su créer chez les internautes, passant ainsi d’un outil pratique à un outil indispensable. Pour autant, le danger n’est pas là : l’internaute sait où il veut aller, et Google lui permet d’y aller simplement et rapidement. Le danger naît lorsque l’internaute cherche une information sans savoir a priori sur quel site la trouver ; Google lui indiquera ce site.
Le danger provient de l’algorithme utilisé par Google pour indexer le Web et répondre aux requêtes de recherche des internautes. Cet algorithme est secret – c’est même le « secret de fabrication » de Google. Il est donc difficile de savoir de quelle manière et dans quelle mesure les choix opérés par Google influent sur nos lectures. Faute de pouvoir être exhaustif, cet article abordera deux critères essentiels qui permettent de « faire remonter » un résultat de recherche vers le haut de la liste : l’activité et la popularité.
Le critère de l’activité du site
Le premier critère est celui de l’activité du site. Plus un site est actif, c’est-à-dire plus souvent son contenu change, plus il a de chances d’être bien classé parmi résultats de recherche. Cela provient notamment du fait que le site aura plus de pages, et donc plus de liens potentiels vers lui (v. plus bas), et de la préférence accordée par Google, pendant un certain temps, aux pages récentes (principe « Query Deserves Freshness »). On perçoit immédiatement l’utilité première de ce critère : présenter d’abord à l’internaute les pages les plus récentes, afin de lui éviter de lire des informations qui, faute d’avoir été mises à jour, sont devenues erronées. Une autre utilité est d’orienter l’internaute vers les sites les plus actifs, les plus « vivants », qui sont généralement considérés comme étant les plus intéressants (parce qu’ils sont plus fréquentés et que, dans l’imaginaire du Web 2.0, la « communauté » ne s’y trompe pas).
Mais l’on voit moins facilement l’effet pervers du critère de l’actualité. Il est pourtant assez évident : il est plus facile de changer en permanence le contenu d’une page Twitter, composée de messages de 140 caractères au maximum, que celui d’un site regroupant des articles de fond qui ont nécessité plusieurs heures (jours ?) de travail. Les sites avantagés ne sont donc pas forcément les plus intéressants d’un point de vue qualitatif, bien qu’ils soient, quantitativement, les plus fournis.
Voilà une première raison de ne pas se limiter aux premiers résultats de recherche, et d’aller découvrir le contenu de la page 2.
Le critère de la popularité
Le second critère est celui de la popularité de la page indexée, qui détermine son rang parmi les résultats de recherche – il s’agit du célèbre « PageRank ». Le principe de base est simple : plus l’adresse d’une page est référencée sur d’autres pages, plus cette page est populaire. Sachant cela, il est possible d’augmenter artificiellement le nombre de liens vers une page, afin de faire croire à une augmentation effective de sa popularité. En pratique, c’est chose courante : parmi les pratiques les plus courantes, citons celle qui consiste à « découper » un article en plusieurs pages liées les unes aux autres (ce qui permet également de faire voir à l’internaute autant de messages publicitaires différents qu’il y a de pages).
Le problème majeur présenté par ce critère est qu’il peut induire les internautes en erreur. Ceux-ci ont été habitués de longue date à rechercher des mots dans un document ou un fichier sur un disque dur : on tape un mot, la ligne sur laquelle ce mot se trouve est affichée ; on tape le nom d’un fichier, ce fichier est affiché. Google ne fonctionne pas comme cela. Il peut inclure dans les résultats de recherche une page qui ne contient pas les mots recherchés, parce que d’autres pages qui contiennent ces mots font référence à cette page et la rendent ainsi populaire. C’est « l’effet miserable failure ». Pendant le second mandat de George W. Bush, de nombreuses pages sur le Web employaient l’expression « miserable failure » (échec lamentable) pour qualifier la politique menée par son administration. Une requête portant sur ces mots renvoyait donc, en premier résultat de recherche, la biographie officielle du président américain, sur le site de la Maison blanche – bien entendu, la page en question ne contenait pas les mots recherchés !
Une deuxième raison pour aller voir la page 2 des résultats de recherche. Et surtout, pour garder à l’esprit que les résultats fournis par Google ne sont pas forcément objectifs… en attendant que Google trouve un moyen de prendre en compte la qualité du contenu référencé, ou qu’un concurrent le fasse à sa place.