De nouveaux documents issus du procès entre le Département de la Justice américain et Google mettent en lumière les rouages internes du moteur de recherche. Loin des discours publics de la firme, ces révélations pointent vers un usage massif de signaux manuels, une base de données baptisée Navboost et des interfaces de débogage internes qui permettent une lecture signal par signal du classement des pages.
Ce qu’il faut retenir :
- Navboost n’est pas un système d’IA, mais une immense base de données de clics agrégés.
- La plupart des signaux de classement sont faits main, sauf RankBrain et DeepRank.
- Google utilise des interfaces internes détaillant les scores signal par signal.
- Les clics et le temps passé sur une page (pogosticking) sont bel et bien pris en compte.
Cet article au format audio
Navboost : pas une intelligence artificielle, mais une table géante de clics
Contrairement à ce que l’on pourrait croire, Navboost, un des piliers du système de classement de Google, n’est pas un algorithme d’apprentissage automatique à proprement parler. Selon le Dr Eric Lehman, ancien ingénieur distingué chez Google, « Navboost n’est pas un système de machine learning. C’est juste une grande table. » Il explique que cette base enregistre des données simples, comme le nombre de clics reçus par un document pour une requête donnée. En somme, un énorme tableau qui cartographie les comportements utilisateurs, requête par requête, page par page.
Ce système contredit les déclarations publiques de Google, qui a souvent minimisé le rôle des clics et des signaux comportementaux dans le classement des pages. Pourtant, les déclaration d’Eric Lehman semblent prouver que ces métriques sont bien au cœur du dispositif.
Des signaux majoritairement faits main
Un autre élément marquant de ces documents : la quasi-totalité des signaux utilisés dans le ranking ne relèvent pas du machine learning, à l’exception notable de RankBrain et DeepRank, deux systèmes basés sur des modèles de type LLM (Large Language Models). Les autres signaux sont explicitement « hand-crafted », c’est-à-dire faits main.
Cela signifie que des ingénieurs analysent les données, choisissent une fonction mathématique, souvent une sigmoïde, et définissent manuellement les seuils de déclenchement. Ce processus de tuning manuel permet à Google d’avoir un contrôle fin sur le comportement de son algorithme, loin de l’image d’une IA autonome en roue libre.
Le pogosticking existe (et Google le sait très bien)
Autre point particulièrement sensible : les fameux clics courts et longs, que Google a toujours publiquement rejetés comme critères directs de classement. Là encore, le document évoque bien la durée de visite d’un utilisateur sur une page avant qu’il ne retourne sur la page de résultats (SERP) : un comportement surnommé « pogosticking » dans le jargon SEO.
Ce type d’interaction, couplé aux clics enregistrés dans Navboost, entre clairement en ligne de compte dans les systèmes d’évaluation et d’optimisation de la pertinence.
Une interface de débogage interne très poussée
L’un des passages les plus intéressants concerne un outil interne utilisé par les ingénieurs de Google. Un exemple est illustré par la requête « james allan umass » saisie dans Google, suivie de l’ouverture d’un « debugger window ». Ce panneau interne liste les dix premiers liens bleus affichés, accompagnés des scores attribués pour chaque signal ainsi qu’un score global « Final IR » (Information Retrieval).
Cette transparence en interne, qui n’est évidemment pas disponible au public, permet aux ingénieurs de comprendre exactement pourquoi une page est classée à une certaine position. Cela renforce l’idée que le moteur de recherche est soigneusement calibré, requête par requête, parfois même document par document.
D’autres éléments intrigants : Q*, RankEmbed et les Twiddlers
Parmi les termes évoqués, mais encore nébuleux, on trouve également Q*, RankEmbed et les « Twiddlers ». Ces derniers seraient des ajusteurs de score, des modules capables de modifier dynamiquement certains signaux ou d’appliquer des corrections post-traitement. Ils s’apparentent à des couches intermédiaires dont le rôle est de rééquilibrer le classement après l’application des signaux bruts.
Ces modules laissent entendre que l’algorithme de Google est moins un système fermé et automatisé qu’un gigantesque moteur hybride, nourri à la fois de données, de règles manuelles et de retouches fines.
Cet ensemble de documents, mis au jour par Brett Tabke (WebmasterWorld/Pubcon), offre une plongée inédite dans les entrailles de Google Search. Ils confirment ce que de nombreux spécialistes SEO soupçonnaient depuis longtemps : derrière l’image d’un algorithme tout-puissant se cache un système beaucoup plus manuel, empirique et mieux maîtrisé qu’on ne le pense !
L’article “Navboost, signaux manuels, pogosticking : la face cachée du ranking Google” a été publié sur le site Abondance.