Blog

Comment empêcher Google de référencer une page web ?

Oui, vous avez bien lu. Comment empêcher Google de référencer une page web ? Cette question peut vous dérouter. D’autant plus si c’est nous qui la posons, Redacteur.com, plateforme de rédaction de contenu dont la mission est de vous garantir des textes de qualité et optimisés SEO pour… un bon référencement de vos pages web !

Le référencement est la clé pour qu’un site internet apparaisse en haut des résultats de recherche. Mais parfois, il peut être nécessaire de bloquer l’indexation de certains contenus.

Dans quels cas ? Et comment le faire ? Nous vous disons tout sur les astuces à connaître pour empêcher Google de référencer une page web et les erreurs à ne pas commettre. Car notre objectif avant tout, c’est que vous disposiez d’un site internet performant et efficace.

Comment bloquer l’accès aux pages de votre site à Google ?

Il existe plusieurs méthodes pour bloquer l’accès des pages à Googlebot et autres robots. Quelles sont-elles et quelles sont leurs limites ?

Utiliser le fichier robots.txt

Le fichier robots.txt d’un site internet sert à guider les robots des moteurs de recherche. Les instructions incluses dans ce fichier leur indiquent si les pages d’un site web doivent être crawlés ou non. Pour préciser qu’une page ne doit pas être indexée, vous devez utiliser l’instruction “disallow”.

Le fichier robots.txt a cependant des limites. Il est surtout utile pour éviter de surcharger votre serveur avec les requêtes des moteurs de recherche. Mais il n’empêche pas à 100 % qu’une page soit indexée. Les instructions transmises dans le fichier robots.txt sont interprétées par les robots comme des consignes et non des commandes obligatoires. Certains bots peuvent ne pas les suivre.

De plus, votre URL peut être référencée ailleurs sur internet. Si des moteurs de recherche la détectent, ils l’indexent. Si vous souhaitez que votre page n’apparaisse plus dans les résultats de recherche ou que vous voulez protéger des informations sensibles, vous devez privilégier d’autres méthodes plus efficaces.

Utiliser la balise meta noindex

Les balises meta sont des éléments HTML qui apportent des précisions sur les pages web. Elles sont incluses dans la section “head” de la page HTML.

La balise meta “noindex” indique à Google de ne pas référencer la page. Cette solution ne requiert pas de compétence technique particulière. Vous devez ajouter la ligne de code suivante :

<meta name="robots" content="noindex">

Pour que cette instruction soit comprise, la page ne doit pas être bloquée par un fichier robots. txt. Vous pouvez accélérer le processus de désindexation depuis la Search Console en envoyant une demande de crawl à Google.

Mais attention, cette méthode a également des limites : la balise meta “noindex” n’empêche pas les robots d’explorer la page. Elle leur interdit seulement de l’inclure dans les résultats de recherche.

D’autres balises meta peuvent être intégrées pour renforcer l’efficacité de la désindexation : “noimageindex” indique de ne pas explorer les images, “noarchive” demande aux robots de ne pas conserver les pages en archive et ” nosnippet” empêche l’affichage de la meta description.

Les utilisateurs de WordPress qui n’ont pas accès au code de leurs pages doivent passer par un plugin, comme le plugin Yoast, pour désindexer leurs contenus. Il suffit de répondre « Non » à la question « Autoriser les moteurs de recherche à afficher le contenu dans les résultats de recherche ? ».

Protéger l’accès à certaines pages avec un htaccess

Pour empêcher Google d’accéder et de référencer des pages, bloquer l’affichage des URL via des mots de passe est la méthode la plus efficace.

Vous devez bloquer l’accès aux pages en question, en limitant leur affichage grâce à un mot de passe par exemple grâce au fichier htaccess.

L’option consiste à modifier le fichier de configuration .htaccess. Utilisé par les serveurs Apache, ce fichier sert à appliquer des règles aux répertoires. Il permet par exemple de protéger des contenus via des mots de passe. Il est aussi indispensable pour rediriger des backlinks de qualité d’une ancienne page vers une nouvelle. C’est cependant un fichier sensible à manipuler. Une erreur peut rendre l’intégralité du site internet inaccessible.

Pour faciliter l’accès et la navigation de vos internautes et limiter les risques de fausse manipulation avec le fichier .htaccess, vous pouvez aussi créer un espace privé, accessible par identifiant et mot de passe.

Est-il possible de rendre des pages totalement inaccessibles ?

La solution la plus radicale pour rendre vos pages web inaccessibles sur Google est de… les supprimer. Ce processus peut être long. Il ne s’agit pas simplement de supprimer la page de votre site internet, mais de supprimer son URL indexée par les moteurs de recherche. Si vous supprimez seulement la page dans votre votre site, vous provoquerez une erreur 404 peu appréciée de Googlebot et autres robots. Lorsque vous supprimez une page, il faut donc rediriger son URL en faisant une redirection 301. Attention : si la page didisparaîtra de Google, elle sera toujours potentiellement accessible en archive.

Google propose un outil de suppression d’URL pour aider à désindexer des pages. Cependant, le blocage n’est que temporaire, limité à 180 jours.

Pour supprimer définitivement une URL, vous devez utiliser l’outil de suppression de contenu obsolète. Avant de remplir le formulaire de demande, vous devez vous assurer que vous avez effectué en amont l’une des actions suivantes :

  • Supprimer la page de votre site internet
  • Bloquer l’accès à son contenu via un mot de passe ou utiliser la balise meta “noindex”.

Mais surtout la page ne doit pas avoir été bloquée via la méthode du fichier robots.txt.

Si la demande aboutit, votre page sera définitivement supprimée de Google.

Cette démarche n’empêche pas d’autres moteurs de recherche d’explorer et de référencer votre page web !

Les erreurs à éviter quand on veut empêcher Google de référencer des pages

Vous avez bien suivi les règles pour désindexer votre page web. Or, elle continue à apparaître dans les résultats de recherche de Google. Pour nombre de créateurs de contenus, c’est un rêve. Pour vous, c’est un cauchemar. On le rappelle, aucune méthode n’est 100 % efficace. Mais peut-être avez-vous commis une erreur ?

Oublier de supprimer les liens qui pointent vers la page désindexée

Le “link juice” – ou “jus de lien” en français -, peut être la cause de la poursuite du référencement de votre page que vous souhaitez désindexer. En marketing digital, plus une page est pertinente et fiable, plus elle a de “jus”. Et plus elle a de “jus”, plus elle séduit les moteurs de recherche.

Or une page bien référencée partage son “jus” avec les autres pages avec lesquelles elle est liée via des liens hypertextes. L’algorithme considère en effet qu’une page recommandée par une page de qualité est forcément pertinente.

Et c’est là que tout votre travail de désindexation peut être ruiné si vous avez omis de supprimer les liens internes qui pointent vers la page que vous souhaitez désindexer. Car cette dernière continuera à bénéficier du “jus” de qualité des pages avec lesquelles elle est liée et donc… à être référencée par les moteurs de recherche.

Vous voulez éviter que Googlebot et autres robots indexent votre page ? Vous devez essayer de supprimer dans votre site internet tous les liens internes qui pointent vers la page à désindexer.

L’idéal serait aussi de pouvoir repérer les backlinks qui pointent vers votre page et demander leur suppression. Mais cela peut être plus difficile.

Si, pour des raisons de navigation, vous souhaitez faire désindexer une page mais conserver les liens qui pointent vers elle (comme pour une page de mentions légales par exemple), vous pouvez créer un lien en lui mettant l’attribut “nofollow” pour limiter la transmission de jus SEO.

Oublier de supprimer les redirections en provenance de la page désindexée

Votre page désindexée contient des liens pointant vers d’autres contenus internes et externes ? Le principe du “link juice” agit de la même façon. La page d’origine bénéficie du “jus” des pages vers lesquelles elle pointe. Et souvent, vous n’avez pas choisi vos liens par hasard. Ceux-ci pointent vers des pages de qualité ou des sites reconnus d’autorité avec un “jus” élevé. Donc, si vous avez omis de supprimer les liens de vos contenus désindexés, ceux-ci pourront continuer à être référencés par Google via les pages de destination des liens.

Pour que votre page désindexée reste la plus discrète possible sur la toile, vous devez penser à supprimer tous les liens qu’elle contient pointant vers d’autres contenus.

Si vous ne souhaitez pas enlever les liens qui pointent vers la page, vous pouvez ajouter l’attribut “nofollow” à votre lien pour indiquer au moteur de recherche que vous ne souhaitez pas donner de “jus SEO” à la page cible.

Se tromper de page

Ne pas se tromper de page quand vous agissez sur le fichier robots.txt ou via les balises meta : élémentaire, nous direz-vous. Pourtant, quand le contenu d’un site internet est volumineux, il peut être facile de se perdre dans les répertoires. Et insérer une balise meta “noindex” dans le “head” de votre home page serait préjudiciable pour le référencement de votre site internet. Un petit rappel de bon sens aide à éviter les erreurs.

Il existe plusieurs méthodes pour empêcher Google de référencer une page. Mais toutes les méthodes ne sont pas forcément efficaces à 100 %. Bloquer ou supprimer complètement une URL n’est jamais garanti. Chaque méthode a ses limites et les erreurs et oublis sont inévitables, alors prenez votre temps lorsque vous souhaitez faire désindexer des pages de Google.

Pourquoi vouloir empêcher Google de référencer une page ?

Bloquer des pages de mauvaise qualité

D’anciennes pages de votre site internet peuvent être obsolètes, ou avoir perdu de leur importance ou encore proposer un contenu similaire à celui d’autres pages.

Ces pages ne correspondent plus à l’image que vous souhaitez donner de vous et de votre activité. Elles nuisent à l’expérience utilisateur et sont pénalisées par Google. En bloquant certaines pages, vous dirigez vos visiteurs et les moteurs de recherche vers vos contenus à haute valeur ajoutée.

Garantir la confidentialité des données

Vous pouvez souhaiter limiter l’accès à certains contenus.

C’est le cas si vous offrez des contenus privilégiés à certains clients ayant souscrit une formule premium.

C’est le cas aussi si vous passez par votre site internet pour échanger avec vos partenaires dans des espaces privés.

C’est le cas enfin des pages de soumissions de formulaires par lesquelles les internautes vous transmettent des informations personnelles.

Gérer le trafic d’exploration (budget crawl)

Empêcher Google de référencer des pages web aide à gérer le trafic d’exploration. Cela peut empêcher votre serveur d’être dépassé par les multiples requêtes des robots des moteurs de recherche tout comme cela évite aux robots d’indexer des contenus inutiles.

C’est d’autant plus important depuis la mise à jour Google Helpful Content qui pénalise les pages dites “zombies”, ces pages qui n’apportent pas de plus-value aux internautes.

Notre astuce pour ne pas avoir à désindexer vos pages internet

Il existe une autre piste pour pallier les contenus obsolètes à faible valeur ajoutée : actualiser les textes, renforcer leur qualité et optimiser leur référencement.

Retravailler ou remplacer les contenus existants renforce la performance et la qualité de votre site internet tout en évitant le travail fastidieux de désindexation des pages web.

Pour optimiser vos contenus (articles de blog, fiches produits, contenus corporate…), vous pouvez faire appel à nos rédacteurs expérimentés disponibles sur la plateforme de rédaction Redacteur.com. Avec nos rédacteurs professionnels, c’est l’assurance de contenus de qualité, actualisés et optimisés, attractifs pour vos visiteurs et pour les moteurs de recherche.

L’article Comment empêcher Google de référencer une page web ? est apparu en premier sur Redacteur.com.