Comprendre le fonctionnement de l’index Google

champ lexical

Vous vous demandez si votre site à bien été pris en compte par Google ? Ou alors est ce que Google à bien pris en compte la mise à jour de vos pages ?

 

Pour s’assurer un bon référencement sur le web, il existe plusieurs principes d’indexation à connaître, et notamment le système d’indexation Google. Son moteur de recherche compte environ 90% des parts de marché en France. Il est donc essentiel d’optimiser le contenu de ses pages web pour accroître sa visibilité sur Internet.

 

Avant toute chose, il faut savoir qu’une recherche Google implique trois étapes principales : la phase d’exploration, la phase d’indexation et enfin, la phase de diffusion. Nous nous attarderons ici sur l’étape d’indexation.

 

 

Principes de base de l’indexation Google

Les techniques d’indexation existent depuis qu’il a été nécessaire de caractériser des informations pour pouvoir les retrouver dans des masses de documents.

L’index correspond à la base de données de Google. L’indexation Google consiste à traiter toutes les pages explorées par le Googlebot lors de la phase d’exploration, puis à répertorier tous les mots et leurs emplacements sur les pages afin de compiler le fameux index.

Depuis 2003, Google fonctionne avec 2 index :

-L’index principal : qui correspond aux pages désignées par Google comme étant les plus intéressantes parmi toutes celles indexées.

– L’index secondaire : il est composé des pages de moindre qualité comme les pages dupliquées (problématique de duplicate content) et les pages jugées de « mauvaise qualité » par Google. Ces pages de contenu similaire ne ressortiront dans les SERPS (les pages de résultats).

 

 

 

Fonctionnement de l’exploitation des pages par Google

Des spiders (autrement appelés agents, crawlers, robots ou «bots», sont des programmes visitant en permanence les pages web et leurs liens en vue d’indexer leurs contenus dans les bases de données de Google, ce sont ces fameux index.

Les spiders trouve une page, puis enregistre tout le code HTML de cette page dans un index, détecte si il y a un lien dans cette page, puis suit ce lien, sauvegarde la nouvelle page, etc…

Une fois les pages indexées, le moteur d’indexation se charge d’identifier l’ensemble des mots  contenus dans les pages ainsi que leur position. Par exemple Google va prioriser les informations présentes dans les balises de contenu et les attributs clés.

 

Ce processus d’exploitation consiste à classer les données de l’index de façon pertinente par rapport à une interrogation (requête) faite sur Google. Ce processus dit système de ranking gardé secret par Google permet d’afficher des résultats à une requête en fonction de plusieurs facteurs :

– localisation d’un mot dans le document

– mise en exergue d’un mot

– fréquence d’occurences du mot

– correspondance de la similarité entre la requête et le mot indexé

Viennent s’ajouter à cela de nombreux autres facteurs comme la popularité d’une page (calculé en fonction du netlinking et backling), la qualité technique de la page, etc…

 

 

Le volume de l’index Google

Il est difficile de mesurer le volume de cet index mais aux dires de la firme américaine, l’index représente plus de cent milliards de pages web pour une taille allant au-delà de 100 millions de gigaoctets.

À noter : bien que ces chiffres apparaissent déjà comme astronomiques, Google n’indexe qu’une partie du web surfacique. Aussi appelé le web visible ou le web indexable, le web surfacique ne représente que 4% du web total (le reste étant composé du deep web et du dark web).

 

 

Réactualisation de l’index

Depuis 2010, Google utilise un système d’indexation web qui lui permet d’augmenter de 50% la fraîcheur des résultats : Caffeine. Concrètement, cela signifie que les nouvelles pages et les pages actualisées seront intégrées à l’index de Google bien plus rapidement.

Le système d’indexation web Caffeine n’analyse plus le web dans son entièreté avant de se mettre à jour, ce système analyse le web portion par portion afin d’actualiser l’index au fur et à mesure.

 

 

Optimiser l’interprétation de ses pages

Bien qu’il s’agisse d’un système très complexe, il existe plusieurs astuces permettant d’améliorer l’indexation de ses contenus. Il est important de créer des noms de page courts comportant des termes descriptifs, de réfléchir à des titres qui illustrent précisément le contenu d’une page et de bien annoter les vidéos ou les images présents sur la page. En effet, Google a mis en place des technologies d’indexation des médias non textuels mais celles-ci ne sont pas encore aussi performantes.

 

Une architecture de site web bien pensée vous permettra également d’augmenter vos chances d’être correctement indexé. Pour cela, pensez à définir une arborescence de pages claire ainsi qu’à privilégier l’utilisation de données structurées.

 

Il vous sera aussi bénéfique de vous mettre à la place des internautes ciblés : identifiez autant que possible les termes de recherche qu’ils sont le plus susceptibles d’utiliser.

Cette notion d’optimisation de l’indexation de ses pages s’appelle dans le jargon SEO le «budget crawl». Certains sites, certaines pages de sites, ne sont pas explorées tous les jours, ni toutes les semaines.  Les spiders visitent plus fréquemment les sites à fort taux de création et/ou renouvellement des contenus et se rendent moins souvent sur les sites statiques.

Le passage des spiders sur les sites peut être vérifié par les webmasters en analysant les fichiers «log» présent sur le serveur d’hébergement du site. Plusieurs applications permettent d’analyser les visites des robots et optimiser son budget crawl : SEOlyser (outil gratuit) , onCrawl (outil payant), screamingfrog (utilitaire à installer sur son ordinateur, version gratuite très limitée)

 

 

Ne pas apparaître dans l’index Google

Afin de ne pas apparaître dans l’index de Google, il vous suffit de laisser un message à l’attention du GoogleBot. En utilisant une directive noindex sur une page, vous empêcherez Google de l’explorer et donc de l’indexer. Vous pouvez également paramétrez un fichier robots.txt où vous indiquerez les pages que vous souhaitez bloquer ou non aux robots d’exploration de Google.

Le fichier robots.txt et la balise meta robots sont deux fichiers qu’il faut créer sur votre site et permettent d’indiquer à Google les pages que vous ne souhaitez pas voir crawlées.

 

 

Comment savoir si des pages sont dans l’index

Pour vérifier si vos pages sont bien présentes dans l’index Google, vous pouvez simplement effectuer la requête suivante sur le moteur de recherche : site:votresite.com. Cette requête fera apparaître l’ensemble des pages indexées.

 

 

Indexer un site

Il est possible de demander à Google l’indexation d’un site. Pour cela vous pouvez utiliser le formulaire de soumission ou demander à un site extérieur de faire un lien vers vous ou demander à votre agence SEO de le faire pour vous. Quand le robot de Google reviendra sur ce site externe, il trouvera le lien vers votre site, le suivra et indexera alors toutes les pages accessibles de votre site.

Cette deuxième solution : placer un backlink est très pratique et rapide ; le temps d’indexation sera d’autant plus court que le site qui vous fait ce lien est souvent mis à jour (le robot a alors déjà l’habitude de revenir le crawler à fréquence régulière).

 

 

Forcer l’indexation

Depuis l’outil «search console» de Google, vous avez la possibilité d’indiquer à Google une page à indexer rapidement. Google précise que cela sera fait dans un délai de 24h, mais sans aucune garantie.

Rendez-vous sur https://search.google.com/search-console/about?hl=fr

Si votre site n’a pas été déclaré dans cet outil, je vous invite fortement à le faire en suivant les instructions suivantes.

Une fois votre site inscrits dans  la search console :

  1. Cliquez sur Inspection de l’URL dans le panneau de navigation de la Search Console :
  2. Indiquez l’URL complète à inspecter.

 

 

Supprimer un site de l’index Google

Supprimer un site de l’index google revient à supprimer le site de la base de données et donc ne plus être référencé dans les pages de résultat de Google. Pour cela: ajoutez les URL à supprimer dans un fichier sitemap et utilisez la balise expires.

Ou sinon allez dans la «search console» : rendez-vous sur “Index Google” puis dans la section “URL à supprimer”.

 

N’hésitez pas à visiter nos articles similaires pour mieux comprendre le fonctionnement de la recherche Google !

 

Les fondamentaux pour améliorer son référencement naturel classer selon leur ordre d’importance par 80 experts en SEO