Robot d’indexation : comment ça marche?

23 mai 2022
Actualités

Spider Bots: robot d’exploration web. Vous avez forcément déjà entendu ces termes et peut-être que vous vous êtes demandé à quoi cela correspond et surtout pourquoi est-ce que c’est aussi important pour les performances SEO de votre site internet ?

Alors comme ça de prime abord, quand on commence à parler de Spider, d’araignée, de robots, ça peut faire un petit peu peur. Mais en réalité, il ne faut surtout pas craindre les robots, bien au contraire, ces robots qui explorent vos sites Internet, ils font partie des travailleurs acharnés du Web, des travailleurs de l’ombre qui vont permettre d’organiser les sites internet, d’organiser l’information présente sur Internet et au final, ils vont permettre aux internautes de trouver ce qu’ils recherchent sur Internet. Donc, si vous voulez que votre site soit visible, il faut que votre site soit attrayant, soit facilement navigable par ces robots d’exploration. Dans cette vidéo, je vais vous expliquer, ce que c’est qu’un robot d’exploration, comment ils fonctionnent et comment est-ce qu’on peut les utiliser et comment est ce qu’on doit travailler pour améliorer avec eux, pour améliorer notre visibilité en ligne ?

Et puis, je vous montrerai un outil via Semrush qui va nous permettre d’analyser notre site internet avec un Spyder. Allez, c’est parti !

Bonjour à toutes ! Bonjour a tous, je suis Christophe Vidal et je suis ravi de vous retrouver pour une nouvelle vidéo pour la chaîne Semrush. Allez, aujourd’hui on va parler de Spider, de robots d’exploration. Alors on va faire une première analogie. Internet, c’est comme une immense bibliothèque, et finalement, les robots d’exploration ce sont comme des bibliothécaires qui ont pour objectif de recenser et de découvrir l’ensemble des ouvrages qui sont présents dans la bibliothèque et puis de les classer. Donc, jour après jour, les robots vont analyser l’ensemble des sites Internet chaque page vraiment en détail, et puis finalement, ils vont rapporter tout ce contenu au moteur de recherche, de manière à ce que les moteurs de recherche tels que Bing ou Google puissent prendre en compte ces données et venir les indexer de manière à ce qu’elles puissent apparaître par la suite dans les résultats de recherche, les fameux SERP dont on a déjà beaucoup parlé ensemble.

Qu’est-ce qu’un robot d’exploration web et comment?

Une fois que tous les livres de la bibliothèque sont indexés, les visiteurs de la bibliothèque vont pouvoir rentrer dans la bibliothèque et trouver facilement l’information dont ils ont besoin. C’est exactement le même principe pour les visiteurs de votre site Internet, ils ont besoin d’arriver sur votre site via les moteurs de recherche et donc les moteurs de recherche doivent connaître les contenus de votre site. Alors, avant de parler de l’impact des robots d’exploration sur la performance, on va tout d’abord s’attacher à examiner un peu plus leur fonctionnement dans le détail.

Qu’est-ce qu’un bot ? Qu’est-ce qu’un robot d’exploration du web et comment est-ce qu’il fonctionne ? C’est ce dont on va parler maintenant. C’est tout simplement un programme, un morceau de code informatique que les moteurs de recherche vont envoyer pour naviguer, pour parcourir sur les contenus disponibles et mis à jour sur Internet. Alors on ne va pas simplement parler ici du nom de domaine, Ils vont vraiment découvrir l’intégralité d’une page, ils vont analyser le code informatique un petit peu de fond en comble. Je pense aux balises titres, aux images, aux vidéos, aux contenus textes, aux liens entre les différentes pages ou Rich Snippets dont on a déjà beaucoup parlé. Ils vont vraiment analyser la page de fond en comble. Donc, lorsqu’un robot arrive sur votre site, il va examiner vos pages. Mais en fait, il va tout simplement suivre et naviguer sur votre site « en cliquant », en suivant les liens entre les pages. C’est pour ça que c’est important, vous le comprenez peut-être déjà maintenant de vraiment travailler votre maillage interne de manière à ce que les robots puissent facilement explorer le Web et au sens large, il est important de faire des liens entre les sites Internet parce que les robots découvrent le Web via les liens. Donc le robot va prendre différents signaux pour savoir combien de fois et à quelle fréquence il doit venir, crawler, naviguer sur votre site. Par exemple, la fraîcheur du site, la fréquence de mise à jour, la popularité du site, il y a de nombreux critères. Et donc à chaque fois qu’il va venir naviguer, crawler votre site, il va en garder une trace, en stockant ça dans sa base de données.

Toutes ces données sont stockées, archivées par les serveurs du moteur de recherche, et ce sont ces informations qui vont servir à l’indexation, la fameuse indexation de l’ensemble des pages des sites Internet du monde entier. Les moteurs de recherche vont venir calquer leur algorithme basé sur les mots-clés et sur la pertinence pour savoir si vous avez de bonnes raisons d’apparaître dans les premiers résultats de recherche. Donc vous le comprenez bien, il y a un rapport direct entre les crawlers et les navigateurs, les robots d’exploration et le SEO, tout simplement parce que si votre site est difficilement navigable par les robots d’exploration, il sera forcément mal indexé. Petite remarque à ce niveau-là, est-ce que vous avez envisagé la quantité de data de données qui sont disponibles aujourd’hui sur Internet ? On va parler de plusieurs centaines de milliards de pages et ça représente plus de 100 millions de giga octets de données. Vous voyez, c’est phénoménal, je vous l’avais dit, les petits robots sont des acharnés, ils ont vraiment du taf.

Pourquoi les robots d’exploration web sont importants ?

À ce stade, vous l’avez déjà compris, les robots sont primordiaux pour les performances SEO de votre site Internet et c’est très simple. Si Google ne peut pas indexer vos pages, il n’y a aucune chance que vos sites apparaissent dans les résultats de recherche, les fameuses SERP. Donc il est important, primordial, obligatoire que les robots d’exploration puissent naviguer au mieux sur votre site et voir l’ensemble du contenu présent dans vos pages. Et nécessairement, tout problème lors de cette navigation, lors de ce crawl, y aura un impact direct sur votre SEO et sur votre visibilité dans les moteurs de recherche. Alors quels sont les freins ? Quelques exemples qui vont empêcher les robots, les BingBot, les GoogleBot de bien crawler votre site Internet. Je rappelle, les robots ne sont pas du tout en charge de l’indexation du site, malgré mon petite erreur de langage. Eux, ils viennent crawler l’information, ils remontent toutes l’information aux moteurs de recherche et c’est les algorithmes du moteur de recherche qui sont chargés de vérifier la pertinence des contenus et les contenus dupliqués, et à ce stade-là, de décider s’il indexe ou pas la page. Et après, en fonction de ça, ils calculeront des rapports de pertinence et de comparaison entre les pages pour sortir les pages les mieux classées pour une expression donnée.

Qu’est-ce qui peut freiner le crawl de votre site internet par les robots ?

1.Votre site est nouveau

En effet, Google ne va pas le découvrir naturellement, si votre site n’est lié à aucun autre site ou que vous ne l’avez pas déclaré dans la Google Search console. Il y a mathématiquement zéro chance que Google arrive un jour par hasard sur votre site. Pour découvrir votre site, il faut que les robots de Google suivent un lien ou qu’ils aient été informés via la déclaration par la Google Search Console de l’existence de votre site.

2. La navigation sur votre site est difficile

Le deuxième point bloquant, c’est si la navigation sur votre site est difficile. Si le maillage interne, les liens entre les pages ne sont pas évidents ou si, au contraire, il est trop compliqué, les robots d’exploration vont avoir du mal à naviguer entre les pages, ils vont avoir du mal à découvrir leurs pages, ils vont tout simplement avoir du mal à faire leur travail et ils ne vont pas pouvoir optimiser le temps de travail qui est alloué à votre site pour découvrir un maximum de pages, notamment s’il y a trop de liens cassés ou ce genre de choses.

3. Vous bloquez les robots d’exploration

Troisième point de blocage si vous bloquez tout simplement les robots d’exploration, alors si c’est possible, il y a des processus pour faire cela. Je pense par exemple aux robots.txt où on vient indiquer aux robots: « attention, ne va pas à tel endroit sur le site ». Pour la petite histoire, notez bien que le fichier robots . txt qui est le fichier qui se trouve à la racine de votre site Internet, c’est le premier fichier qui est lu systématiquement par les robots de Google quand ils viennent faire une session de crawl sur votre site. Il commence toujours par lire ce fichier pour savoir ce qu’ils ont droit de faire ou pas et ils vont le faire si dans ce fichier vous lui bloquer l’accès à une majorité de pages, eh bien il va faire très peu de choses et il va partir. Donc gardez en tête que vous devez laisser un maximum de pages accessibles et publics pour qu’elle puisse être explorée par les robots.

4. Votre site web est pénalisé

Quatrième point de blocage si votre site a été pénalisé parce que vous avez triché d’une manière ou d’une autre. Soit en faisant des liens de manière un peu trop spamming, il faut y aller mais si on peut encore aujourd’hui être bloqué dans ces cas-là, ou si vous avez du contenu de très mauvaise qualité, vous avez fait du keyord stuffing ou ce genre de choses là, dans ce cas-là, les robots vont là aussi bouder votre site parce qu’ils n’ont pas d’intérêt à crawler votre site.

Comment explorer votre site web avec Semrush ?

Ce qui est sympa avec un des outils de Semrush, c’est qu’on va pouvoir nous-même lancer un robot, le SemrushBot, sur notre site Internet pour analyser notre site et s’assurer que les robots d’exploration des moteurs de recherche vont arriver sur un site de qualité et pourront facilement les explorer.

Donc le SemrushBot va fonctionner de la même manière qu’un BingBot. GoogleBot, il va suivre les liens sur votre site, il va analyser l’ensemble des pages, aller au fond en comble dans le contenu, analyser les différentes balises, analyser le contenu, analyser la structure du site, les données structurées et surtout plutôt que de juste faire ce travail-là, il va nous donner des rapports complets qui vont nous permettre d’obtenir un état de santé général de notre site, et surtout, il va nous expliquer comment corriger les éventuels problèmes.

Donc, même si on a « que du rouge » dans le rapport, eh bien tant mieux, c’est que notre site est perfectible et qu’on a des choses à corriger et qu’on va pouvoir optimiser notre visibilité et notre SEO. Quelques exemples d’erreurs, sachant que l’audit va nous les classer par gravité, de manière à ce qu’on puisse choisir les points prioritaires des liens brisés, des pages de contenus dupliqués, des titres de pages manquants, des pages bloquées, etc etc et à chaque fois, on aura les recommandations pour corriger tous les problèmes. Une fois qu’on a tout corrigé, on peut relancer l’audit et si on a des cases vertes partout, on aura fait un bon boulot pour que les vrais robots d’exploration des moteurs puissent à leur tour facilement naviguer sur notre site et remonter les informations aux moteurs de recherche.

Conclusion

Voilà, ce sera tout pour aujourd’hui. J’espère que cette vidéo vous a plu. Vous avez un peu plus compris le fonctionnement de ces robots de recherche. Vraiment pour moi, c’est la pierre angulaire du SEO. Sans robot, il n’y a pas de SEO, il n’y a pas de net, donc c’est très, très très important de vous assurer, et c’est pour moi votre job en tant que SEO que les robots peuvent analyser, crawler, naviguer le plus facilement possible sur votre site internet. Et votre job, c’est de leur faciliter le boulot avec des sites rapides et des sites facilement navigable et des sites bien construits, c’est toute la partie SEO technique dont on a l’habitude de vous parler.

Allez, je vous souhaite une bonne fin de journée et je vous dis à très vite pour une prochaine vidéo sur la chaîne Semrush. Allez très vite.