Qu’est-ce l’appellation robots txt ?

Amateurs de SEO, avez-vous déjà entendu parler des robots. txt ? Globalement, il s’agit de fichiers qui indiquent aux moteurs de recherche (SERP) les zones des sites internet à indexer. Comment le créer ? Et surtout, comment l’utiliser pour votre référencement naturel ? Répondons ensemble à notre question du jour : qu’est-ce qu’un robots txt ?

Qu’est-ce que le fichier robots.txt et à quoi sert-il ?

Le robots txt est en réalité un fichier texte, placé à la racine de votre site web. Ce fichier est l’un des premiers à être analysés par les spiders des SERP. Son rôle est d’interdire aux robots des moteurs de recherche l’indexation de certaines zones de votre site web. 

Ainsi, le fichier robots.txt est un protocole d’exclusion des robots. En d’autres termes, il donne des instructions aux robots des moteurs de recherche afin d’interdire l’exploration et l’indexation de :

  • votre site à certains robots (nommés également « spiders » ou « agents » ) ;
  • certaines pages spécifiques de votre site aux robots

Il sert donc à délivrer des autorisations de crawl à ces robots, majoritairement afin d’alléger le nombre de demandes sur le site. Attention toutefois, il ne garantit pas que les documents ciblés soient invisibles dans les résultats de recherche. 

Ce fichier se trouve sur une URL particulière du site Internet auquel il est rattaché. Par exemple, https://www.monsiteweb.com/robots.txt. Il n’est pas obligatoire de disposer d’un tel fichier. Cependant, lorsqu’il existe, ce sera la première étape du crawl d’un site web par les robots des SERP, tels que le géant Google, mais aussi Bing ou Yahoo, etc.

Comment fonctionne t-il ?  

Il est important de noter que tous les robots ne respectent pas les instructions données par votre robot txt à la lettre. Ainsi, ce n’est donc pas un outil assurant la sécurité de votre site. Ce document va simplement indiquer aux agents des SERP quelles URLs et quels fichiers multimédia et fichiers de ressources sont destinés au crawl. Il peut aussi leur indiquer où se situent les sitemap du site.  

Dans un premier temps, les crawlers téléchargent le fichier robots.txt afin d’analyser ses instructions. Cela leur permet donc de connaître, avant l’exploration du site internet, les règles d’autorisation définies au sein de celui-ci. 

Puis, ils téléchargent l’URL à la racine du site (si le robot txt les y autorise). Pour reprendre notre exemple précédent, ils téléchargeront donc https://www.monsiteinternet.com/.

A partir de la lecture du contenu de cette page, ils débutent la cartographie des liens internes leur permettant de visiter le site, en appliquant les règles du fichier robots.txt. Il est inutile par exemple de laisser un SRRP crawler une interface d’administration. On pourra même aller parfois jusqu’à empêcher l’indexation d’un site web entier par les moteurs de recherche.

Comment créer un fichier robots txt ?

Afin d’être compris par les spiders, votre fichier doit obligatoirement répondre à trois questions : 

  • Qui ? Il faut dire à quels agents les règles s’adressent. Si c’est à celui de Google : googlebot ; à celui de Bing : bingbot. Si c’est à tous les robots, indiquez-le par une étoile : *
  • Quoi ? Autoriser ou ne pas autoriser l’exploration lors du crawl du site, par les commandes Allow ou Disallow. 
  • A qui ? Via les expressions régulières (regex) des URLs, afin de faire comprendre aux robots quelles sont les URLs concernées par les règles définies précédemment. Il est recommandé de s’en tenir à des formules simples, car tous les robots ne sont pas capables de comprendre les expressions régulières complexes.

De plus, afin d’éviter des erreurs dans la syntaxe de vos instructions, nous vous recommandons de vous reporter aux indications fournies par Google dans son guide aux webmasters.

Une fois que vous l’aurez créé, vous pourrez tester votre fichier robots.txt sur Google Search Console. Créez un compte ; ensuite, cliquez dans le menu sur Exploration puis sur Outil de test du fichier robots.txt. Ce test vous permettra de vérifier que toutes les URLs importantes peuvent être indexées par Google.

Fichier robots txt et SEO : quel intérêt ?

Bien évidemment, on ne vous parle pas de ce fichier robots txt pour rien ! Celui-ci présente un intérêt certain au niveau de l’optimisation du référencement naturel de votre site internet.

En effet, il permet de :

  • éviter l’indexation des contenus dupliqués,
  • fournir le sitemap aux robots google afin de leur indiquer quelles URLs indexer,
  • économiser le budget crawl des agents de Google, en excluant les pages peu qualitatives de votre site.

Ainsi, la création d’un fichier robots txt est indispensable si vous souhaitez maîtriser l’indexation de votre site web. En effet, si aucun fichier n’existe, toutes les URLs trouvées par les robots seront indexées et se retrouveront dans les résultats des moteurs de recherche.

En revanche, bien utilisé, il vous aidera à optimiser le budget de crawl, en dirigeant les robots vers les pages les plus importantes de votre site Internet.