Robots.txt, Pourquoi est il important pour le Référencement naturel

Robots.txt, Pourquoi est il important pour le Référencement naturel

 Robots.txt, c’est un nom original pour un fichier texte.. A quoi sert il ? A qui est il destiné ? Est il utile au référencement naturel ? Découvrez un article qui devrait éclaircir le sujet !

Robots.txt qu'est ce que c'est ?

Le “Robots.txt” est un fichier texte normal qui, par son nom, a une signification particulière pour la majorité des robots du Web. En définissant quelques règles dans ce fichier texte, vous pouvez demander aux robots de ne pas analyser ni d’indexer certains fichiers, certains répertoires de votre site ou même aucun index. Par exemple, vous ne souhaitez peut-être pas que Google analyse le répertoire / images de votre site, car cela n’a aucun sens pour vous et constitue un gaspillage de crawl pour votre site. Le  “Robots.txt” vous permet de le dire à Google et aux autres moteurs de recherche. 

Quel est l'objectif du Robots.txt selon Google ?

L’objectif principal du Robots.txt est d’optimiser le budget “Crawl” de votre site. 

Qu’est ce que le budget Crawl d’un robot de type GoogleBot ? 

Voici ce que nous dit Google : “Googlebot est conçu pour être un bon “citoyen” du Web. Il fait de l’exploration sa priorité, mais il s’assure aussi de ne pas nuire à l’expérience des internautes qui consultent le site. C’est ce que nous appelons la “limite de la vitesse” d’exploration”. Elle définit une valeur maximale pour un site donné.”

Mon interprétation pour le Robot.txt est la suivante : Mettre en Dissalow les répertoires ou les pages inutiles au référencement de votre site ne sera que positif pour l’indexation de celui-ci sur les moteurs de recherche. Posez vous la question : Est ce que ma page : CGV possède un intérêt pour mon référencement ? Vous pouvez faire cet exercice pour plusieurs pages de votre site et plusieurs répertoires. Je suis sur qu’après cela vous allez optimiser votre Budget Crawl et donc votre Robots.txt

Création de votre Robots.txt

Créez un fichier texte standard appelé “robots.txt” et assurez-vous qu’il porte exactement le même nom. Ce fichier doit être chargé dans le répertoire accessible racine de votre site, et non dans un sous-répertoire (c’est-à-dire: http://www.monsite.com mais PAS http://www.monsite.com/produit/ ). Ce n’est qu’en suivant les deux règles ci-dessus que les moteurs de recherche interpréteront les instructions contenues dans le fichier. 

Maintenant que vous savez comment nommer votre fichier texte et où le télécharger, vous devez savoir quoi le mettre réellement pour envoyer des commandes aux moteurs de recherche qui suivent ce protocole (officiellement le “Protocole d’exclusion de robots”). Le format est assez simple pour la plupart des intentions et des objectifs: une ligne USERAGENT pour identifier le robot en question, suivie d’une ou plusieurs lignes DISALLOW: pour l’empêcher d’explorer certaines parties de votre site.

1) Voici un “robots.txt” de base:

User-agent: *
Disallow: /

Avec ce qui a été déclaré ci-dessus, tous les robots (indiqués par “*”) ont pour instruction de n’indexer aucune de vos pages (indiqué par “/”). Probablement pas ce que vous voulez, mais vous voyez l’idée.

2)  Blocage d’un bot de google. Bien que tous les webmasters aiment Google, Si vous ne voulez pas que le robot de Google explore les images de votre site et les rende consultables en ligne , voici la ligne à intégrer à votre robots.txt

User-agent: Googlebot-Image
Disallow: /

3) Les éléments suivants interdisent à tous les moteurs de recherche et à tous les robots d’analyser des répertoires et des pages de sélection:

User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm

4) Vous pouvez conditionnellement cibler plusieurs robots dans “robots.txt”. :

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/

Ceci est intéressant – ici, nous déclarons que les robots d’exploration en général ne devraient pas explorer les parties de notre site, SAUF pour Google, ce qui permet d’explorer tout le site à l’exception de / cgi-bin / et / privatedir / . Donc, les règles de spécificité s’appliquent, pas l’héritage.

5) Il existe un moyen d’utiliser Disallow: pour le transformer en “Autoriser tout”, c’est-à-dire en ne saisissant pas de valeur après le point-virgule (:):

User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:

6) Enfin, certains robots supportent maintenant un champ supplémentaire appelé “Allow:”, notamment Google. Comme son nom l’indique, “Allow” vous permet de spécifier explicitement quels fichiers / dossiers peuvent être explorés. Cependant, ce champ ne fait actuellement pas partie du protocole “robots.txt”, je vous recommande donc de ne l’utiliser que si vous en avez absolument besoin, car cela risquerait de dérouter des robots d’exploration moins intelligent

Robots.txt : Vidéo de présentation

Le Robots.txt est il utile au référencement naturel ?

La réponse et OUI ! Le robots.txt est utile au référencement naturel de votre site web ! Avoir un robots.txt optimisé et configuré sur un site web c’est mettre les chances de votre côté ! Google recommande d’avoir un Robots.txt alors si vous aviez un doute c’est le moment d’ouvrir votre éditeur de texte et de réaliser votre Robots.txt. Je terminerais cet article en précisant un éliment important :Enfin, Google indique  que la facilité de crawl d’un site n’est pas un critère de pertinence pour les classements des moteurs de recherche. En revanche, un site mieux exploré (crawlé) par les robots de google a plus de chance d’avoir ses meilleures pages analysées. 

Entrez votre email et recevez des Astuces pour Booster votre Référencement Naturel 

Leave a comment

Send a Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *