Le fichier robots.txt dans l'optimisation

L'emploi de robots.txt dans l'optimisation de sites

Il n'y a personne qui sait exactement combien de robots Internet scrutent Internet mais il y a des centaines qui sont quotidiennement à la recherche des pages pour les insérer (ou les refuser) dans leurs bases de donnés des moteurs de recherche.

Il y en a évidemment aussi de robots qui ne cherchent rien d'autre que des adresses mail dans les pages ou les scrutent pour découvrir une faille qui leur permet, par exemple, d'utiliser un des formulaires ou quelques scripts PHP pour envoyer du spam à partir des pages d'autres Webmasters qui, souvent, ne se rendent même pas compte de ça mais atterrissent sur les listes noirs de robots. Nous sommes heureusement capables à bloquer certaines de ces robots grâce au fichier .htaccess, mais il y en a d'autres qui apparaissent chaque jour et chaque jour ils adaptent leurs algorithmes à leurs besoins. L'emploi astucieux du fichier robots.txt peut nous également aider à protéger nos pages contre les malfaiteurs mineures.

Mais ces robots malveillants à part, les robots ont une chose en commun : Ils cherchent d'abord un fichier robots.txt pour savoir s'il y a une partie du site qu'elles ne devraient pas insérer dans la base de donnes du moteur de recherche, donc des pages sans contenu, des pages accessible avec login, des pages dynamiques avec de noms de fichiers qu'ils ne peuvent pas lire etc.

Le fichier robots.txt aide donc à mieux référencer le site et évite qu'un robot passe et élimine le site parce qu'il y a peut-être quelques pages sans contenu ou qui bloquent le robot. Le fichier robots.txt est donc un moyen à éviter les mauvaises surprises du référencement et doit figurer dans chaque premier niveau d'un site.

Pour rédiger le robots.txt il est logique que la structuration du site doit déjà être adapté à son utilisation. Un Webmaster peut donc, théoriquement, écrire ce petit fichier même avant qu'il commence avec les codes de la page Web.

Il y a toutefois un petit problème avec les fichiers robots.txt : Ces fichiers disent aux robots, avec deux exceptions, ce qu'ils ne doivent pas faire et ne leur montrent donc pas les pages qui sont peut-être les plus importantes pour le site. Pour informer les robots de l'importance de nos pages à l'intérieur du site nous devons nous servir du fichier sitemap.xml.

Le fichier robots.txt

Chaque robot de référencement cherche, avant de scruter un site, la présence du fichier robots.txt et accepte les directives qui s'y trouvent. Il est donc logique que les robots malhonnêtes l'ignorent volontairement. Un moyen d'empêcher ces robots à fouiller les pages est l'utilisation du fichier .htaccess.

Les exceptions nommées sont le chemin du fichier sitemap.xml qui doit figurer dans robots.txt et l'espace dans laquelle les robots devraient revenir. Cette indication n'est malheureusement pas exploitée par Google qui utilise son propre rythme de visite. Le fichier robots.txt ne comporte peut-être que 4 ou 5 lignes pour un site simple mais peut se développer à un fichier de dizaines de lignes pour de sites assez complexes ou qui doivent s'adresser à différents robots en même temps. La rédaction des fichiers robots.txt plus complexes fait partie de la formation optimisation des pages Web de la seo academy et sort du cadre de cette introduction à l'optimisation de sites Web pour le référencement.

Attention : Vu que les robots cherchent toujours le fichier robots.txt avant de scruter le site, son absence provoque toujours une erreur 404 qui est un handicap lors de l'optimisation.

Pour savoir plus sur les fichiers robots.txt vous pouvez consulter la page
Le fichier robots.txt
Google propose aux Webmasters qui dispose d'un compte un validateur de fichiers robots.txt. Un autre validateur se trouve sous l'adresse
Validateur du fichier robots.txt