Référencement : créer un fichier robots.txt

Posté le 21 août 2008 par Romain dans Référencement - SEO

Bienvenue sur le Journal du Blog, vous pouvez vous abonner au flux RSS. Merci pour votre visite!

Nous vous parlions de ce fichier dans l’article sur le duplicat content (contenu dupliqué). Le fichier robots.txt est destiné aux robots des moteurs de recherches. Ce sont effectivement ces robots qui vont visiter votre blog afin que vos articles puissent apparaitre dans les moteurs de recherches. Grâce au fichier robots.txt, vous pouvez indiquer les pages à ne pas visiter. Ce fichier doit se trouver à la racine de votre blog, c’est la première chose que les robots vont chercher. Ce fichier n’est pas indispensable mais recommandé si vous êtes soucieux de votre référencement.

Pour créer un fichier robots.txt, il vous suffit donc d’ouvrir le bloc note (Notepad) de rentrer les commandes puis d’enregistrer en robots.txt et de le mettre sur le serveur ftp de votre blog.

Voici les commandes à connaître pour créer un fichier robots.txt :

  • User-Agent: indique au robot concerné la règle à suivre (ligne suivante). La valeur * signifie “tous les moteurs de recherche”.
  • Disallow: permet d’indiquer les pages à exclure de l’indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie “toutes les pages du site”.
  • Allow : autorise l’accès (pas vraiment utile puisque l’accès est autorisé par défaut)

Quelques exemples :

Exclusion de toutes les pages :

User-Agent: *
Disallow: /

Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :

User-Agent: *
Disallow: /repertoire/

Quelques User-Agent:

Google > googlebot
Yahoo > yahoo
MSN > msnbot

Le fichier robots.txt est également le moyen d’indiquer aux robots où se trouve le plan de votre blog (sitemap). Exemple : Sitemap: http://www.votreblog.com/sitemap.xml

Maintenant que vous savez comment créer un robots.txt, voici quelques recommandations pour y mettre les bonnes informations. Vous allez pouvoir faciliter le travail du robot en lui interdisant l’accès au dossier dont il n’a pas besoin. Pour un blog wordpress, vous pouvez commencer par interdire l’accès au dossier : wp-admin, wp-content et wp-includes. Équivaut à Disallow: /wp-

De la même manière, votre hébergement dispose de fichiers sans importance pour les robots. Ces derniers sont souvent stockés à la racine dans un dossier cgi-bin. Vous pouvez donc bloquer l’accès à ce dossier : Disallow: /cgi-bin/

Vous devez également savoir que la fonction “*” (présenté plus haut) peut s’appliquer de manière plus générale. Par exemple pour bloquer certains types de fichiers (toujours inutiles aux robots) :
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Afin d’éviter le duplicat content, vous pouvez interdire l’accès aux pages d’archives, de catégories et de tags. Si vous interdisez l’accès aux archives (Disallow: /categories/*) elles n’apparaitront pas sur les moteurs de recherches (idem pour les tags et catégories) c’est un choix à faire.

Notez également que vous pouvez préciser des règles différentes pour chacun des robots.
User-agent: Googlebot
User-agent: Yahoo
User-agent: msnbot
etc.

Il existe un plugin wordpress pour créer en quelques cliques un fichier robots.txt : Plugin Robots.txt pour Wordpress

A lire également :
Tuto de l’été n°3: créez un fichier robots.txt pour votre blog Wordpress
Optimiser le référencement naturel de son blog WordPress : les grandes lignes
Pourquoi mettre en place un fichier robots.txt dans votre site

Tags: , ,

Vous avez aimé cet article : abonnez-vous au flux RSS !

7 commentaires

  1. Vinz
    21 août 2008

    Joli billet récapitulatif :-)


  2. Maigret
    21 août 2008

    Euh, je pense pas qu’il va marcher le robot si vous l’appelez robot.txt.
    Par contre, avec robots.txt ça risque de mieux marcher ;)

    http://www.google.com/support/.....&hl=fr


  3. Va Crever
    21 août 2008

    Nikel ;)


  4. Sylvain
    21 août 2008

    A propos du plugin Robots.txt pour Wordpress, est il suffisant à ton avis ?

    Ou vaut il mieux le faire soit même ?


  5. Romain
    21 août 2008

    Ce n’est pas bien compliqué d’en faire un sois même alors pourquoi s’encombrer d’un plugin ? C’est mon avis perso ;-)

    @Maigret : bien vu ;-)


  6. Maigret
    21 août 2008

    A votre service ;)


  7. Franck
    16 novembre 2008

    Bonjour

    Je saisi dans l’URL :
    http://www.lejournaldublog.com/robot.txt
    et je n’arrive pas lire votre fichier robot.txt.
    Pourquoi ?

    Cette petite démo pour dire simplement : comment protéger l’accès à ce fichier robot.txt aux personnes qui ne sont pas censé savoir quels sont mes dossiers privés que j’ai indiqués dans ce fameux fichier robot.txt ?…


Laisser un commentaire

A lire sur d'autres blogs