Référencement : créer un fichier robots.txt

By | août 21, 2008 at 21 08 08 | 12 comments | Référencement | Tags: , ,

Nous vous parlions de ce fichier dans l’article sur le duplicat content (contenu dupliqué). Le fichier robots.txt est destiné aux robots des moteurs de recherches. Ce sont effectivement ces robots qui vont visiter votre blog afin que vos articles puissent apparaitre dans les moteurs de recherches. Grâce au fichier robots.txt, vous pouvez indiquer les pages à ne pas visiter. Ce fichier doit se trouver à la racine de votre blog, c’est la première chose que les robots vont chercher. Ce fichier n’est pas indispensable mais recommandé si vous êtes soucieux de votre référencement.

Pour créer un fichier robots.txt, il vous suffit donc d’ouvrir le bloc note (Notepad) de rentrer les commandes puis d’enregistrer en robots.txt et de le mettre sur le serveur ftp de votre blog.

Voici les commandes à connaître pour créer un fichier robots.txt :

  • User-Agent: indique au robot concerné la règle à suivre (ligne suivante). La valeur * signifie « tous les moteurs de recherche ».
  • Disallow: permet d’indiquer les pages à exclure de l’indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie « toutes les pages du site ».
  • Allow : autorise l’accès (pas vraiment utile puisque l’accès est autorisé par défaut)

Quelques exemples :

Exclusion de toutes les pages :

User-Agent: *
Disallow: /

Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :

User-Agent: *
Disallow: /repertoire/

Quelques User-Agent:

Google > googlebot
Yahoo > yahoo
MSN > msnbot

Le fichier robots.txt est également le moyen d’indiquer aux robots où se trouve le plan de votre blog (sitemap). Exemple : Sitemap: http://www.votreblog.com/sitemap.xml

Maintenant que vous savez comment créer un robots.txt, voici quelques recommandations pour y mettre les bonnes informations. Vous allez pouvoir faciliter le travail du robot en lui interdisant l’accès au dossier dont il n’a pas besoin. Pour un blog wordpress, vous pouvez commencer par interdire l’accès au dossier : wp-admin, wp-content et wp-includes. Équivaut à Disallow: /wp-

De la même manière, votre hébergement dispose de fichiers sans importance pour les robots. Ces derniers sont souvent stockés à la racine dans un dossier cgi-bin. Vous pouvez donc bloquer l’accès à ce dossier : Disallow: /cgi-bin/

Vous devez également savoir que la fonction « * » (présenté plus haut) peut s’appliquer de manière plus générale. Par exemple pour bloquer certains types de fichiers (toujours inutiles aux robots) :
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Afin d’éviter le duplicat content, vous pouvez interdire l’accès aux pages d’archives, de catégories et de tags. Si vous interdisez l’accès aux archives (Disallow: /categories/*) elles n’apparaitront pas sur les moteurs de recherches (idem pour les tags et catégories) c’est un choix à faire.

Notez également que vous pouvez préciser des règles différentes pour chacun des robots.
User-agent: Googlebot
User-agent: Yahoo
User-agent: msnbot
etc.

Il existe un plugin wordpress pour créer en quelques cliques un fichier robots.txt : Plugin Robots.txt pour WordPress

A lire également :
Tuto de l’été n°3: créez un fichier robots.txt pour votre blog WordPress
Optimiser le référencement naturel de son blog WordPress : les grandes lignes
Pourquoi mettre en place un fichier robots.txt dans votre site

Like it? Tweet it!

About the Author

12 Comments

  1. Vinz (3 years ago)

    Joli billet récapitulatif :-)

  2. Maigret (3 years ago)

    Euh, je pense pas qu’il va marcher le robot si vous l’appelez robot.txt.
    Par contre, avec robots.txt ça risque de mieux marcher ;)

    http://www.google.com/support/.....#038;hl=fr

  3. Va Crever (3 years ago)

    Nikel ;)

  4. Sylvain (3 years ago)

    A propos du plugin Robots.txt pour WordPress, est il suffisant à ton avis ?

    Ou vaut il mieux le faire soit même ?

  5. Romain (3 years ago)

    Ce n’est pas bien compliqué d’en faire un sois même alors pourquoi s’encombrer d’un plugin ? C’est mon avis perso ;-)

    @Maigret : bien vu ;-)

  6. Maigret (3 years ago)

    A votre service ;)

  7. Franck (3 years ago)

    Bonjour

    Je saisi dans l’URL :
    http://www.lejournaldublog.com/robot.txt
    et je n’arrive pas lire votre fichier robot.txt.
    Pourquoi ?

    Cette petite démo pour dire simplement : comment protéger l’accès à ce fichier robot.txt aux personnes qui ne sont pas censé savoir quels sont mes dossiers privés que j’ai indiqués dans ce fameux fichier robot.txt ?…

  8. 17+ plugins Wordpress SEO | Le Journal du Blog (2 years ago)

    [...] Ce plugin va vous permettre de manière très simple la création d’un fichier robots.txt. Ce fichier permet de donner des instructions aux robots qui scannent votre blog pour indexer son contenu dans les moteurs de recherche. Par exemple, vous pouvez dire à ces robots de ne pas visiter les pages d’admin, de login, les pages d’archives etc. Pour ceux qui souhaiterais mettre un fichier robots.txt en place, je vous invite à consulter notre tutoriel. [...]

  9. CAP Marketer - Optimisation : 17+ plugins WordPress SEO (1 year ago)

    [...] Ce plugin va vous permettre de manière très simple la création d’un fichier robots.txt. Ce fichier permet de donner des instructions aux robots qui scannent votre blog pour indexer son contenu dans les moteurs de recherche. Par exemple, vous pouvez dire à ces robots de ne pas visiter les pages d’admin, de login, les pages d’archives etc. Pour ceux qui souhaiterais mettre un fichier robots.txt en place, je vous invite à consulter notre tutoriel. [...]

  10. lefaliels (1 year ago)

    hello all girls and boys.

  11. Harold Scalley (10 months ago)

    I’d come to set with you here. Which is not something I typically do! I love reading a post that will make people think. Also, thanks for allowing me to comment!

  12. Victor@blog nozay Informatique (6 months ago)

    Pratique ces petits robots. Perso je préfère créer mon propre bot …

Comments

© 2011 WideZine. All rights reserved.