Abondance.com : Recherche d'information, referencement et promotion de sites Web    
 Rechercher sur Abondance : avec Synomia
Recherche avancée
Sur tout le site Sur l'actu depuis 1998

  Toute l'info et l'actu sur les annuaires et moteurs de recherche : Recherche d'information et référencement

     
 
 Accueil > Dossiers et articles >
Le fichier Robots.txt

 

Sur le site Abondance, nous essayons, dans la mesure du possible, de vous expliquer comment faire en sorte que vos pages soient indexées au mieux par les robots (spiders) des moteurs de recherche. Mais il peut également arriver que certaines de vos pages soient confidentielles, ou en tout cas que votre objectif ne soit pas de les diffuser largement sur lesdits moteurs. Un site ou une page en construction, par exemple, ne doivent pas obligatoirement être la cible d'une telle aspiration. Il faut alors empêcher certains spiders de les prendre en compte.
 
Cela se fait au moyen d'un fichier texte, appelé robots.txt, présent sur votre serveur. Ce fichier va donner des indications au spider du moteur sur ce qu'il peut faire et ce qu'il ne doit pas faire sur le site. Dès que le spider d'un moteur arrive sur un site (par exemple, http://www.monsite.com/), il va rechercher le document présent à l'adresse http://www.monsite.com/robots.txt avant d'effectuer la moindre "aspiration de document". Si ce fichier existe, il le lit et suit les indications qui y sont inscrites. S'il ne le trouve pas, il commence son travail de lecture et de sauvegarde de la page HTML qu'il est venu visiter, considérant qu'a priori rien ne lui est interdit.
 
Il ne peut exister qu'un seul fichier robots.txt sur un site, et il doit se trouver au niveau de la racine, comme le montre l'exemple d'adresse ci-dessus. Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :
 
User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html

 
Dans cet exemple :
 

  • User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.
  • Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.
    Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique. La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.

Ainsi :
Disallow: /perso ne permettra l'indexation ni de http://www.monsite.com/perso/index.html, ni de http://www.monsite.com/perso.html
 
Disallow: /perso/ n'indexera pas http://www.monsite.com/perso/index.html, mais ne s'appliquera pas à l'adresse http://www.monsite.com/perso.html
 
D'autre part, le fichier robots.txt ne doit pas contenir de lignes vierges (blanches).
L'étoile (*) n'est acceptée que dans le champ User-agent.
Elle ne peut servir de joker (ou d'opérateur de troncature) comme dans l'exemple : Disallow: /entravaux/*.
Il n'existe pas de champ correspondant à la permission, de type Allow:.
Enfin, le champ de description (User-agent, Disallow) peut être indifféremment saisi en minuscules ou en majuscules.
Les lignes qui commencent par un signe dièse (#), ou plus exactement tout ce qui se trouve à droite de ce signe sur une ligne, est considéré comme étant un commentaire.
 
Voici quelques commandes et très classiques importantes du fichier robots.txt :


Disallow:/ Permet d'exclure toutes les pages du serveur (aucune aspiration possible).
Disallow: Permet de n'exclure aucune page du serveur (aucune contrainte).
Un fichier robots.txt vide ou inexistant aura une conséquence identique.
User-Agent : fast Permet d'identifier un robot particulier (ici, celui des moteur Lycos et Fast/Alltheweb).
User-agent: fast
Disallow:
User-agent: *
Disallow:/
Permet au spider d'Alltheweb et de Lycos (dont l'index est également fourni par Fast) de tout aspirer, mais refuse les autres robots.

 
Vous avez également une autre possibilité pour interdire aux spiders des moteurs l'accès à vos pages : la balise Meta Robots. Un autre article sur ce site décrit de façon très précise leur emploi.
 
Autres sources d'information sur le fichier Robots.txt :
 
Un autre article sur la syntaxe de ce fichier : http://www.searchtools.com/robots/robots-txt.html
 
Un vérificateur de syntaxe pour votre fichier robots.txt :
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
 A la une de l'actu
l'actu au format rss Webmasters, installez les titres de l'actualité sur votre site !
l'actu de la semaine Toute l'actualité de la semaine


Un site du Réseau Abondance (english version : Search Engine Tools) :
Information : Abondance actu référencement - Forums Abondance - Baromètre Référencement - Boutique Abondance - Livre Référencement - Livre Google
Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic
Divers / Jeux : Googlefight - LotoFoot Googlefight - Habitants - Googland - Breitling Jet Team - Meeting aérien Lens - Maison en Provence - Grifil.com
Moteurs de recherche : Mozbot.fr - Mozbot.com - Mozbot.co.uk - Goossip - Motref - Rugby engine - Search In The Matrix - Grifil.net - Biomalin - Foot Engine - SearchWings
Recommander ce site à des amis  |  Bienvenue  |  Pourquoi Abondance ?  |  Contact  |  Crédits  |  Rechercher sur le site
Applicatifs réalisés par Brioude Internet et Raynette  |  Site hébergé par GPL Service  |  Publicité sur le site  |  Plan du site