|
Sur
le site Abondance, nous essayons, dans la mesure du
possible, de vous expliquer comment faire en sorte
que vos pages soient indexées au mieux par
les robots (spiders) des moteurs de recherche.
Mais il peut également arriver que certaines
de vos pages soient confidentielles, ou en tout cas
que votre objectif ne soit pas de les diffuser largement
sur lesdits moteurs. Un site ou une page en construction,
par exemple, ne doivent pas obligatoirement être
la cible d'une telle aspiration. Il faut alors empêcher
certains spiders de les prendre en compte.
Cela se fait au moyen d'un fichier texte, appelé
robots.txt, présent sur votre serveur.
Ce fichier va donner des indications au spider
du moteur sur ce qu'il peut faire et ce qu'il ne doit
pas faire sur le site. Dès que le spider
d'un moteur arrive sur un site (par exemple, http://www.monsite.com/),
il va rechercher le document présent à
l'adresse http://www.monsite.com/robots.txt
avant d'effectuer la moindre "aspiration de document".
Si ce fichier existe, il le lit et suit les indications
qui y sont inscrites. S'il ne le trouve pas, il commence
son travail de lecture et de sauvegarde de la page
HTML qu'il est venu visiter, considérant qu'a
priori rien ne lui est interdit.
Il ne peut exister qu'un seul fichier robots.txt sur
un site, et il doit se trouver au niveau de la racine,
comme le montre l'exemple d'adresse ci-dessus. Le
nom du fichier (robots.txt) doit toujours être
créé en minuscules. La structure d'un
fichier robots.txt est la suivante :
User-agent:
*
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html
Dans cet exemple :
-
User-agent: * signifie que l'accès
est accordé à tous les agents (tous
les spiders), quels qu'ils soient.
- Le robot n'ira pas explorer les répertoires
/cgi-bin/, /tempo/, /perso/
et /entravaux/ du serveur
ni le fichier /abonnes/prix.html.
Le répertoire /tempo/,
par exemple, correspond à l'adresse http://www.monsite.com/tempo/.
Chaque répertoire à exclure de l'aspiration
du spider doit faire l'objet d'une ligne
Disallow:
spécifique. La commande
Disallow: permet d'indiquer que "tout ce
qui commence par" l'expression indiquée ne
doit pas être indexé.
Ainsi
:
Disallow:
/perso ne permettra l'indexation ni de http://www.monsite.com/perso/index.html,
ni de http://www.monsite.com/perso.html
Disallow:
/perso/ n'indexera pas http://www.monsite.com/perso/index.html,
mais ne s'appliquera pas à l'adresse http://www.monsite.com/perso.html
D'autre part, le fichier robots.txt ne doit pas contenir
de lignes vierges (blanches).
L'étoile (*) n'est acceptée que dans
le champ User-agent.
Elle ne peut servir de joker (ou d'opérateur
de troncature) comme dans l'exemple : Disallow:
/entravaux/*.
Il n'existe pas de champ correspondant à
la permission, de type Allow:.
Enfin, le champ de description (User-agent,
Disallow) peut être indifféremment
saisi en minuscules ou en majuscules.
Les lignes qui commencent par un signe dièse
(#), ou plus exactement tout ce qui se trouve à
droite de ce signe sur une ligne, est considéré
comme étant un commentaire.
Voici quelques commandes et très classiques
importantes du fichier robots.txt :
| Disallow:/ |
Permet
d'exclure toutes les pages du serveur (aucune
aspiration possible). |
| Disallow: |
Permet de n'exclure aucune page du serveur (aucune
contrainte).
Un fichier robots.txt vide ou inexistant aura
une conséquence identique. |
| User-Agent
: fast |
Permet
d'identifier un robot particulier (ici, celui
des moteur Lycos et Fast/Alltheweb). |
User-agent:
fast
Disallow:
User-agent: *
Disallow:/ |
Permet au spider d'Alltheweb et de Lycos (dont
l'index est également fourni par Fast)
de tout aspirer, mais refuse les autres robots. |
Vous avez également une autre possibilité
pour interdire aux spiders des moteurs l'accès
à vos pages : la balise Meta Robots. Un
autre article
sur ce site décrit de façon très
précise leur emploi.
|