Robots.txt : Le fichier essentiel pour les moteurs de recherche
Adrien Mansard - Mis à jour le
Définition : Qu'est-ce que le fichier Robots.txt ?
Le fichier robots.txt est un petit fichier texte qui se place à la racine de votre site web. Il contient des instructions pour les robots des moteurs de recherche (comme Googlebot) : leur dit quelles pages ils peuvent explorer et quelles pages ils doivent ignorer.
C'est un peu comme un panneau "Entrée interdite" à l'entrée d'un bâtiment : les robots respectueux suivent ces instructions, mais les robots malveillants peuvent les ignorer. Combinez-le avec un Sitemap pour une meilleure découverte de vos pages.
À quoi ressemble un fichier Robots.txt ?
Voici un exemple simple :
User-agent: * Disallow: /admin/ Disallow: /panier/ Allow: /images/ Sitemap: https://www.example.com/sitemap.xml
Les commandes principales
- User-agent : Le robot concerné (* = tous les robots)
- Disallow : Interdit l'accès au chemin qui suit
- Allow : Autorise l'accès (même dans une zone interdite)
- Sitemap : Indique l'emplacement du sitemap
Exemples pratiques
Bloquer un dossier admin :
Disallow: /admin/
Bloquer une page précise :
Disallow: /page-confidentielle.html
Bloquer tout le site :
Disallow: /
Autoriser un robot précis :
User-agent: Googlebot Allow: /
Où placer le fichier robots.txt ?
Le fichier doit être à la racine de votre domaine :
www.example.com/robots.txt
Si votre site est dans un sous-dossier, le robots.txt doit quand même être à la racine du domaine principal.
Erreurs courantes à éviter
- Bloquer par erreur le contenu important : Vérifiez bien vos Disallow
- Oublier le sitemap : C'est utile pour les moteurs de recherche
- Confondre avec la balise noindex : robots.txt empêche l'exploration, pas l'indexation
- Faire des fautes : "Disallow" avec deux "s", pas "Dissalow"
Robots.txt vs Noindex
Quelle différence ?
- Robots.txt : Dit aux robots "ne vient pas voir cette page" (ils ne la verront donc pas)
- Noindex : Dit aux robots "ne mets pas cette page dans ton index" (ils peuvent venir la voir)
En pratique, pour exclure une page des résultats de recherche, utilisez plutôt la balise noindex dans le code HTML, ou robots.txt si vous voulez aussi экономить le budget d'exploration.