Google XXL: Créer un fichier Robots.txt

Générer un fichier Robots.txt avec Google Outils pour Webmasters

Ce nouvel outil est visible dans les "Outils pour Webmasters".
Sélectionnez un de vos sites puis cliquez simplement sur Outils Générer Robots.txt.
Ce type de fichier doit être placé à la racine du domaine et permet principalement de définir les fichiers et répertoires qui ne doivent pas être explorés par les robots.
Il existe deux règles principales :
User-Agent : permet de définir le robot auquel va s'appliquer la règle correspondante.
Disallow : permet de définir la ou les pages qui seront bloquées.
Il existe une base de données des robots existants à cette adresse.
Cette page du site Robots.txt est un document très complet sur l'utilisation des fichiers Robots.txt.

Afin de bloquer un site dans son intégralité, utilisez cette syntaxe : Disallow: / ;
Afin de bloquer un répertoire : Disallow: /nom_repertoire/ ;
Afin de bloquer une page : Disallow: /nom_repertoire/nom_page.html.

Faites attention au point suivant : les adresses indiquées sont sensibles à la casse.
Dans la liste déroulante Action, sélectionnez le type d'action désirée (Autoriser ou "Bloc").
Dans la liste déroulante Robot, sélectionnez le nom du robot (User-Agent) sur lequel va s'appliquer votre règle.
Les robots suivants sont déjà indiqués :

Googlebot : explore les pages pour Google Recherche sur le Web et Google Actualités ;
Googlebot-Mobile : explore les pages pour Google Mobile ;
Googlebot-Image : explore les pages pour Google Recherche d'images ;
Mediapartners-Google : explore les pages pour Google AdSense ;
Adsbot-Google : explore les pages pour Google AdWords.

Une fois que votre fichier Robots.txt est finalisé, cliquez sur le bouton Télécharger puis placez-le à la racine du domaine.
Notez que vous pouvez exclure votre site en cochant le bouton radio Bloquer tous les robots. Cela correspond à cette déclaration :

User-Agent: *
Disallow: /

Notez enfin qu'il est indispensable d'ajouter dans ce fichier l'adresse de votre plan Sitemap.xml.
Toujours dans les outils pour webmasters, vous pouvez afficher le fichier Robots.txt de votre site en cliquant sur le bouton Analyser le fichier Robots.txt.

Paramétrer des autorisations ou des interdictions

Vous pouvez combiner les extensions Allow et Disallow.
En admettant que je veuille interdire l'accès au robot de Google Images pour le dossier "Photos" mais autoriser le parcours d'une page appelée free.html, je peux utiliser cette syntaxe :

User-agent: Googlebot-Image
Disallow: /Photos/
Allow: /Phots/free.html

Afin d'empêcher l'indexation d'un dossier nommé Archives mais autoriser tout de même la diffusion d'annonces AdSense, vous pouvez vous servir de ce type de déclarations :

User-Agent: *
Disallow: /Archives/
User-Agent: MediaPartners-Google
Allow: /Archives/

Utilisez des jokers

Il est possible de remplacer une séquence de caractères à l'aide de l'astérisque (*). Afin de bloquer l'accès à tous les répertoires dont le nom commence par "Archives", utilisez cette syntaxe :

User-Agent: Googlebot
Disallow: /Archives*/

Le même principe peut être appliqué aux adresses URL. Si vous souhaitez bloquer l'accès à toutes les URL qui contiennent l'extension PDF, utilisez cette syntaxe :

User-Agent: Googlebot
Disallow: /*.pdf$

Dans le même ordre d'idées, il est possible de désactiver l'indexation de certaines extensions d'images et pas d'autres :

User-Agent: Googlebot-Image
Disallow: /*.png$

Utiliser les balises META

Ces déclarations doivent être placée dans la section <HEAD> de la page web concernée par les restrictions.
Afin de supprimer la mise en cache de certains pages, ajoutez cette déclaration :

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Afin d'empêcher Google d'afficher des extraits de votre page, ajoutez cette déclaration :

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">

Afin de conserver une compatibilité avec les écrans de périphériques mobiles, Google transcode les pages HTML et les converties dans un format compatible. Vous pouvez désactiver cette fonctionnalité et forcer la redirection vers une autre page web en utilisant cette déclaration :

<link rel="alternate" media="handheld" href="page_alternative.htm" />

C'est la déclaration la plus restrictive qui a la priorité si d'aventure il existe des contradictions :

<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="INDEX">

Il existe beaucoup d'outils permettant de générer un fichier Robots.txt en ligne :
http://www.mcanerin.com/EN/search-engine/robots-txt.asp ;
http://www.yellowpipe.com/yis/tools/robots.txt/.
Ce lien permet de vérifier la syntaxe d'un fichier Robots.txt : http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php.
Si vous connaissez des ressources plus complètes, n'hésitez pas à nous en faire part…

4 commentaires:

Anonyme
28 mars 2008 à 18:11: Merci pour ses infos, mais pour empecher google d'explorer les images du site quelle lien mettre avant la balise HEAD ?
Merci pour ce blog !
test
28 mars 2008 à 19:33: Mais, dans ce cas là, pourquoi n'utilisez-vous pas le fichier Robot.txt justement ?
Anonyme
29 mars 2008 à 13:23: étant sur blogger, je ne sais pas comment modifier le fichier robot.txt pour ajouter

User-Agent: Googlebot-Image
Disallow: /*.jpg$
Disallow: /

Pour que google n'explore plus les images de mon site.

Merci
Bonne continuation
test
29 mars 2008 à 17:02: Il faut avoir un accès serveur pour placer un fichier Robots.txt et ce n'est pas possible sous Blogger (à moins d'avoir son propre nom de domaine)

Enregistrer un commentaire

Google XXL Actualités, dossiers et astuces sur Google.

Créer un fichier Robots.txt

4 commentaires:

Catégories