Sitemap : tout savoir sur le plan de site d’un site web
Un sitemap, appelé également plan de site est un fichier au format XML. Qu'est-ce qu'un sitemap et quel est son rôle ?
Qu’est-ce qu’un sitemap, à quoi sert-il ?
Un sitemap est un plan de site au format XML (Extensible Markup Language). Il se matérialise par un fichier contenant une liste enrichie des URLs internes d’un site web.
Un sitemap fourni aux moteurs de recherche des informations sur la nature des URLs internes d’un site internet. Sans lui, certaines URLs ne seraient pas découvertes par les robots.
Si par exemple une URL de votre votre site n’est liée par aucune autre URL, il est alors impossible pour un robot de l’indexer sans le sitemap.
Les robots d’indexation (Googlebot par exemple) ont donc besoin d’un sitemap pour découvrir toutes les URLs de votre site web.
Les robots d’exploration des moteurs de recherche comme Googlebot lisent ce fichier pour explorer plus intelligemment votre site. Source : Google
Le sitemap fourni également aux moteurs de recherche des métadonnées relatives aux pages listées. Ces métadonnées renseignent les moteurs de recherche avec des informations telles que :
- la date de la dernière modification d’une page web,
- sa fréquence de mise à jour,
- ou encore son importance dans le site internet.
Les moteurs de recherche utilisent les informations contenues dans le sitemap pour optimiser le référencement de votre site internet.
Le protocole
Les robots d’exploration des moteurs de recherche Google, Yahoo! et Microsoft respectent le même protocole Sitemap. Un document décrivant le schéma XML est d’ailleurs disponible sur le site sitemaps.org.
Le plan Sitemap doit :
- commencer par une balise d’ouverture <urlset> et se terminer par une balise de fermeture </urlset>.
- spécifier l’espace de nom (standard de protocole) dans la balise <urlset>.
- inclure pour chaque URL une entrée <url> en tant que balise XML parent.
- inclure une entrée enfant <loc> pour chaque balise parent <url>.
Toutes les autres balises sont facultatives. La prise en charge de ces balises facultatives varie d’un moteur de recherche à un autre.
Un sitemap ne peut pas lister plus de 50 000 URLs et la taille d’un fichier XML ne doit pas dépasser 10 Mo (10 485 760 octets). Source : sitemaps.org
Les différents types d’entrées d’un sitemap
Un sitemap contient des URLs :
- « classiques » (HTML, PDF),
- d’images,
- de vidéos.
Pourquoi le sitemap est-il important ?
Pour mieux comprendre l’importance d’un sitemap, un rapide décryptage du fonctionnement des robots d’indexation (appelés également Crawlers, Web spiders ou encore Bots) est nécessaire.
Pour découvrir et indexer les différentes pages de votre site web, Googlebot (et les autres robots) procèdent de la manière suivante :
- Googlebot découvre votre site via un lien et commence par analyser le fichier Robots.txt. (si le fichier robots.txt existe, le chemin vers le sitemap doit y être préciser, exemple : https://www.anthedesign.fr/sitemap_index.xml),
- le robot analyse ensuite le code source HTML de votre page web, l’enregistre et l’envoie à Google,
- Googlebot explore et repère ensuite tous les liens balisés <a> … </a> (internes et externes) tel qu’un utilisateur pourrait le faire en cliquant sur les liens lors de sa navigation.
Cette procédure est répétée à plusieurs reprises jusqu’à l’exploration complète de votre site internet. Une fois tous les liens explorés, reste à Google d’indexer vos pages web.
Les robots visiteront votre site à une fréquence dépendante des mises à jour de celui-ci. Plus les mises à jour de votre site sont fréquentes, plus il est visité par les robots.
Pour conclure, l’importance de la présence d’un sitemap est lié au constat suivant : si une URL de votre site internet est inaccessible par la racine ou via ses URLs descendantes, les robots ne pourront pas la trouver et l’indexer.