Les bons tuyaux SEO

Comment créer et configurer un fichier sitemap ?

Article publié le 4 avr. 2022
Comment créer et configurer un fichier sitemap ?

Créer un fichier sitemap permet d'accélérer le référencement de son site web. Les sitemaps peuvent être utilisés dans une stratégie SEO afin de mieux choisir les pages que vous voulez voir indexées ou non par les moteurs de recherche comme Google. SEMJuice vous explique comment créer ce type de fichier, en XML ou en HTML, soit à la main soit en générant un fichier avec un plug-in spécifique en fonction du CMS que vous utilisez.

Qu'est-ce qu'un fichier sitemap ?

Un sitemap ou « carte du site » en français est un fichier XML ou HTML destiné aux moteurs de recherche capables d'interpréter le protocole sitemap.org (Google, Baidu, Yandex et Bing/Yahoo pour le moment). Il répertorie les URL d'un site, avec les dates, la fréquence des mises à jour ou encore la priorité d'une page par rapport à une autre. Attention, le sitemap ne doit pas être confondu avec le « plan de site » (qui aide l'internaute à se localiser dans une arborescence).

Fichier sitemap : à quoi sert-il ?

Issu du protocole sitemaps.org, le fichier sitemap liste toutes les URL d'un site. Lorsque les robots (bot) des moteurs de recherche arrivent sur une page, ils se mettent en devoir d'examiner (crawl) chaque lien qu'ils trouvent pour en indexer toutes les pages. Le fichier sitemap a pour but de simplifier le travail des bots de crawl, en leur fournissant directement une liste (index) de toutes les pages qu'ils doivent visiter. Il permet de préciser aux bots quels liens le webmaster souhaite voir indexés en priorité.

En ce qui concerne le fichier sitemap, il peut être utilisé seul ou faire partie du fichier robots.txt.

Quelles informations contient le fichier sitemap ?

Sous la forme d'un fichier texte, il s'agit tout simplement d'une liste d'URL destinée aux bots de crawl de Google, par exemple « https://www.votresite.fr/exemple/exemplepage1.html », « https://www.votresite.fr/exemple/exemplepage2.html »…

En XML, le fichier sitemap se présente sous la forme d'un listing formaté avec une série de balises. Voici les 3 principales :

  • URLSET rattache le fichier au protocole sitemap.org,
  • URL pour chaque entrée d'URL individuelle,
  • LOC pour chaque page individuelle.

À ces 3 balises s'ajoutent 3 paramètres. Il y a LASTMOD qui désigne la date du dernier changement sur la page, CHANGEFREQ qui représente la fréquence de mise à jour et PRIORITY qui correspond au degré (de 0,1 à 1,0) de priorité d'une page du site par rapport à une autre.

fichier sitemap google exemple

Exemple donné par Google d'un fichier sitemap XML simple.

Le paramètre « lastmod »

Cette balise facultative peut être utilisée pour indiquer sur la page à quelle date le contenu a été modifié pour la dernière fois. D'après certaines réponses de Google aux SEO, il semble que le moteur de recherche ignore volontairement ce paramètre. Le blog des développeurs précise que lastmod est ignoré s'il est cohérent avec une donnée vérifiable existante (par exemple si une date est affichée sur la page).

Le paramètre « priority »

Même si la balise est bien présente dans le protocole sitemap.org, il se trouve que Google ignore délibérément la valeur « priority ». Vous pouvez définir toutes les priorités du monde dans votre sitemap, cela n'aura pas d'effet. Les moteurs de recherche comme Google utilisent leurs propres méthodes pour décider de la priorité à accorder aux URL à crawler. Les experts SEO s'accordent à dire qu'il se base depuis 2020 sur des méthodes prédictives, au moyen d'une IA, mais rien n'a été confirmé du côté de Google.

Le paramètre « changefreq »

La balise « changefreq » est ignorée par Google, même si elle entre dans le protocole standard sitemap.org. Il ne sert donc à rien de définir une fréquence de mise à jour pour vos URL : Google en décidera par ses propres moyens.

Un sitemap est-il obligatoire ?

Si votre site est encore petit, ce n'est pas obligatoire. Pour les plus gros sites comme les e-commerces qui génèrent plusieurs pages par jour ou semaine, le sitemap est très utile pour accélérer l'indexation des nouvelles URL. Attention, si vous avez besoin d'un fichier sitemap pour que certaines de vos pages soient indexées, cela signifie que votre site n'est pas bien conçu. Cela peut venir du mauvais maillage interne, soit qu'il n'y a pas assez de liens, soit que l'arborescence des pages est trop « profonde ». Les robots de crawl risquent de ne pas aller au-delà de deux sous-niveaux.

Créer un sitemap n'est pas complexe, mais long et fastidieux. C'est encore plus vrai pour les sites dont le contenu se renouvelle fréquemment, d'où l'intérêt d'automatiser la procédure.

Le sitemap sera donc utilisé en SEO pour :

  • accélérer le crawl, et donc l'indexation de nouvelles pages ou la désindexation de certaines URL,
  • indexer des pages sans lien (orphelines, de type landing page),
  • faciliter la refonte d'un site quand il y a changement d'URL,
  • évaluer la performance SEO en fonction du type de page,
  • mieux comprendre pourquoi Google accepte ou non d'indexer certaines pages,
  • faire une analyse avancée dans le but de trouver des optimisations à mettre en place…

Cela permet donc de travailler le SEO de son site ou encore de faciliter une migration du site web.

Quels types d'URLs intégrer dans un fichier sitemap ?

Un fichier sitemap a une limite de 50 000 URL max. Il est possible de créer plusieurs sitemaps et de les lister dans un index de fichiers, lui-même logiquement limité à 50 000 sitemaps. En revanche, il n'est pas possible de lister directement des index de sitemaps. Sachant que vous pouvez envoyer à Google jusqu'à 500 fichiers index de sitemaps, cela fait une limite maximale de 1 250 000 000 000 URL, ce qui est bien suffisant pour la majorité des propriétaires de sites web. D'autres critères doivent être appliqués :

  • poids max : il ne devra pas dépasser 50 Mo une fois dézippé,
  • encodage : UTF-8,
  • URL absolues, affichées avec leur protocole : HTTP ou HTTPS.

Un sitemap ne sert pas à déclarer une URL comme canonique (la balise canonical se trouve dans l'en-tête HTML de chaque page). En revanche, le fait de lister des URL dans un fichier fait comprendre à Google que ces URL sont importantes, et donc « canoniques ».

Sitemap et CMS : quelle méthode choisir ?

Vous avez la possibilité de créer un sitemap à la main ou via un générateur de sitemaps. Les deux méthodes ont leurs avantages et leurs contraintes, notamment quand on destine ce sitemap à un site web en CMS comme WordPress, PrestaShop ou Joomla. Dans ce cas, la plupart des CMS disposent de plug-ins permettant de générer plus ou moins facilement un fichier sitemap.

Sitemap sur Wordpress

Pour créer un sitemap pour WordPress, le plus simple est d'installer un plug-in qui le gérera pour vous comme Yoast SEO ou XML Sitemaps, All in One SEO ou Rank Math.

Sitemap sur PrestaShop

PrestaShop proposait par défaut un module gratuit capable de créer des sitemaps. Il faut désormais installer un module complémentaire comme Sitemap XML Pro par exemple (il en existe certains payants et d'autres gratuits). Une fois les listings créés, la tâche de mise à jour peut être automatisée avec un CRON au besoin.

Sitemap sur Joomla

Comme avec PrestaShop, Joomla requiert l'installation d'un plug-in ou extension pour générer des sitemaps, comme JSiteMap ou EKS. Il suffit de passer par l'onglet « extensions » du dashboard de votre site, dans lequel vous irez ouvrir un fichier d'extension zippé. Les extensions sont disponibles en téléchargement gratuit ou payant dans le « Joomla! Extensions Directory ».

Sitemap sur Shopify

Shopify dispose d'un générateur de sitemaps intégré à sa version par défaut (Basic), ce qui est bien pratique. Le fichier se met à jour automatiquement dès que vous ajoutez une catégorie, une fiche produit ou encore un article de blog.

Comment créer un fichier sitemap ?

Créer un fichier sitemap demande un peu de temps, mais si vous avez beaucoup de pages, ce peut être très utile pour vous aider à indexer plus vite vos nouvelles URL. Étant limité à 50 Mo, évitez de lister trop d'images ou de vidéos si ce n'est pas crucial pour vous ou scindez votre fichier en plusieurs.

Le fichier sitemap peut être placé n'importe où sur votre site, mais son emplacement a une importance. Si vous le placez dans un sous-répertoire, le sitemap n'impactera que les sous-dossiers « enfants » de ce sous-répertoire. C'est pourquoi Google recommande de le placer au plus haut niveau de la hiérarchie du site web, c'est-à-dire à la racine du site.

Choisissez un nom pour votre sitemap

Vous pouvez lui donner le nom que vous voulez, pourvu qu'il soit encodé en UTF-8 et se termine par l'extension « .txt. »

Attention avec les sitemaps générés automatiquement : ils portent souvent le même nom par défaut et sont rarement renommés par les webmasters. De ce fait, ils sont facilement trouvables par la concurrence. Évitez donc de l'appeler « sitemap ». Vous n'avez pas forcément envie qu'un concurrent puisse savoir exactement quelles URL sont les plus importantes pour vous.

Déterminez le format de votre sitemap

Un fichier sitemap peut être en TXT, en ATOM 1.0, en RSS, en mRSS ou en XML. Les cas suivants ne peuvent pas être gérés avec un simple fichier TXT :

  • les index de sitemaps,
  • si vous voulez fournir des informations aux mobiles,
  • si vous avez besoin de gérer plusieurs langues (attribut « hreflang »),
  • les sites d'actualités,
  • les listings d'images et de vidéos (ceux que vous souhaitez voir indexés, mais attention cela ajoute du poids au fichier).

Dans ces cas-là, il faudra utiliser le XML.

Créez votre ou vos fichiers sitemap

En règle générale, on évite de passer par un générateur de sitemaps. Pourquoi ? Parce qu'il faudra recrawler l'intégralité du contenu du site à chaque modification, ajout ou suppression d'URL. Autant dire qu'en fonction de la taille de votre site, cela peut être très long.

De plus, pourquoi utiliser un générateur de sitemaps qui imite le procédé d'indexation de Google alors que le moteur de recherche crawle déjà votre site ? Il est donc plus optimisé de passer par un script pour créer, générer et mettre à jour son propre fichier sitemap. John Mueller, Webmaster Trends Analyst chez Google, explique lui-même qu'il vaut mieux automatiser le procédé à partir de sa propre base de données locale.

Créer un sitemap manuellement peut se faire avec le bloc-notes de Windows, surtout si vous vous contentez de lister quelques URL (une URL absolue par ligne). Dans ce cas, faites attention à bien respecter l'encodage UTF-8 notamment pour les caractères spéciaux contenus dans les URL. Un fichier sitemap ne pouvant contenir que des caractères ASCII, vous devrez donc respecter les codes d'échappement le cas échéant.

Déclarez votre fichier sitemap à Google

Le fichier sitemap (ou votre index de sitemap) doit être envoyé à Google. Vous pouvez le soumettre au moyen de la Google Search Console (onglet rapport sur les sitemaps) en uploadant simplement le document, ou bien en ajoutant son URL à votre fichier robots.txt si vous en avez un. Attention, le fichier robots.txt doit forcément se trouver à la racine du site et porter exactement ce nom.

Vous pouvez aussi faire un PING en envoyant une demande GET à l'adresse de Google, comme sur l'image ci-dessous extraite du blog des développeurs :

ping google sitemap

Si vous utilisez les flux RSS ou ATOM, vous pouvez envoyer directement l'URL de votre flux à Google via WebSub. La plupart des logiciels de développement disposent d'une génération de flux RSS automatique, mais si vous laissez les paramètres par défaut, il est possible qu'ils ne se mettent pas aussi bien à jour que manuellement.

Le sitemap est une option pratique pour faire indexer ses nouvelles pages plus rapidement, surtout quand on a un très gros site dont le contenu bouge beaucoup. Cela concerne surtout les sites d'actualités et les sites e-commerce. Plutôt simple à créer, il demande de respecter un encodage précis et a quelques limites notamment au niveau du poids. Il peut en revanche devenir très fastidieux à gérer au quotidien. SEMJuice vous recommande donc de créer une tâche d'automatisation pour ne plus avoir à vous en soucier.

Le fichier sitemap ne dirige aucunement les robots de Google. Il s'agit d'une liste de recommandations, qu'il pourra suivre ou non en fonction de ses propres critères. L'ordre des URL dans la liste n'a d'ailleurs pas d'importance : Google les explorera dans l'ordre qu'il souhaitera.

Un sitemap est aussi un excellent outil pour évaluer les performances d'un site internet, trouver les pages orphelines ou zombies et détecter les optimisations qui vont vous permettre ensuite d'améliorer votre SEO. Il ne va pas donc booster votre référencement lui-même, mais vous pouvez l'utiliser pour être mieux référencé ! SEMJuice vous propose de nombreux autres conseils pour améliorer les performances de votre site.

Demandez un audit et un devis gratuit pour une stratégie de netlinking