Maillage interne : comment définir les pages à mailler en priorité ?
- Sommaire
- Maillage interne : la méthodologie N-gramme
- N-gramme : les étapes clés
- Les limites de l'analyse N-gramme
Pour optimiser le référencement d'un site, il faut définir une stratégie SEO capable de booster son maillage interne. Vous vous demandez sans doute pourquoi ? Parce que les moteurs de recherche accordent une grande importance aux ancres des liens internes lors de l'indexation des sites. Dans cet article, nous abordons une méthodologie d'optimisation du maillage interne axée sur le potentiel d'une URL. Découvrez comment booster le SEO de votre site en tenant compte des résultats de vos pages internes.
Maillage interne : la méthodologie N-gramme
L'organisation des liens internes d'un site est une opération relativement aisée, du moins lorsque celui-ci est de petite taille. Mais lorsqu'il est question de sites volumineux incluant des centaines voire des milliers de pages, il faut faire appel à des approches plus complexes. Dérivée d'une théorie mathématique, la méthodologie N-gramme permet de définir les pages essentielles à lier en priorité pour optimiser le maillage interne d'un site web.
Qu'est-ce que l'analyse N-gramme ?
L'analyse N-gramme est une méthode mathématique appliquée au traitement automatique de la langue naturelle (TALN) ou traitement du langage naturel (TLA). Issue des travaux de Claude Shannon en théorie de l'information, elle est utilisée par de nombreux experts pour créer des modèles prédictifs en analyse de texte.
Un N-gramme est une séquence d'éléments tirés d'un texte (il y a N éléments). En fonction de la recherche effectuée, ces éléments peuvent désigner des lettres, des mots, des nombres et même de symboles. En traitement du langage naturel, ils ne désignent généralement que des groupes de mots. Le SEO étant l'un des nombreux domaines d'application du TLA, les modèles de n-grammes qui y sont utilisés sont uniquement composés de mots.
Il est possible d'analyser le contenu d'une ou de plusieurs pages d'un site internet en utilisant des N-grammes construits à partir d'un ensemble de mots définis. En étudiant la fluctuation de ces mots au sein des pages analysées, on peut obtenir des informations permettant d'optimiser le maillage interne d'un site.
Quelle est l'utilité de l'analyse N-gramme en SEO ?
En SEO, un N-gramme est une séquence de « N » mots-clés construite à partir d'une page ou d'un ensemble de pages d'un site internet. À quoi cela sert-il ? L'idée est d'utiliser des séquences de mots-clés pour analyser le contenu d'un site et repérer les pages à fort potentiel, celles qui doivent être maillées en priorité. Cette méthode utilise un principe proche du pagerank, puisque les pages sont classées en fonction de leur potentiel. Les données du site sont téléchargées grâce à un logiciel d'analyse, puis traitées par un algorithme.
L'analyse N-gramme s'applique à tous les secteurs d'activité, tout ce que vous avez à faire, c'est la contextualiser pour qu'elle corresponde à votre secteur d'activité. Certains peuvent la trouver difficile à appréhender parce qu'elle requiert l'usage d'un concept mathématique, mais il n'en est rien, il suffit d'utiliser des outils adaptés.
Alors, concrètement, quel est l'avantage en SEO ? Les N-grammes jouent notamment sur les probabilités d'apparitions de mots selon tel ou tel contexte (en l'occurrence, les mots situés avant et après). Certains mots sont plus souvent associés ensemble que d'autres, et c'est (en partie) comme ça que Google interprète la qualité de votre contenu. Il est capable de comprendre une suite logique de mots.
Les N-grammes vous permettent de jouer là-dessus et d'adapter votre contenu en conséquence pour y faire figurer les mots et suites de mots les plus intéressants. Ils vous permettent de vérifier à quel point une page est pertinente sur un sujet donné et de l'adapter pour que Google la comprenne tel que vous le souhaitez.
N-gramme : les étapes clés
Nous allons de ce pas vous présenter les étapes clés à suivre lors d'une analyse N-gramme. Avant de commencer, nous tenons à préciser que les données utilisées dans ce guide ne doivent en aucun cas être prises en compte. Elles n'y figurent qu'à titre d'exemple.
Télécharger les données de Google Search Console
Google Search Console vous offre la possibilité de télécharger des données pour des besoins d'analyse. Désormais vous pouvez les exporter sous trois types de formats différents : CVS, Excel et Google Sheets. Lors de l'exportation, assurez-vous que les données soient téléchargées en une seule verticale, cela va éviter de biaiser vos résultats.
Pour plus d'efficacité, il est conseillé d'utiliser l'API Search Console. Cela vous permettra de collecter toutes les données disponibles. En passant par l'interface classique, vous ne pourrez analyser que 1000 éléments au maximum. Pour utiliser l'API, il faut configurer un compte Google Search Console et l'associer à votre site en tant que propriétaire vérifié. Toutefois, pour une utilisation optimale, vous devrez disposer des compétences techniques nécessaires. À défaut, vous pouvez vous faire aider par un développeur.
Supprimer les variables non essentielles
Maintenant que vos données sont exportées, il faut les traiter pour ne garder que celles dont vous avez besoin pour votre analyse. Il arrive très souvent que les mots clés téléchargés comportent des éléments qui ne sont pas essentiels, il faut les supprimer.
Supposons que votre site soit spécialisé dans la vente des tickets de train, et prenons l'exemple d'une liste constituée de quatre mots-clés. Si vous ne souhaitez générer que des N-grammes structurels constitués de variables sous la forme train { { origine } } { { destination } } et train pas cher { { origine } } { { destination } }, vous obtiendrez des résultats comme :
Train Toulon Marseille
Train pas cher Toulon Marseille
Train Paris Lyon
Train pas cher Paris Lyon
Calculer vos N-grammes
Vos données sont désormais assainies et prêtes à l'emploi, il est temps de passer au calcul des N-grammes. Vous avez le choix entre plusieurs langages de programmation : (Python, Perl, Ruby…) pour effectuer votre analyse. Dans le cadre de ce guide, nous utiliserons Python, car il nous semble plus pratique. Non seulement il est simple, mais il est aussi capable de traiter de gros volumes de données à partir d'un ordinateur ordinaire. Après la suppression des variables non essentielles, il va falloir faire 3 choses :
- Importer les librairies
- Créer une liste de mots-clés uniques
- Compter les mots-clés les plus communs
Une fois vos N-grammes calculés de manière automatique, vous devez récupérer les volumes de recherche des structures définies. Les données obtenues donneront un tableau.
Si vous souhaitez accéder aux N-grammes masqués par la Search Console, vous avez la possibilité d'exploiter la fonction native d'Oncrawl lors de votre analyse.
Extraire vos volumes de recherche
Lors de cette étape, il est question d'extraire les volumes de recherche des structures de mots-clés les plus communes dans chaque page. Nous rappelons une fois de plus que l'application de cette méthode requiert des connaissances de base en programmation, c'est la raison pour laquelle nous ne détaillons pas tous les protocoles utilisés et vous invitons à vous rapprocher d'un expert SEO.
L'objectif est simple : définir les pages ayant le potentiel de trafic le plus élevé, celles qui doivent être liées en priorité. Pour ce faire, il faut récupérer les volumes de recherche générés par l'activité du site. Bien évidemment, le volume d'informations à traiter est important, c'est pour cela qu'il est conseillé d'utiliser l'API lors de l'exportation des données. À la fin de cette étape, vous obtiendrez un tableau avec des données.
Fusionner vos données
Vous avez obtenu les données dont vous aviez besoin pour votre analyse, mais vous ne pouvez pas encore vous en servir pour la conclure. Bien qu'elles soient importantes, elles ne sont pas suffisantes pour nous permettre de déduire les pages essentielles à mailler en priorité. Nous vous invitons donc à les croiser avec les données de votre département de vente (revenus, exposition potentiel…), pour donner plus de poids à vos déductions. N'oublions pas que nous travaillons sur le SEO, donc ce qui nous intéresse c'est de nous positionner sur les mots-clés les plus intéressants pour une activité donnée.
Définir des pondérations pour chaque élément
Maintenant que vos données sont fusionnées, définissez des pondérations en fonction de chaque élément pris en considération (exposition potentielle, trafic potentiel et revenus). Il n'existe pas de pourcentages standards, l'idéal serait que chacun définisse des pourcentages en fonction de sa situation.
Standardiser vos données N-grammes
La standardisation est un procédé mathématique qui permettra de redimensionner les données fusionnées plus haut, de manière à les comparer. Pourquoi faut-il passer par là ? Pour éviter de fausser les calculs.
Calculer la note pour chacune de vos URLs
Vous êtes enfin parvenu à la dernière étape de votre analyse. Les pondérations ont été définies, ainsi que les valeurs standardisées. Maintenant, vous devez attribuer une note à chaque URL de votre site qui seront représentées par quatre métriques pondérées : les volumes, les cliques, les impressions et les sessions.
Comme nous le disions plus haut, c'est à vous de définir vos pondérations en fonction de vos besoins et des données à votre disposition.
Cette analyse permet de déterminer la meilleure URL du site étudié, celle dont le score est le plus élevé. Malgré un faible volume de recherche à première vue, une page peut très bien bénéficier d'un CTR élevé, ainsi que d'impressions satisfaisantes, ce qui en fait une URL très intéressante.
Grâce à cette méthodologie, vous pourrez optimiser votre maillage interne en déterminant les pages les plus importantes à lier depuis la page d'accueil, et plus encore.
Les limites de l'analyse N-gramme
Lorsqu'on applique cette méthode, toutes les structures doivent être prises en compte, car elles sont toutes susceptibles d'influencer les calculs. Même celles qui ne sont pas prises en charge par Google Search Console lors de l'exportation des données doivent être incluses pour éviter d'obtenir des résultats peu fiables. Pourquoi soulignons-nous cela ? Parce que les mots-clés de longue traîne n'ont pas la même importance d'un secteur à l'autre.
SEMJuice vous propose des solutions clés en main
Restez informés de l’actu SEO et de nos news