TF*IDF

Le TF*IDF pour « Term Frequency * Inverse Document Frequency » est une méthode de calcul générée par un algorithme de moteur de recherche et qui permet de déterminer la pertinence d’un document ou d’un site internet par rapport à un terme. Pour atteindre son objectif, cette formule mathématique prend en compte deux facteurs principaux : la fréquence du terme étudié dans le texte (TF) et le nombre de documents contenant ce terme (IDF).

Quelle est l’origine de cette technique ? Quels sont son utilité et son intérêt pour votre SEO ? Et comment l’utiliser pour optimiser votre référencement naturel ? Faisons le point à travers cet article.

L’origine du calcul TF*IDF

Les premiers moteurs de recherche, dont Infoseek, Webcrawler et Altavista, accordaient une grande importance à la fréquence des mots-clés pour classer les sites dans les SERPs. Ainsi, plus un terme clé apparaissait sur une page web, plus celle-ci était pertinente aux yeux des algorithmes des moteurs. Le Term Frequency (TF) a donc été adopté pour évaluer le nombre d’occurrences d’une expression ou d’un mot sur une page ou un ensemble de pages internet.

Cependant, avec la croissance de la toile, cette mesure similaire à la fameuse « densité de mots-clés » est devenue très vite insuffisante. Pour remédier à cela, un deuxième niveau d’analyse a été introduit avec un concept né en 1972 : l’Inverse Document Frequency (IDF) créé par la chercheuse anglaise Karen Spärck Jones. Ce dernier permettait de mesurer le nombre de documents contenant un terme donné dans l’ensemble du corpus étudié.

La formule de départ

En 1975, le célèbre chercheur scientifique Gerard Salton a repoussé les limites des algorithmes des moteurs, en créant la première formule TF*IDF. Celle-ci met en relation le TF et l’IDF pour donner à un terme trouvé dans un document un « poids ». Cette valeur de pondération permet de déterminer si le document est particulièrement intéressant pour être proposé en résultat à une requête sur le terme étudié.

La formule récente d’Okapi BM25

Après sa forme de départ, le concept TF*IDF de pondération des termes a été perfectionné de nombreuses fois pour offrir les résultats les plus précis possible. Plusieurs variantes ont donc été créées et testées pour l’évaluation de la pertinence des documents. Parmi celles-ci figure la variante récente connue sous le nom « Okapi BM25 ». Cette métrique basée sur la logique du Cosinus de Salton est l’une des variantes du TF*IDF qui sont les plus précises et les plus satisfaisantes.

Comment calculer le TF : Term Frequency ?

L’objectif principal du TF est de déterminer la fréquence à laquelle un terme précis apparaît dans un article par rapport au reste des termes utilisés dans le texte. Pour cela, le concept utilise un logarithme qui attribue au mot-clé sa juste valeur de pondération à travers une formule.

Ainsi, pour calculer le score TF d’une expression « i » dans le document « j », il faut ajouter la fréquence de l’expression à « 1 » et diviser le tout par le nombre total de mots « Lj » utilisés dans le contenu. Le logarithme « log2 » s’applique aux deux valeurs de la fraction, afin de fournir un résultat plus représentatif de la pertinence de l’expression clé, qu’il s’agisse de déterminer sa densité pure ou sa fréquence relative.

Comment calculer l’IDF : Inverse Document Frequency ?

Contrairement au TF qui se limite au nombre d’occurrences d’un mot sur une page spécifique, l’IDF permet d’évaluer la pertinence des mots en tenant compte de leur présence et leur utilisation sur l’ensemble des textes d’un site.

Ainsi, pour déterminer le score IDF d’un mot « i » sur un site, il faut diviser le nombre total de toutes les pages présentes sur la plateforme par le nombre de documents contenant le mot « i ». Ensuite, il faudra ajouter 1 au résultat et déduire le logarithme « log » de l’ensemble, pour avoir une valeur plus précise.

Utilité et avantages du TF*IDF en SEO

Les avantages de la méthode TF*IDF en SEO sont nombreux. En effet, les valeurs de pondération obtenue après le calcul sont utiles pour :

Améliorer la pertinence d’un texte
Créer des documents web uniques et optimisés
Optimiser le référencement naturel du site pour les bonnes requêtes

Amélioration de la pertinence d’un site web

La rapport des mots-clés avec les contenus est d’une importance capitale pour le référencement. C’est l’un des principaux critères que Google évalue pour classer les sites dans les SERP. Lorsqu’un internaute lance une requête, les algorithmes du moteur interprètent la relation sémantique entre sa requête et les contenus des sites indexés. Ainsi, plus votre article est pertinent par rapport à un mot-clé, plus vous aurez de chances d’apparaître dans les SERP pour une requête contenant ce mot.

Dans ce contexte, il est important d’améliorer la qualité de l’information que vous proposez sur votre site. C’est là qu’intervient l’utilité du score TF*IDF. Le calcul de cette valeur vous aidera à réaliser une analyse sémantique latente (latent semantic optimization) pour améliorer la pertinence des articles que vous publiez.

Création de contenu unique et optimisé

Cela n’est plus à prouver, l’originalité des articles et documents web est l’un des points essentiels pour se démarquer des concurrents et avoir un bon positionnement sur Google. Pour créer des textes originaux qui diffèrent du contenu des sites concurrents, l’analyse TF*IDF est l’un des concepts les plus utilisés. Et pour cause, cette métrique permet d’étudier les articles des sites rivaux pour effectuer une comparaison concurrentielle ciblée. Ainsi, vous pourrez déterminer votre stratégie de markéting de contenu en fonction des résultats obtenus.

L’avantage, c’est que vous n’avez pas besoin de calculer manuellement le score TF*IDF de chacun des sites concurrents. Il existe aujourd’hui plusieurs outils SEO qui embarquent directement cette fonction :

SEMrush
OnpageDoc
SEOlyze
Seobility
SEO Ideas

Optimisation des mots-clés sélectionnés

Aujourd’hui, le TF*IDF est très utile pour optimiser des textes pour les moteurs de recherche. En effet, cette métrique ne se contente pas de renseigner sur le nombre d’occurrences ou le poids d’une expression ou d’un mot dans un document. Elle permet également de déterminer quels sont les mots-clés utilisés dans tel ou tel article. Ainsi, vous pourrez facilement améliorer l’optimisation de vos documents web, en vous positionnant sur les bonnes requêtes. De plus, l’analyse TF*IDF de votre site vous permettra de savoir si vous effectuez du keyword stuffing ou si vos contenus sont sous-optimisés pour une requête donnée.

Les limites du TF*IDF

Si cette méthode peut contribuer à mettre en place une bonne stratégie de markéting de contenu, elle n’est pas une « arme secrète » pour booster son référencement naturel sur Google. En effet, ce concept possède également des limites, bien qu’il soit utilisé dans la plupart des outils de référencement.

Ne pas se fier uniquement à cet indicateur

La première limite de l’analyse TF*IDF, c’est qu’elle ne prend pas en compte les synonymes des termes étudiés. De plus, cette technique n’admet pas l’éventualité de la recherche cumulative. Par ailleurs, elle ne prend pas en considération que des règles de recherche du radical peuvent être appliquées lorsqu’il s’agit d’évaluer le nombre d’occurrences d’un mot dans un corpus de texte. Le TF*IDF permet donc de réaliser une étude globale des mots-clés, ce qui est insuffisant pour réussir sur la toile avec l’évolution permanente des algorithmes et des critères de classement sur Google. Il n’est donc pas astucieux de se fier uniquement à cette technique si vous souhaitez améliorer les performances SEO de votre site.

Inclut tous les éléments de texte d’un document

Le TF*IDF étant basé sur le nombre d’occurrences d’un mot sur une page, il doit inclure tous les éléments du texte pour proposer un résultat optimal. Ainsi, lorsque vous analysez un document en utilisant cette technique, tous les contenus textuels sont pris en compte : les titres de catégories, les en-têtes, les légendes d’images… Le travail d’analyse ne parvient donc pas à différencier les différents composants de l’article. De plus, dans les cas de keyword stuffing ou de sous-optimisation, les résultats ne permettent pas d’identifier quels sont les phrases ou les paragraphes concernés.

Méthode intéressante sur un nombre de mots élevé

Avec son concept d’évaluation du nombre d’apparitions des termes, la technique TF*IDF ne devient efficace qu’avec de longs textes. Dans le cas des documents plus courts (articles de presse, descriptions de produits), les résultats obtenus sont généralement insignifiants. Ce concept basé sur la fréquence des mots n’est donc pas utile sur certaines plateformes web. Il s’agit notamment des boutiques en ligne, des portails d’information, des sites d’annonces… De plus, c’est une technique de vérification difficile à utiliser dans un processus de travail qui nécessite de la rapidité et une bonne réactivité.

En résumé, le TF*IDF et ses principaux dérivés constituent un moyen efficace pour déterminer le nombre d’occurrences d’un mot ou d’une expression dans un corpus de documents. Cependant, malgré ses avantages et son utilité dans le référencement on-page, cette technique ne fournit qu’une impression globale de l’utilisation des mots étudiés. Elle ne suffit donc pas pour créer des articles lisibles et optimisés pour les algorithmes des moteurs.

Pour réussir votre stratégie de markéting digital, il est important de compléter cette solution avec des outils techniques et professionnels qui répondent aux réalités du moment.