publié le 13 sept. 2021
Cosinus de Salton

Définition SEO du Cosinus de Salton

Le Cosinus de Salton est une mesure issue du modèle vectoriel initié par Gerard Salton (1927-1995) qui permet de représenter un contenu par un vecteur et son poids pour une recherche par un angle entre plusieurs vecteurs. Les moteurs de recherche l'utilisent pour définir la pertinence d'une page web vis-à-vis d'une requête donnée.

Qu'est-ce que le Cosinus de Salton ?

Pour comparer plusieurs pages web entre elles et identifier celle qui répond le mieux à une requête de l'internaute, les moteurs de recherche utilisent différentes méthodes. Parmi celles-ci, le Cosinus de Salton est l'une des plus anciennes et des plus populaires. Découvrez ici les explications sur l'origine et le fonctionnement de cette mesure.

Définition du Cosinus de Salton

Le Cosinus de Salton est un concept mathématique qui sert à évaluer la pertinence sémantique d'un document pour un terme de recherche donné. Il permet de représenter plusieurs pages de contenu et une requête dans un espace défini par des vecteurs et d'évaluer les angles formés. Les coordonnées de chaque document sont déterminées sur la base du nombre d'occurrences des termes de l'index en son sein.

Les documents qui sont proches les uns des autres dans l'espace vectoriel ainsi créé sont également proches d'un point de vue sémantique. Autrement dit, plus l'angle entre une page de contenu et une requête est petit, plus cette page sera pertinente d'un point de vue sémantique. Dans la pratique, il s'agit d'un concept assez complexe qui ne peut être implémenté qu'avec des ordinateurs.

L'origine du Cosinus de Salton

Cette approche a été présentée pour la première fois dans les années 70 par Gerard Salton, son initiateur. D'origine allemande (Gerhard Anton Sahlmann est son vrai nom), ce chercheur informatique de l'université de Cornell est également celui qui a coinventé le concept du poids « TF*IDF » avec Karen Spärck Jones. C'est d'ailleurs à la suite de ces travaux que le fameux Cosinus a fait son apparition dans la sphère de la recherche d'information. Il a ensuite été utilisé pour le développement du SMART Information Retrieval System de l'université de Harvard.

Depuis cette époque, la méthode a été largement utilisée par les développeurs et les informaticiens. Le moteur de recherche AltaVista, leader des plateformes de recherche dans les années 90, avait un algorithme basé sur ce modèle. Google a également utilisé un modèle similaire à ses débuts.

Bien entendu, les techniques ont beaucoup évolué ces dernières années et il est très probable que les moteurs de recherche soient passés à des outils beaucoup plus modernes et plus sophistiqués pour classer les sites web.

À quoi sert le Cosinus de Salton en référencement ?

Le Cosinus de Salton est utile dans de nombreux domaines, y compris celui du référencement SEO. Voici quelques actions que ce modèle mathématique permet de réaliser dans ce domaine.

Aide à déterminer la pertinence d'une page

L'utilité principale de ce concept en référencement SEO est la détermination de la pertinence d'une page. Autrement dit, le calcul de cette valeur va permettre à un webmaster d'évaluer à quel point le contenu d'une page répond à une requête ou s'en rapproche. Ainsi, il peut produire un texte qui est optimisé pour les moteurs de recherche.

Cependant, il ne s'agit pas d'une approche révolutionnaire en SEO, car les moteurs de recherche vont bien au-delà d'une simple analyse sémantique pour déterminer le positionnement d'une page web dans leur SERP. D'autres données telles que le pagerank du site, les liens entrants, la structure de la page et les performances du site entrent également en ligne de compte lors de l'affichage des résultats de recherche.

Par ailleurs, il faut également garder à l'esprit que cette approche repose sur l'occurrence de mots-clés. Ainsi, le fait de vouloir trop se rapprocher d'une requête d'un point de vue sémantique risque d'occasionner une suroptimisation ou une perte de naturel.

Peut permettre de détecter du duplicate content

Étant donné que la méthode permet de calculer le degré de similarité de deux contenus, elle peut être utilisée à des fins de détection de duplicate content. En effet, deux pages web dont les contenus sont identiques auront approximativement les mêmes coordonnées dans l'espace. Le cosinus de l'angle entre les deux vecteurs formés par ces pages pourrait donc être égal à 1 (ou presque).

Détermine la cohérence sémantique des pages

La méthode du Cosinus de Salton peut permettre de savoir si les pages d'un site internet sont proches sémantiquement. Cela est très important pour que le site en question puisse ranker correctement sur les bons mots-clés.

Comment fonctionne le Cosinus de Salton ?

Pour comprendre le fonctionnement de ce concept, il faut s'appuyer sur les notions d'espace et de vecteur.

Le fonctionnement du Cosinus de Salton

Lorsqu'on prend un document (le texte d'une page par exemple), il peut être situé dans un espace vectoriel par un vecteur. Les axes de l'espace vectoriel ainsi considérés correspondent à chacun des termes de l'index.

Prenons maintenant une requête qui est également un document composé de quelques mots seulement. Par analogie, elle peut également être représentée dans l'espace vectoriel de Salton.

Après avoir représenté ces deux vecteurs, il s'agira de calculer le cosinus de l'angle qu'ils forment afin de tirer une conclusion. Plus il est grand, plus les documents sont proches sémantiquement. Ce travail peut être effectué pour N documents par rapport à une même requête.

Notez que dans la pratique, le nombre d'axes (de dimensions) de l'espace vectoriel peut s'étendre à l'infini en fonction du nombre de mots qui se trouvent dans l'index de documents.

Le calcul du Cosinus de Salton

La formule du Cosinus de Salton n'est pas différente de celle du cosinus en général.

Si l'on considère un triangle ABC rectangle en A, avec BC l'hypoténuse et AC le côté adjacent, le cosinus de l'angle ABC sera calculé comme suit : cosABC = AB sur BC.

Cela correspond au côté adjacent sur l'hypoténuse.

Le résultat est toujours compris entre 0 et 1.

Cosinus de Salton : l'alignement sémantique des contenus

L'alignement sémantique consiste à retravailler une page web et son contenu de manière à ce qu'elle se rapproche d'une requête dans l'espace. C'est un processus qui se fait progressivement jusqu'à ce que l'on obtienne un bon alignement. Une fois que ce dernier est obtenu, le webmaster peut se concentrer sur d'autres critères ainsi que sur l'optimisation off-page pour améliorer le positionnement de la page web.