Données structurées

Les données structurées sont des informations fournies suivant un format normalisé, qui permettent de donner des indications aux moteurs de recherche sur le contenu d’un site internet. Elles sont implémentées au moyen de balises spécifiques (les balises de données structurées) que l’on ajoute au code source de la page.

Données structurées : définition

Les données non structurées sont plus difficiles à interpréter par les robots. C’est pourquoi le SEO insiste tant sur la nécessiter de baliser clairement ses contenus web.

Les données structurées ou structured data en anglais offrent aux robots de crawl des moteurs de recherche un contenu qu’ils peuvent lire et comprendre facilement. Ce format permet de fournir aux moteurs de recherche des éléments précis sur le contenu d’une page, et sur la manière dont il doit être interprété.

Par exemple, si vous avez une page dédiée à un produit, vous pouvez utiliser les données structurées pour préciser le nom du produit, sa marque, son prix, etc.

Ces données peuvent offrir une meilleure visibilité de la page dans les résultats de recherche.

Comment utiliser les structured data ?

Les données structurées se déclarent dans le code source HTML d’une page à l’aide de balises spécifiques. Ces dernières sont classées en 3 grandes familles :

Les microdonnées, développées par Mozilla et Google.
Les RDFa, développées par l’organisation à but non lucratif W3C pour la standardisation du web.
Les données du vocabulaire schema.org, développées conjointement par Google, Yahoo, Microsoft et Yandex.

Les microdonnées (microdata) sont les plus répandues actuellement, mais il est possible d’utiliser plusieurs types de balises sur une même page, y compris du JSON.

Le W3C a développé un ensemble de standards permettant de structurer les données sur le web, le « Web sémantique ». Les technologies du web sémantique permettent donc de mieux interpréter les pages web et d’améliorer la qualité des résultats de recherche.

RDF et RDFa

Le Resource Description Framework (RDF) est un standard permettant de modéliser les données sous forme de triplets sujet-prédicat-objet. C’est une représentation très puissante, mais qui peut vite devenir complexe à gérer.

RDFa est une extension du HTML permettant d’incorporer des données RDF dans les pages web.

Les données sont ainsi intégrées directement dans le code HTML et peuvent être lues par les robots sans passer par un traitement supplémentaire.

Microdonnées

Les microdonnées sont une autre façon d’intégrer des données structurées dans les pages web.

Le standard HTML5 permet d’ajouter des attributs spécifiques aux différents éléments du code.

Par exemple, on peut ajouter l’attribut itemscope à un élément pour indiquer qu’il contient des données.

Les microdonnées sont une technologie plus simple à mettre en œuvre que RDFa, mais moins puissante.

Elle est cependant suffisante pour la plupart des applications et permet d’intégrer facilement des données structurées dans les pages web.

Schema.org

Schema.org est un vocabulaire commun utilisé par les principaux moteurs de recherche pour baliser les contenus web. Il permet de décrire de nombreuses entités et relations entre elles.

Par exemple, on peut y trouver des schémas pour décrire des personnes, des organisations, des événements, etc.

Schema.org est compatible avec les formats RDFa et Microdonnées, et permet donc de baliser facilement les contenus web.

Pour quelles pages web utiliser les données structurées ?

Toutes les pages peuvent bénéficier des données structurées, mais certaines sont plus propices que d’autres. Voici quelques exemples de pages sur lesquelles vous pouvez mettre en place des données structurées.

Les pages produits

La fiche d’un produit doit contenir de nombreuses informations : nom du produit, photo, description, prix, etc. Les données structurées permettent de baliser toutes ces informations et ainsi faciliter le travail des robots des moteurs de recherche.

Les pages de catégories

Les pages de catégories présentent généralement une liste de produits. Il est possible d’utiliser les données structurées pour indiquer le nombre de produits présents sur la page, leur prix moyen, etc.

Les pages blog

Les articles de blog peuvent aussi contenir des données structurées telles que la date de publication, l’auteur, les catégories, etc. Ces informations permettent aux moteurs de recherche de mieux comprendre le contenu de la page.

Pourquoi Google a-t-il besoin des données structurées ?

Les données structurées fournissent des indications précises à Google au sujet du contenu des pages web. Elles permettent également au moteur de recherche de collecter des informations au sujet du web et du monde en général.

Featured Snippets

Lorsque ces données structurées sont pertinentes, elles peuvent être utilisées par Google pour enrichir ses résultats de recherche : ce sont les featured snippets des SERP.

Les extraits que Google propose en position zéro permettent de répondre directement à certaines requêtes. mais vous n’avez aucun moyen de décider quels éléments Google va prendre de votre site, si vous êtes choisi…

En structurant vos données de manière standardisée, cela peut améliorer la visibilité de votre contenu sur le web.

Le robot de Google reste un robot

Il ne peut donc pas comprendre le contenu d’une page comme le ferait un être humain. Interpréter les relations entre les différents éléments d’une page et les sous-entendus est très difficile pour un robot.

Exemple : sur une page produit, le robot ne peut pas savoir si le nom du produit est celui de la marque ou si c’est un autre élément. C’est un problème d’entité nommée.

L’autre souci provient des données non structurées : comment identifier des synonymes, des homonymes ou des raccourcis stylistiques comme la métonymie ?

Problématiques liées aux données non structurées

La difficulté des robots à reconnaître les noms d’entités (lieux, personnes réelles ou non, organisations) est un problème majeur quand on s’intéresse à la recherche d’information (Information Retrieval ou IR, à la base des algos des moteurs de recherche).

Knowledge graph et Wikidata

Les moteurs de recherche ont donc développé une technologie permettant d’identifier ces entités, le Knowledge Graph. C’est un ensemble d’informations géré par Google et accessible à tous. Il permet de donner plus de contexte aux requêtes et ainsi de mieux répondre aux internautes.

Par exemple, si vous recherchez « Molière », la page contiendra des informations sur sa biographie et ses œuvres les plus célèbres.

Le Wikidata est une source d’informations pour le Knowledge Graph de Google. C’est un projet collaboratif développé par la fondation Wikimedia. Il s’agit d’une base de données librement accessible et modifiable par tous. N’importe qui peut ajouter des données sur n’importe quel sujet.

Les moteurs de recherche peuvent ainsi s’appuyer sur ces informations pour améliorer leurs résultats.

Quelques limites

Le Knowledge Graph est donc une source d’informations très utile, mais il a ses limites. En effet, il ne contient pas encore toutes les entités présentes sur le web et certaines informations peuvent être erronées.

Pour cette raison, il est important de baliser vos données avec des données structurées. De cette manière, vous pouvez être sûr que les robots de Google comprennent bien le contenu de votre page et qu’ils l’indexeront correctement.

Problème des données non structurées

Le problème des données non structurées vient du fait que les robots ne peuvent pas toujours faire le lien entre les différents éléments du langage et leur présence dans une page.

Par exemple, si vous mentionnez le terme « Président » dans un article, vous parlez du verbe présider conjugué, de la fonction de président, de la personne actuellement présidente (de quel pays ?) ou encore de la marque de fromage ?

Si vous dites que vous prenez la porte, que vous allez boire un verre (métonymie) ou qu’il pleut des cordes, comment empêcher le robot de prendre la phrase au sens littéral ?

Pour les moteurs de recherche, il s’agit donc de deviner le contexte sémantique dans lequel est utilisé un terme.

Le traitement du langage naturel NLP

Le Natural Language Processing est une discipline qui s’intéresse à ces problèmes de données non structurées et propose des solutions machine-learning pour mieux les résoudre.

Résoudre les problématiques des données non structurées

Les algorithmes auto-apprenants ou intelligences artificielles permettent de créer des modèles mathématiques à partir de données existantes pour mieux prédire les relations entre les différents éléments d’une page. En intégrant le NLP, Google a pu améliorer son interprétation du contenu et fournir des résultats plus pertinents.

En effet, les moteurs de recherche doivent faire face à une multitude de requêtes chaque jour et il est impossible pour un être humain de traiter toutes ces données.

Comment Google utilise-t-il le NLP ?

Google utilise le NLP pour différentes tâches :

Dans la recherche d’information : le NLP permet de mieux comprendre le contenu des pages et ainsi de fournir des résultats plus pertinents aux internautes.
Dans la publicité : le NLP permet de cibler les internautes en fonction du contenu des pages qu’ils consultent.
Dans la recherche vocale : le NLP permet de mieux comprendre les requêtes vocales et ainsi de fournir une réponse plus adaptée.
Dans la traduction : le NLP permet de mieux comprendre le contenu des pages en langue étrangère et ainsi de fournir une traduction plus précise.

Un algorithme qu’il faut entraîner

Mais cela prend du temps. Les moteurs de recherche doivent collecter et analyser de gigantesques quantités de données pour améliorer leurs algorithmes.

Par exemple, l’algorithme BERT de Google s’est entraîné sur des millions de pages web pour mieux comprendre le contexte sémantique, et il continue encore.

Conclusion

Les données structurées permettent aux moteurs de recherche d’améliorer la qualité de leurs résultats et d’offrir des fonctionnalités avancées aux internautes.

Par exemple, Google peut utiliser les données structurées pour afficher directement les horaires d’ouverture d’un commerce ou les tarifs d’un hôtel dans les résultats de recherche.

L’arrivée du traitement du langage naturel NLP et du machine learning permet aux moteurs de recherche de mieux en mieux comprendre le contenu sémantique des pages web.

Mais cela prend du temps et les robots ne sont pas encore parfaits, s’ils le seront un jour ?

Données structurées