publié le 13 sept. 2021
Schema.org

Définition SEO de Schema.org

Schema.org est à la fois un site internet et un balisage sémantique créé en 2011 par Google, Yahoo et Bing. Il a pour but de rassembler en un seul endroit, de maintenir et de faire évoluer les différentes balises de données structurées élaborées par ces moteurs de recherche. Comment fonctionne le balisage Schema.org ? Et quelle est son utilité pour un site internet ?

Définition de Schema.org

Pour faciliter la compréhension des informations présentes sur une page web par les robots des moteurs, il est nécessaire de formater les données structurées avec un standard connu. Pour cela, les webmasters utilisaient conjointement plusieurs standards, dont les microformats, RDFa et microdata. Dans la perspective de rendre le travail plus facile, un nouveau standard commun proposant tous les paramètres de balisage des données structurées a été initié par les principaux moteurs de recherche. Il s'agit du fameux Schema.org prononcé « schéma point org » en français.

L'origine de Schema.org

L'initiative de standardisation des balises de schéma a été conjointement prise par les 3 principaux moteurs de recherche : Google, Bing et Yahoo. L'idée de cette association collaborative était d'uniformiser et de regrouper sur un site unique l'ensemble des annotations sémantiques servant à présenter les contenus web. Le site Schema.org a donc été lancé en juin 2011 pour répondre à cette volonté. Quelques mois après le lancement, le moteur de recherche russe Yandex a rejoint le projet en novembre 2011.

Qu'est-ce que les données structurées ?

Dans le domaine du référencement naturel, les données structurées sont des micro-données utilisées dans le code HTML et qui fournissent aux robots des informations complémentaires sur certains éléments (dont les entités) présents dans le contenu d'une page web. Elles ont pour but d'aider les robots à mieux comprendre le sens et le contexte sémantique d'un document. On parle de données structurées puisque ces annotations sémantiques s'appuient sur un vocabulaire spécifique basé sur une ontologie ou un référentiel tel que le Schema.org. Tout comme les autres éléments du code HTML, ces micro-données ne sont pas visibles pour les internautes.

Quelle est l'utilité des données structurées ?

Pour un utilisateur humain, il est facile d'établir la relation entre les différentes parties d'une page internet pour comprendre le sens et le contexte sémantique de son contenu. Les crawlers et robots d'indexation n'interprètent pas les contenus web de la même manière. Bien qu'ils soient capables d'analyser les pages en vue d'une indexation par les moteurs, les robots ne sont pas en mesure d'établir des connexions implicites entre les éléments d'un texte pour en saisir le sens complet, comme le font les internautes. Ainsi, quelles que soient la qualité et la pertinence d'un document web, les spiders ne seront jamais « sûrs » à 100% d'avoir une compréhension complète de son contenu.

C'est dans la perspective de rendre les pages internet plus lisibles et facilement compréhensibles pour ces programmes informatiques que les données structurées sont utilisées. Une fois intégrées dans le code source, ces micro-données permettent d'améliorer la présentation du contenu pour un meilleur traitement par les programmes d'indexation des moteurs de recherche.

En effet, ces données dites structurées apportent aux robots des détails sémantiques supplémentaires qui leur permettent de donner un sens au contenu et aux différents éléments qui le composent. En d'autres termes, on peut dire que les données structurées permettent d'indiquer aux crawlers « le signifié qui se cache derrière le signifiant ».

Pour mieux comprendre comment cela fonctionne, prenons l'exemple d'une page contenant la phrase : « Barack Obama, né le 4 août 1961 à Honolulu, est un homme d'État américain et le 44e président des États-Unis ».

Avec les données structurées, il sera plus facile pour un robot lisant cette phrase d'établir la relation entre le nom propre, la date et le lieu de naissance ainsi que la fonction occupée. Le crawler n'aura donc aucun mal à saisir le sens global de la phrase, ce qui facilitera le travail d'indexation.

Qu'est-ce que Schema.org ?

Schema.org est à la fois un site et un référentiel qui rassemblent en un seul endroit toutes les informations disponibles pour intégrer efficacement les balises de données structurées dans un fichier HTML. Ce site constitue un standard de format et de balisage sémantique complet, qui facilite l'utilisation et l'intégration de tout type de données structurées.

Un standard défini par Google, Bing et Yahoo

Le concept du Schema.org est basé sur un accord entre les moteurs leaders de la recherche en ligne. Cette plateforme définit et uniformise les paramètres de balisage à prendre en compte pour les différents formats de données, en fonction des schémas proposés (personnes, entreprises, organisations, lieux, événements…).

Son vocabulaire comprend actuellement deux grandes hiérarchies : une pour les valeurs de propriété textuelle et une autre pour les schémas qu'elles décrivent.

Selon les chiffres disponibles sur la plateforme, ces deux hiérarchies principales se composent de :

  • 779 types
  • 1390 propriétés
  • 15 types de données
  • 81 énumérations
  • 437 sous-types d'énumération

Tous les contenus annotés avec ces valeurs de propriétés et ces énumérations sont considérés comme standard, puisque l'ontologie Schéma.org prend en compte les différentes balises de micro-données acceptées par les principaux moteurs de recherches.

Un balisage sémantique

Depuis son lancement, Schema.org a pour but de développer et d'explorer divers modèles d'extensions afin de mettre en place un vocabulaire qui soit le plus descriptif et le plus détaillé possible en termes de données structurées. Pour cela, la plateforme combine plusieurs standards et formats de micro-données au sein de son ontologie, devenant ainsi un balisage sémantique complet et particulièrement développé.

Ainsi, pour présenter la phrase « Barack Obama, né le 4 août 1961 à Honolulu, est un homme d'État américain et le 44e président des États-Unis » sous forme de données structurées, le webmaster peut utiliser le balisage Schema.org aux formats :

  • Microdata
  • RDFa
  • JSON-LD

Voici à quoi cela ressemble sous le format Microdata :

< div itemscope itemtype=“http://schema.org/Person” > < span itemprop=“name” > Barack Obama </ span >, né le < time itemprop=“birthdate” datetime=“1961-08-04” > 4 août 1961 </ time > à < place itemprop=“birthplace” > Honolulu </ place >, est un < span itemprop=“disambiguatingDescription” > homme d'État américain et le 44e président des États-Unis </ span > </ div >

Tout comme le format RDFa, le Microdata utilise des attributs de balises HTML pour définir les différentes propriétés présentées sous forme de données structurées. Par contre, le JSON-LD adopte une syntaxe particulière qui lui permet d'introduire plus facilement les éléments de données imbriqués dans le code source.