En bref — Schema.org publie désormais, chaque mois, des statistiques d'usage réel pour chaque type et chaque propriété de balisage, agrégées par domaine et regroupées en tranches de popularité. Pour la première fois, vous pouvez prioriser votre balisage structuré sur des données plutôt que sur des suppositions — un levier direct pour être compris et cité par Google comme par les IA génératives.
Le 4 juin 2026, Schema.org a publié son tout premier jeu de données public sur l'usage réel des balises de données structurées à travers le web. Fruit d'une collaboration avec Google et la communauté Schema.org, l'initiative est détaillée dans l'annonce officielle du blog Schema.org et a été relayée par Search Engine Land le 10 juin. Jusqu'ici, personne — pas même les agences — ne savait précisément quels types de balisage étaient réellement déployés sur le web.
Ce que contient le jeu de données
Le dataset indique, pour chaque terme du vocabulaire Schema.org (les types comme Organization ou Product, et les propriétés comme price ou telephone), combien de domaines l'utilisent. Les chiffres sont agrégés au niveau du domaine — un site qui déploie un balisage sur 500 pages compte pour un seul domaine — et regroupés en tranches de popularité (par exemple « 10K–100K » domaines) plutôt qu'en valeurs exactes, pour réduire le bruit et préserver la confidentialité.
Les fichiers bruts sont disponibles en CSV et JSON sur le dépôt GitHub officiel de Schema.org, mis à jour chaque mois, et affichés directement sur la page de chaque terme du site schema.org. Les types d'infrastructure de base comme Organization, WebPage et BreadcrumbList sont présents sur des millions de domaines distincts.
Pourquoi c'est significatif
Le balisage structuré a longtemps été piloté à l'aveugle : on l'ajoutait « par précaution », sans jamais savoir ce que faisaient les autres. Cette transparence arrive à un moment charnière. Google a retiré les rich results FAQ, mais les données structurées restent le moyen le plus fiable de rendre une page lisible par les machines — et elles alimentent désormais les réponses génératives suivies dans Search Console.
À l'heure où 68 % des recherches Google se terminent sans clic, être correctement compris par les AI Overviews, ChatGPT et Perplexity n'est plus un bonus : c'est la condition pour exister dans la réponse. Le balisage est ce qui permet à ces systèmes d'identifier sans ambiguïté votre entreprise, vos prix, vos avis et vos auteurs.
Ce que ça change pour les PME françaises
Pour la première fois, vous pouvez arbitrer votre stratégie de balisage sur des faits. Trois actions concrètes :
- Auditez votre balisage face à l'adoption réelle. Vérifiez que les types incontournables (
Organization,WebPage,BreadcrumbList,Article) sont en place — ils sont massivement adoptés parce qu'ils fonctionnent. - Priorisez les types à fort signal commercial. Pour un e-commerce,
ProductetReview; pour un service local,LocalBusiness. Ce sont les types que Google et les IA exploitent réellement pour citer et recommander. - Repérez les opportunités de différenciation. Un type pertinent pour votre secteur mais peu déployé est une niche à faible concurrence : vous y devenez visible avant vos concurrents.
Le débat sur la lisibilité machine ne se limite pas au balisage : il rejoint celui sur les fichiers llms.txt et l'accès des IA à votre contenu. Schema.org reste, lui, un standard universellement compris par Google et les LLM.
Ce que cette donnée ne dit pas
Quelques limites importantes pour ne pas sur-interpréter le dataset :
- Agrégation par domaine, pas par page — la fréquence d'usage à l'intérieur d'un site n'est pas mesurée, seulement la présence du terme sur au moins une page.
- Des tranches, pas des chiffres exacts — le bucketing protège la confidentialité mais empêche tout comptage précis.
- Une seule perspective — les données proviennent du crawl public de Google ; Schema.org invite explicitement d'autres crawlers à contribuer, reconnaissant qu'« une vue réellement complète du web exige plusieurs perspectives ».
- Présence ≠ qualité — le jeu de données indique qu'un balisage existe, pas qu'il est valide, complet ou bien implémenté.
L'analyse Cicéro
La donnée structurée sort enfin de la boîte noire. Ce n'est pas un gadget de transparence : c'est un outil d'arbitrage. Pendant que la majorité continuera d'empiler du balisage par habitude, ceux qui croiseront ces statistiques avec leur secteur sauront exactement où concentrer l'effort pour être cités par l'IA. Le balisage ne fait pas ranker à lui seul — mais en 2026, sans lui, vous êtes invisible pour les machines qui rédigent désormais les réponses.
Questions fréquentes
Qu'est-ce que le jeu de données d'usage de Schema.org ?
Les données structurées comptent-elles encore pour le SEO en 2026 ?
Comment prioriser mon balisage avec ces statistiques ?
Sources
- → Blog Schema.org — annonce officielle du jeu de données d'usage (4 juin 2026)
- → Search Engine Land — couverture et analyse SEO (10 juin 2026)
- → Schema.org — documentation officielle des types et propriétés
Spécialiste du growth et de la stratégie de contenu SEO & GEO, j'ai lancé Cicéro pour aider les entreprises à capter une visibilité organique durable — sur Google comme dans les réponses des IA. Chaque contenu qu'on produit est pensé pour convertir, pas juste pour exister.
LinkedIn