L'essentiel
- Le 4 juin 2026, Schema.org et Google ont publié le premier jeu de données public mesurant l'usage réel des balises de données structurées sur le web.
- Les comptages sont agrégés par domaine et présentés en tranches de popularité (ex. « 1 à 10 millions de domaines »), mis à jour chaque mois, disponibles en CSV et JSON.
- Pour la première fois, vous pouvez prioriser votre balisage sur des données réelles plutôt que sur des suppositions. Un signal précieux pour le SEO comme pour la citabilité par les IA.
Le 4 juin 2026, Schema.org et Google ont publié le premier jeu de données public mesurant l'usage réel des balises de données structurées sur le web, selon une annonce parue sur le blog officiel de Schema.org. Concrètement : pour chaque type de balise (Product, Article, FAQPage, LocalBusiness…), on sait désormais sur combien de domaines elle est réellement déployée. Une transparence inédite sur un terrain qui, jusqu'ici, relevait surtout de l'intuition.
Réponse directe : que montre le nouveau jeu de données Schema.org ? Il indique, type par type, sur combien de domaines chaque balise est utilisée, regroupée en tranches de popularité plutôt qu'en chiffres bruts. Les données proviennent du crawl public de Google, sont agrégées au niveau du domaine (un site compte une fois, quel que soit son nombre de pages) et mises à jour chaque mois.
Ce que contient le jeu de données
Présenté comme « une collaboration entre Google et la communauté Schema.org », le jeu de données ne livre pas des comptages exacts. Il classe chaque terme dans des tranches, par exemple « 10 000 à 100 000 domaines » ou « 1 à 10 millions de domaines ». Schema.org justifie ce choix dans sa documentation officielle : les tranches stabilisent les données et protègent la vie privée des sites, en empêchant de suivre les variations fines d'un domaine précis.
Les fichiers sont publiés sur le dépôt GitHub officiel de Schema.org au format CSV comme JSON et rafraîchis chaque mois. Les fréquences d'usage apparaissent aussi directement sur les pages de chaque terme du site. D'après l'analyse de Search Engine Land, les types les plus répandus (Product, Review, Article, FAQPage, LocalBusiness) figurent dans la tranche du million à la dizaine de millions de domaines, tandis que les propriétés fondamentales name, description ou url dominent le haut du classement.
Pourquoi c'est un signal précieux pour le SEO et le GEO
Le balisage structuré décrit votre contenu dans un langage que Google et les moteurs génératifs comprennent. Le problème, jusqu'à présent : personne ne savait vraiment ce que le web utilisait. On balisait « au cas où », sans repère. Ces statistiques changent la donne sur trois plans :
- Identifier les fondations attendues. Un type présent sur des millions de domaines (Article, Product, FAQPage) est devenu un standard de fait. Si votre secteur l'emploie massivement et que vous l'ignorez, vous partez avec un handicap de lisibilité.
- Repérer les angles morts. Des types pertinents mais peu adoptés peuvent devenir un avantage : une donnée que vos concurrents n'exposent pas est une donnée que les moteurs ne peuvent extraire que chez vous.
- Renforcer la citabilité par les IA. Un contenu bien décrit (auteur, date, source, entité) est plus facilement repris par ChatGPT ou Perplexity. C'est exactement la logique du guide officiel de Google sur l'optimisation pour l'IA.
À noter : la popularité de FAQPage est instructive. Google a pourtant retiré la plupart des rich results FAQ de ses pages de résultats. Preuve qu'un type peut rester massivement déployé pour sa valeur de structuration, utile aux IA, même quand son affichage enrichi disparaît.
Votre balisage envoie-t-il les bons signaux à Google et aux IA, ou travaille-t-il contre vous ?
Cicéro Studio combine audit GEO, production éditoriale et maillage sémantique automatisé, de 250 € à 1 800 € par mois. La qualité d'une agence, la productivité d'un software.
Ce qu'il faut faire maintenant
Inutile de tout réécrire. Trois actions concrètes suffisent pour transformer ce jeu de données en avantage :
- Cartographiez votre balisage actuel avec l'outil de test des résultats enrichis de Google, puis comparez-le aux types dominants de votre secteur dans le jeu de données.
- Comblez les fondations manquantes en JSON-LD :
Organization,ArticleouProduct,BreadcrumbList, et les propriétés clés (name,description,image,url,author,datePublished). - Soignez la qualité, pas le volume. Une balise mal renseignée ou mensongère ne sert à rien. La cohérence entre le balisage et le contenu visible reste la règle, sur Google comme dans les réponses génératives où se joue désormais votre crédibilité de marque.
Ce que ces statistiques ne disent pas
Le jeu de données mesure l'adoption, pas l'efficacité. Un type très répandu n'est ni obligatoire ni un facteur de classement : Google l'a répété, le balisage aide à comprendre et à afficher un contenu, il ne le fait pas mieux ranker en soi. Les chiffres reflètent uniquement le web indexé par Google (les sites bloqués par robots.txt sont exclus) et ne distinguent pas les formats JSON-LD, Microdata ou RDFa. Enfin, les tranches restent volontairement larges : elles donnent une tendance, pas un compteur précis. À lire comme une carte du paysage, pas comme un verdict.
L'analyse Cicéro
Cette publication fait sortir les données structurées du domaine de la croyance. On savait baliser ; on ne savait pas ce qui comptait à l'échelle du web. Désormais, on priorise sur du concret. Mais la vraie bataille de 2026 n'est pas d'ajouter plus de balises. C'est de décrire votre contenu de façon si nette et cohérente qu'un moteur, humain ou IA, n'a aucune raison de préférer un concurrent. Le balisage est la grammaire. Le contenu reste le propos.
Questions fréquentes
Que montre le nouveau jeu de données de Schema.org ?
Ces statistiques d'usage sont-elles un facteur de classement Google ?
Comment utiliser ces données pour son SEO et son GEO ?
Sources
- → Blog Schema.org : « Announcing the Schema.org Usage Statistics Dataset », 4 juin 2026
- → Schema.org, About Usage Statistics : documentation officielle (méthode, tranches, limites)
- → Search Engine Land : analyse de l'adoption par type, 10 juin 2026
Spécialiste du growth et de la stratégie de contenu SEO & GEO, j'ai lancé Cicéro pour aider les entreprises à capter une visibilité organique durable, sur Google comme dans les réponses des IA. Chaque contenu qu'on produit est pensé pour convertir, pas juste pour exister.
LinkedIn