Médias vs Common Crawl : faut-il bloquer les robots IA en 2026 ?

En bref

Le 3 juin 2026, six grands médias américains (AP, New York Times, NBC, Bloomberg, NPR, Fox) ont mis en demeure la fondation Common Crawl de cesser d'archiver leurs contenus et d'effacer ceux déjà collectés. Pour une PME, la vraie question n'est pas « bloquer ou pas » : c'est « comment être cité par l'IA plutôt que simplement aspiré ». Bloquer les robots IA, pour la plupart des entreprises, revient à disparaître des réponses de ChatGPT et de Google AI.

Le 3 juin 2026, Digital Content Next (DCN), le consortium qui réunit l'Associated Press, le New York Times, NBC Universal, Bloomberg, NPR ainsi que Fox, a envoyé une mise en demeure à la fondation Common Crawl, lui ordonnant de cesser de collecter et de redistribuer leurs contenus protégés, puis d'effacer ceux déjà présents dans ses jeux de données. Le PDG de DCN, Jason Kint, a rendu la lettre publique le lendemain, comme l'a rapporté Search Engine Land le 10 juin.

Common Crawl n'est pas un nom grand public, mais c'est l'une des fondations les plus importantes de l'écosystème IA. Cette organisation à but non lucratif archive le web public depuis 2008 et publie ses données gratuitement. Résultat : ses archives sont devenues une matière première de l'IA. Selon la plainte du New York Times contre OpenAI (2023), elles représentaient environ 60 % des données d'entraînement de GPT-3.

L'argument juridique : la permission, pas l'opt-out

Le cœur de la mise en demeure n'est pas technique, il est juridique. DCN affirme que « le droit d'auteur n'est pas un système d'opt-out » : Common Crawl devrait obtenir une autorisation avant d'inclure un contenu, et non aux éditeurs de demander à en sortir après coup. Jason Kint a résumé l'enjeu dans un billet de blog : la démarche « conteste une hypothèse désormais répandue selon laquelle un contenu créé grâce à un investissement substantiel peut être collecté, stocké, réutilisé puis monétisé simplement parce qu'il est techniquement accessible ».

C'est un renversement de la norme historique du web : « on aspire par défaut, on respecte les exclusions quand on nous le demande » devient « autorisation d'abord, inclusion ensuite ». Si ce principe s'imposait, il rebattrait les cartes pour toute la chaîne de l'IA générative.

Du côté de Common Crawl, le directeur exécutif Rich Skrenta a démenti contourner les paywalls et déclaré : « Quand un éditeur nous demande de retirer un contenu déjà collecté, nous répondons rapidement et lançons un processus de suppression qui reflète la conception technique de notre jeu de données. » À la mi-juin 2026, il s'agit d'une mise en demeure, pas encore d'un procès. Elle prolonge une première lettre envoyée par la News/Media Alliance en avril 2026.

Pourquoi c'est important pour vous : les contenus que les médias cherchent à protéger sont précisément ceux qui nourrissent les réponses de ChatGPT, Perplexity ou Google AI Mode. La bataille sur l'accès au contenu décide, en coulisses, de qui sera cité demain par les IA, et de qui en sera absent.

Pour une PME, le calcul est inversé

Un grand média protège un catalogue payant et négocie des licences de plusieurs millions avec les labos d'IA, c'est exactement le sujet des accords de licence entre OpenAI et les éditeurs. Sa logique est défensive : rareté contre rémunération.

Pour une PME, le calcul est l'inverse. Votre contenu n'est pas un trésor à verrouiller, c'est votre canal d'acquisition. Bloquer les robots IA, que ce soit via robots.txt, llms.txt ou un pare-feu, revient le plus souvent à vous rendre invisible là où vos prospects posent désormais leurs questions. Et bloquer n'est même pas aussi simple qu'il y paraît : la frontière entre ce que llms.txt contrôle réellement et ce que Google en fait reste floue, et les robots IA dépassent désormais les humains en volume de trafic.

Vous ne savez pas si les IA citent ou ignorent votre site ?
Cicéro réalise un diagnostic GEO gratuit : ce que ChatGPT, Perplexity ou Google AI disent de vous, et comment y apparaître.

Entraînement ≠ citation : la distinction qui change tout

La confusion la plus coûteuse consiste à mélanger deux choses très différentes :

60 %des données d'entraînement de GPT-3 issues de Common Crawl (plainte NYT, 2023)

6grands médias US derrière la mise en demeure du 3 juin 2026

2008année de création de l'archive Common Crawl

Les données d'entraînement (Common Crawl, GPTBot, ClaudeBot…) servent à construire la connaissance générale d'un modèle, une fois, à un instant T. Elles influencent ce que l'IA « sait » de votre marque, sans lien cliquable.
La citation en temps réel (retrieval) intervient quand l'IA va chercher des pages au moment de répondre, et affiche un lien vers la source. C'est elle qui décide si vous êtes cité et cliqué aujourd'hui.

Bloquer la collecte d'entraînement n'empêche pas la citation en temps réel, et inversement. Les deux se pilotent séparément, robot par robot, usage par usage.

Ce qu'il faut faire maintenant

Auditez qui accède à votre contenu. Listez les robots autorisés et bloqués dans votre robots.txt (CCBot, GPTBot, ClaudeBot, Google-Extended, PerplexityBot…). Beaucoup de sites bloquent par défaut sans le savoir.
Décidez en connaissance de cause. Protéger un contenu premium payant ? Le blocage se défend. Vendre un service à des PME ou des particuliers ? La visibilité prime presque toujours.
Optimisez pour la citation, pas seulement pour l'aspiration. Réponses directes, données chiffrées, structure claire, balisage schema.org : c'est ce qui fait qu'une IA vous cite dans ses réponses (GEO) au lieu de juste vous lire.
Mesurez votre présence IA. Les nouveaux rapports IA de la Search Console permettent enfin de suivre vos impressions dans les fonctionnalités génératives de Google.

Notre analyse

Cette bataille est légitime pour des médias dont le métier est le contenu payant. Mais elle envoie un mauvais signal si une PME en conclut qu'il faut « se barricader » contre l'IA. Dans un web où une part croissante du contenu est déjà produite par des machines, le risque n'est pas d'être copié : c'est d'être absent. La bonne posture n'est pas de bloquer aveuglément, ni de tout laisser ouvert : c'est de choisir, page par page, et de construire un contenu assez singulier pour être cité plutôt que dilué.

Ce que cet article ne couvre pas

Ce n'est pas un avis juridique : le débat opt-out contre permission-first dépend du droit applicable et reste, à ce stade, une mise en demeure non tranchée par un tribunal. Nous n'entrons pas non plus dans la configuration technique détaillée du robots.txt ou du llms.txt selon votre CMS : elle varie trop d'une stack à l'autre. Et la situation peut évoluer vite : Common Crawl comme les labos d'IA peuvent annoncer un accord ou ouvrir une procédure à tout moment.

Questions fréquentes

Qu'est-ce que Common Crawl ?

Common Crawl est une fondation à but non lucratif qui archive le web public et publie ses données gratuitement. Ces archives sont devenues l'une des principales sources d'entraînement des grands modèles d'IA : selon la plainte du New York Times contre OpenAI (2023), elles représentaient environ 60 % des données d'entraînement de GPT-3.

Bloquer Common Crawl protège-t-il vraiment mon contenu des IA ?

Partiellement. Bloquer le robot CCBot empêche Common Crawl d'archiver vos pages, mais d'autres robots (GPTBot d'OpenAI, ClaudeBot d'Anthropic, Google-Extended) collectent indépendamment. Bloquer la collecte d'entraînement n'empêche pas non plus la récupération en temps réel (RAG) qui alimente les citations dans ChatGPT Search ou les AI Overviews. Le blocage doit être pensé robot par robot, et usage par usage.

Une PME a-t-elle intérêt à bloquer les robots IA ?

Rarement. Un grand média protège un catalogue payant et négocie des licences à plusieurs millions. Une PME, elle, dépend de sa visibilité : bloquer les robots IA revient le plus souvent à disparaître des réponses de ChatGPT, Perplexity ou Google AI Mode, là où ses prospects posent désormais leurs questions. Pour la majorité des PME, l'enjeu n'est pas de bloquer, mais d'être citées correctement.

Quelle différence entre données d'entraînement et citation en temps réel ?

Les données d'entraînement (comme Common Crawl) servent à construire la connaissance générale d'un modèle, une fois, à un instant T. La citation en temps réel (retrieval) intervient quand l'IA va chercher des pages au moment de répondre à une question, et affiche un lien vers la source. La première influence ce que l'IA sait de vous ; la seconde décide si vous êtes cité et cliqué aujourd'hui.

Sources

→ Digital Content Next (Jason Kint) : billet officiel annonçant la mise en demeure (4 juin 2026)
→ Search Engine Land : « Publishers push Common Crawl to stop collecting content for AI training » (10 juin 2026)
→ Press Gazette : détail de la lettre et réponse de Rich Skrenta (Common Crawl)

Alexis Dollé

CEO & Fondateur

Spécialiste du growth et de la stratégie de contenu SEO & GEO, j'ai lancé Cicéro pour aider les entreprises à capter une visibilité organique durable, sur Google comme dans les réponses des IA. Chaque contenu qu'on produit est pensé pour convertir, pas juste pour exister.

En bref

L'argument juridique : la permission, pas l'opt-out

Pour une PME, le calcul est inversé

Entraînement ≠ citation : la distinction qui change tout

Ce qu'il faut faire maintenant

Notre analyse

Ce que cet article ne couvre pas

Questions fréquentes

Votre visibilité IA, auditée gratuitement

Votre diagnostic gratuit

Demande reçue !