Le 31 mars 2026, Google a publié un article détaillé sur le Search Central Blog révélant le fonctionnement interne de Googlebot — et une limite technique que la plupart des sites ignorent : Googlebot ne télécharge que les 2 premiers mégaoctets de chaque page HTML. Tout ce qui se trouve au-delà est purement et simplement ignoré.
Ce que Google vient de confirmer
Gary Illyes, analyste chez Google, détaille pour la première fois les mécanismes précis du crawl dans un billet accompagné de l'épisode 105 du podcast Search Off the Record.
Les points clés :
- Googlebot n'est pas un seul programme. C'est une infrastructure centralisée utilisée par Google Search, Shopping, AdSense et des dizaines d'autres produits — chacun avec ses propres réglages.
- Fetch partiel. Si votre HTML dépasse 2 Mo, Googlebot coupe à 2 Mo pile. Il ne rejette pas la page : il indexe ce qu'il a récupéré comme si c'était le fichier complet.
- Les octets invisibles n'existent pas. Tout contenu, structured data ou balise meta situé au-delà de la coupure est ignoré. Pas crawlé, pas rendu, pas indexé.
- Les ressources externes ont leur propre compteur. CSS et JavaScript chargés en externe ne comptent pas dans les 2 Mo de la page parent — mais chacun a sa propre limite de 2 Mo.
Pourquoi ça concerne votre site
Pour la majorité des sites, 2 Mo de HTML est un seuil confortable. Mais certaines architectures courantes le dépassent sans que les équipes ne s'en rendent compte :
- Images inline en base64 — une seule image encodée peut peser 500 Ko à 1 Mo
- CSS et JavaScript inline massifs — les frameworks qui injectent tout dans le HTML (certaines configs SSR) gonflent le document
- Méga-menus et footers dupliqués — un menu de navigation avec 200 liens avant le contenu principal repousse vos éléments critiques
- Pages catalogue e-commerce — des centaines de produits avec leur balisage schema injecté dans le HTML
Le risque concret : vos balises E-E-A-T, vos données structurées, votre contenu principal ou vos liens internes se retrouvent après la coupure — et Google ne les voit jamais.
3 actions à faire maintenant
- Mesurez le poids de vos pages HTML. Pas le poids total (avec images), mais le HTML brut. Dans Chrome DevTools : onglet Network → filtrez par Doc → regardez la colonne "Size". Si une page dépasse 1,5 Mo, vous êtes dans la zone de risque.
- Externalisez CSS et JS. Déplacez les styles et scripts inline vers des fichiers externes. Chaque fichier externe a son propre compteur de 2 Mo — vous gagnez de l'espace dans le document principal pour votre contenu réel.
- Ordonnez vos balises. Google le dit explicitement : placez les éléments critiques — meta tags, canonical, structured data, balises hreflang — en haut du HTML. Si vous avez un méga-menu de 300 lignes avant votre
<main>, déplacez-le après le contenu ou chargez-le en JS.
À retenir : Google précise que cette limite « n'est pas gravée dans le marbre et pourra évoluer ». Mais en attendant, chaque octet compte. Optimisez votre HTML comme vous optimisez votre temps de chargement.
L'analyse Cicero
Cette annonce officialise ce que les spécialistes du SEO technique suspectaient depuis des années. La vraie nouveauté, c'est la transparence : Google publie ses limites noires sur blanc. Pour les PME qui utilisent des CMS avec du contenu généré ou des pages produits lourdes, c'est un signal clair — allégez votre HTML ou acceptez que Google ne voie qu'une partie de votre site. Un audit SEO permet d'identifier les pages à risque en quelques heures.
Sources
- → Google Search Central Blog — Inside Googlebot: demystifying crawling, fetching, and the bytes we process
- → Search Off the Record, épisode 105 — Google crawlers behind the scenes
- → Search Engine Roundtable — Google Explains Googlebot Crawling, Fetching & Byte Limits
Spécialiste du growth et de la stratégie de contenu SEO, j'ai lancé Cicéro pour aider les entreprises à capter une visibilité organique durable — sur Google comme dans les réponses des IA. Chaque contenu qu'on produit est pensé pour convertir, pas juste pour exister.
LinkedIn