La lettre du SEO est une newsletter hebdomadaire dans laquelle je partage mes apprentissages sur l'entrepreneuriat, les médias, le SEO et le GEO. Chaque semaine je partage une astuce SEO applicable dans l'heure avec un exercice concret. Rejoins +3000 inscrits !
Share
L'autorité cachée : Comment Common Crawl influence les citations AI 🤫
Published 20 days ago • 5 min read
Luca Fancello - La lettre du SEO
Les nouvelles découvertes sur l'IA ⛵
Salut Reader !
J'espère que tu as passé une belle semaine ! Comme chaque vendredi c'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO.
De mon côté, l'année a bien commencé avec toujours beaucoup de travail pour Qwairy !
Cette semaine, on plonge dans l'impact de Common Crawl sur la visibilité de ton site dans les réponses des IA comme ChatGPT.
Une question qui revient souvent chez mes clients : "Pourquoi certains domaines sont-ils cités plus souvent que d'autres par les IA ?"
Et bien il est possible que Common Crawl forme une partie de la réponse.
Dans cette épisode je vous raconte :
Ce qu'est Common Crawl
Le donateur surprenant de Common Crawl
Pourquoi Common Crawl influence (surement) la citation de votre marque dans les IA
Allez c'est parti !
Le sponsor de la semaine : ThotSEO
Thot SEO est l'outil ultime pour optimiser tes contenus pour le SEO. A partir d'un mot-clé, Thot vous donne automatiquement l'ensemble des termes à utiliser pour optimiser ce contenu.
👉 Thot SEO t’aide à :
Trouver le champ sémantique pertinent pour ranker
Structurer vos contenus pour le SEO
Améliorer la qualité de vos textes avant publication
Comment créer de la confiance avec le SEO (et mon anecdote lorsque j'ai vendu un produit à une boîte qui générait +30 millions d'euros de CA grâce au SEO)
Comment trouver des “trous” dans la SERP (intention mal couverte) pour gagner en SEO
Commen construire un système SEO avec :
une page pilier (thème),
des pages satellites (longue traîne),
du maillage interne prévu dès le départ,
et du “recyclage” (LinkedIn/newsletter/YouTube) pour générer des signaux
Allez on démarre le contenu de la semaine !
Common Crawl : le dataset caché derrière les IA
Tu as probablement déjà entendu parler de Common Crawl, mais savais-tu que cette organisation à but non lucratif joue un rôle crucial dans l'entraînement des IA comme ChatGPT ?
👉 Common Crawl, c'est quoi exactement ?
• Une organisation qui crawle le web entier et stocke des pétaoctets de données
• Utilisée par 64% des modèles d'IA analysés entre 2019 et 2023
💡 Plus de 80% des tokens utilisés pour entraîner GPT-3 provenaient de données Common Crawl !
Pour l'anecdote cette image provient de Wikipedia et elle a littéralement disparue. Heuresement que j'avais un screenshot.
La controverse qui secoue le monde de l'IA
Une récente enquête de The Atlantic (Novembre 2025) a révélé des pratiques controversées :
• Common Crawl contourne les paywalls des grands médias
• Les demandes de suppression de contenu semblent ignorées
• Des liens financiers existent avec OpenAI ($250,000 de financement payé à Common Crawl), Anthropic ($250,000) et NVIDIA
2. Les facteurs potentiels qui apparaissent avec cette étude Common Crawl
A partir de ces informations on peut imaginer que d'autres facteurs impactent les LLMs :
• Présence historique dans les données d'entraînement de Common Crawl
• Associations d'autorité intégrées
3 conseils pratiques pour optimiser ton site pour les IA
Conseil 1 : Vérifiez votre Harmonic Centrality et votre Common Crawl Rank
Nous sommes au début des découvertes sur le sujet.
Les signaux de Common Crawl jouent peut-être un rôle dans l'équation globale.
Pour t'aider à explorer ces questions, Metehan Yesilyurt a créé un outil gratuit qui rend les données WebGraph de Common Crawl accessibles : https://webgraph.metehan.ai
Avec cet outil, tu peux :
• Vérifier le HC Rank et le PageRank de n'importe quel domaine (le tien et celui des concurrents)
• Voir l'historique des rangs sur 5 périodes (2023-2025)
Conseil 2 : Comprends les différences entre plateformes
Wikipedia domine sur ChatGPT, Youtube domine sur Perplexity et Google AI Overviews.
Adapte ta stratégie en fonction de la plateforme que tu cibles.
Conclusion : Un nouveau facteur à surveiller
Le débat sur Common Crawl ne concerne pas seulement les droits d'auteur et les paywalls. Il s'agit de comprendre les fondements de la connaissance de l'IA et, potentiellement, ses tendances à favoriser certaines sources.
Nous savons que la plupart des grands modèles d'IA ont été entraînés sur des données Common Crawl, que Common Crawl priorise les domaines à forte autorité dans son crawling.
Ce que nous ne savons pas encore, c'est dans quelle mesure la composition des données d'entraînement influence directement la sélection des citations par rapport aux signaux en temps réel. Mais une chose est sûre : c'est un facteur à surveiller de près en 2026 !
On se retrouve dans deux semaines pour un nouveau conseil SEO !
Dès que vous êtes prêt(e), vous pouvez découvrir :
La lettre du SEO est une newsletter hebdomadaire dans laquelle je partage mes apprentissages sur l'entrepreneuriat, les médias, le SEO et le GEO. Chaque semaine je partage une astuce SEO applicable dans l'heure avec un exercice concret. Rejoins +3000 inscrits !
Luca Fancello - La lettre du SEO Un nouvel outil gratuit très pratique Salut Reader ! J'espère que tu as passé une belle semaine ! C'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO. Lorsque je discute avec mes clients on me pose souvent la question suivante : Est-ce qu'il faut que je travaille la vitesse de mon site ? Dans cette newsletter vous apprendrez : Comment estimer l'importance de la vitesse de chargement sur une SERP Est-ce que la vitesse de...
Luca Fancello - La lettre du SEO 6 Prédictions sur l'Avenir de la Recherche en 2026 🔮 Salut Reader ! J'espère que tu as passé une belle semaine ! Comme chaque vendredi c'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO. Cette semaine, je te partage mes 6 prédictions sur l'avenir de la recherche pour 2026. Google va-t-il survivre ? ChatGPT va-t-il dominer ? Comment les marques doivent-elles s'adapter ? Allez c'est parti ! Le sponsor de la semaine :...
Luca Fancello - La lettre du SEO Analyser une perte de positions et prioriser avec un nouvel outil 🛠️ Salut Reader ! J'espère que tu as passé une belle semaine ! Comme chaque vendredi c'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO. Cette semaine je te parle de comment optimiser un contenu en perte de positions SEO. Personnellement, j'utilise une méthode en 7 étapes que je vous détaille dans cette newsletter. Allez c'est parti ! Le sponsor de la...