L'autorité cachée : Comment Common Crawl influence les citations AI 🤫


Luca Fancello - La lettre du SEO

Les nouvelles découvertes sur l'IA ⛵

Salut Reader !

J'espère que tu as passé une belle semaine ! Comme chaque vendredi c'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO.

De mon côté, l'année a bien commencé avec toujours beaucoup de travail pour Qwairy !

Cette semaine, on plonge dans l'impact de Common Crawl sur la visibilité de ton site dans les réponses des IA comme ChatGPT.

Une question qui revient souvent chez mes clients : "Pourquoi certains domaines sont-ils cités plus souvent que d'autres par les IA ?"

Et bien il est possible que Common Crawl forme une partie de la réponse.

Dans cette épisode je vous raconte :

  • Ce qu'est Common Crawl
  • Le donateur surprenant de Common Crawl
  • Pourquoi Common Crawl influence (surement) la citation de votre marque dans les IA

Allez c'est parti !

Le sponsor de la semaine : ThotSEO

Thot SEO est l'outil ultime pour optimiser tes contenus pour le SEO. A partir d'un mot-clé, Thot vous donne automatiquement l'ensemble des termes à utiliser pour optimiser ce contenu.

👉 Thot SEO t’aide à :

  • Trouver le champ sémantique pertinent pour ranker
  • Structurer vos contenus pour le SEO
  • Améliorer la qualité de vos textes avant publication

Vous avez 15% à vie avec le code LETTRESEO

Les Sucreries de la semaine 🍭

  • Le replay de mon webinaire SEO et GEO : quel bilan après 2 ans de mutations IA génératives ? est disponible par ici
  • La saison 4 de Position 0 est lancé !

Cela sera une saison très spéciale puisqu'une partie du tournage s'est faite au Parc des Princes et la deuxième partie se fera à La Réunion !

video preview

Dans cette vidéo on décrypte avec Thomas :

  • Comment créer de la confiance avec le SEO (et mon anecdote lorsque j'ai vendu un produit à une boîte qui générait +30 millions d'euros de CA grâce au SEO)
  • Comment trouver des “trous” dans la SERP (intention mal couverte) pour gagner en SEO
  • Commen construire un système SEO avec :
    • une page pilier (thème),
    • des pages satellites (longue traîne),
    • du maillage interne prévu dès le départ,
    et du “recyclage” (LinkedIn/newsletter/YouTube) pour générer des signaux

Allez on démarre le contenu de la semaine !

Common Crawl : le dataset caché derrière les IA

Tu as probablement déjà entendu parler de Common Crawl, mais savais-tu que cette organisation à but non lucratif joue un rôle crucial dans l'entraînement des IA comme ChatGPT ?

👉 Common Crawl, c'est quoi exactement ?

• Une organisation qui crawle le web entier et stocke des pétaoctets de données

• Utilisée par 64% des modèles d'IA analysés entre 2019 et 2023

💡 Plus de 80% des tokens utilisés pour entraîner GPT-3 provenaient de données Common Crawl !

La controverse qui secoue le monde de l'IA

Une récente enquête de The Atlantic (Novembre 2025) a révélé des pratiques controversées :

• Common Crawl contourne les paywalls des grands médias

• Les demandes de suppression de contenu semblent ignorées

• Des liens financiers existent avec OpenAI ($250,000 de financement payé à Common Crawl), Anthropic ($250,000) et NVIDIA

Le signal d'autorité caché : CC Rank

Le travail que je vous partage ici a été en grande partie découvert par Metehan Yesilyurt.

Voici ce qui m'a vraiment intéressé dans cette histoire : Common Crawl ne se contente pas d'archiver des pages web.

L'organisation publie également des données de WebGraph, avec deux métriques d'autorité principales :

1. Harmonic Centrality (HC) : mesure à quel point un domaine est "proche" de tous les autres domaines

2. PageRank : mesure l'autorité basée sur la qualité et la quantité de liens entrants

Ces données couvrent environ 607 millions de domaines et sont mises à jour chaque mois.

Les domaines avec un HC Rank élevé sont crawlés plus fréquemment et apparaissent donc plus souvent dans les données d'entraînement des IA.

Ce que ça signifie pour ton GEO/SEO en 2026

Est-ce que ces facteurs de Harmonic Centrality et PageRank influence directement ta visibilité dans les réponses des IA ?

La réponse n'est pas simple, mais voici ce que nous savons :

1. Les facteurs confirmés qui influencent les citations par les IA :

• Qualité et pertinence du contenu

• Fraîcheur et récence (impact significatif)

• Formatage structuré (balisage classique SEO)

• Performance en temps réel

• L'IA utilise les Query Fan Out lorsqu'elle recherche sur le web

• Préférences spécifiques à chaque plateforme

Pour les performances spécifiques à chaque plateforme vous pouvez lire notre étude sur 184k prompts sur Qwairy.

2. Les facteurs potentiels qui apparaissent avec cette étude Common Crawl

A partir de ces informations on peut imaginer que d'autres facteurs impactent les LLMs :

• Présence historique dans les données d'entraînement de Common Crawl

• Associations d'autorité intégrées

3 conseils pratiques pour optimiser ton site pour les IA

Conseil 1 : Vérifiez votre Harmonic Centrality et votre Common Crawl Rank

Nous sommes au début des découvertes sur le sujet.

Les signaux de Common Crawl jouent peut-être un rôle dans l'équation globale.

Pour t'aider à explorer ces questions, Metehan Yesilyurt a créé un outil gratuit qui rend les données WebGraph de Common Crawl accessibles : https://webgraph.metehan.ai

Avec cet outil, tu peux :

• Vérifier le HC Rank et le PageRank de n'importe quel domaine (le tien et celui des concurrents)

• Voir l'historique des rangs sur 5 périodes (2023-2025)

Conseil 2 : Comprends les différences entre plateformes

Wikipedia domine sur ChatGPT, Youtube domine sur Perplexity et Google AI Overviews.

Adapte ta stratégie en fonction de la plateforme que tu cibles.

Conclusion : Un nouveau facteur à surveiller

Le débat sur Common Crawl ne concerne pas seulement les droits d'auteur et les paywalls. Il s'agit de comprendre les fondements de la connaissance de l'IA et, potentiellement, ses tendances à favoriser certaines sources.

Nous savons que la plupart des grands modèles d'IA ont été entraînés sur des données Common Crawl, que Common Crawl priorise les domaines à forte autorité dans son crawling.

Ce que nous ne savons pas encore, c'est dans quelle mesure la composition des données d'entraînement influence directement la sélection des citations par rapport aux signaux en temps réel. Mais une chose est sûre : c'est un facteur à surveiller de près en 2026 !

On se retrouve dans deux semaines pour un nouveau conseil SEO !


Dès que vous êtes prêt(e), vous pouvez découvrir :

Découvrez qwairy.co mon outil GEO.

Merci d'avoir suivi cette édition et à très vite !

Luca

Rédigé à Strasbourg à l'Anticafé ☕

Temps de travail : 2 heures

4 rue de la gare, Guebwiller, Alsace 68500
Unsubscribe · Preferences

Luca Fancello - La lettre du SEO

La lettre du SEO est une newsletter hebdomadaire dans laquelle je partage mes apprentissages sur l'entrepreneuriat, les médias, le SEO et le GEO. Chaque semaine je partage une astuce SEO applicable dans l'heure avec un exercice concret. Rejoins +3000 inscrits !

Read more from Luca Fancello - La lettre du SEO

Luca Fancello - La lettre du SEO Un nouvel outil gratuit très pratique Salut Reader ! J'espère que tu as passé une belle semaine ! C'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO. Lorsque je discute avec mes clients on me pose souvent la question suivante : Est-ce qu'il faut que je travaille la vitesse de mon site ? Dans cette newsletter vous apprendrez : Comment estimer l'importance de la vitesse de chargement sur une SERP Est-ce que la vitesse de...

Luca Fancello - La lettre du SEO 6 Prédictions sur l'Avenir de la Recherche en 2026 🔮 Salut Reader ! J'espère que tu as passé une belle semaine ! Comme chaque vendredi c'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO. Cette semaine, je te partage mes 6 prédictions sur l'avenir de la recherche pour 2026. Google va-t-il survivre ? ChatGPT va-t-il dominer ? Comment les marques doivent-elles s'adapter ? Allez c'est parti ! Le sponsor de la semaine :...

video preview

Luca Fancello - La lettre du SEO Analyser une perte de positions et prioriser avec un nouvel outil 🛠️ Salut Reader ! J'espère que tu as passé une belle semaine ! Comme chaque vendredi c'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO. Cette semaine je te parle de comment optimiser un contenu en perte de positions SEO. Personnellement, j'utilise une méthode en 7 étapes que je vous détaille dans cette newsletter. Allez c'est parti ! Le sponsor de la...