Luca Fancello - La lettre du SEO

Comment les LLMs lisent (vraiment) ton contenu 🧠

Salut Reader !

J'espère que tu as passé une belle semaine ! C'est le retour de la lettre du SEO avec une nouvelle astuce pour faire progresser ton SEO.

De mon côté, je t'écris dans le train pour Vivatech où je suis speaker avec Razorfish, une agence SEO partenaire de Qwairy.

Cette semaine, je lance une nouvelle série de 6 épisodes : Comment créer du contenu cité par ChatGPT, Perplexity et les autres LLMs.

J'ai passé plusieurs mois à lire +100 études sur le sujet et à analyser +1 million de requêtes via Qwairy. Ce que j'ai découvert a changé ma façon de créer du contenu.

Je vous partage tout, épisode par épisode.

Aujourd'hui, l'épisode 1 : comprendre comment les LLMs consomment ton contenu.

Allez c'est parti !

Les Sucreries de la semaine 🍭

Google a publié un guide complet sur comment optimiser votre site web pour une IA générative.

Je vous partage dans une vidéo les recommandations concrètes à extraire de ce guide.

L'accès à la vidéo

Très bon guide sur l'AI Visibility rédigé par Common Crawl.

Common Crawl est un organisme peu connu en France qui récupère l'ensemble de la donnée du web.

Et devinez qui se base sur ces données ? OpenAI, Anthropic et tout le gratin des IA...

Allez on démarre le contenu de la semaine !

Google classe. Les LLMs choisissent.

Les LLMs ne fonctionnent pas comme Google.

Google crawle votre page, l'indexe, et la classe selon des centaines de signaux.

Un peu comme une bibliothèque gigantesque. 📚

Un LLM fait quelque chose de différent : quand un utilisateur pose une question, il répond soit depuis sa mémoire, soit en récupérant du contenu en temps réel.

En quelque sorte c'est comme une librairie : ils ont des livres en stock mais si vous en demandez qu'ils n'ont pas : il commande.

Ce sont deux chemins complètement séparés et ils demandent deux stratégies d'optimisation différentes.

Chemin 1 : La mémoire du modèle

C'est ce que le modèle a appris pendant son entraînement.

Si votre marque, votre contenu ou vos idées étaient fréquemment cités dans des sources de référence avant la date de coupure du modèle, il y a de bonnes chances que le modèle en ait une représentation encodée.

Et voici quelque chose de contre-intuitif : selon une étude Semrush de février 2026, ChatGPT n'active sa fonctionnalité de recherche web que sur 34,5% des requêtes contre 46% fin 2024.

La majorité des réponses reposent encore sur les données d'entraînement seules.

➡️ 34,5% des requêtes ChatGPT déclenchent une recherche web (Semrush, fév. 2026)

➡️ 65,5% des réponses viennent uniquement de la mémoire du modèle — sans aucune recherche

L'implication est souvent sous-estimée : vos mentions dans des publications de référence, Wikipedia, des rapports d'industrie : elles ne construisent pas seulement de l'autorité SEO.

Elles façonnent ce que les LLMs "savent" sur vous.

💡 La présence off-site comptent en GEO d'une façon qui dépasse largement les backlinks.

Chemin 2 : Le RAG (Retrieval-Augmented Generation)

Quand une requête nécessite une information fraîche ou spécifique, le modèle déclenche une recherche web, récupère des URLs, lit le contenu, et sélectionne ce qu'il va inclure dans sa réponse.

Mais il ne fait pas qu'une seule recherche.

Il décompose votre question en plusieurs sous-requêtes simultanées — c'est ce qu'on appelle le query fan-out. Et c'est là que tout se joue.

💡 Notre étude Qwairy sur 102 018 requêtes IA : Perplexity génère exactement une sous-requête pour 70,5% des prompts. ChatGPT fait de même pour seulement 32,7% — ce qui signifie que ChatGPT décompose beaucoup plus fréquemment une question en plusieurs recherches parallèles.

Voici des exemples de Query Fan-Out extrait de Qwairy :

Conséquence directe : une marque qui couvre uniquement la surface d'un sujet peut apparaître sur Perplexity, mais rester systématiquement invisible sur ChatGPT parce qu'elle manque les variations de sous-requêtes que ChatGPT utilise réellement.

Les requêtes avec les mots "top" ou "best" génèrent jusqu'à 14x plus de sous-requêtes que des questions factuelles simples.

💡 A lire en bonus : Notre étude Qwairy sur les Query Fan-Out.

Le principe du coût d'extraction

Chaque moteur IA qu'il s'agisse de ChatGPT, Perplexity ou Google AI Mode fait un calcul coût/bénéfice au moment de décider ce qu'il va citer.

Le bénéfice, c'est la qualité de votre contenu.

Le coût, c'est l'effort nécessaire pour en extraire la valeur.

HTML mal structuré, contenu rendu en JavaScript, code Gutenberg gonflé, paragraphes denses non aérés, tout ça augmente le coût d'extraction.

C'est de l'électricité et des serveurs ⚡

⚠️ Test concret : Nous avons comparé un article WordPress avec Gutenberg vs le même contenu en HTML sémantique propre.

Résultat : −21,8% de tokens à traiter pour les LLMs, pour un contenu identique. 22% de tokens de bruit pur, zéro valeur éditoriale.

L'effet "Lost in the Middle"

Il y a un biais bien documenté dans la façon dont les LLMs traitent les longs documents.

Des recherches montrent que les LLMs présentent un phénomène de "lost in the middle" : la précision chute significativement pour les informations situées au centre du contexte, alors que le contenu en début et en fin reçoit disproportionnellement plus d'attention.

Une courbe en U — constatée sur GPT-3.5, Claude et les autres grands modèles.

Pour vous en tant que marketeur/marketeuse, ça se traduit par une règle concrète : la réponse va en premier.

Votre claim le plus important, votre définition, votre insight — ça appartient aux premières lignes de chaque section.

Pas enfoui après trois paragraphes de mise en contexte.

ChatGPT, Perplexity, Gemini : trois cibles différentes

Une étude de Kevin Indig sur 3 981 domaines révèle que Gemini nomme les marques dans 83,7% de ses apparitions mais ne génère un lien de citation que 21,4% du temps, tandis que ChatGPT fait l'inverse — il cite 87% du temps mais ne mentionne les marques que dans 20,7% des réponses.

Optimiser pour l'un ne vous aide pas automatiquement sur l'autre. Ce sera un sujet à part entière dans un prochain épisode.

La semaine prochaine - Épisode 2 : La structure de contenu qui fait citer par ChatGPT.

On attaque le BLUF, le Lego Framework, et la hiérarchie de titres. Les 3 principes les plus actionnables de toute la série. 👀

Est-ce que cette série vous intéresse ? Répondez directement à cet email, je lis tous vos retours.

Dès que vous êtes prêt(e), vous pouvez découvrir :

Ma chaine Youtube : +100 vidéos GEO/SEO pour progresser
Devenir un(e) pro du SEO avec un coaching SEO (6 sessions) (Pensez à réserver - prochaine dispo début Septembre)
Apprendre à trouver des clients en SEO avec ma formation le SEO pour les entrepreneur(e)s

Découvrez qwairy.co mon outil GEO.

Merci d'avoir suivi cette édition et à très vite !

Luca

Rédigé dans le train avec un café du TGV ☕

Temps de travail : 2 heures

4 rue de la gare, Guebwiller, Alsace 68500
Unsubscribe · Preferences

Luca Fancello - La lettre du SEO

Comment les LLMs lisent (vraiment) ton contenu 🧠 1/6

Luca Fancello - La lettre du SEO

Comment les LLMs lisent (vraiment) ton contenu 🧠

Les Sucreries de la semaine 🍭

Google classe. Les LLMs choisissent.

Chemin 1 : La mémoire du modèle

Chemin 2 : Le RAG (Retrieval-Augmented Generation)

Le principe du coût d'extraction

L'effet "Lost in the Middle"

ChatGPT, Perplexity, Gemini : trois cibles différentes

La structure de contenu parfaite pour être cité par ChatGPT ✍️ 🧠 2/6

Comment multiplier par 3 ses mentions de marque dans les IA 📈

Reddit m'a banni à vie (voici ce que j'ai appris) 🔴