GEO : Generative Engine Optimization — Le papier fondateur, simplifié

Basé sur le papier "GEO: Generative Engine Optimization" par Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan & Deshpande (Princeton University / IIT Delhi). Publié à KDD 2024.

Paper : arXiv:2311.09735 | Code : github.com/GEO-optim/GEO


Le problème : la recherche IA tue le trafic web

Pendant 25 ans, quand vous cherchiez quelque chose sur Google, vous obteniez une liste de liens bleus. Vous cliquiez sur l'un d'eux, vous visitiez un site, et le propriétaire du site recevait du trafic. Tout le monde était content.

Puis sont arrivés les moteurs de recherche génératifs — des outils comme ChatGPT, Perplexity, Google AI Overviews et Bing Copilot. Au lieu de vous donner des liens, ils lisent plusieurs sites web, synthétisent l'information et vous donnent une réponse directe. Vous obtenez ce dont vous avez besoin sans jamais cliquer vers la source originale.

C'est génial pour les utilisateurs. Mais c'est une catastrophe pour les millions de sites web, blogs, petites entreprises et créateurs de contenu qui dépendent de ce trafic pour vivre.

Les chercheurs derrière ce papier ont identifié trois parties prenantes dans ce nouveau monde :

  1. Les utilisateurs — ils gagnent (réponses plus rapides et meilleures)
  2. Les fournisseurs de moteurs génératifs — ils gagnent (plus d'utilisateurs, plus de revenus)
  3. Les créateurs de contenu — ils perdent (moins de trafic, moins de visibilité)

Le papier pose une question simple : Les créateurs de contenu peuvent-ils y faire quelque chose ?


Qu'est-ce que le GEO ?

Le Generative Engine Optimization (GEO) est le nouvel équivalent du SEO, mais pour les moteurs de recherche alimentés par l'IA.

  • SEO = optimiser votre contenu pour que Google le classe plus haut dans sa liste de liens
  • GEO = optimiser votre contenu pour que les moteurs de recherche IA le citent et l'utilisent plus visiblement dans leurs réponses générées

La différence clé : en recherche traditionnelle, la visibilité signifie "apparaître plus haut dans une liste classée." En recherche générative, la visibilité signifie "quelle part de la réponse de l'IA provient de votre contenu et êtes-vous crédité."


Comment fonctionnent réellement les moteurs de recherche génératifs ?

Le papier formalise ce qu'ils appellent un Generative Engine (GE). Voici le pipeline simplifié :

  1. Vous posez une question (ex : "Quel est le secret du chocolat suisse ?")
  2. Le moteur reformule votre requête en sous-requêtes plus simples, plus faciles à rechercher
  3. Un moteur de recherche traditionnel (comme Google) récupère les pages web les plus pertinentes
  4. Un LLM résume chaque source
  5. Un autre LLM génère une réponse finale, tissant ensemble les informations de plusieurs sources avec des citations en ligne

Le résultat est une réponse riche et structurée — pas une liste de liens. Votre site web est peut-être l'une des sources utilisées, mais l'utilisateur ne le visitera peut-être jamais.


Le grand défi : comment mesurer la visibilité ?

Sur Google, la visibilité est simple : quelle est votre position sur la page de résultats ? La position 1 obtient ~36% des clics, la position 10 presque rien.

Dans les moteurs génératifs, c'est beaucoup plus complexe. Votre contenu peut être :

  • Cité une fois en haut de la réponse (haute visibilité)
  • Cité cinq fois mais enterré en bas (visibilité moyenne)
  • Utilisé pour informer la réponse mais jamais explicitement cité (visibilité zéro)

Les chercheurs ont proposé trois façons de mesurer la visibilité :

1. Nombre de mots (Word Count)

Combien de mots dans la réponse de l'IA sont attribués à votre source, par rapport à la réponse totale ? Plus de mots = plus de visibilité.

2. Nombre de mots ajusté par la position

Même chose, mais les mots apparaissant plus tôt dans la réponse comptent davantage (parce que les gens lisent le début plus attentivement). Cela utilise une décroissance exponentielle — être cité en premier vaut beaucoup plus qu'être cité en dernier.

3. Impression subjective

Un score multidimensionnel couvrant : la pertinence par rapport à la requête, l'influence sur la réponse, l'unicité de votre contribution, la probabilité que l'utilisateur clique sur votre citation, et la diversité du matériel présenté.


Les 9 stratégies d'optimisation testées

Les chercheurs ont testé 9 façons différentes de modifier le contenu d'un site web et mesuré si chacune améliorait la visibilité dans les réponses des moteurs génératifs.

❌ Ce qui ne marche pas

Stratégie Ce qu'elle fait Résultat
Bourrage de mots-clés Ajouter plus de mots-clés de la requête dans votre contenu Pire que ne rien faire. L'astuce préférée du SEO traditionnel est inutile ici — les LLMs comprennent le sens, pas juste les mots-clés.
Mots uniques Ajouter du vocabulaire rare/inhabituel Aucune amélioration significative.

✅ Ce qui marche

Stratégie Ce qu'elle fait Amélioration
Ajout de citations Ajouter des citations pertinentes de sources crédibles +40% de visibilité (meilleur résultat)
Ajout de statistiques Remplacer les affirmations vagues par des chiffres et données précis +30% de visibilité
Citer ses sources Ajouter des références et citations vers des sources faisant autorité +27% de visibilité
Optimisation de la fluidité Améliorer la lisibilité et le flux de votre écriture +25% de visibilité
Termes techniques Utiliser une terminologie précise et spécifique au domaine +15% de visibilité
Facile à comprendre Simplifier le langage pour une accessibilité plus large +14% de visibilité
Ton autoritaire Écrire dans un style plus persuasif et confiant +10% de visibilité

Les trois meilleures stratégies ont un point commun : elles ajoutent des signaux de crédibilité. Les citations, statistiques et références rendent le contenu plus fiable — et les moteurs génératifs récompensent cela.


La découverte la plus surprenante : le GEO aide les petits

Quand les chercheurs ont testé ce qui se passe lorsque tous les sites optimisent simultanément, ils ont trouvé quelque chose de remarquable :

  • Les sites classés #5 sur Google (les outsiders) ont vu des gains de visibilité allant jusqu'à +115%
  • Les sites classés #1 sur Google (les gros acteurs) ont vu leur visibilité baisser de 30%

Pourquoi ? Les classements Google traditionnels dépendent fortement des backlinks, de l'autorité du domaine et de la notoriété de la marque — des choses qui favorisent les grandes entreprises. Mais les moteurs génératifs se soucient davantage de la qualité du contenu. Quand un petit blog ajoute des citations solides et des statistiques, l'IA le traite aussi sérieusement que le site d'une entreprise du CAC 40.

C'est potentiellement un grand égalisateur pour les créateurs indépendants et les petites entreprises.


Le domaine compte : une seule taille ne convient pas à tous

Les stratégies les plus efficaces dépendent de votre sujet :

Stratégie Fonctionne le mieux pour
Ton autoritaire Sujets de débat, Histoire, Science
Optimisation de la fluidité Business, Science, Santé
Citer ses sources Affirmations factuelles, Droit & Gouvernement
Ajout de citations Société, Explications, Histoire
Ajout de statistiques Droit & Gouvernement, Débat, Articles d'opinion

Un blog juridique devrait se concentrer sur l'ajout de statistiques et de citations. Un site d'histoire devrait ajouter des citations directes. Un site de santé devrait améliorer la fluidité. Il n'y a pas de "meilleure" stratégie universelle.


Combiner les stratégies fonctionne encore mieux

Les chercheurs ont aussi testé des paires de stratégies ensemble. La combinaison gagnante :

Optimisation de la fluidité + Ajout de statistiques = +35,8% de visibilité

Cela surpasse toute stratégie individuelle de plus de 5 points de pourcentage. La leçon : ne choisissez pas qu'une seule approche — superposez-les.

Ajouter des références en combinaison avec d'autres méthodes était aussi particulièrement puissant. Bien que "Citer ses sources" seul ne soit pas le meilleur performeur, il boostait systématiquement les résultats en combinaison avec d'autres stratégies (moyenne de +31,4% en combinaison).


Validation en conditions réelles : ça marche aussi sur Perplexity.ai

Les chercheurs n'ont pas seulement testé sur leur propre moteur simulé. Ils ont aussi mené des expériences sur Perplexity.ai, un vrai moteur de recherche génératif avec des millions d'utilisateurs.

Les résultats tiennent :

  • Ajout de citations : +22% sur la visibilité ajustée par position
  • Ajout de statistiques : +37% sur l'impression subjective
  • Bourrage de mots-clés : -10% (encore pire que ne rien faire sur un vrai moteur)

Cela confirme que les stratégies se généralisent au-delà du laboratoire.


Conseils pratiques pour les créateurs de contenu

Si vous créez du contenu sur le web — que vous gériez un blog, un site d'entreprise ou une boutique e-commerce — voici quoi faire :

  1. Arrêtez le bourrage de mots-clés. Ça ne marche pas pour la recherche IA. Les LLMs comprennent le contexte, pas la densité de mots-clés.
  2. Ajoutez des données réelles. Remplacez "les ventes ont augmenté significativement" par "les ventes ont augmenté de 47% en glissement annuel (Source : Rapport Sectoriel 2024)."
  3. Citez des experts. Incluez des citations directes d'autorités reconnues dans votre domaine.
  4. Citez vos sources. Référencez et liez vers des sources crédibles et faisant autorité.
  5. Écrivez clairement. Améliorez le flux et la lisibilité de votre contenu.
  6. Adaptez à votre domaine. Choisissez les stratégies qui correspondent à votre type de contenu.
  7. Superposez les stratégies. Combinez 2-3 approches pour un impact maximum.

La vue d'ensemble

Ce papier, publié à KDD 2024 (l'une des plus grandes conférences en data science), a essentiellement créé un nouveau domaine. Avant le GEO, les créateurs de contenu n'avaient aucun cadre pour penser la visibilité dans la recherche IA. Depuis sa publication, le domaine a explosé — avec plus d'une douzaine de papiers de suivi en 2025-2026 couvrant les systèmes GEO agentiques, les applications e-commerce, l'optimisation multimodale, et plus encore.

L'insight fondamental reste : les moteurs génératifs récompensent la qualité du contenu, la crédibilité et la clarté plutôt que le playbook SEO traditionnel de backlinks et mots-clés. Pour les créateurs de contenu prêts à s'adapter, c'est à la fois un défi et une opportunité.


GEO-bench : le benchmark

Le papier a aussi publié GEO-bench, un benchmark de 10 000 requêtes diverses couvrant 25 domaines, 9 types de requêtes et plusieurs niveaux de difficulté. Il inclut :

  • Des requêtes réelles d'utilisateurs de Bing (MS MARCO), Google (Natural Questions, ORCAS)
  • Des questions académiques exigeantes (All Souls College, Oxford)
  • Des requêtes tendance de Perplexity.ai
  • Des questions ELI5 (Explain Like I'm 5) de Reddit
  • Des requêtes générées par GPT-4 pour la diversité

Ce benchmark est disponible publiquement et est devenu le banc d'essai standard pour la recherche en GEO.


Paper : Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of KDD 2024. arXiv:2311.09735