Beyond SEO : Fine-tuner un transformer pour optimiser le contenu pour la recherche IA

Basé sur le papier "Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation" par Lüttgenau, Colic & Ramirez. Publié en juillet 2025.

Paper : arXiv:2507.03169

L'idée : et si un modèle pouvait réécrire votre contenu automatiquement ?

Jusqu'ici, le GEO reposait sur des stratégies manuelles : "ajoutez des statistiques", "citez des sources", "améliorez la fluidité". C'est efficace, mais ça demande du travail humain pour chaque page.

Ce papier propose une approche radicalement différente : fine-tuner un modèle de langage (BART) pour qu'il réécrive automatiquement du contenu web en version optimisée GEO.

L'idée est simple : donner au modèle du texte brut de site web en entrée, et obtenir en sortie une version optimisée qui sera mieux citée par les moteurs de recherche IA.

Comment ça marche

Les données d'entraînement

Les chercheurs ont créé un dataset synthétique de 1 905 paires de contenus dans le domaine du voyage :

Entrée : texte brut d'un site web de voyage
Sortie : version optimisée GEO du même texte

Les versions optimisées intègrent :

Des citations crédibles
Des preuves statistiques
Une meilleure fluidité linguistique

Le modèle

Ils ont fine-tuné BART-base — un modèle transformer relativement petit et accessible — sur ces paires. Pas besoin de GPU monstrueux : c'est une approche qui fonctionne avec des ressources modestes.

Les résultats

Qualité de la réécriture

Le modèle fine-tuné surpasse le BART de base sur les métriques de qualité texte :

ROUGE-L : 0.249 (vs 0.226 pour le baseline) — mesure la similarité avec le texte cible
BLEU : 0.200 (vs 0.173) — mesure la précision de la génération

Visibilité dans la recherche IA

C'est là que ça devient intéressant. Les chercheurs ont testé le contenu optimisé avec Llama-3.3-70B comme moteur génératif :

+15,6% d'amélioration en nombre de mots absolus dans les réponses générées
+31% d'amélioration en nombre de mots ajusté par la position (les mots en début de réponse comptent plus)

Le contenu réécrit par le modèle est significativement plus visible dans les réponses de l'IA.

Pourquoi c'est important

1. La première preuve que le fine-tuning fonctionne pour le GEO

Avant ce papier, toutes les approches GEO utilisaient soit des règles manuelles, soit du prompting de LLMs. C'est la première démonstration empirique qu'un modèle fine-tuné spécifiquement pour le GEO peut produire des résultats significatifs.

2. Accessible avec des ressources modestes

BART-base est un petit modèle. Le dataset fait moins de 2 000 exemples. Pas besoin d'un cluster GPU pour reproduire ces résultats. C'est une approche que des petites équipes ou des indépendants pourraient adopter.

3. Spécifique au domaine

Le modèle a été entraîné sur du contenu voyage. Les chercheurs soulignent que l'approche est domain-specific — il faudrait des datasets différents pour d'autres secteurs. Mais le pipeline de création de données synthétiques est reproductible.

Les limites

Un seul domaine testé (voyage) — la généralisation à d'autres secteurs n'est pas prouvée
Dataset synthétique — les paires d'entraînement sont générées par IA, pas par des humains
Modèle petit — BART-base a ses limites en termes de compréhension et de génération
Pas de test end-to-end — comme le souligne SAGEO Arena, optimiser pour la génération sans tester le retrieval peut être contre-productif

Ce que ça annonce pour le futur du GEO

Ce papier ouvre une voie prometteuse : l'automatisation du GEO par fine-tuning. On peut imaginer :

Des modèles fine-tunés par secteur (santé, juridique, e-commerce...)
Des pipelines automatisés qui réécrivent du contenu à grande échelle
Des outils SaaS qui intègrent ces modèles pour les créateurs de contenu

C'est encore un premier pas — le dataset est petit, le domaine unique — mais la preuve de concept est là. Le GEO automatisé par fine-tuning est viable, même avec des ressources limitées.

Combiné avec les approches agentiques comme AgenticGEO, on voit se dessiner un futur où l'optimisation pour la recherche IA sera largement automatisée.

Paper : Lüttgenau, F., Colic, I., & Ramirez, G. (2025). Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation. arXiv:2507.03169

Beyond SEO : Fine-tuner un transformer pour le GEO