Beyond SEO : Fine-tuner un transformer pour optimiser le contenu pour la recherche IA
Basé sur le papier "Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation" par Lüttgenau, Colic & Ramirez. Publié en juillet 2025.
Paper : arXiv:2507.03169
L'idée : et si un modèle pouvait réécrire votre contenu automatiquement ?
Jusqu'ici, le GEO reposait sur des stratégies manuelles : "ajoutez des statistiques", "citez des sources", "améliorez la fluidité". C'est efficace, mais ça demande du travail humain pour chaque page.
Ce papier propose une approche radicalement différente : fine-tuner un modèle de langage (BART) pour qu'il réécrive automatiquement du contenu web en version optimisée GEO.
L'idée est simple : donner au modèle du texte brut de site web en entrée, et obtenir en sortie une version optimisée qui sera mieux citée par les moteurs de recherche IA.
Comment ça marche
Les données d'entraînement
Les chercheurs ont créé un dataset synthétique de 1 905 paires de contenus dans le domaine du voyage :
- Entrée : texte brut d'un site web de voyage
- Sortie : version optimisée GEO du même texte
Les versions optimisées intègrent :
- Des citations crédibles
- Des preuves statistiques
- Une meilleure fluidité linguistique
Le modèle
Ils ont fine-tuné BART-base — un modèle transformer relativement petit et accessible — sur ces paires. Pas besoin de GPU monstrueux : c'est une approche qui fonctionne avec des ressources modestes.
Les résultats
Qualité de la réécriture
Le modèle fine-tuné surpasse le BART de base sur les métriques de qualité texte :
- ROUGE-L : 0.249 (vs 0.226 pour le baseline) — mesure la similarité avec le texte cible
- BLEU : 0.200 (vs 0.173) — mesure la précision de la génération
Visibilité dans la recherche IA
C'est là que ça devient intéressant. Les chercheurs ont testé le contenu optimisé avec Llama-3.3-70B comme moteur génératif :
- +15,6% d'amélioration en nombre de mots absolus dans les réponses générées
- +31% d'amélioration en nombre de mots ajusté par la position (les mots en début de réponse comptent plus)
Le contenu réécrit par le modèle est significativement plus visible dans les réponses de l'IA.
Pourquoi c'est important
1. La première preuve que le fine-tuning fonctionne pour le GEO
Avant ce papier, toutes les approches GEO utilisaient soit des règles manuelles, soit du prompting de LLMs. C'est la première démonstration empirique qu'un modèle fine-tuné spécifiquement pour le GEO peut produire des résultats significatifs.
2. Accessible avec des ressources modestes
BART-base est un petit modèle. Le dataset fait moins de 2 000 exemples. Pas besoin d'un cluster GPU pour reproduire ces résultats. C'est une approche que des petites équipes ou des indépendants pourraient adopter.
3. Spécifique au domaine
Le modèle a été entraîné sur du contenu voyage. Les chercheurs soulignent que l'approche est domain-specific — il faudrait des datasets différents pour d'autres secteurs. Mais le pipeline de création de données synthétiques est reproductible.
Les limites
- Un seul domaine testé (voyage) — la généralisation à d'autres secteurs n'est pas prouvée
- Dataset synthétique — les paires d'entraînement sont générées par IA, pas par des humains
- Modèle petit — BART-base a ses limites en termes de compréhension et de génération
- Pas de test end-to-end — comme le souligne SAGEO Arena, optimiser pour la génération sans tester le retrieval peut être contre-productif
Ce que ça annonce pour le futur du GEO
Ce papier ouvre une voie prometteuse : l'automatisation du GEO par fine-tuning. On peut imaginer :
- Des modèles fine-tunés par secteur (santé, juridique, e-commerce...)
- Des pipelines automatisés qui réécrivent du contenu à grande échelle
- Des outils SaaS qui intègrent ces modèles pour les créateurs de contenu
C'est encore un premier pas — le dataset est petit, le domaine unique — mais la preuve de concept est là. Le GEO automatisé par fine-tuning est viable, même avec des ressources limitées.
Combiné avec les approches agentiques comme AgenticGEO, on voit se dessiner un futur où l'optimisation pour la recherche IA sera largement automatisée.
Paper : Lüttgenau, F., Colic, I., & Ramirez, G. (2025). Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation. arXiv:2507.03169