Beyond SEO: Fine-tuning di un transformer per ottimizzare i contenuti per la ricerca IA
Basato sul paper "Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation" di Lüttgenau, Colic & Ramirez. Pubblicato a luglio 2025.
Paper: arXiv:2507.03169
L'idea: e se un modello potesse riscrivere i tuoi contenuti automaticamente?
Finora, il GEO si basava su strategie manuali: "aggiungete statistiche", "citate le fonti", "migliorate la fluidità". È efficace, ma richiede lavoro umano per ogni pagina.
Questo paper propone un approccio radicalmente diverso: fine-tunare un modello di linguaggio (BART) affinché riscriva automaticamente contenuti web in versione ottimizzata GEO.
L'idea è semplice: dare al modello del testo grezzo di un sito web in input, e ottenere in output una versione ottimizzata che verrà citata meglio dai motori di ricerca IA.
Come funziona
I dati di addestramento
I ricercatori hanno creato un dataset sintetico di 1.905 coppie di contenuti nel dominio dei viaggi:
- Input: testo grezzo di un sito web di viaggi
- Output: versione ottimizzata GEO dello stesso testo
Le versioni ottimizzate integrano:
- Citazioni credibili
- Prove statistiche
- Una migliore fluidità linguistica
Il modello
Hanno fine-tunato BART-base — un modello transformer relativamente piccolo e accessibile — su queste coppie. Non servono GPU mostruose: è un approccio che funziona con risorse modeste.
I risultati
Qualità della riscrittura
Il modello fine-tunato supera il BART di base sulle metriche di qualità del testo:
- ROUGE-L: 0,249 (vs 0,226 per la baseline) — misura la similarità con il testo target
- BLEU: 0,200 (vs 0,173) — misura la precisione della generazione
Visibilità nella ricerca IA
È qui che diventa interessante. I ricercatori hanno testato il contenuto ottimizzato con Llama-3.3-70B come motore generativo:
- +15,6% di miglioramento nel conteggio parole assoluto nelle risposte generate
- +31% di miglioramento nel conteggio parole aggiustato per la posizione (le parole a inizio risposta contano di più)
Il contenuto riscritto dal modello è significativamente più visibile nelle risposte dell'IA.
Perché è importante
1. La prima prova che il fine-tuning funziona per il GEO
Prima di questo paper, tutti gli approcci GEO utilizzavano regole manuali o prompting di LLM. È la prima dimostrazione empirica che un modello fine-tunato specificamente per il GEO può produrre risultati significativi.
2. Accessibile con risorse modeste
BART-base è un modello piccolo. Il dataset conta meno di 2.000 esempi. Non serve un cluster GPU per riprodurre questi risultati. È un approccio che piccoli team o indipendenti potrebbero adottare.
3. Specifico per il dominio
Il modello è stato addestrato su contenuti di viaggio. I ricercatori sottolineano che l'approccio è domain-specific — servirebbero dataset diversi per altri settori. Ma il pipeline di creazione di dati sintetici è riproducibile.
I limiti
- Un solo dominio testato (viaggi) — la generalizzazione ad altri settori non è dimostrata
- Dataset sintetico — le coppie di addestramento sono generate dall'IA, non da umani
- Modello piccolo — BART-base ha i suoi limiti in termini di comprensione e generazione
- Nessun test end-to-end — come sottolinea SAGEO Arena, ottimizzare per la generazione senza testare il retrieval può essere controproducente
Cosa anticipa per il futuro del GEO
Questo paper apre una strada promettente: l'automazione del GEO tramite fine-tuning. Si possono immaginare:
- Modelli fine-tunati per settore (salute, legale, e-commerce...)
- Pipeline automatizzati che riscrivono contenuti su larga scala
- Strumenti SaaS che integrano questi modelli per i creatori di contenuti
È ancora un primo passo — il dataset è piccolo, il dominio unico — ma la prova di concetto c'è. Il GEO automatizzato tramite fine-tuning è realizzabile, anche con risorse limitate.
Combinato con gli approcci agentici come AgenticGEO, si intravede un futuro in cui l'ottimizzazione per la ricerca IA sarà largamente automatizzata.
Paper: Lüttgenau, F., Colic, I., & Ramirez, G. (2025). Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation. arXiv:2507.03169