Beyond SEO: Fine-tuning di un transformer per ottimizzare i contenuti per la ricerca IA

Basato sul paper "Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation" di Lüttgenau, Colic & Ramirez. Pubblicato a luglio 2025.

Paper: arXiv:2507.03169


L'idea: e se un modello potesse riscrivere i tuoi contenuti automaticamente?

Finora, il GEO si basava su strategie manuali: "aggiungete statistiche", "citate le fonti", "migliorate la fluidità". È efficace, ma richiede lavoro umano per ogni pagina.

Questo paper propone un approccio radicalmente diverso: fine-tunare un modello di linguaggio (BART) affinché riscriva automaticamente contenuti web in versione ottimizzata GEO.

L'idea è semplice: dare al modello del testo grezzo di un sito web in input, e ottenere in output una versione ottimizzata che verrà citata meglio dai motori di ricerca IA.


Come funziona

I dati di addestramento

I ricercatori hanno creato un dataset sintetico di 1.905 coppie di contenuti nel dominio dei viaggi:

  • Input: testo grezzo di un sito web di viaggi
  • Output: versione ottimizzata GEO dello stesso testo

Le versioni ottimizzate integrano:

  • Citazioni credibili
  • Prove statistiche
  • Una migliore fluidità linguistica

Il modello

Hanno fine-tunato BART-base — un modello transformer relativamente piccolo e accessibile — su queste coppie. Non servono GPU mostruose: è un approccio che funziona con risorse modeste.


I risultati

Qualità della riscrittura

Il modello fine-tunato supera il BART di base sulle metriche di qualità del testo:

  • ROUGE-L: 0,249 (vs 0,226 per la baseline) — misura la similarità con il testo target
  • BLEU: 0,200 (vs 0,173) — misura la precisione della generazione

Visibilità nella ricerca IA

È qui che diventa interessante. I ricercatori hanno testato il contenuto ottimizzato con Llama-3.3-70B come motore generativo:

  • +15,6% di miglioramento nel conteggio parole assoluto nelle risposte generate
  • +31% di miglioramento nel conteggio parole aggiustato per la posizione (le parole a inizio risposta contano di più)

Il contenuto riscritto dal modello è significativamente più visibile nelle risposte dell'IA.


Perché è importante

1. La prima prova che il fine-tuning funziona per il GEO

Prima di questo paper, tutti gli approcci GEO utilizzavano regole manuali o prompting di LLM. È la prima dimostrazione empirica che un modello fine-tunato specificamente per il GEO può produrre risultati significativi.

2. Accessibile con risorse modeste

BART-base è un modello piccolo. Il dataset conta meno di 2.000 esempi. Non serve un cluster GPU per riprodurre questi risultati. È un approccio che piccoli team o indipendenti potrebbero adottare.

3. Specifico per il dominio

Il modello è stato addestrato su contenuti di viaggio. I ricercatori sottolineano che l'approccio è domain-specific — servirebbero dataset diversi per altri settori. Ma il pipeline di creazione di dati sintetici è riproducibile.


I limiti

  • Un solo dominio testato (viaggi) — la generalizzazione ad altri settori non è dimostrata
  • Dataset sintetico — le coppie di addestramento sono generate dall'IA, non da umani
  • Modello piccolo — BART-base ha i suoi limiti in termini di comprensione e generazione
  • Nessun test end-to-end — come sottolinea SAGEO Arena, ottimizzare per la generazione senza testare il retrieval può essere controproducente

Cosa anticipa per il futuro del GEO

Questo paper apre una strada promettente: l'automazione del GEO tramite fine-tuning. Si possono immaginare:

  • Modelli fine-tunati per settore (salute, legale, e-commerce...)
  • Pipeline automatizzati che riscrivono contenuti su larga scala
  • Strumenti SaaS che integrano questi modelli per i creatori di contenuti

È ancora un primo passo — il dataset è piccolo, il dominio unico — ma la prova di concetto c'è. Il GEO automatizzato tramite fine-tuning è realizzabile, anche con risorse limitate.

Combinato con gli approcci agentici come AgenticGEO, si intravede un futuro in cui l'ottimizzazione per la ricerca IA sarà largamente automatizzata.


Paper: Lüttgenau, F., Colic, I., & Ramirez, G. (2025). Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation. arXiv:2507.03169