Beyond SEO: Fine-tuning de un transformer para optimizar contenido para la búsqueda IA

Basado en el artículo "Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation" de Lüttgenau, Colic y Ramirez. Publicado en julio de 2025.

Paper: arXiv:2507.03169


La idea: ¿y si un modelo pudiera reescribir tu contenido automáticamente?

Hasta ahora, el GEO se basaba en estrategias manuales: "añade estadísticas", "cita fuentes", "mejora la fluidez". Es eficaz, pero requiere trabajo humano para cada página.

Este artículo propone un enfoque radicalmente diferente: fine-tunear un modelo de lenguaje (BART) para que reescriba automáticamente contenido web en su versión optimizada GEO.

La idea es simple: dar al modelo texto bruto de un sitio web como entrada, y obtener como salida una versión optimizada que será mejor citada por los motores de búsqueda IA.


Cómo funciona

Los datos de entrenamiento

Los investigadores crearon un dataset sintético de 1 905 pares de contenidos en el dominio del turismo:

  • Entrada: texto bruto de un sitio web de viajes
  • Salida: versión optimizada GEO del mismo texto

Las versiones optimizadas integran:

  • Citas creíbles
  • Evidencias estadísticas
  • Una mejor fluidez lingüística

El modelo

Fine-tunearon BART-base — un modelo transformer relativamente pequeño y accesible — con estos pares. No se necesitan GPUs monstruosas: es un enfoque que funciona con recursos modestos.


Los resultados

Calidad de la reescritura

El modelo fine-tuneado supera al BART base en las métricas de calidad textual:

  • ROUGE-L: 0.249 (vs 0.226 para el baseline) — mide la similitud con el texto objetivo
  • BLEU: 0.200 (vs 0.173) — mide la precisión de la generación

Visibilidad en la búsqueda IA

Aquí es donde se pone interesante. Los investigadores probaron el contenido optimizado con Llama-3.3-70B como motor generativo:

  • +15,6% de mejora en recuento absoluto de palabras en las respuestas generadas
  • +31% de mejora en recuento de palabras ajustado por posición (las palabras al inicio de la respuesta cuentan más)

El contenido reescrito por el modelo es significativamente más visible en las respuestas de la IA.


Por qué es importante

1. La primera prueba de que el fine-tuning funciona para el GEO

Antes de este artículo, todos los enfoques GEO utilizaban reglas manuales o prompting de LLMs. Esta es la primera demostración empírica de que un modelo fine-tuneado específicamente para el GEO puede producir resultados significativos.

2. Accesible con recursos modestos

BART-base es un modelo pequeño. El dataset tiene menos de 2 000 ejemplos. No se necesita un clúster de GPUs para reproducir estos resultados. Es un enfoque que pequeños equipos o profesionales independientes podrían adoptar.

3. Específico del dominio

El modelo fue entrenado con contenido de viajes. Los investigadores señalan que el enfoque es domain-specific — se necesitarían datasets diferentes para otros sectores. Pero el pipeline de creación de datos sintéticos es reproducible.


Las limitaciones

  • Un solo dominio probado (viajes) — la generalización a otros sectores no está demostrada
  • Dataset sintético — los pares de entrenamiento son generados por IA, no por humanos
  • Modelo pequeño — BART-base tiene sus limitaciones en términos de comprensión y generación
  • Sin prueba end-to-end — como señala SAGEO Arena, optimizar para la generación sin probar el retrieval puede ser contraproducente

Lo que anuncia para el futuro del GEO

Este artículo abre una vía prometedora: la automatización del GEO mediante fine-tuning. Podemos imaginar:

  • Modelos fine-tuneados por sector (salud, jurídico, e-commerce...)
  • Pipelines automatizados que reescriben contenido a gran escala
  • Herramientas SaaS que integren estos modelos para los creadores de contenido

Es todavía un primer paso — el dataset es pequeño, el dominio único — pero la prueba de concepto está ahí. El GEO automatizado mediante fine-tuning es viable, incluso con recursos limitados.

Combinado con los enfoques agénticos como AgenticGEO, se vislumbra un futuro donde la optimización para la búsqueda IA será ampliamente automatizada.


Paper: Lüttgenau, F., Colic, I., & Ramirez, G. (2025). Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation. arXiv:2507.03169