La aportación potente no es “usar atención” en abstracto. Es convertir la atención en el mecanismo central de la arquitectura y quitar la recurrencia como camino obligatorio para mezclar información entre posiciones.
Qué problema había antes
Antes del Transformer, muchos modelos de secuencia dependían de RNNs, LSTMs, GRUs o CNNs. Funcionaban, pero traían una tensión clara: procesar tokens uno detrás de otro hace difícil paralelizar, y conectar posiciones lejanas puede volverse costoso o inestable.
Si una palabra al principio de una frase condiciona otra al final, el modelo necesita transportar esa información por varios pasos. Las arquitecturas recurrentes tenían mecanismos para hacerlo, pero el recorrido seguía siendo secuencial.
La intuición de la atención
La atención se entiende mejor como una pregunta: para representar este token, ¿a qué otros tokens debería mirar y cuánto debería importar cada uno?
Self-attention aplica esa pregunta dentro de la propia secuencia. Cada posición genera una representación nueva mezclando información de otras posiciones, ponderada por relevancia. No hay que esperar a que el estado vaya avanzando token a token.
Multi-head attention
Una sola atención puede capturar una relación, pero el lenguaje no vive en una sola relación. Multi-head attention permite que el modelo mire la secuencia desde varios subespacios a la vez.
Una cabeza puede especializarse en dependencias sintácticas, otra en relaciones semánticas, otra en posiciones cercanas. No hay que imaginarlo como categorías limpias y garantizadas, pero sí como una forma de dar más canales de comparación.
La posición no desaparece
Si eliminas la recurrencia, también pierdes una señal natural de orden. Por eso el Transformer añade positional encoding: una forma de inyectar información de posición para que el modelo no trate la secuencia como una bolsa de palabras.
El paper original usa funciones senoidales. Lo importante, para una primera lectura, es la función que cumplen: darle al modelo una noción de dónde está cada token dentro de la secuencia.
Por qué escaló tan bien
La gran ventaja práctica es que muchas operaciones pueden paralelizarse. En lugar de recorrer la frase de izquierda a derecha manteniendo un estado, el Transformer calcula relaciones entre posiciones de forma más directa.
Eso no significa que sea gratis. La atención sobre todos los pares de tokens tiene coste, y las secuencias largas abren problemas propios. Pero el diseño encajó muy bien con hardware moderno y con el entrenamiento a gran escala.
Vaswani, A. et al. “Attention Is All You Need”. NeurIPS, 2017.
Abrir en arXivQué no conviene malinterpretar
El Transformer no hizo irrelevante todo lo anterior de un día para otro. Tampoco significa que “más atención” sea siempre la respuesta. El mérito del paper está en una combinación concreta: atención como bloque central, arquitectura encoder-decoder, normalización, conexiones residuales, feed-forward por posición y una receta de entrenamiento que funcionó muy bien.
También conviene recordar que el paper nace en traducción automática. Su influencia posterior en LLMs es enorme, pero la lectura rigurosa empieza por el problema original que resolvía.
Qué me llevo
Me llevo una idea de diseño muy fuerte: cuando una dependencia estructural limita el aprendizaje y la escala, quizá no basta con optimizarla; a veces hay que cambiar el camino por el que fluye la información.
Para IA aplicada, el aprendizaje no es solo “usar Transformers”. Es mirar una arquitectura preguntando qué cuello de botella elimina, qué coste nuevo introduce y qué tipo de sistema permite construir.