Lecturas de IA

Papers explicados sin perder el rigor.

Papers que voy leyendo y explicando con mis palabras: contexto, intuición principal, por qué importan y qué ideas me llevo para IA aplicada.

Ver lecturas Explorar temas

Paper fundacional

Attention Is All You Need

Vaswani et al. · 2017

Una lectura divulgativa del paper que introdujo el Transformer: por qué la atención sustituyó a la recurrencia, qué resuelve el self-attention y por qué cambió la IA moderna.

Transformer Self-attention NLP 12 min

Leer post

Últimas lecturas

Notas para entender papers, no para coleccionarlos.

Paper fundacional Attention Is All You Need Vaswani et al. · 2017

La idea del Transformer, explicada desde la intuición de la atención hasta por qué escaló tan bien.

Transformer · Self-attention · NLP · 12 min

Próximamente BERT: Pre-training of Deep Bidirectional Transformers Devlin et al. · 2018

Una lectura sobre contexto bidireccional, preentrenamiento y cómo cambió la forma de atacar tareas de NLP.

BERT · Pretraining · NLP

Próximamente Retrieval-Augmented Generation for Knowledge-Intensive NLP Lewis et al. · 2020

Qué añade recuperación externa a un modelo generativo y dónde empiezan las preguntas de evaluación.

RAG · Retrieval · Evaluation

Lecturas

Papers, notas y mapas mentales para IA aplicada.

El índice crece con lecturas publicables: papers fundacionales, arquitecturas, evaluación, RAG, NLP clínico y piezas que conectan investigación con sistemas reales.

Paper fundacional

Attention Is All You Need

Vaswani et al. · 2017

Una lectura divulgativa del paper que introdujo el Transformer: por qué la atención sustituyó a la recurrencia, qué resuelve el self-attention y por qué cambió la IA moderna.

8 mayo 2026 12 min Leer

Próximamente

BERT: Pre-training of Deep Bidirectional Transformers

Devlin et al. · 2018

Contexto bidireccional, masked language modeling y el salto práctico que abrió una etapa muy productiva para NLP.

Backlog NLP En preparación

Próximamente

RAG para preguntas clínicas: límites antes que promesas

Notas de lectura · Clinical AI

Un mapa para leer papers de recuperación y generación en entornos donde importan trazabilidad, cobertura y errores silenciosos.

Backlog Clinical AI En preparación

Temas

Un mapa de lectura para no perderse entre papers.

Los temas sirven como carriles: fundamentos, arquitecturas, evaluación, clínica y sistemas. La idea no es acumular nombres, sino ver qué pregunta resuelve cada paper.

Transformers

Atención, paralelización, escalado, variantes de arquitectura y decisiones que siguen marcando modelos modernos.

NLP clínico

Extracción, clasificación, RAG y evaluación en textos donde el coste de un error no es simétrico.

Evaluación

Métricas, benchmarks, validación humana y límites de medir sistemas generativos con números demasiado cómodos.

Sistemas RAG

Recuperar contexto, justificar respuestas, diseñar trazabilidad y saber cuándo el pipeline falla en silencio.

Arquitecturas

Ideas de diseño que sobreviven más allá de una implementación concreta: representación, memoria, routing y eficiencia.

Producto e IA

Lecturas que conectan papers con interfaces, decisiones de producto, coste, observabilidad y uso real.

Sobre el blog

Notas de lectura, no vitrinas de autoridad.

Este espacio acompaña a mi web personal. Aquí ordeno papers que voy leyendo para entender mejor ideas de IA, especialmente las que pueden aterrizar en investigación clínica, producto o sistemas que alguien tenga que usar de verdad.

No llamo a esto “mis aportaciones” cuando estoy explicando trabajo de otras personas. La intención es más honesta: leer, entender, destilar y dejar una nota útil para volver a ella.

Cuando haya interpretación personal, la marcaré como tal. Cuando un paper tenga límites, los comentaré sin convertirlos en una demolición. Y cuando una idea me parezca potente, intentaré explicar por qué sin inflarla.

Ver lecturas Volver a petteraxcell.com

Volver a lecturas

Paper fundacional

Attention Is All You Need

La lectura del paper que introdujo el Transformer y cambió cómo entendemos la atención en modelos de lenguaje.

Vaswani et al. 2017 12 min Paper original

Idea clave

La aportación potente no es “usar atención” en abstracto. Es convertir la atención en el mecanismo central de la arquitectura y quitar la recurrencia como camino obligatorio para mezclar información entre posiciones.

Qué problema había antes

Antes del Transformer, muchos modelos de secuencia dependían de RNNs, LSTMs, GRUs o CNNs. Funcionaban, pero traían una tensión clara: procesar tokens uno detrás de otro hace difícil paralelizar, y conectar posiciones lejanas puede volverse costoso o inestable.

Si una palabra al principio de una frase condiciona otra al final, el modelo necesita transportar esa información por varios pasos. Las arquitecturas recurrentes tenían mecanismos para hacerlo, pero el recorrido seguía siendo secuencial.

La intuición de la atención

La atención se entiende mejor como una pregunta: para representar este token, ¿a qué otros tokens debería mirar y cuánto debería importar cada uno?

Self-attention aplica esa pregunta dentro de la propia secuencia. Cada posición genera una representación nueva mezclando información de otras posiciones, ponderada por relevancia. No hay que esperar a que el estado vaya avanzando token a token.

Self-attention como mezcla directa entre tokens

El modelo mira contexto

Multi-head attention

Una sola atención puede capturar una relación, pero el lenguaje no vive en una sola relación. Multi-head attention permite que el modelo mire la secuencia desde varios subespacios a la vez.

Una cabeza puede especializarse en dependencias sintácticas, otra en relaciones semánticas, otra en posiciones cercanas. No hay que imaginarlo como categorías limpias y garantizadas, pero sí como una forma de dar más canales de comparación.

La posición no desaparece

Si eliminas la recurrencia, también pierdes una señal natural de orden. Por eso el Transformer añade positional encoding: una forma de inyectar información de posición para que el modelo no trate la secuencia como una bolsa de palabras.

El paper original usa funciones senoidales. Lo importante, para una primera lectura, es la función que cumplen: darle al modelo una noción de dónde está cada token dentro de la secuencia.

Por qué escaló tan bien

La gran ventaja práctica es que muchas operaciones pueden paralelizarse. En lugar de recorrer la frase de izquierda a derecha manteniendo un estado, el Transformer calcula relaciones entre posiciones de forma más directa.

Eso no significa que sea gratis. La atención sobre todos los pares de tokens tiene coste, y las secuencias largas abren problemas propios. Pero el diseño encajó muy bien con hardware moderno y con el entrenamiento a gran escala.

Paper original

Vaswani, A. et al. “Attention Is All You Need”. NeurIPS, 2017.

Abrir en arXiv

Qué no conviene malinterpretar

El Transformer no hizo irrelevante todo lo anterior de un día para otro. Tampoco significa que “más atención” sea siempre la respuesta. El mérito del paper está en una combinación concreta: atención como bloque central, arquitectura encoder-decoder, normalización, conexiones residuales, feed-forward por posición y una receta de entrenamiento que funcionó muy bien.

También conviene recordar que el paper nace en traducción automática. Su influencia posterior en LLMs es enorme, pero la lectura rigurosa empieza por el problema original que resolvía.

Qué me llevo

Me llevo una idea de diseño muy fuerte: cuando una dependencia estructural limita el aprendizaje y la escala, quizá no basta con optimizarla; a veces hay que cambiar el camino por el que fluye la información.

Para IA aplicada, el aprendizaje no es solo “usar Transformers”. Es mirar una arquitectura preguntando qué cuello de botella elimina, qué coste nuevo introduce y qué tipo de sistema permite construir.