1. Introducción
AI Visual Lab es un laboratorio completo de inteligencia artificial explicable: 20 simulaciones interactivas que transforman los conceptos más abstractos del aprendizaje automático en experiencias sensoriales. Cada simulación se ve, se escucha y se manipula.
Filosofía: Explicabilidad Radical
No basta con ver la red neuronal — hay que escuchar el gradiente desvanecerse, sentir la fricción del learning rate, oír la disonancia del error. La sonificación convierte magnitudes numéricas en señales auditivas: un intervalo de tritono señala error alto, un acorde mayor resuelto indica convergencia.
¿Qué aprenderás?
- Los fundamentos matemáticos del aprendizaje automático, desde el perceptrón hasta la superposición
- Cómo funcionan las arquitecturas clásicas (CNN, LSTM, GAN, Autoencoder) desde dentro
- La mecánica interna de los Transformers y los Large Language Models
- Las fronteras de la investigación: modelos de difusión, MoE, interpretabilidad mecánica
Cómo usar esta guía
- Lee la teoría de cada sección para comprender los fundamentos matemáticos
- Abre la simulación correspondiente (enlaces en cada sección) y experimenta
- Realiza los ejercicios propuestos al final de cada sección
- Toma notas en el panel lateral derecho — se guardan automáticamente
Progreso del Tutorial
Estructura del Laboratorio
| Módulo | Tema | Simulaciones | Dificultad |
|---|---|---|---|
| Módulo 1 | Fundamentos del Aprendizaje | 5 (Sims 1-5) | Fundamental |
| Módulo 2 | Arquitecturas Clásicas | 5 (Sims 6-10) | Intermedio |
| Módulo 3 | Transformers y LLMs | 5 (Sims 11-15) | Intermedio |
| Módulo 4 | Fronteras de la IA | 5 (Sims 16-20) | Avanzado |
2. Ruta de Aprendizaje
Elige la ruta que mejor se adapte a tu nivel y objetivos. Cada ruta incluye las simulaciones recomendadas y sus dependencias. Marca las simulaciones completadas para seguir tu progreso.
Ruta Fundamental 5 simulaciones
Ideal para principiantes. Cubre los cimientos del aprendizaje automático: desde la neurona artificial hasta la inicialización de redes profundas.
Ruta Practitioner 10 simulaciones
Para quienes buscan dominar las arquitecturas clásicas. Incluye la ruta Fundamental completa más las 5 arquitecturas del Módulo 2.
Ruta Researcher 20 simulaciones
El recorrido completo. Incluye Transformers, LLMs y las fronteras de la investigación en IA.
3. Prerrequisitos
Las simulaciones están diseñadas para ser accesibles, pero ciertos fundamentos matemáticos enriquecerán significativamente tu comprensión.
| Tema | Nivel | Conceptos Clave |
|---|---|---|
| Álgebra Lineal | Intermedio | Vectores, matrices, producto punto, autovalores |
| Cálculo | Básico | Derivadas, regla de la cadena, gradientes |
| Probabilidad | Básico | Distribuciones, Bayes, entropía |
| Programación | Básico | No necesario, pero ayuda leer JavaScript |
Repaso: Vectores y producto punto
Un vector es una lista ordenada de números. En ML, los datos, pesos y gradientes son vectores. El producto punto mide la similitud entre dos vectores:
Cuando dos vectores apuntan en la misma dirección, su producto punto es máximo. Cuando son perpendiculares, es cero. Este concepto aparece en el perceptrón, en attention, y en embeddings.
Repaso: Derivadas y regla de la cadena
La derivada f'(x) indica la tasa de cambio de una función. En ML, usamos derivadas para encontrar cómo ajustar los pesos para reducir el error. La regla de la cadena permite derivar funciones compuestas:
Esta regla es la base matemática del algoritmo de backpropagation (Simulación 3).
Repaso: Softmax y distribuciones de probabilidad
La función softmax convierte un vector de valores reales en una distribución de probabilidad:
Aparece en clasificación (perceptrón multicapa), en attention (para normalizar pesos), y en la salida de LLMs. Un parámetro de temperatura T controla la nitidez: dividir los logits por T antes del softmax hace la distribución más uniforme (T alto) o más puntiaguda (T bajo).
4. Módulo 1: Fundamentos del Aprendizaje Automático
Este módulo cubre los cimientos sobre los que se construye toda la inteligencia artificial moderna. Partimos de la unidad computacional más simple — el perceptrón — y construimos progresivamente las herramientas necesarias para entrenar redes profundas: optimización, propagación de gradientes, funciones de activación e inicialización.
4.1 El Perceptrón Viviente
Contexto Histórico
En 1958, Frank Rosenblatt propuso el perceptrón como modelo computacional inspirado en la neurona biológica (Rosenblatt, 1958). La idea es directa: una unidad que recibe entradas ponderadas, las suma, y produce una salida binaria según un umbral. Este modelo fue el primer algoritmo capaz de aprender a clasificar datos a partir de ejemplos.
Modelo Matemático
El perceptrón computa una combinación lineal de las entradas y aplica una función escalón:
Donde w es el vector de pesos, x el vector de entrada, y b el sesgo (bias). La frontera de decisión es la recta donde w · x + b = 0.
Regla de Aprendizaje
Cuando el perceptrón clasifica incorrectamente un punto, los pesos se actualizan:
donde η es la tasa de aprendizaje. El Teorema de Convergencia del Perceptrón (Novikoff, 1963) garantiza que si los datos son linealmente separables, el algoritmo converge en un número finito de pasos.
Limitación Fundamental
En 1969, Minsky y Papert demostraron que un perceptrón simple no puede resolver problemas no linealmente separables, como la función XOR. Esta limitación provocó el primer "invierno de la IA" y motivó el desarrollo de redes multicapa.
Qué Observar en la Simulación
- La línea de decisión pivotea y se traslada con cada actualización de pesos
- Los puntos mal clasificados parpadean en dorado antes de ser corregidos
- El sonido de tritono (disonancia) se resuelve progresivamente hacia consonancia
- Con el preset "circular", observa cómo el perceptrón nunca converge
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Cota de convergencia (Novikoff): El número máximo de actualizaciones antes de converger está acotado por:
donde R es la norma máxima de los datos y γ es el margen geométrico.
Distancia de la frontera al origen:
Sonificación
| Parámetro | Sonido |
|---|---|
| Error > 50% | Tritono C-F# (disonancia) |
| Error 20%-50% | Tercera menor C-Eb (tensión) |
| Error 1%-20% | Quinta justa C-G (armonía) |
| Error 0% | Acorde mayor C-E-G-C' (consonancia) |
| Actualización de peso | Tick a 880 Hz, 40ms |
| Convergencia | Acorde Do mayor completo, 800ms |
Ejercicio 1.1a · Fundamental
Abre la simulación y selecciona el preset "lineal". Entrena hasta convergencia. Luego añade manualmente un punto de la clase opuesta dentro de la región clasificada. ¿Cuántas iteraciones necesita el perceptrón para ajustarse? Ahora selecciona el preset "circular". ¿Por qué el perceptrón oscila sin converger?
Ejercicio 1.1b · Intermedio
Demostración geométrica de XOR: Carga el preset XOR. En papel, dibuja los cuatro cuadrantes con sus clases asignadas. Intenta trazar una única línea recta que separe los puntos rojos de los azules. Demuestra formalmente por qué es imposible usando un sistema de desigualdades.
4.2 Descenso de Gradiente
Optimización y Superficies de Pérdida
Entrenar una red neuronal equivale a encontrar los parámetros θ que minimizan una función de pérdida L(θ). La geometría de esta función — su superficie de pérdida — determina la dificultad del problema. Puede contener valles, mesetas, puntos de silla y mínimos locales.
SGD (Stochastic Gradient Descent)
El gradiente ∇L indica la dirección de máximo crecimiento; moverse en la dirección opuesta reduce la pérdida. La tasa de aprendizaje η controla el tamaño del paso.
Momentum
El momentum acumula velocidad, permitiendo atravesar mesetas y reducir oscilaciones en valles estrechos. El hiperparámetro β (típicamente 0.9) controla cuánta "inercia" se conserva.
Adam (Adaptive Moment Estimation)
Combina momentum con tasas de aprendizaje adaptativas por parámetro (Kingma & Ba, 2015):
| Optimizador | Ventaja | Riesgo | Mejor para |
|---|---|---|---|
| SGD | Simple, generaliza bien | Lento en valles estrechos | Convergencia final |
| Momentum | Atraviesa mesetas | Puede "saltarse" mínimos | Superficies con momentum |
| RMSProp | Adaptativo por parámetro | Sin corrección de sesgo | RNNs |
| Adam | Robusto, rápido | Puede no generalizar tan bien | Uso general |
Qué Observar en la Simulación
- En la función Rastrigin (muchos mínimos locales), SGD queda atrapado mientras Adam escapa
- En el punto de silla, el momentum ayuda a escapar de la meseta
- Un learning rate demasiado alto causa divergencia — la partícula sale de la superficie
- El pitch del sonido baja conforme la pérdida desciende
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Cota de convergencia SGD (funciones convexas):
Cosine annealing schedule:
Sonificación
| Parámetro | Sonido |
|---|---|
| Valor de loss | Frecuencia: f = 180 + min(log(L+1)·80, 600) Hz |
| Magnitud del gradiente | Volumen proporcional (pendiente mayor = más fuerte) |
| Convergencia | Acorde ascendente C4-E4-G4-C5 |
| Forma de onda: Sine | Suave, indica descenso estable |
| Forma de onda: Sawtooth | Timbre áspero, cambios de frecuencia más evidentes |
Ejercicio 1.2a · Fundamental
Selecciona la superficie Rastrigin y coloca 4 partículas en diferentes posiciones. Usa SGD con η=0.01. ¿Cuántas encuentran el mínimo global? Ahora cambia a Adam. ¿Mejora el resultado? Experimenta con η=1.0 — ¿qué ocurre?
Ejercicio 1.2b · Intermedio
Geometría del punto de silla: En la función Saddle Point, activa el campo vectorial. Observa las flechas alrededor del origen. ¿En qué direcciones apuntan hacia el origen? ¿En cuáles se alejan? Relaciónalo con los autovalores de la Hessiana H = [[2, 0], [0, -2]].
4.3 Backpropagation
La Regla de la Cadena Aplicada
El algoritmo de backpropagation (Rumelhart, Hinton & Williams, 1986) es la aplicación sistemática de la regla de la cadena para calcular gradientes en redes multicapa. Permite saber cuánto contribuye cada peso al error total.
El proceso tiene dos fases:
- Forward pass: Se computan las activaciones capa por capa, desde la entrada hasta la salida
- Backward pass: Se computan los gradientes capa por capa, desde la salida hasta la entrada
Problemas del Gradiente
Vanishing Gradient
Con sigmoid/tanh, la derivada es siempre <1. Al multiplicar muchas derivadas pequeñas capa tras capa, el gradiente se hace exponencialmente pequeño. Las capas iniciales apenas aprenden.
Exploding Gradient
Si los pesos son grandes, los gradientes crecen exponencialmente. Los pesos saltan erráticamente y el entrenamiento diverge. Solución: gradient clipping.
Qué Observar en la Simulación
- El grosor de las conexiones indica la magnitud de los pesos
- Las partículas fluyen hacia adelante (azul) y hacia atrás (rojo)
- Con sigmoid, los gradientes de las primeras capas se desvanecen — las notas se apagan
- Con ReLU, los gradientes fluyen más uniformemente a través de la red
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Propagación del delta por capas ocultas:
Cota de vanishing gradient con sigmoid: Para L capas con sigmoid, el gradiente de la primera capa se reduce por un factor de al menos:
Con L=4 capas, el gradiente en la primera capa es ~256x menor que en la última.
Sonificación
| Parámetro | Sonido |
|---|---|
| Forward pass (por capa) | Nota ascendente: capas tempranas = pitch bajo, capas finales = pitch alto |
| Backward pass (por capa) | Nota descendente: inversión del patrón |
| Volumen backward | Proporcional a magnitud media del gradiente — se escucha el vanishing gradient como silencio progresivo |
Ejercicio 1.3a · Fundamental
Configura todas las capas con activación Sigmoid y observa el backward pass. ¿Las partículas de gradiente llegan a la primera capa? Ahora cambia a ReLU. ¿Qué diferencia observas?
Ejercicio 1.3b · Intermedio
Congelación selectiva: Con el problema Spiral y arquitectura 2→8→8→1: (1) entrena 100 épocas completas, (2) congela L1 y entrena 100 más, (3) reinicia y entrena con L2 congelada desde el inicio. ¿Qué caso tiene peor rendimiento? ¿Qué capa es más crítica?
4.4 Funciones de Activación
¿Por qué la No-Linealidad?
Sin funciones de activación no lineales, una red de N capas se reduce a una sola transformación lineal: W_N · ... · W_2 · W_1 · x = W'x. El Teorema de Aproximación Universal (Cybenko, 1989; Hornik, 1991) establece que una red de una capa oculta con activación no lineal puede aproximar cualquier función continua, dada suficiente anchura.
Las 8 Funciones
| Función | Ecuación | Rango | Propiedad clave |
|---|---|---|---|
| Sigmoid | σ(x) = 1/(1+e⁻ˣ) | (0, 1) | Saturación bilateral |
| Tanh | tanh(x) | (-1, 1) | Centrada en cero |
| ReLU | max(0, x) | [0, ∞) | Neuronas muertas si x<0 |
| Leaky ReLU | max(0.01x, x) | (-∞, ∞) | Evita neuronas muertas |
| ELU | x si x>0, α(eˣ−1) si x≤0 | (-α, ∞) | Suave en x=0 |
| Swish | x · σ(x) | ≈(-0.28, ∞) | Autoregulada |
| GELU | x · Φ(x) | ≈(-0.17, ∞) | Usada en Transformers |
| Mish | x · tanh(softplus(x)) | ≈(-0.31, ∞) | Suave, no monótona |
Derivada y Saturación
La derivada de sigmoid es σ'(x) = σ(x)(1−σ(x)), con máximo 0.25 en x=0. Para valores grandes de |x|, la derivada tiende a cero: la neurona se satura. ReLU resuelve esto en la zona positiva (derivada = 1), pero introduce el problema de neuronas muertas cuando la entrada es siempre negativa.
Qué Observar en la Simulación
- Los 8 canales tipo osciloscopio muestran la transformación de la misma señal de entrada
- La derivada (línea tenue) muestra dónde el gradiente fluye bien y dónde se satura
- Con amplitud alta ("modo explosión"), sigmoid y tanh saturan completamente
- ReLU "corta" la señal negativa — zona gris de muerte neuronal
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Aproximación de GELU:
Derivada de Swish:
Sonificación
| Función | Frecuencia | Onda | Posición estéreo |
|---|---|---|---|
| Sigmoid | 110 Hz | Sine | Izquierda |
| Tanh | 220 Hz | Sine | Centro-izq |
| ReLU | 330 Hz | Sawtooth | Centro-izq |
| Leaky ReLU | 440 Hz | Sawtooth | Centro |
| ELU | 550 Hz | Triangle | Centro |
| Swish | 660 Hz | Triangle | Centro-der |
| GELU | 770 Hz | Triangle | Centro-der |
| Mish | 880 Hz | Triangle | Derecha |
| Saturación | Detuning hasta 25 cents cuando σ'(x) < 0.1 | ||
Ejercicio 1.4a · Fundamental
Activa la onda senoidal con amplitud 2. Observa las 8 salidas. Luego sube la amplitud a 10 (modo explosión). ¿Cuáles funciones saturan? ¿Cuáles mantienen información?
Ejercicio 1.4b · Intermedio
Escuchar la saturación: Activa el audio con señal senoidal a amplitud normal. Sube gradualmente la amplitud a 10. ¿En qué punto empiezas a notar el detuning en los osciladores? ¿Cuáles funciones se deafinan primero? ¿Cuáles mantienen su pitch?
4.5 Inicialización de Pesos
El Big Bang de los Pesos
La inicialización de pesos determina el punto de partida del entrenamiento. Una inicialización incorrecta puede provocar que las activaciones se desvanezcan (colapsen a cero) o exploten (crezcan sin control) antes de que el entrenamiento comience. La clave es mantener la varianza de las activaciones estable a través de las capas.
Para que la varianza se conserve, necesitamos nₗ · Var[wₗ] = 1, es decir, Var[wₗ] = 1/nₗ.
Estrategias de Inicialización
| Estrategia | Varianza | Mejor con | Referencia |
|---|---|---|---|
| Xavier / Glorot | σ² = 2/(n_in + n_out) | Sigmoid, Tanh | Glorot & Bengio, 2010 |
| He / Kaiming | σ² = 2/n_in | ReLU, Leaky ReLU | He et al., 2015 |
| LeCun | σ² = 1/n_in | SELU | LeCun et al., 1998 |
| Normal(0, 1) | σ² = 1 | — | Demasiado grande |
| Zeros | σ² = 0 | — | Rompe simetría |
Inicializar en Cero
Si todos los pesos son idénticos, todas las neuronas de una capa computan exactamente lo mismo. Los gradientes también son idénticos, y los pesos se actualizan de forma idéntica. La red nunca rompe esta simetría — equivale a tener una sola neurona por capa.
Qué Observar en la Simulación
- Los histogramas apilados muestran la distribución de activaciones por capa
- Con Normal(0,1): los histogramas se expanden hasta explotar (rojo)
- Con Normal(0,0.01): los histogramas colapsan a cero (azul)
- Con He + ReLU: los histogramas mantienen una varianza estable (verde) a través de las 10 capas
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Propagación exponencial de la varianza:
La varianza crece o decrece exponencialmente con la profundidad L.
He/Kaiming desde el factor ReLU: Como ReLU elimina la mitad de la distribución: Var[ReLU(z)] = ½Var[z], necesitamos Var[w] = 2/n_in para compensar.
Sonificación
| Estado | Sonido |
|---|---|
| Varianza estable (≈1) | Nota media (~440 Hz), armónica |
| Varianza alta (explosión) | Nota aguda, volumen creciente |
| Varianza baja (desvanecimiento) | Nota grave, volumen decreciente |
| NaN / Infinito | Silencio abrupto |
| Diagnóstico estable | Acorde mayor consonante |
| Diagnóstico vanishing | Secuencia melancólica descendente |
| Diagnóstico exploding | Cluster disonante ascendente |
Ejercicio 1.5a · Fundamental
Configura 10 capas con activación ReLU. Prueba cada estrategia de inicialización y observa los histogramas. ¿Cuál mantiene la varianza más estable? Ahora cambia a Sigmoid y repite.
Ejercicio 1.5b · Avanzado
El punto de ruptura: Con Normal(0,1) y activación lineal, ¿cuál es la profundidad máxima antes de obtener NaN? Prueba con anchura 8, 64 y 256. ¿Las redes más estrechas sobreviven más capas o menos?
5. Módulo 2: Arquitecturas Clásicas
Con los fundamentos establecidos, este módulo explora las arquitecturas que definieron la primera era del deep learning. Cada una resuelve un problema específico: compresión de información (autoencoders), memoria secuencial (LSTM), atención selectiva, detección jerárquica de patrones (CNN), y generación adversaria (GAN).
5.1 Autoencoder: Compresión como Arquitectura
Representación y Compresión
Un autoencoder es una red neuronal entrenada para reconstruir su propia entrada, forzada a pasar por un cuello de botella (bottleneck) de dimensionalidad reducida. Al hacerlo, aprende una representación comprimida que captura las características esenciales de los datos.
El espacio latente (la representación en el bottleneck) organiza los datos de forma significativa: dígitos similares quedan cerca. Interpolar entre dos puntos del espacio latente genera "transiciones" entre conceptos.
Conexión con PCA
Un autoencoder lineal (sin activaciones) con bottleneck de dimensión k aprende exactamente las k primeras componentes principales (PCA). Los autoencoders no lineales son una generalización más potente.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Interpolación latente:
Loss del VAE con divergencia KL:
Sonificación
| Parámetro | Sonido |
|---|---|
| Época de entrenamiento | Nota con frecuencia inversamente proporcional al loss |
| Convergencia | Acorde consonante |
| Interpolación (z1, z2) | Dos osciladores modulados en frecuencia y volumen |
| Error de reconstrucción bajo | Sonido limpio consonante |
| Error de reconstrucción alto | Sonido disonante |
Ejercicio 2.1a · Fundamental
Entrena el autoencoder con bottleneck de 16 dimensiones. Observa la reconstrucción. Ahora reduce a 2 dimensiones. ¿Cuánta información se pierde? Usa el slider de interpolación para navegar entre dos dígitos.
Ejercicio 2.1b · Intermedio
Interpolación imposible: Interpola entre el dígito "1" y "0". ¿Existe un punto intermedio que se parezca a un "7"? ¿O la transición pasa por formas que no son dígitos reconocibles? ¿Qué dice esto sobre la geometría del espacio latente?
5.2 LSTM: Neuronas con Memoria
El Problema de las RNN Simples
Las redes recurrentes simples (RNN) sufren el problema del vanishing gradient en secuencias largas: la información de pasos tempranos se pierde exponencialmente. Las Long Short-Term Memory (Hochreiter & Schmidhuber, 1997) resuelven esto con un mecanismo de compuertas.
Las Tres Compuertas
El cell state C_t funciona como una cinta transportadora de información:
Qué Observar en la Simulación
- Las compuertas coloreadas: Forget (rojo), Input (verde), Output (azul)
- El cell state como río horizontal — su grosor indica cuánta información fluye
- Con secuencias repetitivas ("abcabc"), el forget gate aprende a filtrar y el input gate se estabiliza
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Flujo del gradiente a través del cell state:
Cuando f_t ≈ 1, el gradiente fluye sin atenuación — esta es la clave de por qué las LSTM resuelven el vanishing gradient.
GRU simplificada:
Sonificación
| Parámetro | Sonido |
|---|---|
| Forget gate (f_t) | Nota grave; frecuencia proporcional a f_t |
| Input gate (i_t) | Nota media; frecuencia proporcional a i_t |
| Output gate (o_t) | Nota aguda; frecuencia proporcional a o_t |
| Predicción correcta | Acorde consonante |
| Predicción incorrecta | Tono disonante desafinado |
Ejercicio 2.2a · Fundamental
Selecciona una secuencia repetitiva y observa cómo los gates se estabilizan. Luego fuerza el forget gate a 0 (memoria perfecta). ¿Qué efecto tiene sobre la predicción? ¿Y si lo fuerzas a 1 (amnesia completa)?
Ejercicio 2.2b · Intermedio
Output gate aislado: Fuerza input gate = 100 y forget gate = 100 (memoria máxima). Ahora varía el output gate de 0 a 100 mientras procesas una secuencia. ¿Cómo cambia la predicción? El output gate es como una válvula de lectura: ¿qué pasa si la memoria está llena pero no se puede leer?
5.3 Mecanismo de Atención
Atención como Alineamiento
El mecanismo de atención (Bahdanau et al., 2014) permite a una red neuronal "mirar" selectivamente diferentes partes de la entrada al producir cada elemento de la salida. La idea fundamental es computar un promedio ponderado donde los pesos reflejan la relevancia de cada posición:
Multi-head attention ejecuta la operación en paralelo con diferentes proyecciones, capturando distintos tipos de relación (sintáctica, semántica, posicional).
Qué Observar en la Simulación
- La matriz de atención como mapa de calor N×N — celdas brillantes indican alta atención
- Las líneas animadas conectan tokens con grosor proporcional al peso
- Con temperatura baja, la atención se concentra en pocos tokens (sharp)
- Con temperatura alta, la atención se distribuye uniformemente (flat)
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Entropía de la atención:
Entropía baja = atención enfocada en pocos tokens. Entropía alta (máx = log&sub2;(n)) = atención uniforme.
Positional encoding sinusoidal:
Sonificación
| Parámetro | Sonido |
|---|---|
| Peso de atención alto | Nota aguda, volumen alto |
| Cambio de head | Cambio de timbre (cada head tiene timbre distinto) |
| Temperatura baja | Sonido puntual — pocas notas dominantes |
| Temperatura alta | Sonido difuso — muchas notas simultáneas suaves |
Ejercicio 2.3a · Fundamental
Escribe o selecciona una frase y haz clic en diferentes tokens query. ¿Qué tokens reciben más atención? Experimenta con la temperatura del softmax: ¿qué ocurre cuando T → 0? ¿Y cuando T → ∞?
Ejercicio 2.3b · Avanzado
Un head vs. muchos: Compara 1 head con d_k=32 contra 8 heads con d_k=4 (mismo d_model=32). ¿Cuál produce patrones de atención más variados? ¿Por qué se prefiere multi-head en la práctica?
5.4 Redes Convolucionales: Detectives de Patrones
Inspiración Biológica
Las CNN están inspiradas en el trabajo de Hubel y Wiesel (1962) sobre la corteza visual: diferentes neuronas responden a diferentes orientaciones de bordes. En una CNN, los filtros (kernels) aprenden a detectar patrones locales, y las capas sucesivas detectan patrones cada vez más abstractos.
La Operación de Convolución
Cada capa produce feature maps: representaciones espaciales que resaltan la presencia de patrones específicos. El pooling reduce la resolución espacial, creando invariancia a pequeñas traslaciones.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Dimensión de salida del feature map:
donde W = tamaño de entrada, k = tamaño del kernel, s = stride, p = padding.
Cross-entropy para clasificación:
Sonificación
| Evento | Sonido |
|---|---|
| Trazo de dibujo | Click suave; intensidad del píxel dibujado |
| Activación de filtro | Una nota por filtro; magnitud de la activación máxima |
| Resultado de clasificación | Acorde de las top 3 clases más probables |
| Alta confianza | Frecuencia pura, clara, definida |
| Baja confianza | Ruido — múltiples frecuencias simultáneas |
Ejercicio 2.4a · Fundamental
Dibuja un dígito en el canvas y observa los feature maps de cada capa. ¿Qué detectan los filtros de la capa 1? Haz clic en un feature map para ver el filtro 3×3 que lo genera.
Ejercicio 2.4b · Intermedio
Receptive field: Dibuja un único píxel brillante en el centro del canvas 8×8. ¿Cuántas posiciones del feature map de capa 1 se activan? ¿Y de capa 2? Esto visualiza el receptive field: el área de la imagen que influye en cada neurona.
5.5 Redes Generativas Adversarias
El Juego Adversario
Las GANs (Goodfellow et al., 2014) formulan la generación como un juego entre dos redes: un Generador G que crea datos falsos, y un Discriminador D que intenta distinguir los datos reales de los falsos.
En el equilibrio de Nash, G genera datos indistinguibles de los reales, y D no puede hacer mejor que adivinar al azar (D(x) = 0.5).
Mode Collapse
Un problema frecuente donde el generador colapsa a producir solo unos pocos ejemplos que engañan al discriminador, sacrificando la diversidad. En la simulación, todos los puntos rojos convergen a un solo punto.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Discriminador óptimo:
En el equilibrio (p_G = p_data), D*(x) = 0.5 en todas partes.
Detección de mode collapse:
Sonificación
| Evento | Sonido |
|---|---|
| G loss bajando | Tono suave ascendente (generador mejorando) |
| D loss bajando | Tono descendente (discriminador mejorando) |
| Equilibrio (G loss ≈ D loss) | Armonía |
| Mode collapse | Tono monótono repetitivo |
| Convergencia | Acorde resuelto |
Ejercicio 2.5a · Fundamental
Selecciona la distribución target "anillo" y entrena. ¿Los puntos generados cubren todo el anillo? Pulsa "Force Collapse". ¿Qué le ocurre a la diversidad?
Ejercicio 2.5b · Intermedio
Análisis de las losses: Entrena con "Gaussiana" durante 300 pasos. Dibuja la evolución de G loss y D loss. ¿Hay un patrón oscilatorio? ¿Las losses convergen a un valor? En el equilibrio teórico, L_G = L_D = log(2) ≈ 0.693. ¿Qué tan cerca llegas?
6. Módulo 3: Transformers y LLMs
El Transformer (Vaswani et al., 2017) revolucionó el procesamiento de lenguaje natural y, progresivamente, toda la IA. Este módulo disecciona su anatomía pieza por pieza, explora cómo las palabras se convierten en vectores, y examina los fenómenos emergentes que surgen cuando estos modelos escalan.
6.1 Anatomía del Transformer
"Attention Is All You Need"
El paper de Vaswani et al. (2017) propuso reemplazar completamente las recurrencias con mecanismos de atención. El resultado fue una arquitectura paralelizable que superó a las RNN/LSTM en traducción automática y, eventualmente, en casi toda tarea de lenguaje.
Componentes del Bloque Transformer
| Componente | Función | Analogía |
|---|---|---|
| Embedding | Convierte tokens en vectores | Diccionario numérico |
| Positional Encoding | Inyecta información de posición | Números de página |
| Multi-Head Attention | Permite que cada token atienda a todos | Conversación grupal |
| Feed-Forward Network | Transformación no lineal por posición | Procesamiento individual |
| Layer Normalization | Estabiliza las activaciones | Nivelación de volumen |
| Residual Connection | Permite flujo directo de información | Atajo en la autopista |
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Layer Normalization:
con parámetros aprendibles de escala (γ) y desplazamiento (β).
Ley de escala:
Sonificación
| Componente | Sonido |
|---|---|
| Embedding | Nota base por token; frecuencia mapeada a posición en vocabulario |
| Positional Encoding | Superposición sinusoidal |
| Attention | Acordes; tokens con alta atención mutua suenan juntos |
| FFN | Transformación tímbrica |
| LayerNorm | Normalización de volumen |
| Avance de capa | Cambio de octava; cada capa suena en un registro más alto |
Ejercicio 3.1a · Fundamental
Abre la simulación y selecciona una frase. Haz clic en cada componente del diagrama arquitectural. Avanza paso a paso por el forward pass. ¿Cómo cambian las activaciones al pasar por attention vs FFN?
Ejercicio 3.1b · Avanzado
Conteo de operaciones: Calcula el número de multiplicaciones en un forward pass para 4 tokens con d=32 y 2 heads. Pista: attention requiere O(n²d) y FFN requiere O(n · d · d_ff). ¿Cuál es el cuello de botella para secuencias largas?
6.2 Embeddings de Tokens: El Espacio Semántico
Hipótesis Distribucional
"Conocerás una palabra por la compañía que mantiene" (Firth, 1957). Los embeddings de palabras capturan significado a través de co-ocurrencia estadística. Palabras que aparecen en contextos similares obtienen vectores similares.
Aritmética Vectorial
La propiedad más sorprendente de los embeddings (Mikolov et al., 2013) es la posibilidad de realizar analogías mediante aritmética vectorial:
Esto sugiere que las relaciones semánticas se codifican como direcciones consistentes en el espacio vectorial.
Qué Observar en la Simulación
- ~200 palabras proyectadas de 50D a 2D mediante PCA, coloreadas por campo semántico
- Palabras del mismo campo (animales, colores, emociones) forman clusters visibles
- La función de analogía computa y muestra el resultado de la aritmética vectorial
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Resolución de analogías por argmin:
Función objetivo de GloVe:
Sonificación
| Evento | Sonido |
|---|---|
| Seleccionar palabra | Nota; frecuencia mapeada a posición Y en el mapa 2D |
| Vecinos cercanos | Notas en cascada; una por vecino |
| Analogía exitosa | Acorde mayor; resolución armónica |
| Analogía fallida | Tono plano; sin resolución |
| Cambio de campo semántico | Cambio de timbre |
Ejercicio 3.2a · Fundamental
Busca la palabra "king" y observa sus vecinos más cercanos. Usa la función de analogía: king − man + woman = ?. ¿El resultado es "queen"?
Ejercicio 3.2b · Intermedio
PCA y distorsión: Busca dos palabras que aparezcan cercanas en el mapa 2D pero tengan distancia alta en la lista de vecinos (no son vecinos mutuos). Esto demuestra la distorsión de la proyección. ¿Por qué PCA puede crear estas ilusiones?
6.3 Self-Attention: Paso a Paso
Los 7 Pasos del Self-Attention
La simulación descompone el mecanismo de self-attention en pasos individuales, haciendo visible cada operación matricial.
- Embeddings de entrada: Cada token se representa como un vector
- Proyección Q: Q = X · W_Q (¿qué busca este token?)
- Proyección K: K = X · W_K (¿qué ofrece este token?)
- Scores: S = Q · KT (compatibilidad entre todos los pares)
- Escalado: S = S / √d_k (estabilizar la magnitud)
- Softmax: A = softmax(S) (normalizar a distribución de probabilidad)
- Output: O = A · V (promedio ponderado de valores)
¿Por qué escalar por √d_k?
Sin escalado, cuando d_k es grande, los productos punto QKT crecen en magnitud, empujando el softmax hacia regiones saturadas donde los gradientes son extremadamente pequeños. Dividir por √d_k mantiene la varianza del producto punto en ~1.
Causal Mask (GPT)
Cada token solo puede atender a tokens anteriores. Se aplica una máscara triangular inferior que pone −∞ en posiciones futuras antes del softmax. Usado en modelos autoregresivos (generación de texto).
Bidireccional (BERT)
Cada token puede atender a todos los demás, tanto anteriores como posteriores. Captura contexto completo pero no puede generar secuencialmente. Usado para comprensión de texto.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Justificación de la varianza para el escalado √d_k:
Si q y k tienen componentes con media 0 y varianza 1, la varianza del producto punto es d_k. Dividir por √d_k normaliza la varianza a 1.
Softmax con temperatura:
Sonificación
| Evento | Frecuencia | Duración |
|---|---|---|
| Avance de paso | 300 + step × 80 Hz | 0.15s |
| Peso de atención | 200 + α_ij × 600 Hz | 0.3s |
| Reset | 200 Hz descendente | 0.2s |
Ejercicio 3.3a · Fundamental
Avanza paso a paso por los 7 stages. En el paso 4 (scores), ¿qué pares de tokens tienen scores más altos? Activa la causal mask y observa cómo la mitad superior de la matriz se anula.
Ejercicio 3.3b · Intermedio
Entropía como indicador: Compara la entropía de atención del primer token vs. el cuarto token en cada frase. ¿Cuál tiene mayor entropía y por qué? Relaciónalo con la cantidad de contexto disponible (con causal mask activada).
6.4 Chain of Thought: Razonamiento Paso a Paso
Razonamiento Emergente
Wei et al. (2022) descubrieron que los LLMs mejoran dramáticamente en tareas de razonamiento cuando se les pide que generen pasos intermedios antes de la respuesta final. Esta técnica — Chain of Thought (CoT) — convierte problemas complejos en secuencias de subproblemas más simples.
Alucinación
Un riesgo del razonamiento en cadena es que un paso erróneo puede propagarse y contaminar toda la cadena. La simulación incluye un modo alucinación que muestra caminos de razonamiento incorrectos, permitiendo comparar con el razonamiento correcto.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Decaimiento acumulativo de confianza:
La confianza total es el producto de las confianzas por paso. Una cadena de 10 pasos con 0.9 por paso tiene solo ~0.35 de confianza total.
Votación por self-consistency:
Sonificación
| Evento | Frecuencia | Tipo |
|---|---|---|
| Nodo normal | 300 + c × 400 Hz (c = confianza) | Sine |
| Backtrack | 600 → 200 Hz (glide) | Sawtooth |
| Respuesta correcta | Acorde C-E-G mayor | Sine |
| Alucinación | freq ± 8 Hz (detuned) | Sine desafinado |
Ejercicio 3.4a · Fundamental
Selecciona el problema de aritmética y observa el árbol de razonamiento. Activa el modo alucinación. ¿En qué paso comienza el error? Compara la respuesta directa con la respuesta CoT.
Ejercicio 3.4b · Avanzado
Confianza acumulativa: Para el problema multi-paso, registra la confianza de cada nodo CoT. Calcula C_total = ∏ c_i. ¿El producto explica la confianza final mostrada? ¿Qué pasa si un solo paso tiene c_i = 0.5?
6.5 Habilidades Emergentes y Transiciones de Fase
Leyes de Escala
Kaplan et al. (2020) descubrieron que la pérdida de un modelo de lenguaje sigue una ley de potencias respecto al número de parámetros:
donde N son los parámetros, N_c es una constante y α ≈ 0.076 para modelos tipo Transformer.
Emergencia como Transición de Fase
Ciertas habilidades (aritmética de múltiples dígitos, razonamiento lógico, traducción) aparecen abruptamente a cierta escala, siguiendo una curva sigmoide en vez de una mejora gradual. Esto recuerda las transiciones de fase en física (agua → hielo).
Debate Abierto
Schaeffer et al. (2023) argumentan que la "emergencia" puede ser un artefacto de las métricas discontinuas utilizadas, y que con métricas continuas la mejora es gradual. El debate sobre si las habilidades emergen realmente o son una ilusión métrica permanece abierto.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Función sigmoide de emergencia (escala log):
Escalado óptimo Chinchilla:
El entrenamiento óptimo requiere escalar tanto el tamaño del modelo como los datos proporcionalmente a la raíz cuadrada del presupuesto de cómputo.
Sonificación
| Evento | Sonido |
|---|---|
| Escala baja (<1B params) | 200 Hz (tono grave) |
| Escala media (1-100B) | 400 Hz |
| Escala alta (>100B) | 800 Hz (tono agudo) |
| Transición de fase (cruza 50%) | Acorde mayor C-E-G-C |
Ejercicio 3.5a · Fundamental
Mueve el slider de escala de 10M a 1T parámetros. ¿En qué punto la aritmética de 3 dígitos "emerge"? ¿Es el mismo punto para todas las tareas?
Ejercicio 3.5b · Avanzado
Chinchilla: Si tienes un presupuesto de cómputo fijo C y N_opt ∝ C^0.5, ¿cuánto más cómputo necesitas para duplicar el tamaño óptimo del modelo? Si el cómputo cuesta $1M para 10B parámetros, ¿cuánto costaría entrenar óptimamente un modelo de 40B?
7. Módulo 4: Fronteras de la Inteligencia Artificial
Este módulo explora las áreas más activas de la investigación actual. Los modelos de difusión están detrás de la generación de imágenes; el aprendizaje por refuerzo fundamenta el alineamiento de LLMs; la destilación y los MoE abordan la eficiencia; y la superposición abre la puerta a entender qué ocurre dentro de las redes neuronales.
7.1 Modelos de Difusión: De Ruido a Estructura
El Proceso de Difusión
Los Denoising Diffusion Probabilistic Models (Ho et al., 2020) definen dos procesos: uno que gradualmente destruye la estructura añadiendo ruido gaussiano (forward), y otro que aprende a revertir ese proceso (reverse).
Forward Process
Donde ᾱ_t = Πₛ₌₁ᵗ (1 − βₛ) y β_t es el noise schedule. Tras T pasos, x_T es ruido puro.
Noise Schedules
Lineal
β crece linealmente de β₁ a β_T. Simple pero destruye la información demasiado rápido al principio.
Coseno (Nichol & Dhariwal, 2021)
ᾱ_t sigue un coseno, preservando más estructura en los primeros pasos y destruyéndola suavemente al final. Mejores resultados empíricos.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Media del reverse step:
Classifier-Free Guidance:
Sonificación
| Estado | Frecuencia | Filtro LP |
|---|---|---|
| t=0 (imagen limpia) | 800 Hz | 3000 Hz |
| t=T/2 (parcial) | 400 Hz | 1500 Hz |
| t=T (ruido puro) | 150 Hz | 500 Hz |
Forward = frecuencia descendente. Reverse = frecuencia ascendente. Cutoff del lowpass proporcional a ᾱ_t.
Ejercicio 4.1a · Fundamental
Selecciona la imagen target "corazón". Observa el forward process: ¿en qué paso la estructura deja de ser reconocible? Compara los schedules lineal y coseno: ¿cuál reconstruye mejor?
Ejercicio 4.1b · Intermedio
Punto de no retorno: Para cada imagen target, encuentra el paso t* donde la imagen deja de ser visualmente reconocible (usa el slider). ¿Es t* similar para todos los targets? Registra el SNR en ese punto.
7.2 Aprendizaje por Refuerzo: Grid World
Procesos de Decisión de Markov
El aprendizaje por refuerzo modela la interacción agente-entorno como un MDP (Markov Decision Process): en cada estado, el agente elige una acción, recibe una recompensa, y transita a un nuevo estado.
Q-Learning
Es un algoritmo off-policy: la actualización usa el máximo Q futuro independientemente de la acción realmente tomada. El parámetro γ (descuento) controla cuánto importa el futuro vs. el presente.
SARSA
A diferencia de Q-Learning, SARSA es on-policy: usa la acción a' que el agente realmente toma (incluyendo exploración), lo que produce políticas más conservadoras.
Q-Learning (Off-policy)
Aprende la política óptima independientemente de la exploración. Más agresivo cerca de trampas — asume que actuará óptimamente en el futuro.
SARSA (On-policy)
Aprende la política que realmente ejecuta, incluyendo movimientos exploratorios. Más conservador — evita caminos peligrosos donde la exploración podría causar daño.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Retorno descontado:
Con γ=0.95, una recompensa de +1 en 10 pasos vale 0.95^10 ≈ 0.60 hoy. Con γ=0.5, vale solo 0.5^10 ≈ 0.001.
Sonificación
| Evento | Frecuencia | Tipo |
|---|---|---|
| Paso normal | 300 + Q × 400 Hz | Triangle |
| Trampa | 200 → 100 Hz | Sawtooth |
| Recompensa | 500 → 700 Hz | Sine |
| Meta alcanzada | Acorde C-E-G | Sine |
| Exploración (ε) | 250 Hz (detuned) | Square |
Ejercicio 4.2a · Fundamental
Configura el grid con trampas cerca del camino óptimo. Entrena con Q-Learning y luego con SARSA. ¿Cuál evita más las trampas?
Ejercicio 4.2b · Avanzado
Q-Learning vs. SARSA cuantitativo: Entrena 1000 episodios con cada algoritmo (mismos hiperparámetros). Compara: recompensa media final, tasa de éxito y longitud media del camino. ¿Cuál es "mejor"?
7.3 Destilación de Conocimiento: Maestro y Alumno
Dark Knowledge
Hinton, Vidal y Dean (2015) propusieron que una red grande (teacher) contiene "conocimiento oscuro" en sus distribuciones de salida suavizadas. Un dígito "7" no solo es 7: la red grande sabe que se parece un poco a "1" y nada a "0". Esta información relacional se pierde con labels duros (one-hot) pero se preserva con soft labels.
El parámetro T (temperatura) suaviza las distribuciones: a mayor T, más "dark knowledge" se transfiere. El factor T² compensa la reducción de magnitud del gradiente.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Simplificación del gradiente a alta temperatura:
A alta T, el Student simplemente intenta igualar los logits del Teacher directamente — la destilación se convierte en una regresión.
Loss combinada de destilación:
Sonificación
| Evento | Sonido |
|---|---|
| Clase i (Teacher) | 200 + i × 80 Hz, vol ∝ P_T(i), onda sine |
| Clase i (Student) | 200 + i × 80 Hz, vol ∝ P_S(i), onda triangle |
| KL bajo (<0.01) | Acorde de resolución |
A medida que el Student converge al Teacher, los sonidos convergen. Una nota grave con volumen proporcional a KL se desvanece.
Ejercicio 4.3a · Fundamental
Entrena el student con soft labels (T=5, α=0.7) durante 50 épocas. Luego reinicia con hard labels. ¿Cuál método alcanza mejor accuracy?
Ejercicio 4.3b · Intermedio
Dark Knowledge del 8: Selecciona el dígito 8 con T=5. Lista las 3 clases con mayor probabilidad después de "8". ¿Tiene sentido visual? (¿El 8 se parece al 0, 3, 9?). Calcula la entropía H = −Σ p_i log p_i para T=1 y T=5. ¿Cuánta más información contiene la distribución suavizada?
7.4 Mixture of Experts: Routing Inteligente
Especialización y Eficiencia
Un modelo Mixture of Experts (Shazeer et al., 2017) contiene múltiples subredes "expertas", pero solo activa un subconjunto para cada entrada. Un router (gating network) decide qué expertos activar:
Con Top-1 routing, solo un experto procesa cada input (sparse). Esto permite escalar el número de parámetros sin aumentar proporcionalmente el cómputo.
Load Balancing
Sin regularización, el router podría enviar todo el tráfico a un solo experto (colapso). La auxiliary loss de balance penaliza distribuciones de carga desiguales, fomentando que todos los expertos se utilicen.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Load balance loss:
donde f_i es la fracción de tokens asignados y p_i la probabilidad media del router.
Reducción de FLOPs (Switch Transformer):
Con E=64 expertos y K=1, se necesita ≈1/64 del cómputo de un modelo denso equivalente.
Sonificación
| Experto | Nota | Onda |
|---|---|---|
| 1 (rojo) | C4 (261 Hz) | Sine |
| 2 (verde) | E4 (329 Hz) | Triangle |
| 3 (azul) | G4 (392 Hz) | Square |
| 4 (amarillo) | C5 (523 Hz) | Sawtooth |
Top-2 routing produce acordes de dos notas. Balance mejorado = tono ascendente sutil.
Ejercicio 4.4a · Fundamental
Genera puntos aleatorios y entrena con 4 expertos y Top-1. ¿Cada experto se especializa en una región? Cambia a Top-2. ¿Cómo cambian las fronteras?
Ejercicio 4.4b · Intermedio
Routing collapse: Pon load balance a 0 y temperatura a 0.1. Entrena 50 pasos. ¿Cuántos expertos tienen carga >5%? ¿Ocurre colapso? Sube load balance a 0.5 y repite.
7.5 Superposición: Dentro de la Caja Negra
Interpretabilidad Mecánica
Elhage et al. (2022, Anthropic) demostraron que las redes neuronales pueden codificar más features (M) de los que tienen dimensiones (N), un fenómeno llamado superposición. Esto ocurre cuando las features son sparse (raramente activas simultáneamente).
Modelo Toy de Superposición
La matriz W (N×M) codifica M features en N dimensiones. Si M ≤ N, cada feature puede tener su propia dimensión. Si M > N, los vectores de features deben compartir espacio, creando interferencia.
Diagrama de Fase
El comportamiento del modelo depende de dos variables: la relación M/N y la sparsity de las features. Cuando la sparsity es alta (features raramente activas), la superposición es posible sin mucha interferencia. Cuando es baja, la interferencia destruye la información.
Deep Dive: Matemáticas y Sonificación
Las Matemáticas
Capacidad efectiva de features:
Con N=512 dimensiones y sparsity S=0.99, un modelo puede representar ~5,120,000 features.
Reconstrucción expandida con interferencia:
Separando la auto-reconstrucción del ruido de interferencia causado por otras features activas.
Sonificación
| Evento | Sonido |
|---|---|
| Feature i activa | 200 + i × 50 Hz, vol ∝ ||w_i|| |
| Paso de optimización | Click a 440 Hz |
| Convergencia | Acorde consonante |
| Alta interferencia | Beating entre frecuencias cercanas |
Ejercicio 4.5a · Fundamental
Configura N=2 dimensiones, M=5 features. Aumenta la sparsity. ¿Los vectores se separan más? Cambia a la vista de diagrama de fase.
Ejercicio 4.5b · Avanzado
Sparsity como factor habilitante: Fija N=2, M=8. Optimiza con S=0.5 y luego con S=0.99. ¿Cuántas features están "representadas" (norma del vector > 0.5) en cada caso? Calcula M_eff = N/(1−S)² para cada caso.
8. Ejercicios Integrados
Estos ejercicios combinan conceptos de múltiples simulaciones para reforzar la comprensión global.
Módulo 1: Cadena de Fundamentos
Ejercicio Integrado A · Fundamental
Del Perceptrón a la Red Profunda. Abre la Sim 1 (Perceptrón) y demuestra que no puede resolver XOR. Luego abre la Sim 3 (Backpropagation) con una red de 4 capas entrenando en XOR. Documenta: ¿cuántas capas ocultas son necesarias para resolver XOR? ¿Qué función de activación funciona mejor? (Verifica con la Sim 4).
Ejercicio Integrado B · Intermedio
Inicialización y Gradientes. Abre la Sim 5 (Weight Initialization) con 10 capas + Sigmoid. Observa el colapso con inicialización "Normal(0,0.01)". Luego abre la Sim 3 (Backpropagation) con la misma configuración. ¿La velocidad de entrenamiento correlaciona con lo que predicen los histogramas de activación?
Módulo 2: Arquitecturas en Contexto
Ejercicio Integrado C · Intermedio
Attention vs. Recurrencia. Compara la Sim 7 (LSTM) con la Sim 8 (Attention) procesando la misma frase. ¿Cuál captura mejor las dependencias a larga distancia? ¿El mecanismo de atención es más "transparente" que las compuertas LSTM?
Ejercicio Integrado D · Intermedio
Compresión y Generación. El Autoencoder (Sim 6) comprime datos y el GAN (Sim 10) los genera. Reflexiona: ¿en qué se parecen los espacios latentes de ambos? ¿Podrían combinarse? (Hint: el VAE-GAN combina ambas ideas).
Módulo 3: Diseccionando el Transformer
Ejercicio Integrado E · Avanzado
De Attention a Self-Attention a Transformer. Abre las Sims 8, 13 y 11 en orden. Documenta la progresión: (1) Attention básica sobre Q/K/V, (2) Self-attention con los 7 pasos, (3) Transformer completo con múltiples bloques. ¿Cómo cada capa de abstracción construye sobre la anterior?
Módulo 4: Retos de Frontera
Ejercicio Integrado F · Avanzado
Eficiencia y Escala. La Sim 18 (Distillation) comprime modelos, la Sim 19 (MoE) los hace sparse, y la Sim 15 (Emergent Abilities) muestra que la escala importa. Reflexiona: ¿cuál es el equilibrio óptimo entre tamaño, eficiencia y capacidad? ¿La destilación puede preservar habilidades emergentes?
Reto Final · Maestría
Completa las 20 simulaciones y escribe un ensayo de una página respondiendo: ¿Cómo se conectan los fundamentos del Módulo 1 con las fronteras del Módulo 4? Traza al menos 3 líneas conceptuales que recorran los 4 módulos (ejemplo: "gradientes → backpropagation → training de transformers → RLHF en alineamiento de LLMs").
9. Mapa Conceptual
Este diagrama muestra las conexiones entre los 20 conceptos del laboratorio. Las flechas indican "construye sobre" o "habilita".
Líneas Conceptuales Principales
- Línea de Optimización: Perceptrón → Gradient Descent → Backpropagation → Weight Init → entrenamiento de toda arquitectura
- Línea de Atención: LSTM → Attention → Self-Attention → Transformer → LLMs → Emergent Abilities
- Línea Generativa: Autoencoder → GAN → Diffusion Models
- Línea de Eficiencia: Knowledge Distillation → MoE → Scaling Laws
- Línea de Interpretabilidad: Activation Functions → Backprop Flow → Superposition
10. Glosario
~120 términos unificados de las 20 guías individuales, ordenados alfabéticamente.
| Término | Definición |
|---|---|
| Accuracy | Fracción de ejemplos correctamente clasificados: correctos/N. |
| Activación | Salida de una neurona tras aplicar la función de activación a la combinación lineal de sus entradas. |
| Adam | Optimizador que combina momentum con tasas de aprendizaje adaptativas por parámetro, con corrección de sesgo. |
| Agente | Entidad que toma decisiones (elige acciones) en aprendizaje por refuerzo. |
| Alpha (α) | Peso que balancea la loss suave vs. la loss dura en destilación; también tasa de aprendizaje en RL. |
| Attention | Mecanismo que permite a una red ponderar dinámicamente la importancia de diferentes partes de la entrada. |
| Autoencoder | Red neuronal que aprende a comprimir y reconstruir datos, con forma de reloj de arena. |
| Autoregresivo | Modelo que genera tokens uno por uno, condicionado en los anteriores. |
| Backpropagation | Algoritmo para calcular gradientes en redes multicapa mediante la regla de la cadena. |
| Backward pass | Fase donde los gradientes se propagan desde la salida hacia la entrada de la red. |
| Batch Normalization | Técnica que normaliza activaciones a media 0 y varianza 1 en cada capa. |
| Batch Size | Número de ejemplos procesados simultáneamente antes de una actualización de pesos. |
| Benchmark | Conjunto estandarizado de tareas para evaluar modelos. |
| Bias (sesgo) | Término independiente que desplaza la frontera de decisión; también, prejuicios codificados en embeddings. |
| Bottleneck | Capa intermedia de dimensionalidad reducida que fuerza la compresión de información. |
| Causal Mask | Máscara que impide atender a tokens futuros en modelos autoregresivos. |
| Cell State | Vector de memoria a largo plazo en una LSTM, regulado por compuertas. |
| Chain of Thought (CoT) | Técnica de prompting que solicita al modelo generar pasos de razonamiento intermedios explícitos. |
| Chinchilla | Estudio de DeepMind sobre entrenamiento óptimo: datos proporcionales a parámetros. |
| Classifier-Free Guidance | Técnica de difusión que mejora la adherencia al prompt sin clasificador externo. |
| Cluster | Agrupación de puntos cercanos en un espacio de representación. |
| CNN | Red Neuronal Convolucional: arquitectura que usa filtros locales para procesar imágenes. |
| Combinación lineal | Expresión Σw_i x_i + b; la operación fundamental del perceptrón. |
| Conexión residual | Atajo que suma la entrada a la salida de un bloque: x + f(x), facilitando el flujo de gradientes. |
| Convergencia | Estado donde la pérdida o los Q-values dejan de cambiar significativamente. |
| Convolución | Operación que aplica un filtro deslizante sobre una imagen para producir un feature map. |
| Cosine similarity | Medida de similitud basada en el ángulo entre vectores: cos(θ) = (a·b)/(||a||||b||). |
| Cross-Attention | Atención donde Q viene de una secuencia y K, V de otra diferente. |
| Cross-Entropy | Función de pérdida estándar para clasificación: −Σ y_k log P_k. |
| d_k | Dimensión de los vectores Query y Key en cada head de atención. |
| d_model | Dimensión total del modelo Transformer (= h × d_k). |
| Dark Knowledge | Información sobre relaciones inter-clase contenida en las soft labels del Teacher. |
| DDIM | Variante determinista de difusión que permite muestreo con menos pasos. |
| DDPM | Denoising Diffusion Probabilistic Model (Ho et al., 2020). |
| Decoder | Parte de una red que reconstruye datos desde el espacio latente, o parte del Transformer con atención causal. |
| Delta (δ) | Señal de error local de una neurona; producto del error propagado y la derivada de activación. |
| Denoiser | Red neuronal que predice el ruido para revertir un paso de difusión. |
| Diffusion | Proceso de añadir ruido gradualmente (forward) o eliminarlo (reverse) para generación de imágenes. |
| Discriminador | Red en una GAN que clasifica datos como reales o generados. |
| Distilación | Transferencia de conocimiento de un modelo grande (Teacher) a uno pequeño (Student). |
| ELU | Exponential Linear Unit: función de activación suave en x=0 con media cercana a cero. |
| Embedding | Representación vectorial densa de un objeto discreto (palabra, token) en R^d. |
| Emergencia | Capacidad que aparece abruptamente al escalar un modelo, ausente en modelos más pequeños. |
| Encoder | Parte de una red que comprime la entrada al espacio latente, o parte del Transformer con atención bidireccional. |
| Entropía | Medida de dispersión de una distribución: H = −Σ p_i log p_i. |
| Epoch | Una pasada completa por todo el dataset de entrenamiento. |
| Epsilon (ε) | Probabilidad de tomar una acción aleatoria (exploración) en RL; también ruido gaussiano en difusión. |
| Epsilon-greedy | Política que explora con probabilidad ε y explota con 1−ε. |
| Equivarianza | Propiedad por la cual si la entrada se traslada, la salida se traslada de la misma forma. |
| Espacio latente | Espacio de representaciones internas aprendidas por un modelo (ej: bottleneck de autoencoder). |
| Expert | Subred neuronal especializada en un MoE que procesa un subconjunto de entradas. |
| Expert Choice | Variante de MoE donde los expertos eligen sus tokens en lugar de al revés. |
| Exploding Gradient | Problema donde los gradientes crecen sin control, desestabilizando el entrenamiento. |
| Feature | Concepto o propiedad que el modelo necesita representar; en CNN, patrón detectado por un filtro. |
| Feature Map | Salida de un filtro convolucional; mapa de activación que resalta un patrón específico. |
| FFN | Feed-Forward Network: dos capas lineales con activación, aplicada por posición en Transformers. |
| Filtro/Kernel | Pequeña matriz de pesos (típicamente 3×3) que detecta un patrón local en CNN. |
| FLOPs | Operaciones de punto flotante; medida del costo computacional. |
| Forget Gate | Compuerta sigmoid en LSTM que decide qué parte del cell state anterior borrar. |
| Forward Pass | Fase donde la entrada se transforma capa por capa para producir la salida. |
| Forward Process | Fase de destrucción en difusión: imagen a ruido. |
| Frontera de decisión | Línea (2D) o hiperplano (nD) donde w·x + b = 0; separa regiones de clase. |
| Gamma (γ) | Factor de descuento en RL: cuánto importa la recompensa futura vs. la presente. |
| GAN | Red Generativa Adversaria: dos redes compitiendo (generador vs discriminador). |
| GELU | Gaussian Error Linear Unit: x·Φ(x); estándar en Transformers. |
| Generador | Red en una GAN que transforma ruido en datos que imitan la distribución real. |
| GloVe | Global Vectors: embeddings basados en factorización de la matriz de co-ocurrencia. |
| Gradient Clipping | Técnica que recorta el gradiente si su magnitud excede un umbral. |
| Gradiente | Vector de derivadas parciales de la pérdida respecto a cada parámetro. |
| GRU | Gated Recurrent Unit: variante simplificada de LSTM con 2 compuertas. |
| Guidance | Técnica para condicionar la generación en texto u otra señal en modelos de difusión. |
| Hadamard Product | Multiplicación elemento a elemento de dos vectores: (a ⊙ b)_i = a_i · b_i. |
| Hallucination | Paso de razonamiento que parece correcto pero contiene errores factuales. |
| He/Kaiming Init | Inicialización con Var[w] = 2/n_in; óptima para ReLU. |
| Hessiana | Matriz de segundas derivadas; sus autovalores indican la curvatura de la superficie. |
| Hidden State | Salida de la celda LSTM en cada paso temporal, usada para predicciones. |
| Input Gate | Compuerta sigmoid en LSTM que decide qué nueva información almacenar. |
| Interferencia | Error causado por features compartiendo las mismas dimensiones en superposición. |
| Interpretabilidad | Capacidad de entender qué ha aprendido un modelo y cómo toma decisiones. |
| KL Divergence | Medida de cuánto una distribución de probabilidad difiere de otra de referencia. |
| KV-Cache | Almacenamiento de Keys y Values previos para generación eficiente en Transformers. |
| Latent Diffusion | Difusión aplicada en el espacio latente de un autoencoder en lugar del espacio de píxeles. |
| Layer Normalization | Normalización que centra y escala activaciones por token en Transformers. |
| Learning Rate (η) | Hiperparámetro que controla el tamaño de cada paso de actualización de pesos. |
| Leaky ReLU | max(0.01x, x): ReLU con pendiente pequeña para x<0, evita neuronas muertas. |
| Load Balance | Distribución equitativa de entradas entre expertos en un MoE. |
| Logits | Salida cruda de la capa final antes de aplicar softmax. |
| Loss Function | Función que mide la discrepancia entre las predicciones del modelo y los valores reales. |
| LSTM | Long Short-Term Memory: tipo de RNN con compuertas que controlan el flujo de información. |
| Manifold | Variedad de baja dimensión donde viven los datos reales en un espacio de alta dimensión. |
| Margen (γ) | Distancia mínima entre la frontera de decisión y el punto más cercano del dataset. |
| Max Pooling | Reducción espacial tomando el máximo en cada ventana del feature map. |
| MDP | Markov Decision Process: formalismo del aprendizaje por refuerzo. |
| Minimax | Formulación de juego: G minimiza lo que D maximiza en una GAN. |
| Mish | x · tanh(softplus(x)): función de activación auto-regularizante, no monótona. |
| Mixture of Experts (MoE) | Arquitectura donde un router selecciona subconjuntos de expertos para cada entrada. |
| Mode Collapse | Fallo en GANs donde el generador produce solo unos pocos tipos de salida, perdiendo diversidad. |
| Momentum | Acumulación de velocidad usando gradientes pasados; ayuda a cruzar valles y mesetas. |
| Monosemántico | Neurona que se activa para una única feature interpretable. |
| Multi-Head Attention | Múltiples instancias de atención en paralelo, cada una con sus propias matrices W_Q, W_K, W_V. |
| Nash (Equilibrio de) | Estado donde ningún jugador puede mejorar unilateralmente; meta teórica de las GANs. |
| Neurona muerta | Neurona con ReLU que siempre produce 0 y nunca recibe gradiente. |
| Noise Schedule | Función que define cómo β_t varía con t en modelos de difusión. |
| One-hot | Representación sparse donde cada categoría es un vector con un solo 1. |
| Output Gate | Compuerta sigmoid en LSTM que decide qué parte del cell state emitir como hidden state. |
| Padding | Píxeles añadidos a los bordes de una imagen para controlar el tamaño de salida en CNN. |
| PCA | Análisis de Componentes Principales: proyección que preserva máxima varianza; caso especial lineal del autoencoder. |
| Perceptrón | Modelo lineal con umbral; la unidad computacional más simple: y = sign(w·x + b). |
| Phase Transition | Cambio abrupto en una propiedad al cruzar un umbral crítico (ej: emergencia de habilidades). |
| Polisemántico | Neurona que se activa para múltiples features no relacionadas. |
| Política (π) | Regla que mapea estados a acciones en aprendizaje por refuerzo. |
| Pooling | Operación que reduce la resolución espacial de feature maps, creando invariancia local. |
| Positional Encoding | Vectores sinusoidales que inyectan información de posición en los embeddings del Transformer. |
| Pre-activación (z) | Suma ponderada antes de aplicar la función de activación: z = Σw_i a_i + b. |
| Q-Learning | Algoritmo off-policy que actualiza con max Q(s', a'); aprende la política óptima. |
| Q-Value | Valor estimado de la recompensa futura al tomar una acción en un estado dado. |
| Query (Q) | Vector que representa "qué busca" un token en el mecanismo de atención. |
| Receptive Field | Región de la imagen original que influye en una neurona de una capa profunda de CNN. |
| Regla de la cadena | ∂f/∂x = (∂f/∂g)(∂g/∂x); permite componer derivadas en backpropagation. |
| ReLU | max(0, x): función de activación simple, no satura para x>0, zona muerta para x<0. |
| Reverse Process | Fase de creación en difusión: ruido a imagen, aprendida por la red. |
| RNN | Red Neuronal Recurrente: arquitectura que procesa secuencias con estado oculto. |
| Router (Gating) | Red que decide qué expertos procesan cada entrada en un MoE. |
| Routing Collapse | Cuando todas las entradas se asignan al mismo experto en un MoE. |
| SARSA | Algoritmo on-policy que actualiza con Q(s', a') tomado realmente; produce políticas conservadoras. |
| Saturación | Estado donde |σ'(z)| ≈ 0; los gradientes no fluyen a través de la neurona. |
| Scaling Law | Relación matemática entre tamaño del modelo y rendimiento: L ∝ N^(−α). |
| Self-Attention | Atención donde Q, K y V provienen de la misma secuencia. |
| Self-Consistency | Generar múltiples cadenas CoT y elegir la respuesta mayoritaria. |
| Sigmoid | σ(x) = 1/(1+e^−x): acota a (0,1), satura bilateralmente. |
| SNR | Signal-to-Noise Ratio: ᾱ_t / (1 − ᾱ_t) en modelos de difusión. |
| Soft Labels | Distribución de probabilidad suavizada con temperatura T>1; contiene dark knowledge. |
| Softmax | Función que convierte un vector de valores reales en una distribución de probabilidad. |
| Sparse Autoencoder (SAE) | Autoencoder con penalización L1 para encontrar features interpretables en representaciones superpuestas. |
| Sparsity | Fracción de features inactivas en un momento dado; habilita la superposición. |
| Stride | Tamaño del paso de desplazamiento del filtro en CNN (stride 1 = un píxel a la vez). |
| Subword | Unidad sub-léxica usada en tokenización moderna (BPE). |
| Superposición | Fenómeno donde una red codifica más features que dimensiones, compartiendo el espacio. |
| Swish | x · σ(x): función de activación auto-regulada, no monótona. |
| Tanh | Centrada en cero, acota a (−1, 1), satura bilateralmente. |
| TD Error | Diferencia entre la recompensa esperada y la obtenida en RL: δ = r + γ max Q(s',a') − Q(s,a). |
| Teacher/Student | Modelos grande (teacher) y pequeño (student) en destilación de conocimiento. |
| Temperatura | Parámetro que controla la nitidez de distribuciones softmax o de soft labels. |
| Top-K | Selección de los K expertos con mayor peso de routing en MoE. |
| Transformer | Arquitectura basada enteramente en mecanismos de atención, sin recurrencia. |
| Tree of Thought (ToT) | Extensión de CoT que explora múltiples caminos de razonamiento en paralelo. |
| t-SNE | Técnica de visualización no lineal que preserva estructura local de embeddings. |
| Value (V) | Vector con la información que un token contribuye a la salida en attention. |
| Vanishing Gradient | Problema donde los gradientes se hacen exponencialmente pequeños en capas profundas. |
| Varianza | Medida de dispersión: Var[X] = E[X²] − E[X]²; clave en inicialización de pesos. |
| Voronoi | Partición del espacio donde cada punto se asigna al centro más cercano; usado en MoE. |
| Wasserstein | Distancia alternativa que mejora la estabilidad del entrenamiento de GANs. |
| Word2Vec | Algoritmo que entrena embeddings prediciendo contexto (Skip-gram) o palabra central (CBOW). |
| Xavier/Glorot Init | Inicialización con Var[w] = 2/(n_in + n_out); óptima para Sigmoid y Tanh. |
| XOR | Función lógica exclusiva-or; ejemplo canónico de problema no linealmente separable. |
| Zero-shot CoT | Usar Chain of Thought sin ejemplos, solo con "Pensemos paso a paso". |
11. Referencias Bibliográficas
Las siguientes publicaciones fundamentan los conceptos presentados en este laboratorio, ordenadas cronológicamente.
- Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Psychological Review, 65(6), 386-408.
- Hubel, D. H. & Wiesel, T. N. (1962). Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex. The Journal of Physiology, 160(1), 106-154.
- Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
- Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). Learning Representations by Back-propagating Errors. Nature, 323, 533-536.
- Cybenko, G. (1989). Approximation by Superpositions of a Sigmoidal Function. Mathematics of Control, Signals, and Systems, 2, 303-314.
- LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998). Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, 86(11), 2278-2324.
- Hochreiter, S. & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.
- Glorot, X. & Bengio, Y. (2010). Understanding the Difficulty of Training Deep Feedforward Neural Networks. AISTATS 2010.
- Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012.
- Mikolov, T., Chen, K., Corrado, G. & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
- Bahdanau, D., Cho, K. & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473.
- Goodfellow, I. J. et al. (2014). Generative Adversarial Networks. arXiv:1406.2661.
- Pennington, J., Socher, R. & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP 2014.
- He, K., Zhang, X., Ren, S. & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ICCV 2015.
- Hinton, G., Vinyals, O. & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
- Kingma, D. P. & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR 2015.
- Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
- Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
- Ho, J., Jain, A. & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Fedus, W., Zoph, B. & Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Nichol, A. & Dhariwal, P. (2021). Improved Denoising Diffusion Probabilistic Models. ICML 2021. arXiv:2102.09672.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903.
- Elhage, N. et al. (2022). Toy Models of Superposition. Anthropic Research. arXiv:2209.10652.
- Schaeffer, R., Miranda, B. & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004.
12. Preguntas Frecuentes
¿Necesito saber programar para usar las simulaciones?
No. Todas las simulaciones funcionan en el navegador sin necesidad de instalar nada. Solo necesitas abrir los archivos HTML. La guía teórica complementa la experiencia interactiva. Si deseas entender el código fuente, cada simulación está implementada en JavaScript vanilla — todo el código es legible en el propio archivo HTML.
¿En qué orden debo recorrer las simulaciones?
El orden recomendado es seguir los módulos secuencialmente (1 → 2 → 3 → 4), ya que cada módulo construye sobre conceptos del anterior. Dentro de cada módulo, las simulaciones están ordenadas por complejidad creciente. Sin embargo, cada simulación es autocontenida: si solo te interesa un tema específico (ej: Transformers), puedes saltar directamente al Módulo 3.
¿Puedo usar las simulaciones para enseñar en clase?
Sí. AI Visual Lab está diseñado como recurso educativo. Las simulaciones funcionan sin conexión a internet (excepto las fuentes de Google), son interactivas, y esta guía proporciona ejercicios estructurados por nivel de dificultad. Sugerimos proyectar las simulaciones mientras se explica la teoría, y usar los ejercicios como actividades prácticas.
¿Qué navegador es recomendado?
Chrome, Firefox, Safari o Edge modernos (2023+). Las simulaciones usan Canvas 2D con soporte Retina (devicePixelRatio) y Web Audio API con inicialización lazy compatible con iOS/Safari. Para la mejor experiencia de sonificación, usa auriculares y haz clic en cualquier control para activar el audio (requerido por políticas de autoplay del navegador).
¿Cómo funciona la sonificación?
Cada simulación mapea magnitudes numéricas a parámetros acústicos usando la Web Audio API:
- Error / pérdida: Intervalos musicales (tritono = error alto, octava = error bajo)
- Gradientes: Volumen (fuerte = gradiente grande, silencio = vanishing gradient)
- Convergencia: Progresión armónica (acorde disminuido → dominante → mayor)
- Confianza: Claridad tímbrica (notas puras = alta confianza, clusters = incertidumbre)
La cadena de audio incluye: oscilador → filtro lowpass → envolvente ADSR → ganancia → compresor → salida.
¿Las redes neuronales en las simulaciones son reales?
Sí. No son visualizaciones mockup — son implementaciones funcionales en JavaScript puro. El perceptrón entrena con la regla real de aprendizaje. Las redes del Módulo 2 ejecutan forward y backward pass con matrices de pesos reales. El micro-transformer del Módulo 3 tiene 2 capas, 2 heads y d=32, con embedding, positional encoding, multi-head attention, FFN y layer norm implementados from scratch. Los modelos del Módulo 4 (Q-learning, diffusion, distillation, MoE, superposition) ejecutan algoritmos reales con gradientes y optimización.