AI Visual Lab: Guía Científica Completa

1. Introducción

AI Visual Lab es un laboratorio completo de inteligencia artificial explicable: 20 simulaciones interactivas que transforman los conceptos más abstractos del aprendizaje automático en experiencias sensoriales. Cada simulación se ve, se escucha y se manipula.

Filosofía: Explicabilidad Radical

No basta con ver la red neuronal — hay que escuchar el gradiente desvanecerse, sentir la fricción del learning rate, oír la disonancia del error. La sonificación convierte magnitudes numéricas en señales auditivas: un intervalo de tritono señala error alto, un acorde mayor resuelto indica convergencia.

¿Qué aprenderás?

Los fundamentos matemáticos del aprendizaje automático, desde el perceptrón hasta la superposición
Cómo funcionan las arquitecturas clásicas (CNN, LSTM, GAN, Autoencoder) desde dentro
La mecánica interna de los Transformers y los Large Language Models
Las fronteras de la investigación: modelos de difusión, MoE, interpretabilidad mecánica

Cómo usar esta guía

Lee la teoría de cada sección para comprender los fundamentos matemáticos
Abre la simulación correspondiente (enlaces en cada sección) y experimenta
Realiza los ejercicios propuestos al final de cada sección
Toma notas en el panel lateral derecho — se guardan automáticamente

Progreso del Tutorial

Fundamentos

Arquitecturas

Transformers

Fronteras

Maestría

Estructura del Laboratorio

Módulo	Tema	Simulaciones	Dificultad
Módulo 1	Fundamentos del Aprendizaje	5 (Sims 1-5)	Fundamental
Módulo 2	Arquitecturas Clásicas	5 (Sims 6-10)	Intermedio
Módulo 3	Transformers y LLMs	5 (Sims 11-15)	Intermedio
Módulo 4	Fronteras de la IA	5 (Sims 16-20)	Avanzado

3. Prerrequisitos

Las simulaciones están diseñadas para ser accesibles, pero ciertos fundamentos matemáticos enriquecerán significativamente tu comprensión.

Tema	Nivel	Conceptos Clave
Álgebra Lineal	Intermedio	Vectores, matrices, producto punto, autovalores
Cálculo	Básico	Derivadas, regla de la cadena, gradientes
Probabilidad	Básico	Distribuciones, Bayes, entropía
Programación	Básico	No necesario, pero ayuda leer JavaScript

Repaso: Vectores y producto punto

Un vector es una lista ordenada de números. En ML, los datos, pesos y gradientes son vectores. El producto punto mide la similitud entre dos vectores:

a · b = Σᵢ aᵢbᵢ = |a||b|cos(θ)

Cuando dos vectores apuntan en la misma dirección, su producto punto es máximo. Cuando son perpendiculares, es cero. Este concepto aparece en el perceptrón, en attention, y en embeddings.

Repaso: Derivadas y regla de la cadena

La derivada f'(x) indica la tasa de cambio de una función. En ML, usamos derivadas para encontrar cómo ajustar los pesos para reducir el error. La regla de la cadena permite derivar funciones compuestas:

∂L/∂w = (∂L/∂y) · (∂y/∂z) · (∂z/∂w)

Esta regla es la base matemática del algoritmo de backpropagation (Simulación 3).

Repaso: Softmax y distribuciones de probabilidad

La función softmax convierte un vector de valores reales en una distribución de probabilidad:

softmax(zᵢ) = exp(zᵢ) / Σⱼ exp(zⱼ)

Aparece en clasificación (perceptrón multicapa), en attention (para normalizar pesos), y en la salida de LLMs. Un parámetro de temperatura T controla la nitidez: dividir los logits por T antes del softmax hace la distribución más uniforme (T alto) o más puntiaguda (T bajo).

4. Módulo 1: Fundamentos del Aprendizaje Automático

Módulo 1 · Color: Rojo (#ef4444) · Simulaciones 1-5

Este módulo cubre los cimientos sobre los que se construye toda la inteligencia artificial moderna. Partimos de la unidad computacional más simple — el perceptrón — y construimos progresivamente las herramientas necesarias para entrenar redes profundas: optimización, propagación de gradientes, funciones de activación e inicialización.

4.1 El Perceptrón Viviente

🔬 Abrir Simulación 1 📖 Guía Detallada

Contexto Histórico

En 1958, Frank Rosenblatt propuso el perceptrón como modelo computacional inspirado en la neurona biológica (Rosenblatt, 1958). La idea es directa: una unidad que recibe entradas ponderadas, las suma, y produce una salida binaria según un umbral. Este modelo fue el primer algoritmo capaz de aprender a clasificar datos a partir de ejemplos.

Modelo Matemático

El perceptrón computa una combinación lineal de las entradas y aplica una función escalón:

ŷ = sign(w₁x₁ + w₂x₂ + b) = sign(w · x + b)

Donde w es el vector de pesos, x el vector de entrada, y b el sesgo (bias). La frontera de decisión es la recta donde w · x + b = 0.

Regla de Aprendizaje

Cuando el perceptrón clasifica incorrectamente un punto, los pesos se actualizan:

wᵢ ← wᵢ + η(y − ŷ)xᵢ , b ← b + η(y − ŷ)

donde η es la tasa de aprendizaje. El Teorema de Convergencia del Perceptrón (Novikoff, 1963) garantiza que si los datos son linealmente separables, el algoritmo converge en un número finito de pasos.

Limitación Fundamental

En 1969, Minsky y Papert demostraron que un perceptrón simple no puede resolver problemas no linealmente separables, como la función XOR. Esta limitación provocó el primer "invierno de la IA" y motivó el desarrollo de redes multicapa.

Perceptrón: x₁ ──[w₁]──┐ ├──► Σ + b ──► sign() ──► ŷ ∈ {-1, +1} x₂ ──[w₂]──┘ Frontera de decisión: w₁x₁ + w₂x₂ + b = 0

Qué Observar en la Simulación

La línea de decisión pivotea y se traslada con cada actualización de pesos
Los puntos mal clasificados parpadean en dorado antes de ser corregidos
El sonido de tritono (disonancia) se resuelve progresivamente hacia consonancia
Con el preset "circular", observa cómo el perceptrón nunca converge

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Cota de convergencia (Novikoff): El número máximo de actualizaciones antes de converger está acotado por:

k ≤ (R / γ)²

donde R es la norma máxima de los datos y γ es el margen geométrico.

Distancia de la frontera al origen:

d = |b| / √(w&sub1;² + w&sub2;²)

Sonificación

Parámetro	Sonido
Error > 50%	Tritono C-F# (disonancia)
Error 20%-50%	Tercera menor C-Eb (tensión)
Error 1%-20%	Quinta justa C-G (armonía)
Error 0%	Acorde mayor C-E-G-C' (consonancia)
Actualización de peso	Tick a 880 Hz, 40ms
Convergencia	Acorde Do mayor completo, 800ms

Ejercicio 1.1a · Fundamental

Abre la simulación y selecciona el preset "lineal". Entrena hasta convergencia. Luego añade manualmente un punto de la clase opuesta dentro de la región clasificada. ¿Cuántas iteraciones necesita el perceptrón para ajustarse? Ahora selecciona el preset "circular". ¿Por qué el perceptrón oscila sin converger?

Ejercicio 1.1b · Intermedio

Demostración geométrica de XOR: Carga el preset XOR. En papel, dibuja los cuatro cuadrantes con sus clases asignadas. Intenta trazar una única línea recta que separe los puntos rojos de los azules. Demuestra formalmente por qué es imposible usando un sistema de desigualdades.

4.2 Descenso de Gradiente

🔬 Abrir Simulación 2 📖 Guía Detallada

Optimización y Superficies de Pérdida

Entrenar una red neuronal equivale a encontrar los parámetros θ que minimizan una función de pérdida L(θ). La geometría de esta función — su superficie de pérdida — determina la dificultad del problema. Puede contener valles, mesetas, puntos de silla y mínimos locales.

SGD (Stochastic Gradient Descent)

θ_{t+1} = θ_t − η ∇L(θ_t)

El gradiente ∇L indica la dirección de máximo crecimiento; moverse en la dirección opuesta reduce la pérdida. La tasa de aprendizaje η controla el tamaño del paso.

Momentum

v_t = β v_{t−1} + ∇L(θ_t) , θ_{t+1} = θ_t − η v_t

El momentum acumula velocidad, permitiendo atravesar mesetas y reducir oscilaciones en valles estrechos. El hiperparámetro β (típicamente 0.9) controla cuánta "inercia" se conserva.

Adam (Adaptive Moment Estimation)

Combina momentum con tasas de aprendizaje adaptativas por parámetro (Kingma & Ba, 2015):

m_t = β₁ m_{t−1} + (1−β₁) g_t (primer momento) v_t = β₂ v_{t−1} + (1−β₂) g_t² (segundo momento) θ_{t+1} = θ_t − η · m̂_t / (√v̂_t + ε)

Optimizador	Ventaja	Riesgo	Mejor para
SGD	Simple, generaliza bien	Lento en valles estrechos	Convergencia final
Momentum	Atraviesa mesetas	Puede "saltarse" mínimos	Superficies con momentum
RMSProp	Adaptativo por parámetro	Sin corrección de sesgo	RNNs
Adam	Robusto, rápido	Puede no generalizar tan bien	Uso general

Qué Observar en la Simulación

En la función Rastrigin (muchos mínimos locales), SGD queda atrapado mientras Adam escapa
En el punto de silla, el momentum ayuda a escapar de la meseta
Un learning rate demasiado alto causa divergencia — la partícula sale de la superficie
El pitch del sonido baja conforme la pérdida desciende

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Cota de convergencia SGD (funciones convexas):

L(θ_T) − L(θ*) ≤ ||θ&sub0; − θ*||² / (2ηT)

Cosine annealing schedule:

η_t = η_min + ½(η_max − η_min)(1 + cos(πt/T))

Sonificación

Parámetro	Sonido
Valor de loss	Frecuencia: f = 180 + min(log(L+1)·80, 600) Hz
Magnitud del gradiente	Volumen proporcional (pendiente mayor = más fuerte)
Convergencia	Acorde ascendente C4-E4-G4-C5
Forma de onda: Sine	Suave, indica descenso estable
Forma de onda: Sawtooth	Timbre áspero, cambios de frecuencia más evidentes

Ejercicio 1.2a · Fundamental

Selecciona la superficie Rastrigin y coloca 4 partículas en diferentes posiciones. Usa SGD con η=0.01. ¿Cuántas encuentran el mínimo global? Ahora cambia a Adam. ¿Mejora el resultado? Experimenta con η=1.0 — ¿qué ocurre?

Ejercicio 1.2b · Intermedio

Geometría del punto de silla: En la función Saddle Point, activa el campo vectorial. Observa las flechas alrededor del origen. ¿En qué direcciones apuntan hacia el origen? ¿En cuáles se alejan? Relaciónalo con los autovalores de la Hessiana H = [[2, 0], [0, -2]].

4.3 Backpropagation

🔬 Abrir Simulación 3 📖 Guía Detallada

La Regla de la Cadena Aplicada

El algoritmo de backpropagation (Rumelhart, Hinton & Williams, 1986) es la aplicación sistemática de la regla de la cadena para calcular gradientes en redes multicapa. Permite saber cuánto contribuye cada peso al error total.

∂L/∂w_ij = (∂L/∂a_j) · (∂a_j/∂z_j) · (∂z_j/∂w_ij)

El proceso tiene dos fases:

Forward pass: Se computan las activaciones capa por capa, desde la entrada hasta la salida
Backward pass: Se computan los gradientes capa por capa, desde la salida hasta la entrada

Forward Pass (azul →): Input → [Capa 1] → [Capa 2] → [Capa 3] → Output → Loss Backward Pass (rojo ←): Input ← ∂L/∂w₁ ← ∂L/∂w₂ ← ∂L/∂w₃ ← ∂L/∂ŷ ← Loss

Problemas del Gradiente

Vanishing Gradient

Con sigmoid/tanh, la derivada es siempre <1. Al multiplicar muchas derivadas pequeñas capa tras capa, el gradiente se hace exponencialmente pequeño. Las capas iniciales apenas aprenden.

Exploding Gradient

Si los pesos son grandes, los gradientes crecen exponencialmente. Los pesos saltan erráticamente y el entrenamiento diverge. Solución: gradient clipping.

Qué Observar en la Simulación

El grosor de las conexiones indica la magnitud de los pesos
Las partículas fluyen hacia adelante (azul) y hacia atrás (rojo)
Con sigmoid, los gradientes de las primeras capas se desvanecen — las notas se apagan
Con ReLU, los gradientes fluyen más uniformemente a través de la red

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Propagación del delta por capas ocultas:

δ_j^(l) = (Σ_k w_jk^(l+1) δ_k^(l+1)) · σ'(z_j^(l))

Cota de vanishing gradient con sigmoid: Para L capas con sigmoid, el gradiente de la primera capa se reduce por un factor de al menos:

∏_{l=1}^{L} σ'(z^(l)) ≤ 0.25^L

Con L=4 capas, el gradiente en la primera capa es ~256x menor que en la última.

Sonificación

Parámetro	Sonido
Forward pass (por capa)	Nota ascendente: capas tempranas = pitch bajo, capas finales = pitch alto
Backward pass (por capa)	Nota descendente: inversión del patrón
Volumen backward	Proporcional a magnitud media del gradiente — se escucha el vanishing gradient como silencio progresivo

Ejercicio 1.3a · Fundamental

Configura todas las capas con activación Sigmoid y observa el backward pass. ¿Las partículas de gradiente llegan a la primera capa? Ahora cambia a ReLU. ¿Qué diferencia observas?

Ejercicio 1.3b · Intermedio

Congelación selectiva: Con el problema Spiral y arquitectura 2→8→8→1: (1) entrena 100 épocas completas, (2) congela L1 y entrena 100 más, (3) reinicia y entrena con L2 congelada desde el inicio. ¿Qué caso tiene peor rendimiento? ¿Qué capa es más crítica?

4.4 Funciones de Activación

🔬 Abrir Simulación 4 📖 Guía Detallada

¿Por qué la No-Linealidad?

Sin funciones de activación no lineales, una red de N capas se reduce a una sola transformación lineal: W_N · ... · W_2 · W_1 · x = W'x. El Teorema de Aproximación Universal (Cybenko, 1989; Hornik, 1991) establece que una red de una capa oculta con activación no lineal puede aproximar cualquier función continua, dada suficiente anchura.

Las 8 Funciones

Función	Ecuación	Rango	Propiedad clave
Sigmoid	σ(x) = 1/(1+e⁻ˣ)	(0, 1)	Saturación bilateral
Tanh	tanh(x)	(-1, 1)	Centrada en cero
ReLU	max(0, x)	[0, ∞)	Neuronas muertas si x<0
Leaky ReLU	max(0.01x, x)	(-∞, ∞)	Evita neuronas muertas
ELU	x si x>0, α(eˣ−1) si x≤0	(-α, ∞)	Suave en x=0
Swish	x · σ(x)	≈(-0.28, ∞)	Autoregulada
GELU	x · Φ(x)	≈(-0.17, ∞)	Usada en Transformers
Mish	x · tanh(softplus(x))	≈(-0.31, ∞)	Suave, no monótona

Derivada y Saturación

La derivada de sigmoid es σ'(x) = σ(x)(1−σ(x)), con máximo 0.25 en x=0. Para valores grandes de |x|, la derivada tiende a cero: la neurona se satura. ReLU resuelve esto en la zona positiva (derivada = 1), pero introduce el problema de neuronas muertas cuando la entrada es siempre negativa.

Qué Observar en la Simulación

Los 8 canales tipo osciloscopio muestran la transformación de la misma señal de entrada
La derivada (línea tenue) muestra dónde el gradiente fluye bien y dónde se satura
Con amplitud alta ("modo explosión"), sigmoid y tanh saturan completamente
ReLU "corta" la señal negativa — zona gris de muerte neuronal

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Aproximación de GELU:

GELU(x) ≈ 0.5x(1 + tanh(√(2/π)(x + 0.044715x³)))

Derivada de Swish:

Swish'(x) = σ(x) + x · σ(x)(1 − σ(x))

Sonificación

Función	Frecuencia	Onda	Posición estéreo
Sigmoid	110 Hz	Sine	Izquierda
Tanh	220 Hz	Sine	Centro-izq
ReLU	330 Hz	Sawtooth	Centro-izq
Leaky ReLU	440 Hz	Sawtooth	Centro
ELU	550 Hz	Triangle	Centro
Swish	660 Hz	Triangle	Centro-der
GELU	770 Hz	Triangle	Centro-der
Mish	880 Hz	Triangle	Derecha
Saturación	Detuning hasta 25 cents cuando σ'(x) < 0.1

Ejercicio 1.4a · Fundamental

Activa la onda senoidal con amplitud 2. Observa las 8 salidas. Luego sube la amplitud a 10 (modo explosión). ¿Cuáles funciones saturan? ¿Cuáles mantienen información?

Ejercicio 1.4b · Intermedio

Escuchar la saturación: Activa el audio con señal senoidal a amplitud normal. Sube gradualmente la amplitud a 10. ¿En qué punto empiezas a notar el detuning en los osciladores? ¿Cuáles funciones se deafinan primero? ¿Cuáles mantienen su pitch?

4.5 Inicialización de Pesos

🔬 Abrir Simulación 5 📖 Guía Detallada

El Big Bang de los Pesos

La inicialización de pesos determina el punto de partida del entrenamiento. Una inicialización incorrecta puede provocar que las activaciones se desvanezcan (colapsen a cero) o exploten (crezcan sin control) antes de que el entrenamiento comience. La clave es mantener la varianza de las activaciones estable a través de las capas.

Var[aₗ] = Var[aₗ₋₁] · nₗ · Var[wₗ]

Para que la varianza se conserve, necesitamos nₗ · Var[wₗ] = 1, es decir, Var[wₗ] = 1/nₗ.

Estrategias de Inicialización

Estrategia	Varianza	Mejor con	Referencia
Xavier / Glorot	σ² = 2/(n_in + n_out)	Sigmoid, Tanh	Glorot & Bengio, 2010
He / Kaiming	σ² = 2/n_in	ReLU, Leaky ReLU	He et al., 2015
LeCun	σ² = 1/n_in	SELU	LeCun et al., 1998
Normal(0, 1)	σ² = 1	—	Demasiado grande
Zeros	σ² = 0	—	Rompe simetría

Inicializar en Cero

Si todos los pesos son idénticos, todas las neuronas de una capa computan exactamente lo mismo. Los gradientes también son idénticos, y los pesos se actualizan de forma idéntica. La red nunca rompe esta simetría — equivale a tener una sola neurona por capa.

Qué Observar en la Simulación

Los histogramas apilados muestran la distribución de activaciones por capa
Con Normal(0,1): los histogramas se expanden hasta explotar (rojo)
Con Normal(0,0.01): los histogramas colapsan a cero (azul)
Con He + ReLU: los histogramas mantienen una varianza estable (verde) a través de las 10 capas

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Propagación exponencial de la varianza:

Var[a_L] = (n · Var[w])^L · Var[a&sub0;]

La varianza crece o decrece exponencialmente con la profundidad L.

He/Kaiming desde el factor ReLU: Como ReLU elimina la mitad de la distribución: Var[ReLU(z)] = ½Var[z], necesitamos Var[w] = 2/n_in para compensar.

Sonificación

Estado	Sonido
Varianza estable (≈1)	Nota media (~440 Hz), armónica
Varianza alta (explosión)	Nota aguda, volumen creciente
Varianza baja (desvanecimiento)	Nota grave, volumen decreciente
NaN / Infinito	Silencio abrupto
Diagnóstico estable	Acorde mayor consonante
Diagnóstico vanishing	Secuencia melancólica descendente
Diagnóstico exploding	Cluster disonante ascendente

Ejercicio 1.5a · Fundamental

Configura 10 capas con activación ReLU. Prueba cada estrategia de inicialización y observa los histogramas. ¿Cuál mantiene la varianza más estable? Ahora cambia a Sigmoid y repite.

Ejercicio 1.5b · Avanzado

El punto de ruptura: Con Normal(0,1) y activación lineal, ¿cuál es la profundidad máxima antes de obtener NaN? Prueba con anchura 8, 64 y 256. ¿Las redes más estrechas sobreviven más capas o menos?

5. Módulo 2: Arquitecturas Clásicas

Módulo 2 · Color: Ámbar (#f59e0b) · Simulaciones 6-10

Con los fundamentos establecidos, este módulo explora las arquitecturas que definieron la primera era del deep learning. Cada una resuelve un problema específico: compresión de información (autoencoders), memoria secuencial (LSTM), atención selectiva, detección jerárquica de patrones (CNN), y generación adversaria (GAN).

5.1 Autoencoder: Compresión como Arquitectura

🔬 Abrir Simulación 6 📖 Guía Detallada

Representación y Compresión

Un autoencoder es una red neuronal entrenada para reconstruir su propia entrada, forzada a pasar por un cuello de botella (bottleneck) de dimensionalidad reducida. Al hacerlo, aprende una representación comprimida que captura las características esenciales de los datos.

z = f_enc(x) , x̂ = f_dec(z) , L = ||x − x̂||²

Autoencoder (reloj de arena): Input [64] → Encoder [32] → Bottleneck [2-16] → Decoder [32] → Output [64] 64 dims 2 dims 64 dims (imagen 8×8) (espacio latente) (reconstrucción)

El espacio latente (la representación en el bottleneck) organiza los datos de forma significativa: dígitos similares quedan cerca. Interpolar entre dos puntos del espacio latente genera "transiciones" entre conceptos.

Conexión con PCA

Un autoencoder lineal (sin activaciones) con bottleneck de dimensión k aprende exactamente las k primeras componentes principales (PCA). Los autoencoders no lineales son una generalización más potente.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Interpolación latente:

z_t = (1 − t)z_A + t·z_B, t ∈ [0, 1]

Loss del VAE con divergencia KL:

L_VAE = ||x − x̂||² + KL(q(z|x) || p(z))

Sonificación

Parámetro	Sonido
Época de entrenamiento	Nota con frecuencia inversamente proporcional al loss
Convergencia	Acorde consonante
Interpolación (z1, z2)	Dos osciladores modulados en frecuencia y volumen
Error de reconstrucción bajo	Sonido limpio consonante
Error de reconstrucción alto	Sonido disonante

Ejercicio 2.1a · Fundamental

Entrena el autoencoder con bottleneck de 16 dimensiones. Observa la reconstrucción. Ahora reduce a 2 dimensiones. ¿Cuánta información se pierde? Usa el slider de interpolación para navegar entre dos dígitos.

Ejercicio 2.1b · Intermedio

Interpolación imposible: Interpola entre el dígito "1" y "0". ¿Existe un punto intermedio que se parezca a un "7"? ¿O la transición pasa por formas que no son dígitos reconocibles? ¿Qué dice esto sobre la geometría del espacio latente?

5.2 LSTM: Neuronas con Memoria

🔬 Abrir Simulación 7 📖 Guía Detallada

El Problema de las RNN Simples

Las redes recurrentes simples (RNN) sufren el problema del vanishing gradient en secuencias largas: la información de pasos tempranos se pierde exponencialmente. Las Long Short-Term Memory (Hochreiter & Schmidhuber, 1997) resuelven esto con un mecanismo de compuertas.

Las Tres Compuertas

f_t = σ(W_f · [h_{t−1}, x_t] + b_f) (Forget gate) i_t = σ(W_i · [h_{t−1}, x_t] + b_i) (Input gate) o_t = σ(W_o · [h_{t−1}, x_t] + b_o) (Output gate)

El cell state C_t funciona como una cinta transportadora de información:

C_t = f_t ⊙ C_{t−1} + i_t ⊙ tanh(W_C · [h_{t−1}, x_t] + b_C) h_t = o_t ⊙ tanh(C_t)

LSTM Cell: ┌──────── f_t ⊙ ────────────── + ──────────┐ │ (forget) (input) │ C_{t-1} i_t ⊙ C̃_t C_t │ │ │ ┌───────────────────────────────────┐ │ h_{t-1}───┤ σ σ tanh σ ├──── o_t ⊙ tanh(C_t) = h_t x_t ──────┤ f i C̃ o │ └───────────────────────────────────┘

Qué Observar en la Simulación

Las compuertas coloreadas: Forget (rojo), Input (verde), Output (azul)
El cell state como río horizontal — su grosor indica cuánta información fluye
Con secuencias repetitivas ("abcabc"), el forget gate aprende a filtrar y el input gate se estabiliza

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Flujo del gradiente a través del cell state:

∂C_t / ∂C_{t−1} = f_t

Cuando f_t ≈ 1, el gradiente fluye sin atenuación — esta es la clave de por qué las LSTM resuelven el vanishing gradient.

GRU simplificada:

h_t = (1 − z_t) ⊙ h_{t−1} + z_t ⊙ h̃_t

Sonificación

Parámetro	Sonido
Forget gate (f_t)	Nota grave; frecuencia proporcional a f_t
Input gate (i_t)	Nota media; frecuencia proporcional a i_t
Output gate (o_t)	Nota aguda; frecuencia proporcional a o_t
Predicción correcta	Acorde consonante
Predicción incorrecta	Tono disonante desafinado

Ejercicio 2.2a · Fundamental

Selecciona una secuencia repetitiva y observa cómo los gates se estabilizan. Luego fuerza el forget gate a 0 (memoria perfecta). ¿Qué efecto tiene sobre la predicción? ¿Y si lo fuerzas a 1 (amnesia completa)?

Ejercicio 2.2b · Intermedio

Output gate aislado: Fuerza input gate = 100 y forget gate = 100 (memoria máxima). Ahora varía el output gate de 0 a 100 mientras procesas una secuencia. ¿Cómo cambia la predicción? El output gate es como una válvula de lectura: ¿qué pasa si la memoria está llena pero no se puede leer?

5.3 Mecanismo de Atención

🔬 Abrir Simulación 8 📖 Guía Detallada

Atención como Alineamiento

El mecanismo de atención (Bahdanau et al., 2014) permite a una red neuronal "mirar" selectivamente diferentes partes de la entrada al producir cada elemento de la salida. La idea fundamental es computar un promedio ponderado donde los pesos reflejan la relevancia de cada posición:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Multi-head attention ejecuta la operación en paralelo con diferentes proyecciones, capturando distintos tipos de relación (sintáctica, semántica, posicional).

Qué Observar en la Simulación

La matriz de atención como mapa de calor N×N — celdas brillantes indican alta atención
Las líneas animadas conectan tokens con grosor proporcional al peso
Con temperatura baja, la atención se concentra en pocos tokens (sharp)
Con temperatura alta, la atención se distribuye uniformemente (flat)

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Entropía de la atención:

H_i = −Σ_j α_ij log&sub2;(α_ij)

Entropía baja = atención enfocada en pocos tokens. Entropía alta (máx = log&sub2;(n)) = atención uniforme.

Positional encoding sinusoidal:

PE_(pos,2i) = sin(pos / 10000^(2i/d)), PE_(pos,2i+1) = cos(pos / 10000^(2i/d))

Sonificación

Parámetro	Sonido
Peso de atención alto	Nota aguda, volumen alto
Cambio de head	Cambio de timbre (cada head tiene timbre distinto)
Temperatura baja	Sonido puntual — pocas notas dominantes
Temperatura alta	Sonido difuso — muchas notas simultáneas suaves

Ejercicio 2.3a · Fundamental

Escribe o selecciona una frase y haz clic en diferentes tokens query. ¿Qué tokens reciben más atención? Experimenta con la temperatura del softmax: ¿qué ocurre cuando T → 0? ¿Y cuando T → ∞?

Ejercicio 2.3b · Avanzado

Un head vs. muchos: Compara 1 head con d_k=32 contra 8 heads con d_k=4 (mismo d_model=32). ¿Cuál produce patrones de atención más variados? ¿Por qué se prefiere multi-head en la práctica?

5.4 Redes Convolucionales: Detectives de Patrones

🔬 Abrir Simulación 9 📖 Guía Detallada

Inspiración Biológica

Las CNN están inspiradas en el trabajo de Hubel y Wiesel (1962) sobre la corteza visual: diferentes neuronas responden a diferentes orientaciones de bordes. En una CNN, los filtros (kernels) aprenden a detectar patrones locales, y las capas sucesivas detectan patrones cada vez más abstractos.

La Operación de Convolución

(f * g)(x, y) = Σᵢ Σⱼ f(i, j) · g(x−i, y−j)

Cada capa produce feature maps: representaciones espaciales que resaltan la presencia de patrones específicos. El pooling reduce la resolución espacial, creando invariancia a pequeñas traslaciones.

Jerarquía de features en una CNN: Capa 1: Bordes (horizontales, verticales, diagonales) ↓ Capa 2: Texturas (esquinas, curvas, cruces) ↓ Capa 3: Partes (ojos, ruedas, ventanas) ↓ FC: Objetos (gato, coche, casa)

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Dimensión de salida del feature map:

W_out = (W − k + 2p) / s + 1

donde W = tamaño de entrada, k = tamaño del kernel, s = stride, p = padding.

Cross-entropy para clasificación:

L = −Σ_k y_k log P_k = −log P_correcto

Sonificación

Evento	Sonido
Trazo de dibujo	Click suave; intensidad del píxel dibujado
Activación de filtro	Una nota por filtro; magnitud de la activación máxima
Resultado de clasificación	Acorde de las top 3 clases más probables
Alta confianza	Frecuencia pura, clara, definida
Baja confianza	Ruido — múltiples frecuencias simultáneas

Ejercicio 2.4a · Fundamental

Dibuja un dígito en el canvas y observa los feature maps de cada capa. ¿Qué detectan los filtros de la capa 1? Haz clic en un feature map para ver el filtro 3×3 que lo genera.

Ejercicio 2.4b · Intermedio

Receptive field: Dibuja un único píxel brillante en el centro del canvas 8×8. ¿Cuántas posiciones del feature map de capa 1 se activan? ¿Y de capa 2? Esto visualiza el receptive field: el área de la imagen que influye en cada neurona.

5.5 Redes Generativas Adversarias

🔬 Abrir Simulación 10 📖 Guía Detallada

El Juego Adversario

Las GANs (Goodfellow et al., 2014) formulan la generación como un juego entre dos redes: un Generador G que crea datos falsos, y un Discriminador D que intenta distinguir los datos reales de los falsos.

min_G max_D V(D, G) = E_{x~p_data}[log D(x)] + E_{z~p_z}[log(1 − D(G(z)))]

En el equilibrio de Nash, G genera datos indistinguibles de los reales, y D no puede hacer mejor que adivinar al azar (D(x) = 0.5).

Mode Collapse

Un problema frecuente donde el generador colapsa a producir solo unos pocos ejemplos que engañan al discriminador, sacrificando la diversidad. En la simulación, todos los puntos rojos convergen a un solo punto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Discriminador óptimo:

D*(x) = p_data(x) / (p_data(x) + p_G(x))

En el equilibrio (p_G = p_data), D*(x) = 0.5 en todas partes.

Detección de mode collapse:

var(G(z)) < ε · var(x_real)

Sonificación

Evento	Sonido
G loss bajando	Tono suave ascendente (generador mejorando)
D loss bajando	Tono descendente (discriminador mejorando)
Equilibrio (G loss ≈ D loss)	Armonía
Mode collapse	Tono monótono repetitivo
Convergencia	Acorde resuelto

Ejercicio 2.5a · Fundamental

Selecciona la distribución target "anillo" y entrena. ¿Los puntos generados cubren todo el anillo? Pulsa "Force Collapse". ¿Qué le ocurre a la diversidad?

Ejercicio 2.5b · Intermedio

Análisis de las losses: Entrena con "Gaussiana" durante 300 pasos. Dibuja la evolución de G loss y D loss. ¿Hay un patrón oscilatorio? ¿Las losses convergen a un valor? En el equilibrio teórico, L_G = L_D = log(2) ≈ 0.693. ¿Qué tan cerca llegas?

6. Módulo 3: Transformers y LLMs

Módulo 3 · Color: Violeta (#8b5cf6) · Simulaciones 11-15

El Transformer (Vaswani et al., 2017) revolucionó el procesamiento de lenguaje natural y, progresivamente, toda la IA. Este módulo disecciona su anatomía pieza por pieza, explora cómo las palabras se convierten en vectores, y examina los fenómenos emergentes que surgen cuando estos modelos escalan.

6.1 Anatomía del Transformer

🔬 Abrir Simulación 11 📖 Guía Detallada

"Attention Is All You Need"

El paper de Vaswani et al. (2017) propuso reemplazar completamente las recurrencias con mecanismos de atención. El resultado fue una arquitectura paralelizable que superó a las RNN/LSTM en traducción automática y, eventualmente, en casi toda tarea de lenguaje.

Componentes del Bloque Transformer

Output = LayerNorm(x + MultiHeadAttention(x)) Output = LayerNorm(x + FFN(x))

Componente	Función	Analogía
Embedding	Convierte tokens en vectores	Diccionario numérico
Positional Encoding	Inyecta información de posición	Números de página
Multi-Head Attention	Permite que cada token atienda a todos	Conversación grupal
Feed-Forward Network	Transformación no lineal por posición	Procesamiento individual
Layer Normalization	Estabiliza las activaciones	Nivelación de volumen
Residual Connection	Permite flujo directo de información	Atajo en la autopista

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Layer Normalization:

LayerNorm(x) = γ · (x − μ) / √(σ² + ε) + β

con parámetros aprendibles de escala (γ) y desplazamiento (β).

Ley de escala:

L ∝ N^(−α), α ≈ 0.076

Sonificación

Componente	Sonido
Embedding	Nota base por token; frecuencia mapeada a posición en vocabulario
Positional Encoding	Superposición sinusoidal
Attention	Acordes; tokens con alta atención mutua suenan juntos
FFN	Transformación tímbrica
LayerNorm	Normalización de volumen
Avance de capa	Cambio de octava; cada capa suena en un registro más alto

Ejercicio 3.1a · Fundamental

Abre la simulación y selecciona una frase. Haz clic en cada componente del diagrama arquitectural. Avanza paso a paso por el forward pass. ¿Cómo cambian las activaciones al pasar por attention vs FFN?

Ejercicio 3.1b · Avanzado

Conteo de operaciones: Calcula el número de multiplicaciones en un forward pass para 4 tokens con d=32 y 2 heads. Pista: attention requiere O(n²d) y FFN requiere O(n · d · d_ff). ¿Cuál es el cuello de botella para secuencias largas?

6.2 Embeddings de Tokens: El Espacio Semántico

🔬 Abrir Simulación 12 📖 Guía Detallada

Hipótesis Distribucional

"Conocerás una palabra por la compañía que mantiene" (Firth, 1957). Los embeddings de palabras capturan significado a través de co-ocurrencia estadística. Palabras que aparecen en contextos similares obtienen vectores similares.

Aritmética Vectorial

La propiedad más sorprendente de los embeddings (Mikolov et al., 2013) es la posibilidad de realizar analogías mediante aritmética vectorial:

vec("king") − vec("man") + vec("woman") ≈ vec("queen")

Esto sugiere que las relaciones semánticas se codifican como direcciones consistentes en el espacio vectorial.

Qué Observar en la Simulación

~200 palabras proyectadas de 50D a 2D mediante PCA, coloreadas por campo semántico
Palabras del mismo campo (animales, colores, emociones) forman clusters visibles
La función de analogía computa y muestra el resultado de la aritmética vectorial

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Resolución de analogías por argmin:

D* = argmin_{w ∈ vocab} ||w − (A − B + C)||

Función objetivo de GloVe:

J = Σ_{i,j} f(X_ij) · (w_i⊃T w̃_j + b_i + b̃_j − log X_ij)²

Sonificación

Evento	Sonido
Seleccionar palabra	Nota; frecuencia mapeada a posición Y en el mapa 2D
Vecinos cercanos	Notas en cascada; una por vecino
Analogía exitosa	Acorde mayor; resolución armónica
Analogía fallida	Tono plano; sin resolución
Cambio de campo semántico	Cambio de timbre

Ejercicio 3.2a · Fundamental

Busca la palabra "king" y observa sus vecinos más cercanos. Usa la función de analogía: king − man + woman = ?. ¿El resultado es "queen"?

Ejercicio 3.2b · Intermedio

PCA y distorsión: Busca dos palabras que aparezcan cercanas en el mapa 2D pero tengan distancia alta en la lista de vecinos (no son vecinos mutuos). Esto demuestra la distorsión de la proyección. ¿Por qué PCA puede crear estas ilusiones?

6.3 Self-Attention: Paso a Paso

🔬 Abrir Simulación 13 📖 Guía Detallada

Los 7 Pasos del Self-Attention

La simulación descompone el mecanismo de self-attention en pasos individuales, haciendo visible cada operación matricial.

Embeddings de entrada: Cada token se representa como un vector
Proyección Q: Q = X · W_Q (¿qué busca este token?)
Proyección K: K = X · W_K (¿qué ofrece este token?)
Scores: S = Q · K^T (compatibilidad entre todos los pares)
Escalado: S = S / √d_k (estabilizar la magnitud)
Softmax: A = softmax(S) (normalizar a distribución de probabilidad)
Output: O = A · V (promedio ponderado de valores)

¿Por qué escalar por √d_k?

Sin escalado, cuando d_k es grande, los productos punto QK^T crecen en magnitud, empujando el softmax hacia regiones saturadas donde los gradientes son extremadamente pequeños. Dividir por √d_k mantiene la varianza del producto punto en ~1.

Causal Mask (GPT)

Cada token solo puede atender a tokens anteriores. Se aplica una máscara triangular inferior que pone −∞ en posiciones futuras antes del softmax. Usado en modelos autoregresivos (generación de texto).

Bidireccional (BERT)

Cada token puede atender a todos los demás, tanto anteriores como posteriores. Captura contexto completo pero no puede generar secuencialmente. Usado para comprensión de texto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Justificación de la varianza para el escalado √d_k:

Var(q · k) = Σ_{i=1}^{d_k} Var(q_i · k_i) = d_k

Si q y k tienen componentes con media 0 y varianza 1, la varianza del producto punto es d_k. Dividir por √d_k normaliza la varianza a 1.

Softmax con temperatura:

α_ij = exp(e_ij / T) / Σ_l exp(e_il / T)

Sonificación

Evento	Frecuencia	Duración
Avance de paso	300 + step × 80 Hz	0.15s
Peso de atención	200 + α_ij × 600 Hz	0.3s
Reset	200 Hz descendente	0.2s

Ejercicio 3.3a · Fundamental

Avanza paso a paso por los 7 stages. En el paso 4 (scores), ¿qué pares de tokens tienen scores más altos? Activa la causal mask y observa cómo la mitad superior de la matriz se anula.

Ejercicio 3.3b · Intermedio

Entropía como indicador: Compara la entropía de atención del primer token vs. el cuarto token en cada frase. ¿Cuál tiene mayor entropía y por qué? Relaciónalo con la cantidad de contexto disponible (con causal mask activada).

6.4 Chain of Thought: Razonamiento Paso a Paso

🔬 Abrir Simulación 14 📖 Guía Detallada

Razonamiento Emergente

Wei et al. (2022) descubrieron que los LLMs mejoran dramáticamente en tareas de razonamiento cuando se les pide que generen pasos intermedios antes de la respuesta final. Esta técnica — Chain of Thought (CoT) — convierte problemas complejos en secuencias de subproblemas más simples.

P(respuesta | CoT) > P(respuesta | directa) para tareas complejas

Alucinación

Un riesgo del razonamiento en cadena es que un paso erróneo puede propagarse y contaminar toda la cadena. La simulación incluye un modo alucinación que muestra caminos de razonamiento incorrectos, permitiendo comparar con el razonamiento correcto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Decaimiento acumulativo de confianza:

C_total = ∏_{i=1}^{n} c_i

La confianza total es el producto de las confianzas por paso. Una cadena de 10 pasos con 0.9 por paso tiene solo ~0.35 de confianza total.

Votación por self-consistency:

a* = argmax_a Σ_{j=1}^{k} 1[a_j = a]

Sonificación

Evento	Frecuencia	Tipo
Nodo normal	300 + c × 400 Hz (c = confianza)	Sine
Backtrack	600 → 200 Hz (glide)	Sawtooth
Respuesta correcta	Acorde C-E-G mayor	Sine
Alucinación	freq ± 8 Hz (detuned)	Sine desafinado

Ejercicio 3.4a · Fundamental

Selecciona el problema de aritmética y observa el árbol de razonamiento. Activa el modo alucinación. ¿En qué paso comienza el error? Compara la respuesta directa con la respuesta CoT.

Ejercicio 3.4b · Avanzado

Confianza acumulativa: Para el problema multi-paso, registra la confianza de cada nodo CoT. Calcula C_total = ∏ c_i. ¿El producto explica la confianza final mostrada? ¿Qué pasa si un solo paso tiene c_i = 0.5?

6.5 Habilidades Emergentes y Transiciones de Fase

🔬 Abrir Simulación 15 📖 Guía Detallada

Leyes de Escala

Kaplan et al. (2020) descubrieron que la pérdida de un modelo de lenguaje sigue una ley de potencias respecto al número de parámetros:

L(N) = (N_c / N)^α

donde N son los parámetros, N_c es una constante y α ≈ 0.076 para modelos tipo Transformer.

Emergencia como Transición de Fase

Ciertas habilidades (aritmética de múltiples dígitos, razonamiento lógico, traducción) aparecen abruptamente a cierta escala, siguiendo una curva sigmoide en vez de una mejora gradual. Esto recuerda las transiciones de fase en física (agua → hielo).

Debate Abierto

Schaeffer et al. (2023) argumentan que la "emergencia" puede ser un artefacto de las métricas discontinuas utilizadas, y que con métricas continuas la mejora es gradual. El debate sobre si las habilidades emergen realmente o son una ilusión métrica permanece abierto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Función sigmoide de emergencia (escala log):

Perf_i(N) = 1 / (1 + exp(−k_i · (log&sub10;(N) − log&sub10;(N_i*))))

Escalado óptimo Chinchilla:

N_opt ∝ C^0.5, D_opt ∝ C^0.5

El entrenamiento óptimo requiere escalar tanto el tamaño del modelo como los datos proporcionalmente a la raíz cuadrada del presupuesto de cómputo.

Sonificación

Evento	Sonido
Escala baja (<1B params)	200 Hz (tono grave)
Escala media (1-100B)	400 Hz
Escala alta (>100B)	800 Hz (tono agudo)
Transición de fase (cruza 50%)	Acorde mayor C-E-G-C

Ejercicio 3.5a · Fundamental

Mueve el slider de escala de 10M a 1T parámetros. ¿En qué punto la aritmética de 3 dígitos "emerge"? ¿Es el mismo punto para todas las tareas?

Ejercicio 3.5b · Avanzado

Chinchilla: Si tienes un presupuesto de cómputo fijo C y N_opt ∝ C^0.5, ¿cuánto más cómputo necesitas para duplicar el tamaño óptimo del modelo? Si el cómputo cuesta $1M para 10B parámetros, ¿cuánto costaría entrenar óptimamente un modelo de 40B?

7. Módulo 4: Fronteras de la Inteligencia Artificial

Módulo 4 · Color: Cyan (#06b6d4) · Simulaciones 16-20

Este módulo explora las áreas más activas de la investigación actual. Los modelos de difusión están detrás de la generación de imágenes; el aprendizaje por refuerzo fundamenta el alineamiento de LLMs; la destilación y los MoE abordan la eficiencia; y la superposición abre la puerta a entender qué ocurre dentro de las redes neuronales.

7.1 Modelos de Difusión: De Ruido a Estructura

🔬 Abrir Simulación 16 📖 Guía Detallada

El Proceso de Difusión

Los Denoising Diffusion Probabilistic Models (Ho et al., 2020) definen dos procesos: uno que gradualmente destruye la estructura añadiendo ruido gaussiano (forward), y otro que aprende a revertir ese proceso (reverse).

Forward Process

x_t = √ᾱ_t · x₀ + √(1 − ᾱ_t) · ε , ε ~ N(0, I)

Donde ᾱ_t = Πₛ₌₁ᵗ (1 − βₛ) y β_t es el noise schedule. Tras T pasos, x_T es ruido puro.

Noise Schedules

Lineal

β crece linealmente de β₁ a β_T. Simple pero destruye la información demasiado rápido al principio.

Coseno (Nichol & Dhariwal, 2021)

ᾱ_t sigue un coseno, preservando más estructura en los primeros pasos y destruyéndola suavemente al final. Mejores resultados empíricos.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Media del reverse step:

μθ(x_t, t) = (1/√α_t)(x_t − β_t/√(1 − ᾱ_t) · εθ(x_t, t))

Classifier-Free Guidance:

ε̃θ = εθ(x_t, ∅) + w · [εθ(x_t, c) − εθ(x_t, ∅)]

Sonificación

Estado	Frecuencia	Filtro LP
t=0 (imagen limpia)	800 Hz	3000 Hz
t=T/2 (parcial)	400 Hz	1500 Hz
t=T (ruido puro)	150 Hz	500 Hz

Forward = frecuencia descendente. Reverse = frecuencia ascendente. Cutoff del lowpass proporcional a ᾱ_t.

Ejercicio 4.1a · Fundamental

Selecciona la imagen target "corazón". Observa el forward process: ¿en qué paso la estructura deja de ser reconocible? Compara los schedules lineal y coseno: ¿cuál reconstruye mejor?

Ejercicio 4.1b · Intermedio

Punto de no retorno: Para cada imagen target, encuentra el paso t* donde la imagen deja de ser visualmente reconocible (usa el slider). ¿Es t* similar para todos los targets? Registra el SNR en ese punto.

7.2 Aprendizaje por Refuerzo: Grid World

🔬 Abrir Simulación 17 📖 Guía Detallada

Procesos de Decisión de Markov

El aprendizaje por refuerzo modela la interacción agente-entorno como un MDP (Markov Decision Process): en cada estado, el agente elige una acción, recibe una recompensa, y transita a un nuevo estado.

Q-Learning

Q(s, a) ← Q(s, a) + α [r + γ · max_{a'} Q(s', a') − Q(s, a)]

Es un algoritmo off-policy: la actualización usa el máximo Q futuro independientemente de la acción realmente tomada. El parámetro γ (descuento) controla cuánto importa el futuro vs. el presente.

SARSA

Q(s, a) ← Q(s, a) + α [r + γ · Q(s', a') − Q(s, a)]

A diferencia de Q-Learning, SARSA es on-policy: usa la acción a' que el agente realmente toma (incluyendo exploración), lo que produce políticas más conservadoras.

Q-Learning (Off-policy)

Aprende la política óptima independientemente de la exploración. Más agresivo cerca de trampas — asume que actuará óptimamente en el futuro.

SARSA (On-policy)

Aprende la política que realmente ejecuta, incluyendo movimientos exploratorios. Más conservador — evita caminos peligrosos donde la exploración podría causar daño.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Retorno descontado:

V(s) = Σ_{t=0}^{∞} γ^t r_{t+1}

Con γ=0.95, una recompensa de +1 en 10 pasos vale 0.95^10 ≈ 0.60 hoy. Con γ=0.5, vale solo 0.5^10 ≈ 0.001.

Sonificación

Evento	Frecuencia	Tipo
Paso normal	300 + Q × 400 Hz	Triangle
Trampa	200 → 100 Hz	Sawtooth
Recompensa	500 → 700 Hz	Sine
Meta alcanzada	Acorde C-E-G	Sine
Exploración (ε)	250 Hz (detuned)	Square

Ejercicio 4.2a · Fundamental

Configura el grid con trampas cerca del camino óptimo. Entrena con Q-Learning y luego con SARSA. ¿Cuál evita más las trampas?

Ejercicio 4.2b · Avanzado

Q-Learning vs. SARSA cuantitativo: Entrena 1000 episodios con cada algoritmo (mismos hiperparámetros). Compara: recompensa media final, tasa de éxito y longitud media del camino. ¿Cuál es "mejor"?

7.3 Destilación de Conocimiento: Maestro y Alumno

🔬 Abrir Simulación 18 📖 Guía Detallada

Dark Knowledge

Hinton, Vidal y Dean (2015) propusieron que una red grande (teacher) contiene "conocimiento oscuro" en sus distribuciones de salida suavizadas. Un dígito "7" no solo es 7: la red grande sabe que se parece un poco a "1" y nada a "0". Esta información relacional se pierde con labels duros (one-hot) pero se preserva con soft labels.

L = α · KL(σ(z_T/T) || σ(z_S/T)) · T² + (1−α) · CE(y, σ(z_S))

El parámetro T (temperatura) suaviza las distribuciones: a mayor T, más "dark knowledge" se transfiere. El factor T² compensa la reducción de magnitud del gradiente.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Simplificación del gradiente a alta temperatura:

∂L_soft / ∂z_S,i ≈ (1/C)(z_S,i − z_T,i)

A alta T, el Student simplemente intenta igualar los logits del Teacher directamente — la destilación se convierte en una regresión.

Loss combinada de destilación:

L = α · T² · KL(σ(z_T/T) || σ(z_S/T)) + (1−α) · CE(y, σ(z_S))

Sonificación

Evento	Sonido
Clase i (Teacher)	200 + i × 80 Hz, vol ∝ P_T(i), onda sine
Clase i (Student)	200 + i × 80 Hz, vol ∝ P_S(i), onda triangle
KL bajo (<0.01)	Acorde de resolución

A medida que el Student converge al Teacher, los sonidos convergen. Una nota grave con volumen proporcional a KL se desvanece.

Ejercicio 4.3a · Fundamental

Entrena el student con soft labels (T=5, α=0.7) durante 50 épocas. Luego reinicia con hard labels. ¿Cuál método alcanza mejor accuracy?

Ejercicio 4.3b · Intermedio

Dark Knowledge del 8: Selecciona el dígito 8 con T=5. Lista las 3 clases con mayor probabilidad después de "8". ¿Tiene sentido visual? (¿El 8 se parece al 0, 3, 9?). Calcula la entropía H = −Σ p_i log p_i para T=1 y T=5. ¿Cuánta más información contiene la distribución suavizada?

7.4 Mixture of Experts: Routing Inteligente

🔬 Abrir Simulación 19 📖 Guía Detallada

Especialización y Eficiencia

Un modelo Mixture of Experts (Shazeer et al., 2017) contiene múltiples subredes "expertas", pero solo activa un subconjunto para cada entrada. Un router (gating network) decide qué expertos activar:

y = Σᵢ g(x)ᵢ · Eᵢ(x) , g(x) = TopK(softmax(W_g · x))

Con Top-1 routing, solo un experto procesa cada input (sparse). Esto permite escalar el número de parámetros sin aumentar proporcionalmente el cómputo.

Load Balancing

Sin regularización, el router podría enviar todo el tráfico a un solo experto (colapso). La auxiliary loss de balance penaliza distribuciones de carga desiguales, fomentando que todos los expertos se utilicen.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Load balance loss:

L_balance = E · Σ_{i=1}^{E} f_i · p_i

donde f_i es la fracción de tokens asignados y p_i la probabilidad media del router.

Reducción de FLOPs (Switch Transformer):

FLOPs_MoE ≈ FLOPs_dense / (E/K)

Con E=64 expertos y K=1, se necesita ≈1/64 del cómputo de un modelo denso equivalente.

Sonificación

Experto	Nota	Onda
1 (rojo)	C4 (261 Hz)	Sine
2 (verde)	E4 (329 Hz)	Triangle
3 (azul)	G4 (392 Hz)	Square
4 (amarillo)	C5 (523 Hz)	Sawtooth

Top-2 routing produce acordes de dos notas. Balance mejorado = tono ascendente sutil.

Ejercicio 4.4a · Fundamental

Genera puntos aleatorios y entrena con 4 expertos y Top-1. ¿Cada experto se especializa en una región? Cambia a Top-2. ¿Cómo cambian las fronteras?

Ejercicio 4.4b · Intermedio

Routing collapse: Pon load balance a 0 y temperatura a 0.1. Entrena 50 pasos. ¿Cuántos expertos tienen carga >5%? ¿Ocurre colapso? Sube load balance a 0.5 y repite.

7.5 Superposición: Dentro de la Caja Negra

🔬 Abrir Simulación 20 📖 Guía Detallada

Interpretabilidad Mecánica

Elhage et al. (2022, Anthropic) demostraron que las redes neuronales pueden codificar más features (M) de los que tienen dimensiones (N), un fenómeno llamado superposición. Esto ocurre cuando las features son sparse (raramente activas simultáneamente).

Modelo Toy de Superposición

x̂ = W^TWx , L = ||x − x̂||² + λ · sparsity

La matriz W (N×M) codifica M features en N dimensiones. Si M ≤ N, cada feature puede tener su propia dimensión. Si M > N, los vectores de features deben compartir espacio, creando interferencia.

Diagrama de Fase

El comportamiento del modelo depende de dos variables: la relación M/N y la sparsity de las features. Cuando la sparsity es alta (features raramente activas), la superposición es posible sin mucha interferencia. Cuando es baja, la interferencia destruye la información.

Diagrama de Fase: Sparsity ↑ ┌────────────────────────────────┐ 1.0 │ SUPERPOSICIÓN │ │ (M features en N dims) │ │ Interferencia tolerable │ ├────────── S = 1 - N/M ──────────┤ │ SIN SUPERPOSICIÓN │ 0.0 │ (features independientes) │ └────────────────────────────────┘ 1.0 M/N → 5.0

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Capacidad efectiva de features:

M_eff ≈ N / (1 − S)²

Con N=512 dimensiones y sparsity S=0.99, un modelo puede representar ~5,120,000 features.

Reconstrucción expandida con interferencia:

x̂_i = (W⊃T W)_ii · x_i + Σ_{j≠i} (W⊃T W)_ij · x_j

Separando la auto-reconstrucción del ruido de interferencia causado por otras features activas.

Sonificación

Evento	Sonido
Feature i activa	200 + i × 50 Hz, vol ∝ \|\|w_i\|\|
Paso de optimización	Click a 440 Hz
Convergencia	Acorde consonante
Alta interferencia	Beating entre frecuencias cercanas

Ejercicio 4.5a · Fundamental

Configura N=2 dimensiones, M=5 features. Aumenta la sparsity. ¿Los vectores se separan más? Cambia a la vista de diagrama de fase.

Ejercicio 4.5b · Avanzado

Sparsity como factor habilitante: Fija N=2, M=8. Optimiza con S=0.5 y luego con S=0.99. ¿Cuántas features están "representadas" (norma del vector > 0.5) en cada caso? Calcula M_eff = N/(1−S)² para cada caso.

8. Ejercicios Integrados

Estos ejercicios combinan conceptos de múltiples simulaciones para reforzar la comprensión global.

Módulo 1: Cadena de Fundamentos

Ejercicio Integrado A · Fundamental

Del Perceptrón a la Red Profunda. Abre la Sim 1 (Perceptrón) y demuestra que no puede resolver XOR. Luego abre la Sim 3 (Backpropagation) con una red de 4 capas entrenando en XOR. Documenta: ¿cuántas capas ocultas son necesarias para resolver XOR? ¿Qué función de activación funciona mejor? (Verifica con la Sim 4).

Ejercicio Integrado B · Intermedio

Inicialización y Gradientes. Abre la Sim 5 (Weight Initialization) con 10 capas + Sigmoid. Observa el colapso con inicialización "Normal(0,0.01)". Luego abre la Sim 3 (Backpropagation) con la misma configuración. ¿La velocidad de entrenamiento correlaciona con lo que predicen los histogramas de activación?

Módulo 2: Arquitecturas en Contexto

Ejercicio Integrado C · Intermedio

Attention vs. Recurrencia. Compara la Sim 7 (LSTM) con la Sim 8 (Attention) procesando la misma frase. ¿Cuál captura mejor las dependencias a larga distancia? ¿El mecanismo de atención es más "transparente" que las compuertas LSTM?

Ejercicio Integrado D · Intermedio

Compresión y Generación. El Autoencoder (Sim 6) comprime datos y el GAN (Sim 10) los genera. Reflexiona: ¿en qué se parecen los espacios latentes de ambos? ¿Podrían combinarse? (Hint: el VAE-GAN combina ambas ideas).

Módulo 3: Diseccionando el Transformer

Ejercicio Integrado E · Avanzado

De Attention a Self-Attention a Transformer. Abre las Sims 8, 13 y 11 en orden. Documenta la progresión: (1) Attention básica sobre Q/K/V, (2) Self-attention con los 7 pasos, (3) Transformer completo con múltiples bloques. ¿Cómo cada capa de abstracción construye sobre la anterior?

Módulo 4: Retos de Frontera

Ejercicio Integrado F · Avanzado

Eficiencia y Escala. La Sim 18 (Distillation) comprime modelos, la Sim 19 (MoE) los hace sparse, y la Sim 15 (Emergent Abilities) muestra que la escala importa. Reflexiona: ¿cuál es el equilibrio óptimo entre tamaño, eficiencia y capacidad? ¿La destilación puede preservar habilidades emergentes?

Reto Final · Maestría

Completa las 20 simulaciones y escribe un ensayo de una página respondiendo: ¿Cómo se conectan los fundamentos del Módulo 1 con las fronteras del Módulo 4? Traza al menos 3 líneas conceptuales que recorran los 4 módulos (ejemplo: "gradientes → backpropagation → training de transformers → RLHF en alineamiento de LLMs").

9. Mapa Conceptual

Este diagrama muestra las conexiones entre los 20 conceptos del laboratorio. Las flechas indican "construye sobre" o "habilita".

Líneas Conceptuales Principales

Línea de Optimización: Perceptrón → Gradient Descent → Backpropagation → Weight Init → entrenamiento de toda arquitectura
Línea de Atención: LSTM → Attention → Self-Attention → Transformer → LLMs → Emergent Abilities
Línea Generativa: Autoencoder → GAN → Diffusion Models
Línea de Eficiencia: Knowledge Distillation → MoE → Scaling Laws
Línea de Interpretabilidad: Activation Functions → Backprop Flow → Superposition

10. Glosario

~120 términos unificados de las 20 guías individuales, ordenados alfabéticamente.

Término	Definición
Accuracy	Fracción de ejemplos correctamente clasificados: correctos/N.
Activación	Salida de una neurona tras aplicar la función de activación a la combinación lineal de sus entradas.
Adam	Optimizador que combina momentum con tasas de aprendizaje adaptativas por parámetro, con corrección de sesgo.
Agente	Entidad que toma decisiones (elige acciones) en aprendizaje por refuerzo.
Alpha (α)	Peso que balancea la loss suave vs. la loss dura en destilación; también tasa de aprendizaje en RL.
Attention	Mecanismo que permite a una red ponderar dinámicamente la importancia de diferentes partes de la entrada.
Autoencoder	Red neuronal que aprende a comprimir y reconstruir datos, con forma de reloj de arena.
Autoregresivo	Modelo que genera tokens uno por uno, condicionado en los anteriores.
Backpropagation	Algoritmo para calcular gradientes en redes multicapa mediante la regla de la cadena.
Backward pass	Fase donde los gradientes se propagan desde la salida hacia la entrada de la red.
Batch Normalization	Técnica que normaliza activaciones a media 0 y varianza 1 en cada capa.
Batch Size	Número de ejemplos procesados simultáneamente antes de una actualización de pesos.
Benchmark	Conjunto estandarizado de tareas para evaluar modelos.
Bias (sesgo)	Término independiente que desplaza la frontera de decisión; también, prejuicios codificados en embeddings.
Bottleneck	Capa intermedia de dimensionalidad reducida que fuerza la compresión de información.
Causal Mask	Máscara que impide atender a tokens futuros en modelos autoregresivos.
Cell State	Vector de memoria a largo plazo en una LSTM, regulado por compuertas.
Chain of Thought (CoT)	Técnica de prompting que solicita al modelo generar pasos de razonamiento intermedios explícitos.
Chinchilla	Estudio de DeepMind sobre entrenamiento óptimo: datos proporcionales a parámetros.
Classifier-Free Guidance	Técnica de difusión que mejora la adherencia al prompt sin clasificador externo.
Cluster	Agrupación de puntos cercanos en un espacio de representación.
CNN	Red Neuronal Convolucional: arquitectura que usa filtros locales para procesar imágenes.
Combinación lineal	Expresión Σw_i x_i + b; la operación fundamental del perceptrón.
Conexión residual	Atajo que suma la entrada a la salida de un bloque: x + f(x), facilitando el flujo de gradientes.
Convergencia	Estado donde la pérdida o los Q-values dejan de cambiar significativamente.
Convolución	Operación que aplica un filtro deslizante sobre una imagen para producir un feature map.
Cosine similarity	Medida de similitud basada en el ángulo entre vectores: cos(θ) = (a·b)/(\|\|a\|\|\|\|b\|\|).
Cross-Attention	Atención donde Q viene de una secuencia y K, V de otra diferente.
Cross-Entropy	Función de pérdida estándar para clasificación: −Σ y_k log P_k.
d_k	Dimensión de los vectores Query y Key en cada head de atención.
d_model	Dimensión total del modelo Transformer (= h × d_k).
Dark Knowledge	Información sobre relaciones inter-clase contenida en las soft labels del Teacher.
DDIM	Variante determinista de difusión que permite muestreo con menos pasos.
DDPM	Denoising Diffusion Probabilistic Model (Ho et al., 2020).
Decoder	Parte de una red que reconstruye datos desde el espacio latente, o parte del Transformer con atención causal.
Delta (δ)	Señal de error local de una neurona; producto del error propagado y la derivada de activación.
Denoiser	Red neuronal que predice el ruido para revertir un paso de difusión.
Diffusion	Proceso de añadir ruido gradualmente (forward) o eliminarlo (reverse) para generación de imágenes.
Discriminador	Red en una GAN que clasifica datos como reales o generados.
Distilación	Transferencia de conocimiento de un modelo grande (Teacher) a uno pequeño (Student).
ELU	Exponential Linear Unit: función de activación suave en x=0 con media cercana a cero.
Embedding	Representación vectorial densa de un objeto discreto (palabra, token) en R^d.
Emergencia	Capacidad que aparece abruptamente al escalar un modelo, ausente en modelos más pequeños.
Encoder	Parte de una red que comprime la entrada al espacio latente, o parte del Transformer con atención bidireccional.
Entropía	Medida de dispersión de una distribución: H = −Σ p_i log p_i.
Epoch	Una pasada completa por todo el dataset de entrenamiento.
Epsilon (ε)	Probabilidad de tomar una acción aleatoria (exploración) en RL; también ruido gaussiano en difusión.
Epsilon-greedy	Política que explora con probabilidad ε y explota con 1−ε.
Equivarianza	Propiedad por la cual si la entrada se traslada, la salida se traslada de la misma forma.
Espacio latente	Espacio de representaciones internas aprendidas por un modelo (ej: bottleneck de autoencoder).
Expert	Subred neuronal especializada en un MoE que procesa un subconjunto de entradas.
Expert Choice	Variante de MoE donde los expertos eligen sus tokens en lugar de al revés.
Exploding Gradient	Problema donde los gradientes crecen sin control, desestabilizando el entrenamiento.
Feature	Concepto o propiedad que el modelo necesita representar; en CNN, patrón detectado por un filtro.
Feature Map	Salida de un filtro convolucional; mapa de activación que resalta un patrón específico.
FFN	Feed-Forward Network: dos capas lineales con activación, aplicada por posición en Transformers.
Filtro/Kernel	Pequeña matriz de pesos (típicamente 3×3) que detecta un patrón local en CNN.
FLOPs	Operaciones de punto flotante; medida del costo computacional.
Forget Gate	Compuerta sigmoid en LSTM que decide qué parte del cell state anterior borrar.
Forward Pass	Fase donde la entrada se transforma capa por capa para producir la salida.
Forward Process	Fase de destrucción en difusión: imagen a ruido.
Frontera de decisión	Línea (2D) o hiperplano (nD) donde w·x + b = 0; separa regiones de clase.
Gamma (γ)	Factor de descuento en RL: cuánto importa la recompensa futura vs. la presente.
GAN	Red Generativa Adversaria: dos redes compitiendo (generador vs discriminador).
GELU	Gaussian Error Linear Unit: x·Φ(x); estándar en Transformers.
Generador	Red en una GAN que transforma ruido en datos que imitan la distribución real.
GloVe	Global Vectors: embeddings basados en factorización de la matriz de co-ocurrencia.
Gradient Clipping	Técnica que recorta el gradiente si su magnitud excede un umbral.
Gradiente	Vector de derivadas parciales de la pérdida respecto a cada parámetro.
GRU	Gated Recurrent Unit: variante simplificada de LSTM con 2 compuertas.
Guidance	Técnica para condicionar la generación en texto u otra señal en modelos de difusión.
Hadamard Product	Multiplicación elemento a elemento de dos vectores: (a ⊙ b)_i = a_i · b_i.
Hallucination	Paso de razonamiento que parece correcto pero contiene errores factuales.
He/Kaiming Init	Inicialización con Var[w] = 2/n_in; óptima para ReLU.
Hessiana	Matriz de segundas derivadas; sus autovalores indican la curvatura de la superficie.
Hidden State	Salida de la celda LSTM en cada paso temporal, usada para predicciones.
Input Gate	Compuerta sigmoid en LSTM que decide qué nueva información almacenar.
Interferencia	Error causado por features compartiendo las mismas dimensiones en superposición.
Interpretabilidad	Capacidad de entender qué ha aprendido un modelo y cómo toma decisiones.
KL Divergence	Medida de cuánto una distribución de probabilidad difiere de otra de referencia.
KV-Cache	Almacenamiento de Keys y Values previos para generación eficiente en Transformers.
Latent Diffusion	Difusión aplicada en el espacio latente de un autoencoder en lugar del espacio de píxeles.
Layer Normalization	Normalización que centra y escala activaciones por token en Transformers.
Learning Rate (η)	Hiperparámetro que controla el tamaño de cada paso de actualización de pesos.
Leaky ReLU	max(0.01x, x): ReLU con pendiente pequeña para x<0, evita neuronas muertas.
Load Balance	Distribución equitativa de entradas entre expertos en un MoE.
Logits	Salida cruda de la capa final antes de aplicar softmax.
Loss Function	Función que mide la discrepancia entre las predicciones del modelo y los valores reales.
LSTM	Long Short-Term Memory: tipo de RNN con compuertas que controlan el flujo de información.
Manifold	Variedad de baja dimensión donde viven los datos reales en un espacio de alta dimensión.
Margen (γ)	Distancia mínima entre la frontera de decisión y el punto más cercano del dataset.
Max Pooling	Reducción espacial tomando el máximo en cada ventana del feature map.
MDP	Markov Decision Process: formalismo del aprendizaje por refuerzo.
Minimax	Formulación de juego: G minimiza lo que D maximiza en una GAN.
Mish	x · tanh(softplus(x)): función de activación auto-regularizante, no monótona.
Mixture of Experts (MoE)	Arquitectura donde un router selecciona subconjuntos de expertos para cada entrada.
Mode Collapse	Fallo en GANs donde el generador produce solo unos pocos tipos de salida, perdiendo diversidad.
Momentum	Acumulación de velocidad usando gradientes pasados; ayuda a cruzar valles y mesetas.
Monosemántico	Neurona que se activa para una única feature interpretable.
Multi-Head Attention	Múltiples instancias de atención en paralelo, cada una con sus propias matrices W_Q, W_K, W_V.
Nash (Equilibrio de)	Estado donde ningún jugador puede mejorar unilateralmente; meta teórica de las GANs.
Neurona muerta	Neurona con ReLU que siempre produce 0 y nunca recibe gradiente.
Noise Schedule	Función que define cómo β_t varía con t en modelos de difusión.
One-hot	Representación sparse donde cada categoría es un vector con un solo 1.
Output Gate	Compuerta sigmoid en LSTM que decide qué parte del cell state emitir como hidden state.
Padding	Píxeles añadidos a los bordes de una imagen para controlar el tamaño de salida en CNN.
PCA	Análisis de Componentes Principales: proyección que preserva máxima varianza; caso especial lineal del autoencoder.
Perceptrón	Modelo lineal con umbral; la unidad computacional más simple: y = sign(w·x + b).
Phase Transition	Cambio abrupto en una propiedad al cruzar un umbral crítico (ej: emergencia de habilidades).
Polisemántico	Neurona que se activa para múltiples features no relacionadas.
Política (π)	Regla que mapea estados a acciones en aprendizaje por refuerzo.
Pooling	Operación que reduce la resolución espacial de feature maps, creando invariancia local.
Positional Encoding	Vectores sinusoidales que inyectan información de posición en los embeddings del Transformer.
Pre-activación (z)	Suma ponderada antes de aplicar la función de activación: z = Σw_i a_i + b.
Q-Learning	Algoritmo off-policy que actualiza con max Q(s', a'); aprende la política óptima.
Q-Value	Valor estimado de la recompensa futura al tomar una acción en un estado dado.
Query (Q)	Vector que representa "qué busca" un token en el mecanismo de atención.
Receptive Field	Región de la imagen original que influye en una neurona de una capa profunda de CNN.
Regla de la cadena	∂f/∂x = (∂f/∂g)(∂g/∂x); permite componer derivadas en backpropagation.
ReLU	max(0, x): función de activación simple, no satura para x>0, zona muerta para x<0.
Reverse Process	Fase de creación en difusión: ruido a imagen, aprendida por la red.
RNN	Red Neuronal Recurrente: arquitectura que procesa secuencias con estado oculto.
Router (Gating)	Red que decide qué expertos procesan cada entrada en un MoE.
Routing Collapse	Cuando todas las entradas se asignan al mismo experto en un MoE.
SARSA	Algoritmo on-policy que actualiza con Q(s', a') tomado realmente; produce políticas conservadoras.
Saturación	Estado donde \|σ'(z)\| ≈ 0; los gradientes no fluyen a través de la neurona.
Scaling Law	Relación matemática entre tamaño del modelo y rendimiento: L ∝ N^(−α).
Self-Attention	Atención donde Q, K y V provienen de la misma secuencia.
Self-Consistency	Generar múltiples cadenas CoT y elegir la respuesta mayoritaria.
Sigmoid	σ(x) = 1/(1+e^−x): acota a (0,1), satura bilateralmente.
SNR	Signal-to-Noise Ratio: ᾱ_t / (1 − ᾱ_t) en modelos de difusión.
Soft Labels	Distribución de probabilidad suavizada con temperatura T>1; contiene dark knowledge.
Softmax	Función que convierte un vector de valores reales en una distribución de probabilidad.
Sparse Autoencoder (SAE)	Autoencoder con penalización L1 para encontrar features interpretables en representaciones superpuestas.
Sparsity	Fracción de features inactivas en un momento dado; habilita la superposición.
Stride	Tamaño del paso de desplazamiento del filtro en CNN (stride 1 = un píxel a la vez).
Subword	Unidad sub-léxica usada en tokenización moderna (BPE).
Superposición	Fenómeno donde una red codifica más features que dimensiones, compartiendo el espacio.
Swish	x · σ(x): función de activación auto-regulada, no monótona.
Tanh	Centrada en cero, acota a (−1, 1), satura bilateralmente.
TD Error	Diferencia entre la recompensa esperada y la obtenida en RL: δ = r + γ max Q(s',a') − Q(s,a).
Teacher/Student	Modelos grande (teacher) y pequeño (student) en destilación de conocimiento.
Temperatura	Parámetro que controla la nitidez de distribuciones softmax o de soft labels.
Top-K	Selección de los K expertos con mayor peso de routing en MoE.
Transformer	Arquitectura basada enteramente en mecanismos de atención, sin recurrencia.
Tree of Thought (ToT)	Extensión de CoT que explora múltiples caminos de razonamiento en paralelo.
t-SNE	Técnica de visualización no lineal que preserva estructura local de embeddings.
Value (V)	Vector con la información que un token contribuye a la salida en attention.
Vanishing Gradient	Problema donde los gradientes se hacen exponencialmente pequeños en capas profundas.
Varianza	Medida de dispersión: Var[X] = E[X²] − E[X]²; clave en inicialización de pesos.
Voronoi	Partición del espacio donde cada punto se asigna al centro más cercano; usado en MoE.
Wasserstein	Distancia alternativa que mejora la estabilidad del entrenamiento de GANs.
Word2Vec	Algoritmo que entrena embeddings prediciendo contexto (Skip-gram) o palabra central (CBOW).
Xavier/Glorot Init	Inicialización con Var[w] = 2/(n_in + n_out); óptima para Sigmoid y Tanh.
XOR	Función lógica exclusiva-or; ejemplo canónico de problema no linealmente separable.
Zero-shot CoT	Usar Chain of Thought sin ejemplos, solo con "Pensemos paso a paso".

11. Referencias Bibliográficas

Las siguientes publicaciones fundamentan los conceptos presentados en este laboratorio, ordenadas cronológicamente.

Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Psychological Review, 65(6), 386-408.
Hubel, D. H. & Wiesel, T. N. (1962). Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex. The Journal of Physiology, 160(1), 106-154.
Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). Learning Representations by Back-propagating Errors. Nature, 323, 533-536.
Cybenko, G. (1989). Approximation by Superpositions of a Sigmoidal Function. Mathematics of Control, Signals, and Systems, 2, 303-314.
LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998). Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, 86(11), 2278-2324.
Hochreiter, S. & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.
Glorot, X. & Bengio, Y. (2010). Understanding the Difficulty of Training Deep Feedforward Neural Networks. AISTATS 2010.
Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012.
Mikolov, T., Chen, K., Corrado, G. & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
Bahdanau, D., Cho, K. & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473.
Goodfellow, I. J. et al. (2014). Generative Adversarial Networks. arXiv:1406.2661.
Pennington, J., Socher, R. & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP 2014.
He, K., Zhang, X., Ren, S. & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ICCV 2015.
Hinton, G., Vinyals, O. & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
Kingma, D. P. & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR 2015.
Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
Ho, J., Jain, A. & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Fedus, W., Zoph, B. & Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Nichol, A. & Dhariwal, P. (2021). Improved Denoising Diffusion Probabilistic Models. ICML 2021. arXiv:2102.09672.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903.
Elhage, N. et al. (2022). Toy Models of Superposition. Anthropic Research. arXiv:2209.10652.
Schaeffer, R., Miranda, B. & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004.

12. Preguntas Frecuentes

¿Necesito saber programar para usar las simulaciones?

No. Todas las simulaciones funcionan en el navegador sin necesidad de instalar nada. Solo necesitas abrir los archivos HTML. La guía teórica complementa la experiencia interactiva. Si deseas entender el código fuente, cada simulación está implementada en JavaScript vanilla — todo el código es legible en el propio archivo HTML.

¿En qué orden debo recorrer las simulaciones?

El orden recomendado es seguir los módulos secuencialmente (1 → 2 → 3 → 4), ya que cada módulo construye sobre conceptos del anterior. Dentro de cada módulo, las simulaciones están ordenadas por complejidad creciente. Sin embargo, cada simulación es autocontenida: si solo te interesa un tema específico (ej: Transformers), puedes saltar directamente al Módulo 3.

¿Puedo usar las simulaciones para enseñar en clase?

Sí. AI Visual Lab está diseñado como recurso educativo. Las simulaciones funcionan sin conexión a internet (excepto las fuentes de Google), son interactivas, y esta guía proporciona ejercicios estructurados por nivel de dificultad. Sugerimos proyectar las simulaciones mientras se explica la teoría, y usar los ejercicios como actividades prácticas.

¿Qué navegador es recomendado?

Chrome, Firefox, Safari o Edge modernos (2023+). Las simulaciones usan Canvas 2D con soporte Retina (devicePixelRatio) y Web Audio API con inicialización lazy compatible con iOS/Safari. Para la mejor experiencia de sonificación, usa auriculares y haz clic en cualquier control para activar el audio (requerido por políticas de autoplay del navegador).

¿Cómo funciona la sonificación?

Cada simulación mapea magnitudes numéricas a parámetros acústicos usando la Web Audio API:

Error / pérdida: Intervalos musicales (tritono = error alto, octava = error bajo)
Gradientes: Volumen (fuerte = gradiente grande, silencio = vanishing gradient)
Convergencia: Progresión armónica (acorde disminuido → dominante → mayor)
Confianza: Claridad tímbrica (notas puras = alta confianza, clusters = incertidumbre)

La cadena de audio incluye: oscilador → filtro lowpass → envolvente ADSR → ganancia → compresor → salida.

¿Las redes neuronales en las simulaciones son reales?

Sí. No son visualizaciones mockup — son implementaciones funcionales en JavaScript puro. El perceptrón entrena con la regla real de aprendizaje. Las redes del Módulo 2 ejecutan forward y backward pass con matrices de pesos reales. El micro-transformer del Módulo 3 tiene 2 capas, 2 heads y d=32, con embedding, positional encoding, multi-head attention, FFN y layer norm implementados from scratch. Los modelos del Módulo 4 (Q-learning, diffusion, distillation, MoE, superposition) ejecutan algoritmos reales con gradientes y optimización.

1. Introducción

Filosofía: Explicabilidad Radical

¿Qué aprenderás?

Cómo usar esta guía

Progreso del Tutorial

Estructura del Laboratorio

2. Ruta de Aprendizaje

Ruta Fundamental 5 simulaciones

Ruta Practitioner 10 simulaciones

Ruta Researcher 20 simulaciones

3. Prerrequisitos

4. Módulo 1: Fundamentos del Aprendizaje Automático

4.1 El Perceptrón Viviente

Contexto Histórico

Modelo Matemático

Regla de Aprendizaje

Limitación Fundamental

Qué Observar en la Simulación

Las Matemáticas

Sonificación

Ejercicio 1.1a · Fundamental

Ejercicio 1.1b · Intermedio

4.2 Descenso de Gradiente

Optimización y Superficies de Pérdida

SGD (Stochastic Gradient Descent)

Momentum

Adam (Adaptive Moment Estimation)

Qué Observar en la Simulación

Las Matemáticas

Sonificación

Ejercicio 1.2a · Fundamental

Ejercicio 1.2b · Intermedio

4.3 Backpropagation

La Regla de la Cadena Aplicada

Problemas del Gradiente

Vanishing Gradient

Exploding Gradient

Qué Observar en la Simulación

Las Matemáticas

Sonificación

Ejercicio 1.3a · Fundamental

Ejercicio 1.3b · Intermedio

4.4 Funciones de Activación

¿Por qué la No-Linealidad?

Las 8 Funciones

Derivada y Saturación

Qué Observar en la Simulación

Las Matemáticas

Sonificación

Ejercicio 1.4a · Fundamental

Ejercicio 1.4b · Intermedio

4.5 Inicialización de Pesos

El Big Bang de los Pesos

Estrategias de Inicialización

Inicializar en Cero

Qué Observar en la Simulación

Las Matemáticas

Sonificación

Ejercicio 1.5a · Fundamental

Ejercicio 1.5b · Avanzado

5. Módulo 2: Arquitecturas Clásicas

5.1 Autoencoder: Compresión como Arquitectura

Representación y Compresión

Conexión con PCA

Las Matemáticas

Sonificación

Ejercicio 2.1a · Fundamental

Ejercicio 2.1b · Intermedio

5.2 LSTM: Neuronas con Memoria

El Problema de las RNN Simples

Las Tres Compuertas

Qué Observar en la Simulación

Las Matemáticas

Sonificación

Ejercicio 2.2a · Fundamental

Ejercicio 2.2b · Intermedio

5.3 Mecanismo de Atención

Atención como Alineamiento

Qué Observar en la Simulación

Las Matemáticas