1. Introducción

AI Visual Lab es un laboratorio completo de inteligencia artificial explicable: 20 simulaciones interactivas que transforman los conceptos más abstractos del aprendizaje automático en experiencias sensoriales. Cada simulación se ve, se escucha y se manipula.

Filosofía: Explicabilidad Radical

No basta con ver la red neuronal — hay que escuchar el gradiente desvanecerse, sentir la fricción del learning rate, oír la disonancia del error. La sonificación convierte magnitudes numéricas en señales auditivas: un intervalo de tritono señala error alto, un acorde mayor resuelto indica convergencia.

¿Qué aprenderás?

  • Los fundamentos matemáticos del aprendizaje automático, desde el perceptrón hasta la superposición
  • Cómo funcionan las arquitecturas clásicas (CNN, LSTM, GAN, Autoencoder) desde dentro
  • La mecánica interna de los Transformers y los Large Language Models
  • Las fronteras de la investigación: modelos de difusión, MoE, interpretabilidad mecánica

Cómo usar esta guía

  1. Lee la teoría de cada sección para comprender los fundamentos matemáticos
  2. Abre la simulación correspondiente (enlaces en cada sección) y experimenta
  3. Realiza los ejercicios propuestos al final de cada sección
  4. Toma notas en el panel lateral derecho — se guardan automáticamente

Progreso del Tutorial

1
Fundamentos
2
Arquitecturas
3
Transformers
4
Fronteras
5
Maestría

Estructura del Laboratorio

MóduloTemaSimulacionesDificultad
Módulo 1Fundamentos del Aprendizaje5 (Sims 1-5)Fundamental
Módulo 2Arquitecturas Clásicas5 (Sims 6-10)Intermedio
Módulo 3Transformers y LLMs5 (Sims 11-15)Intermedio
Módulo 4Fronteras de la IA5 (Sims 16-20)Avanzado

2. Ruta de Aprendizaje

Elige la ruta que mejor se adapte a tu nivel y objetivos. Cada ruta incluye las simulaciones recomendadas y sus dependencias. Marca las simulaciones completadas para seguir tu progreso.

Ruta Fundamental 5 simulaciones

Ideal para principiantes. Cubre los cimientos del aprendizaje automático: desde la neurona artificial hasta la inicialización de redes profundas.

Requiere: Sim 1 (concepto de pesos y actualización) Requiere: Sim 1 + Sim 2 (pesos + optimización) Requiere: Sim 3 (entender cómo fluyen los gradientes) Requiere: Sim 3 + Sim 4 (varianza de activaciones)

Ruta Practitioner 10 simulaciones

Para quienes buscan dominar las arquitecturas clásicas. Incluye la ruta Fundamental completa más las 5 arquitecturas del Módulo 2.

Completar toda la ruta Fundamental primero Requiere: Sim 3 (backprop para entrenar el autoencoder) Requiere: Sim 3 + Sim 4 (gradientes + activaciones sigmoid) Requiere: Sim 7 (contexto de secuencias) Requiere: Sim 3 + Sim 4 (backprop + activaciones) Requiere: Sim 2 + Sim 6 (optimización + espacio latente)

Ruta Researcher 20 simulaciones

El recorrido completo. Incluye Transformers, LLMs y las fronteras de la investigación en IA.

Completar toda la ruta Practitioner primero Requiere: Sim 8 (mecanismo de atención) Requiere: Sim 6 (representaciones latentes) Requiere: Sim 8 + Sim 11 (attention + transformer) Requiere: Sim 11 (arquitectura transformer) Requiere: Sim 11 + Sim 14 (transformers + razonamiento) Requiere: Sim 6 + Sim 10 (autoencoders + generación) Requiere: Sim 2 (optimización) Requiere: Sim 3 + Sim 15 (entrenamiento + escala) Requiere: Sim 11 (arquitectura transformer) Requiere: Sim 6 + Sim 12 (representaciones + embeddings)

3. Prerrequisitos

Las simulaciones están diseñadas para ser accesibles, pero ciertos fundamentos matemáticos enriquecerán significativamente tu comprensión.

TemaNivelConceptos Clave
Álgebra LinealIntermedioVectores, matrices, producto punto, autovalores
CálculoBásicoDerivadas, regla de la cadena, gradientes
ProbabilidadBásicoDistribuciones, Bayes, entropía
ProgramaciónBásicoNo necesario, pero ayuda leer JavaScript
Repaso: Vectores y producto punto

Un vector es una lista ordenada de números. En ML, los datos, pesos y gradientes son vectores. El producto punto mide la similitud entre dos vectores:

a · b = Σᵢ aᵢbᵢ = |a||b|cos(θ)

Cuando dos vectores apuntan en la misma dirección, su producto punto es máximo. Cuando son perpendiculares, es cero. Este concepto aparece en el perceptrón, en attention, y en embeddings.

Repaso: Derivadas y regla de la cadena

La derivada f'(x) indica la tasa de cambio de una función. En ML, usamos derivadas para encontrar cómo ajustar los pesos para reducir el error. La regla de la cadena permite derivar funciones compuestas:

∂L/∂w = (∂L/∂y) · (∂y/∂z) · (∂z/∂w)

Esta regla es la base matemática del algoritmo de backpropagation (Simulación 3).

Repaso: Softmax y distribuciones de probabilidad

La función softmax convierte un vector de valores reales en una distribución de probabilidad:

softmax(zᵢ) = exp(zᵢ) / Σⱼ exp(zⱼ)

Aparece en clasificación (perceptrón multicapa), en attention (para normalizar pesos), y en la salida de LLMs. Un parámetro de temperatura T controla la nitidez: dividir los logits por T antes del softmax hace la distribución más uniforme (T alto) o más puntiaguda (T bajo).

4. Módulo 1: Fundamentos del Aprendizaje Automático

Módulo 1 · Color: Rojo (#ef4444) · Simulaciones 1-5

Este módulo cubre los cimientos sobre los que se construye toda la inteligencia artificial moderna. Partimos de la unidad computacional más simple — el perceptrón — y construimos progresivamente las herramientas necesarias para entrenar redes profundas: optimización, propagación de gradientes, funciones de activación e inicialización.

4.1 El Perceptrón Viviente

Contexto Histórico

En 1958, Frank Rosenblatt propuso el perceptrón como modelo computacional inspirado en la neurona biológica (Rosenblatt, 1958). La idea es directa: una unidad que recibe entradas ponderadas, las suma, y produce una salida binaria según un umbral. Este modelo fue el primer algoritmo capaz de aprender a clasificar datos a partir de ejemplos.

Modelo Matemático

El perceptrón computa una combinación lineal de las entradas y aplica una función escalón:

ŷ = sign(w₁x₁ + w₂x₂ + b) = sign(w · x + b)

Donde w es el vector de pesos, x el vector de entrada, y b el sesgo (bias). La frontera de decisión es la recta donde w · x + b = 0.

Regla de Aprendizaje

Cuando el perceptrón clasifica incorrectamente un punto, los pesos se actualizan:

wᵢ ← wᵢ + η(y − ŷ)xᵢ ,    b ← b + η(y − ŷ)

donde η es la tasa de aprendizaje. El Teorema de Convergencia del Perceptrón (Novikoff, 1963) garantiza que si los datos son linealmente separables, el algoritmo converge en un número finito de pasos.

Limitación Fundamental

En 1969, Minsky y Papert demostraron que un perceptrón simple no puede resolver problemas no linealmente separables, como la función XOR. Esta limitación provocó el primer "invierno de la IA" y motivó el desarrollo de redes multicapa.

Perceptrón: x₁ ──[w₁]──┐ ├──► Σ + b ──► sign() ──► ŷ ∈ {-1, +1} x₂ ──[w₂]──┘ Frontera de decisión: w₁x₁ + w₂x₂ + b = 0

Qué Observar en la Simulación

  • La línea de decisión pivotea y se traslada con cada actualización de pesos
  • Los puntos mal clasificados parpadean en dorado antes de ser corregidos
  • El sonido de tritono (disonancia) se resuelve progresivamente hacia consonancia
  • Con el preset "circular", observa cómo el perceptrón nunca converge
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Cota de convergencia (Novikoff): El número máximo de actualizaciones antes de converger está acotado por:

k ≤ (R / γ)²

donde R es la norma máxima de los datos y γ es el margen geométrico.

Distancia de la frontera al origen:

d = |b| / √(w&sub1;² + w&sub2;²)

Sonificación

ParámetroSonido
Error > 50%Tritono C-F# (disonancia)
Error 20%-50%Tercera menor C-Eb (tensión)
Error 1%-20%Quinta justa C-G (armonía)
Error 0%Acorde mayor C-E-G-C' (consonancia)
Actualización de pesoTick a 880 Hz, 40ms
ConvergenciaAcorde Do mayor completo, 800ms

Ejercicio 1.1a · Fundamental

Abre la simulación y selecciona el preset "lineal". Entrena hasta convergencia. Luego añade manualmente un punto de la clase opuesta dentro de la región clasificada. ¿Cuántas iteraciones necesita el perceptrón para ajustarse? Ahora selecciona el preset "circular". ¿Por qué el perceptrón oscila sin converger?

Ejercicio 1.1b · Intermedio

Demostración geométrica de XOR: Carga el preset XOR. En papel, dibuja los cuatro cuadrantes con sus clases asignadas. Intenta trazar una única línea recta que separe los puntos rojos de los azules. Demuestra formalmente por qué es imposible usando un sistema de desigualdades.

4.2 Descenso de Gradiente

Optimización y Superficies de Pérdida

Entrenar una red neuronal equivale a encontrar los parámetros θ que minimizan una función de pérdida L(θ). La geometría de esta función — su superficie de pérdida — determina la dificultad del problema. Puede contener valles, mesetas, puntos de silla y mínimos locales.

SGD (Stochastic Gradient Descent)

θ_{t+1} = θ_t − η ∇L(θ_t)

El gradiente ∇L indica la dirección de máximo crecimiento; moverse en la dirección opuesta reduce la pérdida. La tasa de aprendizaje η controla el tamaño del paso.

Momentum

v_t = β v_{t−1} + ∇L(θ_t) ,    θ_{t+1} = θ_t − η v_t

El momentum acumula velocidad, permitiendo atravesar mesetas y reducir oscilaciones en valles estrechos. El hiperparámetro β (típicamente 0.9) controla cuánta "inercia" se conserva.

Adam (Adaptive Moment Estimation)

Combina momentum con tasas de aprendizaje adaptativas por parámetro (Kingma & Ba, 2015):

m_t = β₁ m_{t−1} + (1−β₁) g_t    (primer momento) v_t = β₂ v_{t−1} + (1−β₂) g_t²    (segundo momento) θ_{t+1} = θ_t − η · m̂_t / (√v̂_t + ε)
OptimizadorVentajaRiesgoMejor para
SGDSimple, generaliza bienLento en valles estrechosConvergencia final
MomentumAtraviesa mesetasPuede "saltarse" mínimosSuperficies con momentum
RMSPropAdaptativo por parámetroSin corrección de sesgoRNNs
AdamRobusto, rápidoPuede no generalizar tan bienUso general

Qué Observar en la Simulación

  • En la función Rastrigin (muchos mínimos locales), SGD queda atrapado mientras Adam escapa
  • En el punto de silla, el momentum ayuda a escapar de la meseta
  • Un learning rate demasiado alto causa divergencia — la partícula sale de la superficie
  • El pitch del sonido baja conforme la pérdida desciende
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Cota de convergencia SGD (funciones convexas):

L(θ_T) − L(θ*) ≤ ||θ&sub0; − θ*||² / (2ηT)

Cosine annealing schedule:

η_t = η_min + ½(η_max − η_min)(1 + cos(πt/T))

Sonificación

ParámetroSonido
Valor de lossFrecuencia: f = 180 + min(log(L+1)·80, 600) Hz
Magnitud del gradienteVolumen proporcional (pendiente mayor = más fuerte)
ConvergenciaAcorde ascendente C4-E4-G4-C5
Forma de onda: SineSuave, indica descenso estable
Forma de onda: SawtoothTimbre áspero, cambios de frecuencia más evidentes

Ejercicio 1.2a · Fundamental

Selecciona la superficie Rastrigin y coloca 4 partículas en diferentes posiciones. Usa SGD con η=0.01. ¿Cuántas encuentran el mínimo global? Ahora cambia a Adam. ¿Mejora el resultado? Experimenta con η=1.0 — ¿qué ocurre?

Ejercicio 1.2b · Intermedio

Geometría del punto de silla: En la función Saddle Point, activa el campo vectorial. Observa las flechas alrededor del origen. ¿En qué direcciones apuntan hacia el origen? ¿En cuáles se alejan? Relaciónalo con los autovalores de la Hessiana H = [[2, 0], [0, -2]].

4.3 Backpropagation

La Regla de la Cadena Aplicada

El algoritmo de backpropagation (Rumelhart, Hinton & Williams, 1986) es la aplicación sistemática de la regla de la cadena para calcular gradientes en redes multicapa. Permite saber cuánto contribuye cada peso al error total.

∂L/∂w_ij = (∂L/∂a_j) · (∂a_j/∂z_j) · (∂z_j/∂w_ij)

El proceso tiene dos fases:

  1. Forward pass: Se computan las activaciones capa por capa, desde la entrada hasta la salida
  2. Backward pass: Se computan los gradientes capa por capa, desde la salida hasta la entrada
Forward Pass (azul →): Input → [Capa 1] → [Capa 2] → [Capa 3] → Output → Loss Backward Pass (rojo ←): Input ← ∂L/∂w₁ ← ∂L/∂w₂ ← ∂L/∂w₃ ← ∂L/∂ŷ ← Loss

Problemas del Gradiente

Vanishing Gradient

Con sigmoid/tanh, la derivada es siempre <1. Al multiplicar muchas derivadas pequeñas capa tras capa, el gradiente se hace exponencialmente pequeño. Las capas iniciales apenas aprenden.

Exploding Gradient

Si los pesos son grandes, los gradientes crecen exponencialmente. Los pesos saltan erráticamente y el entrenamiento diverge. Solución: gradient clipping.

Qué Observar en la Simulación

  • El grosor de las conexiones indica la magnitud de los pesos
  • Las partículas fluyen hacia adelante (azul) y hacia atrás (rojo)
  • Con sigmoid, los gradientes de las primeras capas se desvanecen — las notas se apagan
  • Con ReLU, los gradientes fluyen más uniformemente a través de la red
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Propagación del delta por capas ocultas:

δ_j^(l) = (Σ_k w_jk^(l+1) δ_k^(l+1)) · σ'(z_j^(l))

Cota de vanishing gradient con sigmoid: Para L capas con sigmoid, el gradiente de la primera capa se reduce por un factor de al menos:

∏_{l=1}^{L} σ'(z^(l)) ≤ 0.25^L

Con L=4 capas, el gradiente en la primera capa es ~256x menor que en la última.

Sonificación

ParámetroSonido
Forward pass (por capa)Nota ascendente: capas tempranas = pitch bajo, capas finales = pitch alto
Backward pass (por capa)Nota descendente: inversión del patrón
Volumen backwardProporcional a magnitud media del gradiente — se escucha el vanishing gradient como silencio progresivo

Ejercicio 1.3a · Fundamental

Configura todas las capas con activación Sigmoid y observa el backward pass. ¿Las partículas de gradiente llegan a la primera capa? Ahora cambia a ReLU. ¿Qué diferencia observas?

Ejercicio 1.3b · Intermedio

Congelación selectiva: Con el problema Spiral y arquitectura 2→8→8→1: (1) entrena 100 épocas completas, (2) congela L1 y entrena 100 más, (3) reinicia y entrena con L2 congelada desde el inicio. ¿Qué caso tiene peor rendimiento? ¿Qué capa es más crítica?

4.4 Funciones de Activación

¿Por qué la No-Linealidad?

Sin funciones de activación no lineales, una red de N capas se reduce a una sola transformación lineal: W_N · ... · W_2 · W_1 · x = W'x. El Teorema de Aproximación Universal (Cybenko, 1989; Hornik, 1991) establece que una red de una capa oculta con activación no lineal puede aproximar cualquier función continua, dada suficiente anchura.

Las 8 Funciones

FunciónEcuaciónRangoPropiedad clave
Sigmoidσ(x) = 1/(1+e⁻ˣ)(0, 1)Saturación bilateral
Tanhtanh(x)(-1, 1)Centrada en cero
ReLUmax(0, x)[0, ∞)Neuronas muertas si x<0
Leaky ReLUmax(0.01x, x)(-∞, ∞)Evita neuronas muertas
ELUx si x>0, α(eˣ−1) si x≤0(-α, ∞)Suave en x=0
Swishx · σ(x)≈(-0.28, ∞)Autoregulada
GELUx · Φ(x)≈(-0.17, ∞)Usada en Transformers
Mishx · tanh(softplus(x))≈(-0.31, ∞)Suave, no monótona

Derivada y Saturación

La derivada de sigmoid es σ'(x) = σ(x)(1−σ(x)), con máximo 0.25 en x=0. Para valores grandes de |x|, la derivada tiende a cero: la neurona se satura. ReLU resuelve esto en la zona positiva (derivada = 1), pero introduce el problema de neuronas muertas cuando la entrada es siempre negativa.

Qué Observar en la Simulación

  • Los 8 canales tipo osciloscopio muestran la transformación de la misma señal de entrada
  • La derivada (línea tenue) muestra dónde el gradiente fluye bien y dónde se satura
  • Con amplitud alta ("modo explosión"), sigmoid y tanh saturan completamente
  • ReLU "corta" la señal negativa — zona gris de muerte neuronal
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Aproximación de GELU:

GELU(x) ≈ 0.5x(1 + tanh(√(2/π)(x + 0.044715x³)))

Derivada de Swish:

Swish'(x) = σ(x) + x · σ(x)(1 − σ(x))

Sonificación

FunciónFrecuenciaOndaPosición estéreo
Sigmoid110 HzSineIzquierda
Tanh220 HzSineCentro-izq
ReLU330 HzSawtoothCentro-izq
Leaky ReLU440 HzSawtoothCentro
ELU550 HzTriangleCentro
Swish660 HzTriangleCentro-der
GELU770 HzTriangleCentro-der
Mish880 HzTriangleDerecha
SaturaciónDetuning hasta 25 cents cuando σ'(x) < 0.1

Ejercicio 1.4a · Fundamental

Activa la onda senoidal con amplitud 2. Observa las 8 salidas. Luego sube la amplitud a 10 (modo explosión). ¿Cuáles funciones saturan? ¿Cuáles mantienen información?

Ejercicio 1.4b · Intermedio

Escuchar la saturación: Activa el audio con señal senoidal a amplitud normal. Sube gradualmente la amplitud a 10. ¿En qué punto empiezas a notar el detuning en los osciladores? ¿Cuáles funciones se deafinan primero? ¿Cuáles mantienen su pitch?

4.5 Inicialización de Pesos

El Big Bang de los Pesos

La inicialización de pesos determina el punto de partida del entrenamiento. Una inicialización incorrecta puede provocar que las activaciones se desvanezcan (colapsen a cero) o exploten (crezcan sin control) antes de que el entrenamiento comience. La clave es mantener la varianza de las activaciones estable a través de las capas.

Var[aₗ] = Var[aₗ₋₁] · nₗ · Var[wₗ]

Para que la varianza se conserve, necesitamos nₗ · Var[wₗ] = 1, es decir, Var[wₗ] = 1/nₗ.

Estrategias de Inicialización

EstrategiaVarianzaMejor conReferencia
Xavier / Glorotσ² = 2/(n_in + n_out)Sigmoid, TanhGlorot & Bengio, 2010
He / Kaimingσ² = 2/n_inReLU, Leaky ReLUHe et al., 2015
LeCunσ² = 1/n_inSELULeCun et al., 1998
Normal(0, 1)σ² = 1Demasiado grande
Zerosσ² = 0Rompe simetría

Inicializar en Cero

Si todos los pesos son idénticos, todas las neuronas de una capa computan exactamente lo mismo. Los gradientes también son idénticos, y los pesos se actualizan de forma idéntica. La red nunca rompe esta simetría — equivale a tener una sola neurona por capa.

Qué Observar en la Simulación

  • Los histogramas apilados muestran la distribución de activaciones por capa
  • Con Normal(0,1): los histogramas se expanden hasta explotar (rojo)
  • Con Normal(0,0.01): los histogramas colapsan a cero (azul)
  • Con He + ReLU: los histogramas mantienen una varianza estable (verde) a través de las 10 capas
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Propagación exponencial de la varianza:

Var[a_L] = (n · Var[w])^L · Var[a&sub0;]

La varianza crece o decrece exponencialmente con la profundidad L.

He/Kaiming desde el factor ReLU: Como ReLU elimina la mitad de la distribución: Var[ReLU(z)] = ½Var[z], necesitamos Var[w] = 2/n_in para compensar.

Sonificación

EstadoSonido
Varianza estable (≈1)Nota media (~440 Hz), armónica
Varianza alta (explosión)Nota aguda, volumen creciente
Varianza baja (desvanecimiento)Nota grave, volumen decreciente
NaN / InfinitoSilencio abrupto
Diagnóstico estableAcorde mayor consonante
Diagnóstico vanishingSecuencia melancólica descendente
Diagnóstico explodingCluster disonante ascendente

Ejercicio 1.5a · Fundamental

Configura 10 capas con activación ReLU. Prueba cada estrategia de inicialización y observa los histogramas. ¿Cuál mantiene la varianza más estable? Ahora cambia a Sigmoid y repite.

Ejercicio 1.5b · Avanzado

El punto de ruptura: Con Normal(0,1) y activación lineal, ¿cuál es la profundidad máxima antes de obtener NaN? Prueba con anchura 8, 64 y 256. ¿Las redes más estrechas sobreviven más capas o menos?

5. Módulo 2: Arquitecturas Clásicas

Módulo 2 · Color: Ámbar (#f59e0b) · Simulaciones 6-10

Con los fundamentos establecidos, este módulo explora las arquitecturas que definieron la primera era del deep learning. Cada una resuelve un problema específico: compresión de información (autoencoders), memoria secuencial (LSTM), atención selectiva, detección jerárquica de patrones (CNN), y generación adversaria (GAN).

5.1 Autoencoder: Compresión como Arquitectura

Representación y Compresión

Un autoencoder es una red neuronal entrenada para reconstruir su propia entrada, forzada a pasar por un cuello de botella (bottleneck) de dimensionalidad reducida. Al hacerlo, aprende una representación comprimida que captura las características esenciales de los datos.

z = f_enc(x) ,    x̂ = f_dec(z) ,    L = ||x − x̂||²
Autoencoder (reloj de arena): Input [64] → Encoder [32] → Bottleneck [2-16] → Decoder [32] → Output [64] 64 dims 2 dims 64 dims (imagen 8×8) (espacio latente) (reconstrucción)

El espacio latente (la representación en el bottleneck) organiza los datos de forma significativa: dígitos similares quedan cerca. Interpolar entre dos puntos del espacio latente genera "transiciones" entre conceptos.

Conexión con PCA

Un autoencoder lineal (sin activaciones) con bottleneck de dimensión k aprende exactamente las k primeras componentes principales (PCA). Los autoencoders no lineales son una generalización más potente.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Interpolación latente:

z_t = (1 − t)z_A + t·z_B,   t ∈ [0, 1]

Loss del VAE con divergencia KL:

L_VAE = ||x − x̂||² + KL(q(z|x) || p(z))

Sonificación

ParámetroSonido
Época de entrenamientoNota con frecuencia inversamente proporcional al loss
ConvergenciaAcorde consonante
Interpolación (z1, z2)Dos osciladores modulados en frecuencia y volumen
Error de reconstrucción bajoSonido limpio consonante
Error de reconstrucción altoSonido disonante

Ejercicio 2.1a · Fundamental

Entrena el autoencoder con bottleneck de 16 dimensiones. Observa la reconstrucción. Ahora reduce a 2 dimensiones. ¿Cuánta información se pierde? Usa el slider de interpolación para navegar entre dos dígitos.

Ejercicio 2.1b · Intermedio

Interpolación imposible: Interpola entre el dígito "1" y "0". ¿Existe un punto intermedio que se parezca a un "7"? ¿O la transición pasa por formas que no son dígitos reconocibles? ¿Qué dice esto sobre la geometría del espacio latente?

5.2 LSTM: Neuronas con Memoria

El Problema de las RNN Simples

Las redes recurrentes simples (RNN) sufren el problema del vanishing gradient en secuencias largas: la información de pasos tempranos se pierde exponencialmente. Las Long Short-Term Memory (Hochreiter & Schmidhuber, 1997) resuelven esto con un mecanismo de compuertas.

Las Tres Compuertas

f_t = σ(W_f · [h_{t−1}, x_t] + b_f)     (Forget gate) i_t = σ(W_i · [h_{t−1}, x_t] + b_i)     (Input gate) o_t = σ(W_o · [h_{t−1}, x_t] + b_o)     (Output gate)

El cell state C_t funciona como una cinta transportadora de información:

C_t = f_t ⊙ C_{t−1} + i_t ⊙ tanh(W_C · [h_{t−1}, x_t] + b_C) h_t = o_t ⊙ tanh(C_t)
LSTM Cell: ┌──────── f_t ⊙ ────────────── + ──────────┐ │ (forget) (input) │ C_{t-1} i_t ⊙ C̃_t C_t │ │ │ ┌───────────────────────────────────┐ │ h_{t-1}───┤ σ σ tanh σ ├──── o_t ⊙ tanh(C_t) = h_t x_t ──────┤ f i C̃ o │ └───────────────────────────────────┘

Qué Observar en la Simulación

  • Las compuertas coloreadas: Forget (rojo), Input (verde), Output (azul)
  • El cell state como río horizontal — su grosor indica cuánta información fluye
  • Con secuencias repetitivas ("abcabc"), el forget gate aprende a filtrar y el input gate se estabiliza
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Flujo del gradiente a través del cell state:

∂C_t / ∂C_{t−1} = f_t

Cuando f_t ≈ 1, el gradiente fluye sin atenuación — esta es la clave de por qué las LSTM resuelven el vanishing gradient.

GRU simplificada:

h_t = (1 − z_t) ⊙ h_{t−1} + z_t ⊙ h̃_t

Sonificación

ParámetroSonido
Forget gate (f_t)Nota grave; frecuencia proporcional a f_t
Input gate (i_t)Nota media; frecuencia proporcional a i_t
Output gate (o_t)Nota aguda; frecuencia proporcional a o_t
Predicción correctaAcorde consonante
Predicción incorrectaTono disonante desafinado

Ejercicio 2.2a · Fundamental

Selecciona una secuencia repetitiva y observa cómo los gates se estabilizan. Luego fuerza el forget gate a 0 (memoria perfecta). ¿Qué efecto tiene sobre la predicción? ¿Y si lo fuerzas a 1 (amnesia completa)?

Ejercicio 2.2b · Intermedio

Output gate aislado: Fuerza input gate = 100 y forget gate = 100 (memoria máxima). Ahora varía el output gate de 0 a 100 mientras procesas una secuencia. ¿Cómo cambia la predicción? El output gate es como una válvula de lectura: ¿qué pasa si la memoria está llena pero no se puede leer?

5.3 Mecanismo de Atención

Atención como Alineamiento

El mecanismo de atención (Bahdanau et al., 2014) permite a una red neuronal "mirar" selectivamente diferentes partes de la entrada al producir cada elemento de la salida. La idea fundamental es computar un promedio ponderado donde los pesos reflejan la relevancia de cada posición:

Attention(Q, K, V) = softmax(QKT / √d_k) V

Multi-head attention ejecuta la operación en paralelo con diferentes proyecciones, capturando distintos tipos de relación (sintáctica, semántica, posicional).

Qué Observar en la Simulación

  • La matriz de atención como mapa de calor N×N — celdas brillantes indican alta atención
  • Las líneas animadas conectan tokens con grosor proporcional al peso
  • Con temperatura baja, la atención se concentra en pocos tokens (sharp)
  • Con temperatura alta, la atención se distribuye uniformemente (flat)
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Entropía de la atención:

H_i = −Σ_j α_ij log&sub2;(α_ij)

Entropía baja = atención enfocada en pocos tokens. Entropía alta (máx = log&sub2;(n)) = atención uniforme.

Positional encoding sinusoidal:

PE_(pos,2i) = sin(pos / 10000^(2i/d)),   PE_(pos,2i+1) = cos(pos / 10000^(2i/d))

Sonificación

ParámetroSonido
Peso de atención altoNota aguda, volumen alto
Cambio de headCambio de timbre (cada head tiene timbre distinto)
Temperatura bajaSonido puntual — pocas notas dominantes
Temperatura altaSonido difuso — muchas notas simultáneas suaves

Ejercicio 2.3a · Fundamental

Escribe o selecciona una frase y haz clic en diferentes tokens query. ¿Qué tokens reciben más atención? Experimenta con la temperatura del softmax: ¿qué ocurre cuando T → 0? ¿Y cuando T → ∞?

Ejercicio 2.3b · Avanzado

Un head vs. muchos: Compara 1 head con d_k=32 contra 8 heads con d_k=4 (mismo d_model=32). ¿Cuál produce patrones de atención más variados? ¿Por qué se prefiere multi-head en la práctica?

5.4 Redes Convolucionales: Detectives de Patrones

Inspiración Biológica

Las CNN están inspiradas en el trabajo de Hubel y Wiesel (1962) sobre la corteza visual: diferentes neuronas responden a diferentes orientaciones de bordes. En una CNN, los filtros (kernels) aprenden a detectar patrones locales, y las capas sucesivas detectan patrones cada vez más abstractos.

La Operación de Convolución

(f * g)(x, y) = Σᵢ Σⱼ f(i, j) · g(x−i, y−j)

Cada capa produce feature maps: representaciones espaciales que resaltan la presencia de patrones específicos. El pooling reduce la resolución espacial, creando invariancia a pequeñas traslaciones.

Jerarquía de features en una CNN: Capa 1: Bordes (horizontales, verticales, diagonales) ↓ Capa 2: Texturas (esquinas, curvas, cruces) ↓ Capa 3: Partes (ojos, ruedas, ventanas) ↓ FC: Objetos (gato, coche, casa)
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Dimensión de salida del feature map:

W_out = (W − k + 2p) / s + 1

donde W = tamaño de entrada, k = tamaño del kernel, s = stride, p = padding.

Cross-entropy para clasificación:

L = −Σ_k y_k log P_k = −log P_correcto

Sonificación

EventoSonido
Trazo de dibujoClick suave; intensidad del píxel dibujado
Activación de filtroUna nota por filtro; magnitud de la activación máxima
Resultado de clasificaciónAcorde de las top 3 clases más probables
Alta confianzaFrecuencia pura, clara, definida
Baja confianzaRuido — múltiples frecuencias simultáneas

Ejercicio 2.4a · Fundamental

Dibuja un dígito en el canvas y observa los feature maps de cada capa. ¿Qué detectan los filtros de la capa 1? Haz clic en un feature map para ver el filtro 3×3 que lo genera.

Ejercicio 2.4b · Intermedio

Receptive field: Dibuja un único píxel brillante en el centro del canvas 8×8. ¿Cuántas posiciones del feature map de capa 1 se activan? ¿Y de capa 2? Esto visualiza el receptive field: el área de la imagen que influye en cada neurona.

5.5 Redes Generativas Adversarias

El Juego Adversario

Las GANs (Goodfellow et al., 2014) formulan la generación como un juego entre dos redes: un Generador G que crea datos falsos, y un Discriminador D que intenta distinguir los datos reales de los falsos.

min_G max_D V(D, G) = E_{x~p_data}[log D(x)] + E_{z~p_z}[log(1 − D(G(z)))]

En el equilibrio de Nash, G genera datos indistinguibles de los reales, y D no puede hacer mejor que adivinar al azar (D(x) = 0.5).

Mode Collapse

Un problema frecuente donde el generador colapsa a producir solo unos pocos ejemplos que engañan al discriminador, sacrificando la diversidad. En la simulación, todos los puntos rojos convergen a un solo punto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Discriminador óptimo:

D*(x) = p_data(x) / (p_data(x) + p_G(x))

En el equilibrio (p_G = p_data), D*(x) = 0.5 en todas partes.

Detección de mode collapse:

var(G(z)) < ε · var(x_real)

Sonificación

EventoSonido
G loss bajandoTono suave ascendente (generador mejorando)
D loss bajandoTono descendente (discriminador mejorando)
Equilibrio (G loss ≈ D loss)Armonía
Mode collapseTono monótono repetitivo
ConvergenciaAcorde resuelto

Ejercicio 2.5a · Fundamental

Selecciona la distribución target "anillo" y entrena. ¿Los puntos generados cubren todo el anillo? Pulsa "Force Collapse". ¿Qué le ocurre a la diversidad?

Ejercicio 2.5b · Intermedio

Análisis de las losses: Entrena con "Gaussiana" durante 300 pasos. Dibuja la evolución de G loss y D loss. ¿Hay un patrón oscilatorio? ¿Las losses convergen a un valor? En el equilibrio teórico, L_G = L_D = log(2) ≈ 0.693. ¿Qué tan cerca llegas?

6. Módulo 3: Transformers y LLMs

Módulo 3 · Color: Violeta (#8b5cf6) · Simulaciones 11-15

El Transformer (Vaswani et al., 2017) revolucionó el procesamiento de lenguaje natural y, progresivamente, toda la IA. Este módulo disecciona su anatomía pieza por pieza, explora cómo las palabras se convierten en vectores, y examina los fenómenos emergentes que surgen cuando estos modelos escalan.

6.1 Anatomía del Transformer

"Attention Is All You Need"

El paper de Vaswani et al. (2017) propuso reemplazar completamente las recurrencias con mecanismos de atención. El resultado fue una arquitectura paralelizable que superó a las RNN/LSTM en traducción automática y, eventualmente, en casi toda tarea de lenguaje.

Componentes del Bloque Transformer

Output = LayerNorm(x + MultiHeadAttention(x)) Output = LayerNorm(x + FFN(x))
ComponenteFunciónAnalogía
EmbeddingConvierte tokens en vectoresDiccionario numérico
Positional EncodingInyecta información de posiciónNúmeros de página
Multi-Head AttentionPermite que cada token atienda a todosConversación grupal
Feed-Forward NetworkTransformación no lineal por posiciónProcesamiento individual
Layer NormalizationEstabiliza las activacionesNivelación de volumen
Residual ConnectionPermite flujo directo de informaciónAtajo en la autopista
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Layer Normalization:

LayerNorm(x) = γ · (x − μ) / √(σ² + ε) + β

con parámetros aprendibles de escala (γ) y desplazamiento (β).

Ley de escala:

L ∝ N^(−α),   α ≈ 0.076

Sonificación

ComponenteSonido
EmbeddingNota base por token; frecuencia mapeada a posición en vocabulario
Positional EncodingSuperposición sinusoidal
AttentionAcordes; tokens con alta atención mutua suenan juntos
FFNTransformación tímbrica
LayerNormNormalización de volumen
Avance de capaCambio de octava; cada capa suena en un registro más alto

Ejercicio 3.1a · Fundamental

Abre la simulación y selecciona una frase. Haz clic en cada componente del diagrama arquitectural. Avanza paso a paso por el forward pass. ¿Cómo cambian las activaciones al pasar por attention vs FFN?

Ejercicio 3.1b · Avanzado

Conteo de operaciones: Calcula el número de multiplicaciones en un forward pass para 4 tokens con d=32 y 2 heads. Pista: attention requiere O(n²d) y FFN requiere O(n · d · d_ff). ¿Cuál es el cuello de botella para secuencias largas?

6.2 Embeddings de Tokens: El Espacio Semántico

Hipótesis Distribucional

"Conocerás una palabra por la compañía que mantiene" (Firth, 1957). Los embeddings de palabras capturan significado a través de co-ocurrencia estadística. Palabras que aparecen en contextos similares obtienen vectores similares.

Aritmética Vectorial

La propiedad más sorprendente de los embeddings (Mikolov et al., 2013) es la posibilidad de realizar analogías mediante aritmética vectorial:

vec("king") − vec("man") + vec("woman") ≈ vec("queen")

Esto sugiere que las relaciones semánticas se codifican como direcciones consistentes en el espacio vectorial.

Qué Observar en la Simulación

  • ~200 palabras proyectadas de 50D a 2D mediante PCA, coloreadas por campo semántico
  • Palabras del mismo campo (animales, colores, emociones) forman clusters visibles
  • La función de analogía computa y muestra el resultado de la aritmética vectorial
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Resolución de analogías por argmin:

D* = argmin_{w ∈ vocab} ||w − (A − B + C)||

Función objetivo de GloVe:

J = Σ_{i,j} f(X_ij) · (w_i⊃T w̃_j + b_i + b̃_j − log X_ij)²

Sonificación

EventoSonido
Seleccionar palabraNota; frecuencia mapeada a posición Y en el mapa 2D
Vecinos cercanosNotas en cascada; una por vecino
Analogía exitosaAcorde mayor; resolución armónica
Analogía fallidaTono plano; sin resolución
Cambio de campo semánticoCambio de timbre

Ejercicio 3.2a · Fundamental

Busca la palabra "king" y observa sus vecinos más cercanos. Usa la función de analogía: king − man + woman = ?. ¿El resultado es "queen"?

Ejercicio 3.2b · Intermedio

PCA y distorsión: Busca dos palabras que aparezcan cercanas en el mapa 2D pero tengan distancia alta en la lista de vecinos (no son vecinos mutuos). Esto demuestra la distorsión de la proyección. ¿Por qué PCA puede crear estas ilusiones?

6.3 Self-Attention: Paso a Paso

Los 7 Pasos del Self-Attention

La simulación descompone el mecanismo de self-attention en pasos individuales, haciendo visible cada operación matricial.

  1. Embeddings de entrada: Cada token se representa como un vector
  2. Proyección Q: Q = X · W_Q (¿qué busca este token?)
  3. Proyección K: K = X · W_K (¿qué ofrece este token?)
  4. Scores: S = Q · KT (compatibilidad entre todos los pares)
  5. Escalado: S = S / √d_k (estabilizar la magnitud)
  6. Softmax: A = softmax(S) (normalizar a distribución de probabilidad)
  7. Output: O = A · V (promedio ponderado de valores)

¿Por qué escalar por √d_k?

Sin escalado, cuando d_k es grande, los productos punto QKT crecen en magnitud, empujando el softmax hacia regiones saturadas donde los gradientes son extremadamente pequeños. Dividir por √d_k mantiene la varianza del producto punto en ~1.

Causal Mask (GPT)

Cada token solo puede atender a tokens anteriores. Se aplica una máscara triangular inferior que pone −∞ en posiciones futuras antes del softmax. Usado en modelos autoregresivos (generación de texto).

Bidireccional (BERT)

Cada token puede atender a todos los demás, tanto anteriores como posteriores. Captura contexto completo pero no puede generar secuencialmente. Usado para comprensión de texto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Justificación de la varianza para el escalado √d_k:

Var(q · k) = Σ_{i=1}^{d_k} Var(q_i · k_i) = d_k

Si q y k tienen componentes con media 0 y varianza 1, la varianza del producto punto es d_k. Dividir por √d_k normaliza la varianza a 1.

Softmax con temperatura:

α_ij = exp(e_ij / T) / Σ_l exp(e_il / T)

Sonificación

EventoFrecuenciaDuración
Avance de paso300 + step × 80 Hz0.15s
Peso de atención200 + α_ij × 600 Hz0.3s
Reset200 Hz descendente0.2s

Ejercicio 3.3a · Fundamental

Avanza paso a paso por los 7 stages. En el paso 4 (scores), ¿qué pares de tokens tienen scores más altos? Activa la causal mask y observa cómo la mitad superior de la matriz se anula.

Ejercicio 3.3b · Intermedio

Entropía como indicador: Compara la entropía de atención del primer token vs. el cuarto token en cada frase. ¿Cuál tiene mayor entropía y por qué? Relaciónalo con la cantidad de contexto disponible (con causal mask activada).

6.4 Chain of Thought: Razonamiento Paso a Paso

Razonamiento Emergente

Wei et al. (2022) descubrieron que los LLMs mejoran dramáticamente en tareas de razonamiento cuando se les pide que generen pasos intermedios antes de la respuesta final. Esta técnica — Chain of Thought (CoT) — convierte problemas complejos en secuencias de subproblemas más simples.

P(respuesta | CoT) > P(respuesta | directa)    para tareas complejas

Alucinación

Un riesgo del razonamiento en cadena es que un paso erróneo puede propagarse y contaminar toda la cadena. La simulación incluye un modo alucinación que muestra caminos de razonamiento incorrectos, permitiendo comparar con el razonamiento correcto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Decaimiento acumulativo de confianza:

C_total = ∏_{i=1}^{n} c_i

La confianza total es el producto de las confianzas por paso. Una cadena de 10 pasos con 0.9 por paso tiene solo ~0.35 de confianza total.

Votación por self-consistency:

a* = argmax_a Σ_{j=1}^{k} 1[a_j = a]

Sonificación

EventoFrecuenciaTipo
Nodo normal300 + c × 400 Hz (c = confianza)Sine
Backtrack600 → 200 Hz (glide)Sawtooth
Respuesta correctaAcorde C-E-G mayorSine
Alucinaciónfreq ± 8 Hz (detuned)Sine desafinado

Ejercicio 3.4a · Fundamental

Selecciona el problema de aritmética y observa el árbol de razonamiento. Activa el modo alucinación. ¿En qué paso comienza el error? Compara la respuesta directa con la respuesta CoT.

Ejercicio 3.4b · Avanzado

Confianza acumulativa: Para el problema multi-paso, registra la confianza de cada nodo CoT. Calcula C_total = ∏ c_i. ¿El producto explica la confianza final mostrada? ¿Qué pasa si un solo paso tiene c_i = 0.5?

6.5 Habilidades Emergentes y Transiciones de Fase

Leyes de Escala

Kaplan et al. (2020) descubrieron que la pérdida de un modelo de lenguaje sigue una ley de potencias respecto al número de parámetros:

L(N) = (N_c / N)α

donde N son los parámetros, N_c es una constante y α ≈ 0.076 para modelos tipo Transformer.

Emergencia como Transición de Fase

Ciertas habilidades (aritmética de múltiples dígitos, razonamiento lógico, traducción) aparecen abruptamente a cierta escala, siguiendo una curva sigmoide en vez de una mejora gradual. Esto recuerda las transiciones de fase en física (agua → hielo).

Debate Abierto

Schaeffer et al. (2023) argumentan que la "emergencia" puede ser un artefacto de las métricas discontinuas utilizadas, y que con métricas continuas la mejora es gradual. El debate sobre si las habilidades emergen realmente o son una ilusión métrica permanece abierto.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Función sigmoide de emergencia (escala log):

Perf_i(N) = 1 / (1 + exp(−k_i · (log&sub10;(N) − log&sub10;(N_i*))))

Escalado óptimo Chinchilla:

N_opt ∝ C^0.5,   D_opt ∝ C^0.5

El entrenamiento óptimo requiere escalar tanto el tamaño del modelo como los datos proporcionalmente a la raíz cuadrada del presupuesto de cómputo.

Sonificación

EventoSonido
Escala baja (<1B params)200 Hz (tono grave)
Escala media (1-100B)400 Hz
Escala alta (>100B)800 Hz (tono agudo)
Transición de fase (cruza 50%)Acorde mayor C-E-G-C

Ejercicio 3.5a · Fundamental

Mueve el slider de escala de 10M a 1T parámetros. ¿En qué punto la aritmética de 3 dígitos "emerge"? ¿Es el mismo punto para todas las tareas?

Ejercicio 3.5b · Avanzado

Chinchilla: Si tienes un presupuesto de cómputo fijo C y N_opt ∝ C^0.5, ¿cuánto más cómputo necesitas para duplicar el tamaño óptimo del modelo? Si el cómputo cuesta $1M para 10B parámetros, ¿cuánto costaría entrenar óptimamente un modelo de 40B?

7. Módulo 4: Fronteras de la Inteligencia Artificial

Módulo 4 · Color: Cyan (#06b6d4) · Simulaciones 16-20

Este módulo explora las áreas más activas de la investigación actual. Los modelos de difusión están detrás de la generación de imágenes; el aprendizaje por refuerzo fundamenta el alineamiento de LLMs; la destilación y los MoE abordan la eficiencia; y la superposición abre la puerta a entender qué ocurre dentro de las redes neuronales.

7.1 Modelos de Difusión: De Ruido a Estructura

El Proceso de Difusión

Los Denoising Diffusion Probabilistic Models (Ho et al., 2020) definen dos procesos: uno que gradualmente destruye la estructura añadiendo ruido gaussiano (forward), y otro que aprende a revertir ese proceso (reverse).

Forward Process

x_t = √ᾱ_t · x₀ + √(1 − ᾱ_t) · ε ,    ε ~ N(0, I)

Donde ᾱ_t = Πₛ₌₁ᵗ (1 − βₛ) y β_t es el noise schedule. Tras T pasos, x_T es ruido puro.

Noise Schedules

Lineal

β crece linealmente de β₁ a β_T. Simple pero destruye la información demasiado rápido al principio.

Coseno (Nichol & Dhariwal, 2021)

ᾱ_t sigue un coseno, preservando más estructura en los primeros pasos y destruyéndola suavemente al final. Mejores resultados empíricos.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Media del reverse step:

μθ(x_t, t) = (1/√α_t)(x_t − β_t/√(1 − ᾱ_t) · εθ(x_t, t))

Classifier-Free Guidance:

ε̃θ = εθ(x_t, ∅) + w · [εθ(x_t, c) − εθ(x_t, ∅)]

Sonificación

EstadoFrecuenciaFiltro LP
t=0 (imagen limpia)800 Hz3000 Hz
t=T/2 (parcial)400 Hz1500 Hz
t=T (ruido puro)150 Hz500 Hz

Forward = frecuencia descendente. Reverse = frecuencia ascendente. Cutoff del lowpass proporcional a ᾱ_t.

Ejercicio 4.1a · Fundamental

Selecciona la imagen target "corazón". Observa el forward process: ¿en qué paso la estructura deja de ser reconocible? Compara los schedules lineal y coseno: ¿cuál reconstruye mejor?

Ejercicio 4.1b · Intermedio

Punto de no retorno: Para cada imagen target, encuentra el paso t* donde la imagen deja de ser visualmente reconocible (usa el slider). ¿Es t* similar para todos los targets? Registra el SNR en ese punto.

7.2 Aprendizaje por Refuerzo: Grid World

Procesos de Decisión de Markov

El aprendizaje por refuerzo modela la interacción agente-entorno como un MDP (Markov Decision Process): en cada estado, el agente elige una acción, recibe una recompensa, y transita a un nuevo estado.

Q-Learning

Q(s, a) ← Q(s, a) + α [r + γ · max_{a'} Q(s', a') − Q(s, a)]

Es un algoritmo off-policy: la actualización usa el máximo Q futuro independientemente de la acción realmente tomada. El parámetro γ (descuento) controla cuánto importa el futuro vs. el presente.

SARSA

Q(s, a) ← Q(s, a) + α [r + γ · Q(s', a') − Q(s, a)]

A diferencia de Q-Learning, SARSA es on-policy: usa la acción a' que el agente realmente toma (incluyendo exploración), lo que produce políticas más conservadoras.

Q-Learning (Off-policy)

Aprende la política óptima independientemente de la exploración. Más agresivo cerca de trampas — asume que actuará óptimamente en el futuro.

SARSA (On-policy)

Aprende la política que realmente ejecuta, incluyendo movimientos exploratorios. Más conservador — evita caminos peligrosos donde la exploración podría causar daño.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Retorno descontado:

V(s) = Σ_{t=0}^{∞} γ^t r_{t+1}

Con γ=0.95, una recompensa de +1 en 10 pasos vale 0.95^10 ≈ 0.60 hoy. Con γ=0.5, vale solo 0.5^10 ≈ 0.001.

Sonificación

EventoFrecuenciaTipo
Paso normal300 + Q × 400 HzTriangle
Trampa200 → 100 HzSawtooth
Recompensa500 → 700 HzSine
Meta alcanzadaAcorde C-E-GSine
Exploración (ε)250 Hz (detuned)Square

Ejercicio 4.2a · Fundamental

Configura el grid con trampas cerca del camino óptimo. Entrena con Q-Learning y luego con SARSA. ¿Cuál evita más las trampas?

Ejercicio 4.2b · Avanzado

Q-Learning vs. SARSA cuantitativo: Entrena 1000 episodios con cada algoritmo (mismos hiperparámetros). Compara: recompensa media final, tasa de éxito y longitud media del camino. ¿Cuál es "mejor"?

7.3 Destilación de Conocimiento: Maestro y Alumno

Dark Knowledge

Hinton, Vidal y Dean (2015) propusieron que una red grande (teacher) contiene "conocimiento oscuro" en sus distribuciones de salida suavizadas. Un dígito "7" no solo es 7: la red grande sabe que se parece un poco a "1" y nada a "0". Esta información relacional se pierde con labels duros (one-hot) pero se preserva con soft labels.

L = α · KL(σ(z_T/T) || σ(z_S/T)) · T² + (1−α) · CE(y, σ(z_S))

El parámetro T (temperatura) suaviza las distribuciones: a mayor T, más "dark knowledge" se transfiere. El factor compensa la reducción de magnitud del gradiente.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Simplificación del gradiente a alta temperatura:

∂L_soft / ∂z_S,i ≈ (1/C)(z_S,i − z_T,i)

A alta T, el Student simplemente intenta igualar los logits del Teacher directamente — la destilación se convierte en una regresión.

Loss combinada de destilación:

L = α · T² · KL(σ(z_T/T) || σ(z_S/T)) + (1−α) · CE(y, σ(z_S))

Sonificación

EventoSonido
Clase i (Teacher)200 + i × 80 Hz, vol ∝ P_T(i), onda sine
Clase i (Student)200 + i × 80 Hz, vol ∝ P_S(i), onda triangle
KL bajo (<0.01)Acorde de resolución

A medida que el Student converge al Teacher, los sonidos convergen. Una nota grave con volumen proporcional a KL se desvanece.

Ejercicio 4.3a · Fundamental

Entrena el student con soft labels (T=5, α=0.7) durante 50 épocas. Luego reinicia con hard labels. ¿Cuál método alcanza mejor accuracy?

Ejercicio 4.3b · Intermedio

Dark Knowledge del 8: Selecciona el dígito 8 con T=5. Lista las 3 clases con mayor probabilidad después de "8". ¿Tiene sentido visual? (¿El 8 se parece al 0, 3, 9?). Calcula la entropía H = −Σ p_i log p_i para T=1 y T=5. ¿Cuánta más información contiene la distribución suavizada?

7.4 Mixture of Experts: Routing Inteligente

Especialización y Eficiencia

Un modelo Mixture of Experts (Shazeer et al., 2017) contiene múltiples subredes "expertas", pero solo activa un subconjunto para cada entrada. Un router (gating network) decide qué expertos activar:

y = Σᵢ g(x)ᵢ · Eᵢ(x) ,    g(x) = TopK(softmax(W_g · x))

Con Top-1 routing, solo un experto procesa cada input (sparse). Esto permite escalar el número de parámetros sin aumentar proporcionalmente el cómputo.

Load Balancing

Sin regularización, el router podría enviar todo el tráfico a un solo experto (colapso). La auxiliary loss de balance penaliza distribuciones de carga desiguales, fomentando que todos los expertos se utilicen.

Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Load balance loss:

L_balance = E · Σ_{i=1}^{E} f_i · p_i

donde f_i es la fracción de tokens asignados y p_i la probabilidad media del router.

Reducción de FLOPs (Switch Transformer):

FLOPs_MoE ≈ FLOPs_dense / (E/K)

Con E=64 expertos y K=1, se necesita ≈1/64 del cómputo de un modelo denso equivalente.

Sonificación

ExpertoNotaOnda
1 (rojo)C4 (261 Hz)Sine
2 (verde)E4 (329 Hz)Triangle
3 (azul)G4 (392 Hz)Square
4 (amarillo)C5 (523 Hz)Sawtooth

Top-2 routing produce acordes de dos notas. Balance mejorado = tono ascendente sutil.

Ejercicio 4.4a · Fundamental

Genera puntos aleatorios y entrena con 4 expertos y Top-1. ¿Cada experto se especializa en una región? Cambia a Top-2. ¿Cómo cambian las fronteras?

Ejercicio 4.4b · Intermedio

Routing collapse: Pon load balance a 0 y temperatura a 0.1. Entrena 50 pasos. ¿Cuántos expertos tienen carga >5%? ¿Ocurre colapso? Sube load balance a 0.5 y repite.

7.5 Superposición: Dentro de la Caja Negra

Interpretabilidad Mecánica

Elhage et al. (2022, Anthropic) demostraron que las redes neuronales pueden codificar más features (M) de los que tienen dimensiones (N), un fenómeno llamado superposición. Esto ocurre cuando las features son sparse (raramente activas simultáneamente).

Modelo Toy de Superposición

x̂ = WTWx ,    L = ||x − x̂||² + λ · sparsity

La matriz W (N×M) codifica M features en N dimensiones. Si M ≤ N, cada feature puede tener su propia dimensión. Si M > N, los vectores de features deben compartir espacio, creando interferencia.

Diagrama de Fase

El comportamiento del modelo depende de dos variables: la relación M/N y la sparsity de las features. Cuando la sparsity es alta (features raramente activas), la superposición es posible sin mucha interferencia. Cuando es baja, la interferencia destruye la información.

Diagrama de Fase: Sparsity ↑ ┌────────────────────────────────┐ 1.0 │ SUPERPOSICIÓN │ │ (M features en N dims) │ │ Interferencia tolerable │ ├────────── S = 1 - N/M ──────────┤ │ SIN SUPERPOSICIÓN │ 0.0 │ (features independientes) │ └────────────────────────────────┘ 1.0 M/N → 5.0
Deep Dive: Matemáticas y Sonificación

Las Matemáticas

Capacidad efectiva de features:

M_eff ≈ N / (1 − S)²

Con N=512 dimensiones y sparsity S=0.99, un modelo puede representar ~5,120,000 features.

Reconstrucción expandida con interferencia:

x̂_i = (W⊃T W)_ii · x_i + Σ_{j≠i} (W⊃T W)_ij · x_j

Separando la auto-reconstrucción del ruido de interferencia causado por otras features activas.

Sonificación

EventoSonido
Feature i activa200 + i × 50 Hz, vol ∝ ||w_i||
Paso de optimizaciónClick a 440 Hz
ConvergenciaAcorde consonante
Alta interferenciaBeating entre frecuencias cercanas

Ejercicio 4.5a · Fundamental

Configura N=2 dimensiones, M=5 features. Aumenta la sparsity. ¿Los vectores se separan más? Cambia a la vista de diagrama de fase.

Ejercicio 4.5b · Avanzado

Sparsity como factor habilitante: Fija N=2, M=8. Optimiza con S=0.5 y luego con S=0.99. ¿Cuántas features están "representadas" (norma del vector > 0.5) en cada caso? Calcula M_eff = N/(1−S)² para cada caso.

8. Ejercicios Integrados

Estos ejercicios combinan conceptos de múltiples simulaciones para reforzar la comprensión global.

Módulo 1: Cadena de Fundamentos

Ejercicio Integrado A · Fundamental

Del Perceptrón a la Red Profunda. Abre la Sim 1 (Perceptrón) y demuestra que no puede resolver XOR. Luego abre la Sim 3 (Backpropagation) con una red de 4 capas entrenando en XOR. Documenta: ¿cuántas capas ocultas son necesarias para resolver XOR? ¿Qué función de activación funciona mejor? (Verifica con la Sim 4).

Ejercicio Integrado B · Intermedio

Inicialización y Gradientes. Abre la Sim 5 (Weight Initialization) con 10 capas + Sigmoid. Observa el colapso con inicialización "Normal(0,0.01)". Luego abre la Sim 3 (Backpropagation) con la misma configuración. ¿La velocidad de entrenamiento correlaciona con lo que predicen los histogramas de activación?

Módulo 2: Arquitecturas en Contexto

Ejercicio Integrado C · Intermedio

Attention vs. Recurrencia. Compara la Sim 7 (LSTM) con la Sim 8 (Attention) procesando la misma frase. ¿Cuál captura mejor las dependencias a larga distancia? ¿El mecanismo de atención es más "transparente" que las compuertas LSTM?

Ejercicio Integrado D · Intermedio

Compresión y Generación. El Autoencoder (Sim 6) comprime datos y el GAN (Sim 10) los genera. Reflexiona: ¿en qué se parecen los espacios latentes de ambos? ¿Podrían combinarse? (Hint: el VAE-GAN combina ambas ideas).

Módulo 3: Diseccionando el Transformer

Ejercicio Integrado E · Avanzado

De Attention a Self-Attention a Transformer. Abre las Sims 8, 13 y 11 en orden. Documenta la progresión: (1) Attention básica sobre Q/K/V, (2) Self-attention con los 7 pasos, (3) Transformer completo con múltiples bloques. ¿Cómo cada capa de abstracción construye sobre la anterior?

Módulo 4: Retos de Frontera

Ejercicio Integrado F · Avanzado

Eficiencia y Escala. La Sim 18 (Distillation) comprime modelos, la Sim 19 (MoE) los hace sparse, y la Sim 15 (Emergent Abilities) muestra que la escala importa. Reflexiona: ¿cuál es el equilibrio óptimo entre tamaño, eficiencia y capacidad? ¿La destilación puede preservar habilidades emergentes?

Reto Final · Maestría

Completa las 20 simulaciones y escribe un ensayo de una página respondiendo: ¿Cómo se conectan los fundamentos del Módulo 1 con las fronteras del Módulo 4? Traza al menos 3 líneas conceptuales que recorran los 4 módulos (ejemplo: "gradientes → backpropagation → training de transformers → RLHF en alineamiento de LLMs").

9. Mapa Conceptual

Este diagrama muestra las conexiones entre los 20 conceptos del laboratorio. Las flechas indican "construye sobre" o "habilita".

Líneas Conceptuales Principales

  • Línea de Optimización: Perceptrón → Gradient Descent → Backpropagation → Weight Init → entrenamiento de toda arquitectura
  • Línea de Atención: LSTM → Attention → Self-Attention → Transformer → LLMs → Emergent Abilities
  • Línea Generativa: Autoencoder → GAN → Diffusion Models
  • Línea de Eficiencia: Knowledge Distillation → MoE → Scaling Laws
  • Línea de Interpretabilidad: Activation Functions → Backprop Flow → Superposition

10. Glosario

~120 términos unificados de las 20 guías individuales, ordenados alfabéticamente.

TérminoDefinición
AccuracyFracción de ejemplos correctamente clasificados: correctos/N.
ActivaciónSalida de una neurona tras aplicar la función de activación a la combinación lineal de sus entradas.
AdamOptimizador que combina momentum con tasas de aprendizaje adaptativas por parámetro, con corrección de sesgo.
AgenteEntidad que toma decisiones (elige acciones) en aprendizaje por refuerzo.
Alpha (α)Peso que balancea la loss suave vs. la loss dura en destilación; también tasa de aprendizaje en RL.
AttentionMecanismo que permite a una red ponderar dinámicamente la importancia de diferentes partes de la entrada.
AutoencoderRed neuronal que aprende a comprimir y reconstruir datos, con forma de reloj de arena.
AutoregresivoModelo que genera tokens uno por uno, condicionado en los anteriores.
BackpropagationAlgoritmo para calcular gradientes en redes multicapa mediante la regla de la cadena.
Backward passFase donde los gradientes se propagan desde la salida hacia la entrada de la red.
Batch NormalizationTécnica que normaliza activaciones a media 0 y varianza 1 en cada capa.
Batch SizeNúmero de ejemplos procesados simultáneamente antes de una actualización de pesos.
BenchmarkConjunto estandarizado de tareas para evaluar modelos.
Bias (sesgo)Término independiente que desplaza la frontera de decisión; también, prejuicios codificados en embeddings.
BottleneckCapa intermedia de dimensionalidad reducida que fuerza la compresión de información.
Causal MaskMáscara que impide atender a tokens futuros en modelos autoregresivos.
Cell StateVector de memoria a largo plazo en una LSTM, regulado por compuertas.
Chain of Thought (CoT)Técnica de prompting que solicita al modelo generar pasos de razonamiento intermedios explícitos.
ChinchillaEstudio de DeepMind sobre entrenamiento óptimo: datos proporcionales a parámetros.
Classifier-Free GuidanceTécnica de difusión que mejora la adherencia al prompt sin clasificador externo.
ClusterAgrupación de puntos cercanos en un espacio de representación.
CNNRed Neuronal Convolucional: arquitectura que usa filtros locales para procesar imágenes.
Combinación linealExpresión Σw_i x_i + b; la operación fundamental del perceptrón.
Conexión residualAtajo que suma la entrada a la salida de un bloque: x + f(x), facilitando el flujo de gradientes.
ConvergenciaEstado donde la pérdida o los Q-values dejan de cambiar significativamente.
ConvoluciónOperación que aplica un filtro deslizante sobre una imagen para producir un feature map.
Cosine similarityMedida de similitud basada en el ángulo entre vectores: cos(θ) = (a·b)/(||a||||b||).
Cross-AttentionAtención donde Q viene de una secuencia y K, V de otra diferente.
Cross-EntropyFunción de pérdida estándar para clasificación: −Σ y_k log P_k.
d_kDimensión de los vectores Query y Key en cada head de atención.
d_modelDimensión total del modelo Transformer (= h × d_k).
Dark KnowledgeInformación sobre relaciones inter-clase contenida en las soft labels del Teacher.
DDIMVariante determinista de difusión que permite muestreo con menos pasos.
DDPMDenoising Diffusion Probabilistic Model (Ho et al., 2020).
DecoderParte de una red que reconstruye datos desde el espacio latente, o parte del Transformer con atención causal.
Delta (δ)Señal de error local de una neurona; producto del error propagado y la derivada de activación.
DenoiserRed neuronal que predice el ruido para revertir un paso de difusión.
DiffusionProceso de añadir ruido gradualmente (forward) o eliminarlo (reverse) para generación de imágenes.
DiscriminadorRed en una GAN que clasifica datos como reales o generados.
DistilaciónTransferencia de conocimiento de un modelo grande (Teacher) a uno pequeño (Student).
ELUExponential Linear Unit: función de activación suave en x=0 con media cercana a cero.
EmbeddingRepresentación vectorial densa de un objeto discreto (palabra, token) en R^d.
EmergenciaCapacidad que aparece abruptamente al escalar un modelo, ausente en modelos más pequeños.
EncoderParte de una red que comprime la entrada al espacio latente, o parte del Transformer con atención bidireccional.
EntropíaMedida de dispersión de una distribución: H = −Σ p_i log p_i.
EpochUna pasada completa por todo el dataset de entrenamiento.
Epsilon (ε)Probabilidad de tomar una acción aleatoria (exploración) en RL; también ruido gaussiano en difusión.
Epsilon-greedyPolítica que explora con probabilidad ε y explota con 1−ε.
EquivarianzaPropiedad por la cual si la entrada se traslada, la salida se traslada de la misma forma.
Espacio latenteEspacio de representaciones internas aprendidas por un modelo (ej: bottleneck de autoencoder).
ExpertSubred neuronal especializada en un MoE que procesa un subconjunto de entradas.
Expert ChoiceVariante de MoE donde los expertos eligen sus tokens en lugar de al revés.
Exploding GradientProblema donde los gradientes crecen sin control, desestabilizando el entrenamiento.
FeatureConcepto o propiedad que el modelo necesita representar; en CNN, patrón detectado por un filtro.
Feature MapSalida de un filtro convolucional; mapa de activación que resalta un patrón específico.
FFNFeed-Forward Network: dos capas lineales con activación, aplicada por posición en Transformers.
Filtro/KernelPequeña matriz de pesos (típicamente 3×3) que detecta un patrón local en CNN.
FLOPsOperaciones de punto flotante; medida del costo computacional.
Forget GateCompuerta sigmoid en LSTM que decide qué parte del cell state anterior borrar.
Forward PassFase donde la entrada se transforma capa por capa para producir la salida.
Forward ProcessFase de destrucción en difusión: imagen a ruido.
Frontera de decisiónLínea (2D) o hiperplano (nD) donde w·x + b = 0; separa regiones de clase.
Gamma (γ)Factor de descuento en RL: cuánto importa la recompensa futura vs. la presente.
GANRed Generativa Adversaria: dos redes compitiendo (generador vs discriminador).
GELUGaussian Error Linear Unit: x·Φ(x); estándar en Transformers.
GeneradorRed en una GAN que transforma ruido en datos que imitan la distribución real.
GloVeGlobal Vectors: embeddings basados en factorización de la matriz de co-ocurrencia.
Gradient ClippingTécnica que recorta el gradiente si su magnitud excede un umbral.
GradienteVector de derivadas parciales de la pérdida respecto a cada parámetro.
GRUGated Recurrent Unit: variante simplificada de LSTM con 2 compuertas.
GuidanceTécnica para condicionar la generación en texto u otra señal en modelos de difusión.
Hadamard ProductMultiplicación elemento a elemento de dos vectores: (a ⊙ b)_i = a_i · b_i.
HallucinationPaso de razonamiento que parece correcto pero contiene errores factuales.
He/Kaiming InitInicialización con Var[w] = 2/n_in; óptima para ReLU.
HessianaMatriz de segundas derivadas; sus autovalores indican la curvatura de la superficie.
Hidden StateSalida de la celda LSTM en cada paso temporal, usada para predicciones.
Input GateCompuerta sigmoid en LSTM que decide qué nueva información almacenar.
InterferenciaError causado por features compartiendo las mismas dimensiones en superposición.
InterpretabilidadCapacidad de entender qué ha aprendido un modelo y cómo toma decisiones.
KL DivergenceMedida de cuánto una distribución de probabilidad difiere de otra de referencia.
KV-CacheAlmacenamiento de Keys y Values previos para generación eficiente en Transformers.
Latent DiffusionDifusión aplicada en el espacio latente de un autoencoder en lugar del espacio de píxeles.
Layer NormalizationNormalización que centra y escala activaciones por token en Transformers.
Learning Rate (η)Hiperparámetro que controla el tamaño de cada paso de actualización de pesos.
Leaky ReLUmax(0.01x, x): ReLU con pendiente pequeña para x<0, evita neuronas muertas.
Load BalanceDistribución equitativa de entradas entre expertos en un MoE.
LogitsSalida cruda de la capa final antes de aplicar softmax.
Loss FunctionFunción que mide la discrepancia entre las predicciones del modelo y los valores reales.
LSTMLong Short-Term Memory: tipo de RNN con compuertas que controlan el flujo de información.
ManifoldVariedad de baja dimensión donde viven los datos reales en un espacio de alta dimensión.
Margen (γ)Distancia mínima entre la frontera de decisión y el punto más cercano del dataset.
Max PoolingReducción espacial tomando el máximo en cada ventana del feature map.
MDPMarkov Decision Process: formalismo del aprendizaje por refuerzo.
MinimaxFormulación de juego: G minimiza lo que D maximiza en una GAN.
Mishx · tanh(softplus(x)): función de activación auto-regularizante, no monótona.
Mixture of Experts (MoE)Arquitectura donde un router selecciona subconjuntos de expertos para cada entrada.
Mode CollapseFallo en GANs donde el generador produce solo unos pocos tipos de salida, perdiendo diversidad.
MomentumAcumulación de velocidad usando gradientes pasados; ayuda a cruzar valles y mesetas.
MonosemánticoNeurona que se activa para una única feature interpretable.
Multi-Head AttentionMúltiples instancias de atención en paralelo, cada una con sus propias matrices W_Q, W_K, W_V.
Nash (Equilibrio de)Estado donde ningún jugador puede mejorar unilateralmente; meta teórica de las GANs.
Neurona muertaNeurona con ReLU que siempre produce 0 y nunca recibe gradiente.
Noise ScheduleFunción que define cómo β_t varía con t en modelos de difusión.
One-hotRepresentación sparse donde cada categoría es un vector con un solo 1.
Output GateCompuerta sigmoid en LSTM que decide qué parte del cell state emitir como hidden state.
PaddingPíxeles añadidos a los bordes de una imagen para controlar el tamaño de salida en CNN.
PCAAnálisis de Componentes Principales: proyección que preserva máxima varianza; caso especial lineal del autoencoder.
PerceptrónModelo lineal con umbral; la unidad computacional más simple: y = sign(w·x + b).
Phase TransitionCambio abrupto en una propiedad al cruzar un umbral crítico (ej: emergencia de habilidades).
PolisemánticoNeurona que se activa para múltiples features no relacionadas.
Política (π)Regla que mapea estados a acciones en aprendizaje por refuerzo.
PoolingOperación que reduce la resolución espacial de feature maps, creando invariancia local.
Positional EncodingVectores sinusoidales que inyectan información de posición en los embeddings del Transformer.
Pre-activación (z)Suma ponderada antes de aplicar la función de activación: z = Σw_i a_i + b.
Q-LearningAlgoritmo off-policy que actualiza con max Q(s', a'); aprende la política óptima.
Q-ValueValor estimado de la recompensa futura al tomar una acción en un estado dado.
Query (Q)Vector que representa "qué busca" un token en el mecanismo de atención.
Receptive FieldRegión de la imagen original que influye en una neurona de una capa profunda de CNN.
Regla de la cadena∂f/∂x = (∂f/∂g)(∂g/∂x); permite componer derivadas en backpropagation.
ReLUmax(0, x): función de activación simple, no satura para x>0, zona muerta para x<0.
Reverse ProcessFase de creación en difusión: ruido a imagen, aprendida por la red.
RNNRed Neuronal Recurrente: arquitectura que procesa secuencias con estado oculto.
Router (Gating)Red que decide qué expertos procesan cada entrada en un MoE.
Routing CollapseCuando todas las entradas se asignan al mismo experto en un MoE.
SARSAAlgoritmo on-policy que actualiza con Q(s', a') tomado realmente; produce políticas conservadoras.
SaturaciónEstado donde |σ'(z)| ≈ 0; los gradientes no fluyen a través de la neurona.
Scaling LawRelación matemática entre tamaño del modelo y rendimiento: L ∝ N^(−α).
Self-AttentionAtención donde Q, K y V provienen de la misma secuencia.
Self-ConsistencyGenerar múltiples cadenas CoT y elegir la respuesta mayoritaria.
Sigmoidσ(x) = 1/(1+e^−x): acota a (0,1), satura bilateralmente.
SNRSignal-to-Noise Ratio: ᾱ_t / (1 − ᾱ_t) en modelos de difusión.
Soft LabelsDistribución de probabilidad suavizada con temperatura T>1; contiene dark knowledge.
SoftmaxFunción que convierte un vector de valores reales en una distribución de probabilidad.
Sparse Autoencoder (SAE)Autoencoder con penalización L1 para encontrar features interpretables en representaciones superpuestas.
SparsityFracción de features inactivas en un momento dado; habilita la superposición.
StrideTamaño del paso de desplazamiento del filtro en CNN (stride 1 = un píxel a la vez).
SubwordUnidad sub-léxica usada en tokenización moderna (BPE).
SuperposiciónFenómeno donde una red codifica más features que dimensiones, compartiendo el espacio.
Swishx · σ(x): función de activación auto-regulada, no monótona.
TanhCentrada en cero, acota a (−1, 1), satura bilateralmente.
TD ErrorDiferencia entre la recompensa esperada y la obtenida en RL: δ = r + γ max Q(s',a') − Q(s,a).
Teacher/StudentModelos grande (teacher) y pequeño (student) en destilación de conocimiento.
TemperaturaParámetro que controla la nitidez de distribuciones softmax o de soft labels.
Top-KSelección de los K expertos con mayor peso de routing en MoE.
TransformerArquitectura basada enteramente en mecanismos de atención, sin recurrencia.
Tree of Thought (ToT)Extensión de CoT que explora múltiples caminos de razonamiento en paralelo.
t-SNETécnica de visualización no lineal que preserva estructura local de embeddings.
Value (V)Vector con la información que un token contribuye a la salida en attention.
Vanishing GradientProblema donde los gradientes se hacen exponencialmente pequeños en capas profundas.
VarianzaMedida de dispersión: Var[X] = E[X²] − E[X]²; clave en inicialización de pesos.
VoronoiPartición del espacio donde cada punto se asigna al centro más cercano; usado en MoE.
WassersteinDistancia alternativa que mejora la estabilidad del entrenamiento de GANs.
Word2VecAlgoritmo que entrena embeddings prediciendo contexto (Skip-gram) o palabra central (CBOW).
Xavier/Glorot InitInicialización con Var[w] = 2/(n_in + n_out); óptima para Sigmoid y Tanh.
XORFunción lógica exclusiva-or; ejemplo canónico de problema no linealmente separable.
Zero-shot CoTUsar Chain of Thought sin ejemplos, solo con "Pensemos paso a paso".

11. Referencias Bibliográficas

Las siguientes publicaciones fundamentan los conceptos presentados en este laboratorio, ordenadas cronológicamente.

  1. Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Psychological Review, 65(6), 386-408.
  2. Hubel, D. H. & Wiesel, T. N. (1962). Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex. The Journal of Physiology, 160(1), 106-154.
  3. Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
  4. Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). Learning Representations by Back-propagating Errors. Nature, 323, 533-536.
  5. Cybenko, G. (1989). Approximation by Superpositions of a Sigmoidal Function. Mathematics of Control, Signals, and Systems, 2, 303-314.
  6. LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998). Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, 86(11), 2278-2324.
  7. Hochreiter, S. & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.
  8. Glorot, X. & Bengio, Y. (2010). Understanding the Difficulty of Training Deep Feedforward Neural Networks. AISTATS 2010.
  9. Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012.
  10. Mikolov, T., Chen, K., Corrado, G. & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
  11. Bahdanau, D., Cho, K. & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473.
  12. Goodfellow, I. J. et al. (2014). Generative Adversarial Networks. arXiv:1406.2661.
  13. Pennington, J., Socher, R. & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP 2014.
  14. He, K., Zhang, X., Ren, S. & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ICCV 2015.
  15. Hinton, G., Vinyals, O. & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
  16. Kingma, D. P. & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR 2015.
  17. Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
  18. Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
  19. Ho, J., Jain, A. & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239.
  20. Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  21. Fedus, W., Zoph, B. & Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  22. Nichol, A. & Dhariwal, P. (2021). Improved Denoising Diffusion Probabilistic Models. ICML 2021. arXiv:2102.09672.
  23. Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903.
  24. Elhage, N. et al. (2022). Toy Models of Superposition. Anthropic Research. arXiv:2209.10652.
  25. Schaeffer, R., Miranda, B. & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004.

12. Preguntas Frecuentes

¿Necesito saber programar para usar las simulaciones?

No. Todas las simulaciones funcionan en el navegador sin necesidad de instalar nada. Solo necesitas abrir los archivos HTML. La guía teórica complementa la experiencia interactiva. Si deseas entender el código fuente, cada simulación está implementada en JavaScript vanilla — todo el código es legible en el propio archivo HTML.

¿En qué orden debo recorrer las simulaciones?

El orden recomendado es seguir los módulos secuencialmente (1 → 2 → 3 → 4), ya que cada módulo construye sobre conceptos del anterior. Dentro de cada módulo, las simulaciones están ordenadas por complejidad creciente. Sin embargo, cada simulación es autocontenida: si solo te interesa un tema específico (ej: Transformers), puedes saltar directamente al Módulo 3.

¿Puedo usar las simulaciones para enseñar en clase?

Sí. AI Visual Lab está diseñado como recurso educativo. Las simulaciones funcionan sin conexión a internet (excepto las fuentes de Google), son interactivas, y esta guía proporciona ejercicios estructurados por nivel de dificultad. Sugerimos proyectar las simulaciones mientras se explica la teoría, y usar los ejercicios como actividades prácticas.

¿Qué navegador es recomendado?

Chrome, Firefox, Safari o Edge modernos (2023+). Las simulaciones usan Canvas 2D con soporte Retina (devicePixelRatio) y Web Audio API con inicialización lazy compatible con iOS/Safari. Para la mejor experiencia de sonificación, usa auriculares y haz clic en cualquier control para activar el audio (requerido por políticas de autoplay del navegador).

¿Cómo funciona la sonificación?

Cada simulación mapea magnitudes numéricas a parámetros acústicos usando la Web Audio API:

  • Error / pérdida: Intervalos musicales (tritono = error alto, octava = error bajo)
  • Gradientes: Volumen (fuerte = gradiente grande, silencio = vanishing gradient)
  • Convergencia: Progresión armónica (acorde disminuido → dominante → mayor)
  • Confianza: Claridad tímbrica (notas puras = alta confianza, clusters = incertidumbre)

La cadena de audio incluye: oscilador → filtro lowpass → envolvente ADSR → ganancia → compresor → salida.

¿Las redes neuronales en las simulaciones son reales?

Sí. No son visualizaciones mockup — son implementaciones funcionales en JavaScript puro. El perceptrón entrena con la regla real de aprendizaje. Las redes del Módulo 2 ejecutan forward y backward pass con matrices de pesos reales. El micro-transformer del Módulo 3 tiene 2 capas, 2 heads y d=32, con embedding, positional encoding, multi-head attention, FFN y layer norm implementados from scratch. Los modelos del Módulo 4 (Q-learning, diffusion, distillation, MoE, superposition) ejecutan algoritmos reales con gradientes y optimización.