1. Introducción
Los modelos de lenguaje (LLMs) como GPT-4 o Claude son capaces de resolver problemas complejos, pero su rendimiento depende dramáticamente de cómo se les pide que razonen. Pedirle a un modelo que dé una respuesta directa (“¿Cuánto es 23 × 17?”) produce resultados diferentes a pedirle que piense paso a paso.
El Chain of Thought (CoT), introducido por Wei et al. (2022), es una técnica de prompting que hace explícito el razonamiento intermedio. En lugar de un salto directo de pregunta a respuesta, el modelo genera una cadena de pasos lógicos.
Esta simulación visualiza el proceso como un árbol de razonamiento: cada nodo es un paso con su confianza, los errores se muestran como backtracking (nodos rojos), y el modo de alucinación demuestra cómo los razonamientos pueden parecer lógicos pero contener errores sutiles.
2. Conceptos Fundamentales
2.1 Razonamiento implícito vs. explícito
Un LLM sin CoT genera P(\text{respuesta} | \text{pregunta}) directamente. Con CoT, genera:
P(\text{respuesta} | \text{pregunta}) = \sum_{\text{cadena}} P(\text{respuesta} | \text{cadena}, \text{pregunta}) \cdot P(\text{cadena} | \text{pregunta})
Al marginalizar sobre cadenas de razonamiento, el modelo puede “explorar” caminos lógicos intermedios que mejoran la probabilidad de llegar a la respuesta correcta.
2.2 La inequalidad clave
La observación empírica fundamental es:
P(\text{respuesta correcta} | \text{CoT}) > P(\text{respuesta correcta} | \text{directa})
Esta desigualdad se amplifica con la complejidad del problema: para aritmética simple la diferencia es pequeña, pero para razonamiento multi-paso se vuelve enorme.
2.3 Tipos de razonamiento
La simulación incluye 5 tipos de problemas:
| Tipo | Ejemplo | Pasos CoT típicos |
|---|---|---|
| Aritmética | 23 × 17 | 5-7 (descomponer, multiplicar, sumar) |
| Lógica | Silogismo | 3-4 (premisas, deducción) |
| Secuencia | 2, 6, 18, 54, ? | 3-4 (patrón, regla, aplicar) |
| Analogía | Día:Noche :: Calor:? | 2-3 (relación, aplicar) |
| Multi-paso | Problema verbal | 5-8 (parsear, modelar, resolver) |
2.4 Confianza por paso
Cada nodo del árbol tiene una confianza c \in [0, 1] que refleja cuán seguro está el modelo de ese paso intermedio. Visualmente se codifica con color: verde = alta confianza, amarillo = media, rojo = baja (posible error o backtracking).
3. La Interfaz
3.1 Canvas principal
El canvas muestra el árbol de razonamiento:
- Nodos circulares: cada paso de razonamiento, coloreados por confianza
- Aristas: conexiones entre pasos (padre → hijo)
- Nodos rojos: backtracking — pasos descartados por error detectado
- Nodo final: respuesta, resaltado con borde brillante
- Comparación: si se usa respuesta directa, aparece un solo nodo versus el árbol completo
3.2 Panel lateral
- Ecuación: P(\text{answer} | \text{CoT}) > P(\text{answer} | \text{direct})
- Selector de problema: 5 problemas predefinidos
- Botones: Resolver con CoT, Respuesta Directa, Reset
- Toggles: Modo Alucinación, Mostrar Confianza
- Comparación: tabla con pasos, confianza y corrección para ambos métodos
3.3 Barra de estado
Muestra el conteo de nodos activos y la confianza general del razonamiento.
4. Controles Interactivos
4.1 Selector de problema
Dropdown con 5 problemas de dificultad creciente: - Aritmética: 23 × 17 = ? — requiere descomposición - Lógica: Todos A son B. X es A. ¿X es B? — silogismo clásico - Secuencia: 2, 6, 18, 54, ? — progresión geométrica - Analogía: Día:Noche :: Calor:? — relación de opuestos - Multi-paso: Si tengo 5 manzanas… — problema verbal compuesto
4.2 Modos de resolución
| Botón | Acción |
|---|---|
| Resolver con CoT | Genera el árbol de razonamiento paso a paso con animación |
| Respuesta Directa | Genera un único nodo con la respuesta inmediata |
| Reset | Limpia el canvas y las métricas |
4.3 Configuración
| Control | Efecto |
|---|---|
| Modo Alucinación | Introduce errores sutiles en los pasos intermedios: cálculos incorrectos que “parecen” lógicos |
| Mostrar Confianza | Muestra/oculta los valores numéricos de confianza en cada nodo |
4.4 Métricas
La sección de comparación muestra lado a lado: - Número de pasos CoT - Confianza CoT vs. Directa - Si cada método llegó a la respuesta correcta
5. Las Matemáticas
5.1 Probabilidad condicional con cadena
Para un problema con respuesta a y cadena de razonamiento c_1, c_2, \ldots, c_n:
P(a | x) = P(a | c_n, x) \prod_{i=1}^{n} P(c_i | c_{i-1}, \ldots, c_1, x)
Cada paso condiciona en todos los anteriores, creando una cadena de dependencias.
5.2 Confianza acumulada
La confianza total de una cadena es aproximadamente:
C_{\text{total}} = \prod_{i=1}^{n} c_i
donde c_i es la confianza del paso i. Esto implica que una cadena larga con pasos de confianza 0.9 cada uno tiene confianza total 0.9^n, que decrece exponencialmente.
5.3 Self-consistency
Una mejora sobre CoT es generar k cadenas de razonamiento y tomar la respuesta mayoritaria:
a^* = \arg\max_a \sum_{j=1}^{k} \mathbb{1}[a_j = a]
Esto es equivalente a un ensemble de razonamientos: si 7 de 10 cadenas llegan a “391”, esa es probablemente la respuesta correcta.
5.4 Alucinaciones en cadena
Una alucinación ocurre cuando un paso c_i es incorrecto pero tiene alta confianza aparente. El error se propaga:
P(a_{\text{correcta}} | c_1, \ldots, c_i^{\text{error}}, \ldots, c_n) \approx 0
Un solo paso erróneo puede invalidar toda la cadena. La simulación demuestra esto visualmente con nodos de alta confianza pero contenido incorrecto.
6. Sonificación
6.1 Diseño de audio
Cada evento del razonamiento produce un sonido:
- Nuevo nodo: nota ascendente cuya frecuencia refleja la confianza
- Backtracking: tono descendente en rojo
- Respuesta final: acorde mayor si correcta, menor si incorrecta
- Alucinación: nota con ligero detune (desafinación intencional)
6.2 Mapeo de frecuencias
| Evento | Frecuencia | Duración | Tipo |
|---|---|---|---|
| Nodo normal | 300 + c \times 400 Hz | 0.2s | sine |
| Backtrack | 600 → 200 Hz (glide) | 0.3s | sawtooth |
| Respuesta correcta | Acorde C-E-G | 0.5s | sine |
| Respuesta incorrecta | 200 Hz | 0.4s | triangle |
| Alucinación | freq ± 8 Hz | 0.25s | sine (detuned) |
7. Guía Paso a Paso
Paso 1: Resolver con CoT
- Selecciona el problema “Aritmética: 23 × 17”
- Pulsa Resolver con CoT
- Observa cómo el árbol crece: “Descomponer 23 × 17” → “23 × 10 = 230” → “23 × 7 = ?” → …
- Cada nodo muestra su texto y confianza coloreada
Paso 2: Comparar con respuesta directa
- Pulsa Reset, luego Respuesta Directa
- Aparece un único nodo con la respuesta
- Compara las métricas: ¿es correcta? ¿Con qué confianza?
- Para aritmética simple, ambos métodos pueden acertar, pero CoT es más fiable
Paso 3: Escalar la dificultad
- Cambia a “Multi-paso: Si tengo 5 manzanas…”
- Resuelve con CoT: observa 5-8 pasos con confianzas variables
- Resuelve con Directa: la confianza baja notablemente
- Este es el régimen donde CoT brilla
Paso 4: Explorar alucinaciones
- Activa Modo Alucinación
- Resuelve el problema aritmético con CoT
- Observa que un paso intermedio tiene confianza alta pero contiene un error (e.g., “20 × 7 = 160” en vez de 140)
- El error se propaga: la respuesta final es incorrecta a pesar del “razonamiento”
Paso 5: Lógica y backtracking
- Selecciona el problema de lógica (silogismo)
- Resuelve con CoT
- Observa si hay nodos rojos de backtracking donde el modelo corrigió un razonamiento
8. Conceptos Avanzados
8.1 Tree of Thought
Una extensión de CoT donde el modelo explora múltiples caminos de razonamiento en paralelo, podando ramas poco prometedoras:
\text{ToT}: \text{BFS/DFS sobre el espacio de razonamientos}
En lugar de una cadena lineal, se genera un árbol completo y se selecciona el mejor camino.
8.2 Chain of Thought Faithful vs. Post-hoc
Un debate activo: ¿los pasos de CoT reflejan el razonamiento real del modelo, o son racionalizaciones post-hoc? Estudios muestran que modificar los pasos intermedios a veces no cambia la respuesta, sugiriendo que el modelo ya “sabe” la respuesta y genera el razonamiento como justificación.
8.3 CoT como computación implícita
Cada token generado en la cadena CoT actúa como un “paso de computación” adicional. Un modelo con L layers de Transformer y n tokens de CoT tiene efectivamente L \times n pasos de procesamiento, versus solo L sin CoT. Esto explica por qué CoT ayuda: da al modelo más “tiempo para pensar”.
8.4 Verificación y auto-corrección
Técnicas modernas combinan CoT con verificadores:
- Generar cadena de razonamiento
- Verificar cada paso con un modelo verificador
- Si un paso falla, regenerar desde ese punto
Esto mitiga las alucinaciones al introducir un mecanismo de feedback.
9. Ejercicios
Ejercicio 1: Longitud óptima de cadena
Resuelve cada uno de los 5 problemas con CoT. Registra el número de pasos y si la respuesta fue correcta. ¿Hay correlación entre el número de pasos y la dificultad del problema?
Ejercicio 2: Tasa de error con alucinaciones
Con el modo alucinación activado, resuelve el problema aritmético 10 veces con CoT. ¿En cuántas ocasiones la respuesta final fue incorrecta? Calcula la tasa de error y compárala con la tasa sin alucinaciones.
Ejercicio 3: Confianza acumulada
Para el problema multi-paso, anota la confianza de cada nodo de la cadena CoT. Calcula C_{\text{total}} = \prod c_i. ¿El producto explica la confianza final mostrada? ¿Qué pasa si un solo paso tiene c_i = 0.5?
Ejercicio 4: CoT vs. Directa por tipo
Completa una tabla comparando CoT vs. Directa para cada tipo de problema (aritmética, lógica, secuencia, analogía, multi-paso). ¿Para qué tipos la diferencia es más pronunciada?
Ejercicio 5: Self-consistency manual
Resuelve el problema aritmético con CoT 5 veces. Si obtienes resultados diferentes, ¿cuál elegirías por votación mayoritaria? Compara con la respuesta verdadera.
Ejercicio 6: Detectar la alucinación
Activa el modo alucinación y resuelve un problema. Sin mirar la respuesta correcta, intenta identificar visualmente qué nodo contiene el error basándote solo en los textos de cada paso. ¿Es fácil o difícil?
10. Glosario
| Término | Definición |
|---|---|
| Chain of Thought (CoT) | Técnica de prompting que hace explícito el razonamiento paso a paso |
| Prompting | Técnica de formular instrucciones para guiar la salida de un LLM |
| LLM | Large Language Model — modelo de lenguaje de gran escala |
| Razonamiento multi-paso | Problemas que requieren múltiples operaciones lógicas secuenciales |
| Backtracking | Retroceder en la cadena de razonamiento al detectar un error |
| Alucinación | Paso de razonamiento que parece correcto pero contiene errores factuales |
| Confianza | Probabilidad asignada a cada paso del razonamiento (0 a 1) |
| Self-consistency | Generar múltiples cadenas CoT y elegir la respuesta mayoritaria |
| Tree of Thought (ToT) | Extensión de CoT que explora múltiples caminos en paralelo |
| Zero-shot CoT | Usar CoT sin ejemplos, solo con “Let’s think step by step” |
| Few-shot CoT | Incluir ejemplos resueltos paso a paso en el prompt |
| Verificador | Modelo que evalúa la corrección de cada paso de razonamiento |
| Token | Unidad mínima de texto procesada por el LLM |
| Marginalización | Sumar sobre todas las cadenas posibles para obtener P(\text{respuesta}) |
| Ensemble | Combinar múltiples predicciones para mejorar la precisión |
| Descomposición | Dividir un problema complejo en subproblemas más simples |
| Scratchpad | Espacio de trabajo intermedio donde el modelo “escribe” su razonamiento |
| Faithfulness | Grado en que los pasos CoT reflejan el proceso real del modelo |
11. Referencias
- Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS.
- Wang, X., et al. (2023). Self-Consistency Improves Chain of Thought Reasoning. ICLR.
- Yao, S., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS.
- Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS.
- Turpin, M., et al. (2023). Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting. NeurIPS.