Chain of Thought Unrolled — El Árbol del Razonamiento

1. Introducción

Los modelos de lenguaje (LLMs) como GPT-4 o Claude son capaces de resolver problemas complejos, pero su rendimiento depende dramáticamente de cómo se les pide que razonen. Pedirle a un modelo que dé una respuesta directa (“¿Cuánto es 23 × 17?”) produce resultados diferentes a pedirle que piense paso a paso.

El Chain of Thought (CoT), introducido por Wei et al. (2022), es una técnica de prompting que hace explícito el razonamiento intermedio. En lugar de un salto directo de pregunta a respuesta, el modelo genera una cadena de pasos lógicos.

Esta simulación visualiza el proceso como un árbol de razonamiento: cada nodo es un paso con su confianza, los errores se muestran como backtracking (nodos rojos), y el modo de alucinación demuestra cómo los razonamientos pueden parecer lógicos pero contener errores sutiles.

2. Conceptos Fundamentales

2.1 Razonamiento implícito vs. explícito

Un LLM sin CoT genera P(\text{respuesta} | \text{pregunta}) directamente. Con CoT, genera:

P(\text{respuesta} | \text{pregunta}) = \sum_{\text{cadena}} P(\text{respuesta} | \text{cadena}, \text{pregunta}) \cdot P(\text{cadena} | \text{pregunta})

Al marginalizar sobre cadenas de razonamiento, el modelo puede “explorar” caminos lógicos intermedios que mejoran la probabilidad de llegar a la respuesta correcta.

2.2 La inequalidad clave

La observación empírica fundamental es:

P(\text{respuesta correcta} | \text{CoT}) > P(\text{respuesta correcta} | \text{directa})

Esta desigualdad se amplifica con la complejidad del problema: para aritmética simple la diferencia es pequeña, pero para razonamiento multi-paso se vuelve enorme.

2.3 Tipos de razonamiento

La simulación incluye 5 tipos de problemas:

Tipo	Ejemplo	Pasos CoT típicos
Aritmética	23 × 17	5-7 (descomponer, multiplicar, sumar)
Lógica	Silogismo	3-4 (premisas, deducción)
Secuencia	2, 6, 18, 54, ?	3-4 (patrón, regla, aplicar)
Analogía	Día:Noche :: Calor:?	2-3 (relación, aplicar)
Multi-paso	Problema verbal	5-8 (parsear, modelar, resolver)

2.4 Confianza por paso

Cada nodo del árbol tiene una confianza c \in [0, 1] que refleja cuán seguro está el modelo de ese paso intermedio. Visualmente se codifica con color: verde = alta confianza, amarillo = media, rojo = baja (posible error o backtracking).

3. La Interfaz

3.1 Canvas principal

El canvas muestra el árbol de razonamiento:

Nodos circulares: cada paso de razonamiento, coloreados por confianza
Aristas: conexiones entre pasos (padre → hijo)
Nodos rojos: backtracking — pasos descartados por error detectado
Nodo final: respuesta, resaltado con borde brillante
Comparación: si se usa respuesta directa, aparece un solo nodo versus el árbol completo

3.2 Panel lateral

Ecuación: P(\text{answer} | \text{CoT}) > P(\text{answer} | \text{direct})
Selector de problema: 5 problemas predefinidos
Botones: Resolver con CoT, Respuesta Directa, Reset
Toggles: Modo Alucinación, Mostrar Confianza
Comparación: tabla con pasos, confianza y corrección para ambos métodos

3.3 Barra de estado

Muestra el conteo de nodos activos y la confianza general del razonamiento.

4. Controles Interactivos

4.1 Selector de problema

Dropdown con 5 problemas de dificultad creciente: - Aritmética: 23 × 17 = ? — requiere descomposición - Lógica: Todos A son B. X es A. ¿X es B? — silogismo clásico - Secuencia: 2, 6, 18, 54, ? — progresión geométrica - Analogía: Día:Noche :: Calor:? — relación de opuestos - Multi-paso: Si tengo 5 manzanas… — problema verbal compuesto

4.2 Modos de resolución

Botón	Acción
Resolver con CoT	Genera el árbol de razonamiento paso a paso con animación
Respuesta Directa	Genera un único nodo con la respuesta inmediata
Reset	Limpia el canvas y las métricas

4.3 Configuración

Control	Efecto
Modo Alucinación	Introduce errores sutiles en los pasos intermedios: cálculos incorrectos que “parecen” lógicos
Mostrar Confianza	Muestra/oculta los valores numéricos de confianza en cada nodo

4.4 Métricas

La sección de comparación muestra lado a lado: - Número de pasos CoT - Confianza CoT vs. Directa - Si cada método llegó a la respuesta correcta

5. Las Matemáticas

5.1 Probabilidad condicional con cadena

Para un problema con respuesta a y cadena de razonamiento c_1, c_2, \ldots, c_n:

P(a | x) = P(a | c_n, x) \prod_{i=1}^{n} P(c_i | c_{i-1}, \ldots, c_1, x)

Cada paso condiciona en todos los anteriores, creando una cadena de dependencias.

5.2 Confianza acumulada

La confianza total de una cadena es aproximadamente:

C_{\text{total}} = \prod_{i=1}^{n} c_i

donde c_i es la confianza del paso i. Esto implica que una cadena larga con pasos de confianza 0.9 cada uno tiene confianza total 0.9^n, que decrece exponencialmente.

5.3 Self-consistency

Una mejora sobre CoT es generar k cadenas de razonamiento y tomar la respuesta mayoritaria:

a^* = \arg\max_a \sum_{j=1}^{k} \mathbb{1}[a_j = a]

Esto es equivalente a un ensemble de razonamientos: si 7 de 10 cadenas llegan a “391”, esa es probablemente la respuesta correcta.

5.4 Alucinaciones en cadena

Una alucinación ocurre cuando un paso c_i es incorrecto pero tiene alta confianza aparente. El error se propaga:

P(a_{\text{correcta}} | c_1, \ldots, c_i^{\text{error}}, \ldots, c_n) \approx 0

Un solo paso erróneo puede invalidar toda la cadena. La simulación demuestra esto visualmente con nodos de alta confianza pero contenido incorrecto.

6. Sonificación

6.1 Diseño de audio

Cada evento del razonamiento produce un sonido:

Nuevo nodo: nota ascendente cuya frecuencia refleja la confianza
Backtracking: tono descendente en rojo
Respuesta final: acorde mayor si correcta, menor si incorrecta
Alucinación: nota con ligero detune (desafinación intencional)

6.2 Mapeo de frecuencias

Evento	Frecuencia	Duración	Tipo
Nodo normal	300 + c \times 400 Hz	0.2s	sine
Backtrack	600 → 200 Hz (glide)	0.3s	sawtooth
Respuesta correcta	Acorde C-E-G	0.5s	sine
Respuesta incorrecta	200 Hz	0.4s	triangle
Alucinación	freq ± 8 Hz	0.25s	sine (detuned)

7. Guía Paso a Paso

Paso 1: Resolver con CoT

Selecciona el problema “Aritmética: 23 × 17”
Pulsa Resolver con CoT
Observa cómo el árbol crece: “Descomponer 23 × 17” → “23 × 10 = 230” → “23 × 7 = ?” → …
Cada nodo muestra su texto y confianza coloreada

Paso 2: Comparar con respuesta directa

Pulsa Reset, luego Respuesta Directa
Aparece un único nodo con la respuesta
Compara las métricas: ¿es correcta? ¿Con qué confianza?
Para aritmética simple, ambos métodos pueden acertar, pero CoT es más fiable

Paso 3: Escalar la dificultad

Cambia a “Multi-paso: Si tengo 5 manzanas…”
Resuelve con CoT: observa 5-8 pasos con confianzas variables
Resuelve con Directa: la confianza baja notablemente
Este es el régimen donde CoT brilla

Paso 4: Explorar alucinaciones

Activa Modo Alucinación
Resuelve el problema aritmético con CoT
Observa que un paso intermedio tiene confianza alta pero contiene un error (e.g., “20 × 7 = 160” en vez de 140)
El error se propaga: la respuesta final es incorrecta a pesar del “razonamiento”

Paso 5: Lógica y backtracking

Selecciona el problema de lógica (silogismo)
Resuelve con CoT
Observa si hay nodos rojos de backtracking donde el modelo corrigió un razonamiento

8. Conceptos Avanzados

8.1 Tree of Thought

Una extensión de CoT donde el modelo explora múltiples caminos de razonamiento en paralelo, podando ramas poco prometedoras:

\text{ToT}: \text{BFS/DFS sobre el espacio de razonamientos}

En lugar de una cadena lineal, se genera un árbol completo y se selecciona el mejor camino.

8.2 Chain of Thought Faithful vs. Post-hoc

Un debate activo: ¿los pasos de CoT reflejan el razonamiento real del modelo, o son racionalizaciones post-hoc? Estudios muestran que modificar los pasos intermedios a veces no cambia la respuesta, sugiriendo que el modelo ya “sabe” la respuesta y genera el razonamiento como justificación.

8.3 CoT como computación implícita

Cada token generado en la cadena CoT actúa como un “paso de computación” adicional. Un modelo con L layers de Transformer y n tokens de CoT tiene efectivamente L \times n pasos de procesamiento, versus solo L sin CoT. Esto explica por qué CoT ayuda: da al modelo más “tiempo para pensar”.

8.4 Verificación y auto-corrección

Técnicas modernas combinan CoT con verificadores:

Generar cadena de razonamiento
Verificar cada paso con un modelo verificador
Si un paso falla, regenerar desde ese punto

Esto mitiga las alucinaciones al introducir un mecanismo de feedback.

9. Ejercicios

Ejercicio 1: Longitud óptima de cadena

Resuelve cada uno de los 5 problemas con CoT. Registra el número de pasos y si la respuesta fue correcta. ¿Hay correlación entre el número de pasos y la dificultad del problema?

Ejercicio 2: Tasa de error con alucinaciones

Con el modo alucinación activado, resuelve el problema aritmético 10 veces con CoT. ¿En cuántas ocasiones la respuesta final fue incorrecta? Calcula la tasa de error y compárala con la tasa sin alucinaciones.

Ejercicio 3: Confianza acumulada

Para el problema multi-paso, anota la confianza de cada nodo de la cadena CoT. Calcula C_{\text{total}} = \prod c_i. ¿El producto explica la confianza final mostrada? ¿Qué pasa si un solo paso tiene c_i = 0.5?

Ejercicio 4: CoT vs. Directa por tipo

Completa una tabla comparando CoT vs. Directa para cada tipo de problema (aritmética, lógica, secuencia, analogía, multi-paso). ¿Para qué tipos la diferencia es más pronunciada?

Ejercicio 5: Self-consistency manual

Resuelve el problema aritmético con CoT 5 veces. Si obtienes resultados diferentes, ¿cuál elegirías por votación mayoritaria? Compara con la respuesta verdadera.

Ejercicio 6: Detectar la alucinación

Activa el modo alucinación y resuelve un problema. Sin mirar la respuesta correcta, intenta identificar visualmente qué nodo contiene el error basándote solo en los textos de cada paso. ¿Es fácil o difícil?

10. Glosario

Término	Definición
Chain of Thought (CoT)	Técnica de prompting que hace explícito el razonamiento paso a paso
Prompting	Técnica de formular instrucciones para guiar la salida de un LLM
LLM	Large Language Model — modelo de lenguaje de gran escala
Razonamiento multi-paso	Problemas que requieren múltiples operaciones lógicas secuenciales
Backtracking	Retroceder en la cadena de razonamiento al detectar un error
Alucinación	Paso de razonamiento que parece correcto pero contiene errores factuales
Confianza	Probabilidad asignada a cada paso del razonamiento (0 a 1)
Self-consistency	Generar múltiples cadenas CoT y elegir la respuesta mayoritaria
Tree of Thought (ToT)	Extensión de CoT que explora múltiples caminos en paralelo
Zero-shot CoT	Usar CoT sin ejemplos, solo con “Let’s think step by step”
Few-shot CoT	Incluir ejemplos resueltos paso a paso en el prompt
Verificador	Modelo que evalúa la corrección de cada paso de razonamiento
Token	Unidad mínima de texto procesada por el LLM
Marginalización	Sumar sobre todas las cadenas posibles para obtener P(\text{respuesta})
Ensemble	Combinar múltiples predicciones para mejorar la precisión
Descomposición	Dividir un problema complejo en subproblemas más simples
Scratchpad	Espacio de trabajo intermedio donde el modelo “escribe” su razonamiento
Faithfulness	Grado en que los pasos CoT reflejan el proceso real del modelo

11. Referencias

Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS.
Wang, X., et al. (2023). Self-Consistency Improves Chain of Thought Reasoning. ICLR.
Yao, S., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS.
Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS.
Turpin, M., et al. (2023). Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting. NeurIPS.