El Perceptron es el modelo mas simple de neurona artificial: una funcion que traza una linea (o hiperplano) para dividir el espacio en dos regiones. Es un clasificador binario que aprende de ejemplos.
La intuicion geometrica
El perceptron encuentra una linea que separa puntos rojos de azules. Los pesos determinan la orientacion de la linea. El bias la desplaza. La "receta" de la linea se ajusta con cada error hasta que clasifica correctamente.
Que observar
- La linea de decision rota y se desplaza.
- Cada error causa un ajuste visible.
- La convergencia depende de la separabilidad.
- XOR es el enemigo clasico del perceptron.
Regla de aprendizaje del Perceptron
El perceptron ajusta sus pesos solo cuando se equivoca:
Si y_pred != y_real:
w = w + α * y_real * x
b = b + α * y_real
donde α = learning rate (tasa de aprendizaje)
Intuicion: Si clasificamos un punto rojo como azul, "empujamos" la linea hacia el lado rojo. El learning rate controla la magnitud del empujon.
Teorema de convergencia
Converge siempreOscila infinitamente
Novikov 1962: Si existe un hiperplano que separa las clases,
el perceptron lo encontrara en un numero finito de pasos. El numero de
errores esta acotado por (R/γ)² donde R = radio de los datos,
γ = margen de separacion.
Geometria de la frontera
La ecuacion w·x + b = 0 define la frontera de decision:
- w es el vector normal a la frontera (perpendicular)
- b controla la distancia al origen
- Cambiar w rota la linea
- Cambiar b la desplaza paralelamente
En 2D la frontera es una linea. En 3D, un plano. En n dimensiones, un hiperplano de n-1 dimensiones.
El problema XOR: limites fundamentales
El XOR no es linealmente separable:
- (0,0) → 0 y (1,1) → 0 (clase 0)
- (0,1) → 1 y (1,0) → 1 (clase 1)
No existe ninguna linea recta que separe las clases 0 y 1. Esta limitacion, demostrada por Minsky y Papert (1969), casi mato el campo de redes neuronales por decadas.
Experimentos guiados
Cada experimento revela un aspecto del aprendizaje del perceptron.
Aprendiendo AND y OR
Hipotesis: El perceptron puede aprender las funciones logicas AND y OR porque son linealmente separables.
- Coloca puntos para la funcion AND: (0,0)→azul, (0,1)→azul, (1,0)→azul, (1,1)→rojo
- Entrena el perceptron — observa cuantas epocas toma
- Verifica que la linea separa correctamente
- Ahora reconfigura para OR: solo (0,0)→azul, resto→rojo
- Compara: cual es mas facil de separar?
AND requiere que la linea este cerca de la esquina (1,1). OR requiere que este cerca de (0,0). Ambas son separables, pero las lineas optimas son muy diferentes.
El fracaso con XOR
Hipotesis: El perceptron nunca convergera para XOR porque ninguna linea puede separar las clases.
- Coloca los 4 puntos XOR: (0,0)→azul, (1,1)→azul, (0,1)→rojo, (1,0)→rojo
- Entrena el perceptron durante 100+ epocas
- Observa como la linea oscila sin converger
- Detente y analiza: que puntos estan siempre mal clasificados?
- Dibuja mentalmente: existe alguna linea que funcione?
El perceptron entra en un ciclo: corrige un error, causa otro. Los puntos diagonalmente opuestos estan en la misma clase, pero no son "vecinos" — imposible de separar linealmente.
El efecto del learning rate
Hipotesis: Un learning rate muy alto causa oscilaciones, uno muy bajo hace la convergencia lenta, pero ambos eventualmente convergen si los datos son separables.
- Crea un dataset linealmente separable (ej: dos clusters alejados)
- Entrena con learning rate = 0.01 — cuenta epocas
- Reinicia y entrena con learning rate = 1.0
- Observa: cual converge mas rapido? cual oscila mas?
- Prueba learning rate = 0.001 — que pasa?
El learning rate es un hiperparametro. No se aprende de los datos — tu lo eliges. Este balance entre velocidad y estabilidad aparece en todo machine learning.
Regla practica: Empieza con α=0.1. Si oscila, reduce. Si es muy lento, aumenta.
El perceptron en contexto
La neurona artificial conecta con modelos de toda la ciencia.
El perceptron es una simplificacion extrema de la neurona real. Las dendritas reciben senales (entradas), el soma las integra (suma ponderada), y el axon dispara si supera el umbral (funcion signo). El modelo de Hodgkin-Huxley captura la dinamica real; el perceptron captura la esencia.
Simulacion relacionada: Neurona — potencial de accion con ecuaciones diferenciales.
Un perceptron puede implementar AND, OR y NOT pero no XOR. Las compuertas logicas son "perceptrones fijos" — no aprenden, estan pre-programados. La equivalencia revela que el perceptron tiene el mismo poder expresivo que los circuitos sin memoria.
Simulacion relacionada: Logic Gates — construye AND y OR con compuertas, luego comparalos con el perceptron.
El perceptron ajusta pesos basandose en errores — retroalimentacion negativa. La seleccion natural "ajusta" genotipos basandose en fitness. Ambos son algoritmos de optimizacion iterativa: probar, evaluar, corregir. El algoritmo genetico es la version estocastica y paralela del perceptron.
Simulacion relacionada: Algoritmo Genetico — optimizacion por seleccion.
Cuando un sistema quimico en equilibrio es perturbado, se ajusta para contrarrestar la perturbacion. El perceptron hace lo mismo: un error causa un ajuste que reduce el error. Ambos son sistemas con realimentacion negativa que buscan un punto estable.
Simulacion relacionada: Le Chatelier — equilibrio quimico como optimizacion.
Donde falla el perceptron
- Solo clasificacion binaria: Para multiples clases, necesitas varios perceptrones (one-vs-all) o softmax.
- Solo fronteras lineales: No puede aprender curvas, circulos o regiones desconectadas. XOR es el caso canonico.
- Sin margen: Encuentra alguna linea separadora, no la mejor. SVM optimiza el margen.
- Sensible a outliers: Un punto mal etiquetado puede distorsionar toda la frontera.
La solucion historica: Redes multicapa (MLP) con backpropagation (1986) resolvieron XOR y mucho mas. Cada capa agrega no-linealidad, permitiendo fronteras arbitrariamente complejas.
Del hype al invierno y de vuelta
- 1943: McCulloch-Pitts proponen el modelo de neurona formal
- 1957: Rosenblatt inventa el perceptron. Gran entusiasmo.
- 1969: Minsky y Papert publican "Perceptrons". Muestran XOR.
- 1970s-80s: "Invierno de la IA". Poco financiamiento.
- 1986: Rumelhart et al. popularizan backpropagation.
- 2012: AlexNet. Deep learning explota. Segundo verano.
El perceptron es ahora el "Hello World" del machine learning: simple, instructivo, y punto de partida para todo lo demas.
Preguntas para reflexionar
- El perceptron ajusta pesos cuando se equivoca. Que pasaria si tambien ajustara cuando acierta (refuerzo positivo)?
- XOR requiere al menos 2 perceptrones en una capa oculta. Como se conectarian para resolver el problema?
- El teorema de convergencia garantiza que el perceptron encuentra una solucion, pero no la "mejor". Como definirias "mejor"?
- Las neuronas biologicas tienen miles de sinapsis y dinamicas temporales. Que simplificaciones hace el perceptron y que se pierde?