
Neurocientíficos del Sainsbury Wellcome Center (SWC) de la UCL han descubierto que el cerebro utiliza un sistema dual para aprender mediante ensayo y error. Esta es la primera vez que se identifica un segundo sistema de aprendizaje, lo que podría ayudar a explicar cómo se forman los hábitos y proporcionar una base científica para nuevas estrategias que aborden afecciones relacionadas con el aprendizaje habitual, como las adicciones y las compulsiones.
Publicado en Nature , el estudio en ratones también podría tener implicaciones para el desarrollo de terapias para el párkinson. El estudio se titula «Los errores de predicción de la acción dopaminérgica sirven como una señal de enseñanza sin valor».
En esencia, hemos descubierto un mecanismo que creemos que es responsable de los hábitos. Una vez que se desarrolla una preferencia por una acción determinada, se puede obviar el sistema basado en valores y confiar únicamente en la política predeterminada de lo que se ha hecho en el pasado. Esto podría permitir liberar recursos cognitivos para tomar decisiones basadas en valores sobre otras cosas, explicó el Dr. Marcus Stephenson-Jones, líder de grupo en SWC y autor principal del estudio.
Los investigadores descubrieron una señal de dopamina en el cerebro que actúa como un tipo de señal de enseñanza diferente a la conocida hasta ahora.
Ya se sabía que las señales de dopamina en el cerebro generan errores de predicción de recompensa (RPE), que indican al animal si un resultado real es mejor o peor de lo esperado. En este nuevo estudio, los científicos descubrieron que, paralelamente al RPE, existe una señal de dopamina adicional, denominada error de predicción de la acción (APE), que actualiza la frecuencia con la que se realiza una acción.
Estas dos señales de enseñanza brindan a los animales dos formas diferentes de aprender a elegir: aprender a elegir la opción más valiosa o la opción más frecuente.
Imagina ir a tu sandwichería local. La primera vez, te tomas tu tiempo para elegir un sándwich y, dependiendo del que elijas, puede que te guste o no. Pero si vuelves a la sandwichería muchas veces, ya no pierdes tiempo preguntándote qué sándwich elegir y, en cambio, empiezas a elegir el que te gusta por defecto. Creemos que es la señal de dopamina APE en el cerebro la que te permite almacenar esta política predeterminada», explicó la Dra. Stephenson-Jones.
El sistema de aprendizaje recién descubierto proporciona una forma mucho más sencilla de almacenar información que tener que comparar directamente el valor de diferentes opciones.
Esto podría liberar el cerebro para realizar múltiples tareas. Por ejemplo, una vez que hayas aprendido a conducir, también podrás conversar con alguien durante el viaje. Mientras tu sistema por defecto realiza todas las tareas repetitivas para conducir el coche, tu sistema basado en valores puede decidir de qué hablar.
Investigaciones previas descubrieron que las neuronas dopaminérgicas necesarias para el aprendizaje residen en tres áreas del mesencéfalo: el área tegmental ventral, la pars compacta de la sustancia negra y la pars lateral de la sustancia negra. Si bien algunos estudios demostraron que estas neuronas participaban en la codificación de la recompensa, investigaciones anteriores hallaron que la mitad de estas neuronas codificaban el movimiento, pero la razón seguía siendo un misterio.
Las neuronas del epitelio pigmentario de la piel (RPE) se proyectan a todas las áreas del cuerpo estriado, excepto a una, llamada la cola. Mientras que las neuronas específicas del movimiento se proyectan a todas las áreas excepto al núcleo accumbens. Esto significa que el núcleo accumbens se encarga exclusivamente de la señal de recompensa, mientras que la cola se encarga exclusivamente del movimiento.
Al investigar la cola del cuerpo estriado, el equipo logró aislar las neuronas del movimiento y descubrir su función. Para comprobarlo, los investigadores utilizaron una prueba de discriminación auditiva en ratones, desarrollada originalmente por científicos del Laboratorio Cold Spring Harbor.

Los primeros coautores, la Dra. Francesca Greenstreet, el Dr. Hernando Martínez Vergara y la Dra. Yvonne Johansson, utilizaron un sensor de dopamina codificado genéticamente, que mostró que la liberación de dopamina en esta área no estaba relacionada con la recompensa, pero sí con el movimiento.
«Cuando lesionamos la cola del cuerpo estriado, encontramos un patrón muy característico», explicó la Dra. Stephenson-Jones.
Observamos que los ratones lesionados y los ratones de control aprenden inicialmente de la misma manera, pero una vez que alcanzan alrededor del 60-70% de rendimiento, es decir, cuando desarrollan una preferencia (por ejemplo, para un tono alto ir a la izquierda, para un tono bajo ir a la derecha), entonces los ratones de control aprenden rápidamente y desarrollan un rendimiento experto, mientras que los ratones lesionados solo continúan aprendiendo de manera lineal.
«Esto se debe a que los ratones lesionados solo pueden utilizar el EPR, mientras que los ratones de control tienen dos sistemas de aprendizaje, el EPR y el EPA, que contribuyen a la elección».
Para comprender mejor esto, el equipo silenció la cola del cuerpo estriado en ratones expertos y descubrió que esto tuvo un efecto catastrófico en su desempeño en la tarea. Esto demostró que, mientras que en el aprendizaje temprano los animales forman una preferencia utilizando el sistema basado en valores basado en el EPR, en el aprendizaje tardío cambian a utilizar exclusivamente el EPA en la cola del cuerpo estriado para almacenar estas asociaciones estables e impulsar su elección.
El equipo también utilizó un extenso modelado computacional, dirigido por la Dra. Claudia Clopath, para comprender cómo los dos sistemas, RPE y APE, aprenden juntos.
Estos hallazgos dan una pista de por qué es tan difícil abandonar los malos hábitos y por qué sustituir una acción por otra puede ser la mejor estrategia. Si se sustituye una acción con la suficiente constancia, como masticar chicle de nicotina en lugar de fumar, el sistema APE podría tomar el control y formar un nuevo hábito sobre el anterior.
«Ahora que sabemos que este segundo sistema de aprendizaje existe en el cerebro, contamos con una base científica para desarrollar nuevas estrategias para superar los malos hábitos. Hasta ahora, la mayoría de las investigaciones sobre adicciones y compulsiones se han centrado en el núcleo accumbens. Nuestra investigación ha abierto un nuevo camino para buscar posibles dianas terapéuticas en el cerebro», comentó la Dra. Stephenson-Jones.
Esta investigación también tiene posibles implicaciones para el párkinson, que se sabe que es causado por la muerte de las neuronas dopaminérgicas del mesencéfalo, específicamente en la pars compacta de la sustancia negra. Se ha demostrado que las células que mueren son las neuronas dopaminérgicas relacionadas con el movimiento , que podrían ser responsables de la codificación de la APE.
Esto puede explicar por qué las personas con Parkinson experimentan déficits al realizar conductas habituales como caminar, sin embargo, no experimentan déficits en conductas más flexibles como patinar sobre hielo.
De repente, ahora contamos con una teoría para el movimiento paradójico en el párkinson. Las neuronas relacionadas con el movimiento que mueren son las que impulsan el comportamiento habitual. Por lo tanto, el movimiento que utiliza el sistema habitual se ve afectado, pero el movimiento que utiliza el sistema flexible basado en valores funciona correctamente. Esto nos brinda una nueva perspectiva del cerebro y una nueva forma de abordar el párkinson, concluye la Dra. Stephenson-Jones.
El equipo de investigación está comprobando si el APE es realmente necesario para los hábitos. También están explorando qué se aprende exactamente en cada sistema y cómo ambos interactúan.
Más información: Los errores de predicción de la acción dopaminérgica sirven como una señal de enseñanza sin valor, Nature (2025). DOI: 10.1038/s41586-025-09008-9 . www.nature.com/articles/s41586-025-09008-9
Leyenda: La imagen muestra las dos regiones del cerebro inactivadas durante la tarea: el cuerpo estriado dorsomedial (DMS) y la cola del cuerpo estriado (TS). Crédito: Hernando Martínez Vergara.
