
Ann Johnson quedó paralizada después de un derrame cerebral en el tronco encefálico a los 30 años. Como participante en un ensayo clínico dirigido por investigadores de UC Berkeley y UC San Francisco, finalmente volvió a escuchar su voz.
por Anne Brice, Universidad de California, Berkeley
A los 30 años, Ann Johnson tenía mucho que hacer. Enseñó matemáticas y educación física en un instituto de Saskatchewan, Canadá, donde también entrenó voleibol y baloncesto. Un año antes, había tenido un bebé con su nuevo marido y había pronunciado un alegre discurso de 15 minutos en su boda.
Sin embargo, todo cambió un día soleado de 2005, cuando Johnson sufrió un derrame cerebral en el tronco encefálico mientras jugaba voleibol con amigos. El derrame le provocó una parálisis extrema y perdió la capacidad de hablar y mover cualquier músculo del cuerpo.
Sufría lo que comúnmente se conoce como síndrome de enclaustramiento, una afección poco común que produce una parálisis casi total y la incapacidad de comunicarse con naturalidad. Intentaba hablar, pero no movía la boca ni emitía ningún sonido. Suele estar causada por un derrame cerebral o por el trastorno neurológico ELA.
Pasaron dieciocho años hasta que volvió a oír su voz.
Ese momento llegó durante un ensayo clínico realizado por investigadores de la Universidad de California en Berkeley y la Universidad de California en San Francisco, cuyo objetivo era restaurar la capacidad de las personas para comunicarse mediante una interfaz cerebro-computadora. Según los investigadores, esta tecnología tiene un enorme potencial para hacer que la fuerza laboral y el mundo sean más accesibles para personas como Johnson.
Modelando el proceso del habla
En 2015, Gopala Anumanchipalli comenzó a trabajar como investigador postdoctoral con Edward Chang, neurocirujano de la UCSF, para comprender cómo se produce el habla en el cerebro. Querían saber qué nos permite pasar de pensar algo a decirlo en voz alta.
«Pudimos obtener una buena idea de la parte del cerebro que es realmente responsable de la producción del habla», dijo Anumanchipalli, ahora profesor asistente de ingeniería eléctrica y ciencias de la computación en UC Berkeley.
A partir de ahí, descubrieron cómo modelar computacionalmente el proceso para poder sintetizar a partir de la actividad cerebral lo que alguien está tratando de decir.
En esencia, determinaron cómo acceder a la fuente del conocimiento (el cerebro) y luego evitar lo que está dañado (la conexión con el cuerpo) y restaurar lo perdido. En este caso, utilizan una neuroprótesis que lee desde la parte del cerebro que procesa el habla.
Comenzaron el ensayo clínico en 2020 y Johnson se unió como tercer participante en 2022.
Aunque la población de personas que pierden la capacidad de hablar de esta manera es relativamente pequeña, dicen los investigadores, se encuentran entre los más vulnerables en términos de calidad de vida.
Desde su derrame cerebral, Johnson ha recuperado parte del control muscular. Ahora tiene movimiento completo del cuello y puede reír, llorar y sonreír. Se comunica principalmente mediante un sistema de seguimiento ocular que le permite seleccionar letras para deletrear palabras en la pantalla de una computadora. Es un proceso lento; solo puede escribir unas 14 palabras por minuto, en comparación con el habla conversacional, que se acerca a las 160 palabras por minuto.
Así que cuando finalmente escuchó sus pensamientos en voz alta por primera vez en casi dos décadas, fue una emoción profundamente profunda para ella.
«No queríamos leer su mente»
«¿Qué te parece mi voz artificial?», preguntó Johnson, sentada junto a su esposo durante el juicio. «Cuéntame sobre ti. Hoy estoy bien».
El estudiante de doctorado Kaylo Littlejohn, codirector del estudio junto con Anumanchipalli y Chang, recuerda muy bien el momento. Como investigador del Berkeley Speech Group, parte del Laboratorio de Investigación de IA de Berkeley, dirigió las iniciativas de modelado de IA del estudio, entrenando a los decodificadores para que el modelo representara con precisión y eficacia la actividad cerebral de Johnson.
Para brindarle a Johnson una experiencia corporal, los investigadores le pidieron que eligiera entre una selección de avatares y usaron una grabación de su discurso de boda para recrear su voz. Un implante conectado a una computadora cercana se colocó sobre la región de su cerebro que procesa el habla, actuando como una especie de decodificador de pensamientos. Luego le mostraron frases y le pidieron que intentara decirlas.
«No puede porque tiene parálisis, pero esas señales siguen llegando desde su cerebro, y el dispositivo de registro neuronal las detecta», explicó Littlejohn. El dispositivo de decodificación neuronal las envía a la computadora donde reside el modelo de IA, donde se traducen. «Al igual que Siri traduce tu voz a texto, este modelo de IA traduce la actividad cerebral en texto, audio o animación facial», explicó.
Si bien el modelo puede percibir con fiabilidad la intención de hablar y luego traducir lo que se intenta decir, no puede leer los pensamientos erráticos de una persona. Solo funciona cuando alguien hace un esfuerzo coordinado por decir algo.
«No queríamos leerle la mente», dijo Anumanchipalli. «Realmente queríamos darle la capacidad de actuar. En algunas sesiones en las que no hace nada, tenemos el decodificador en funcionamiento, y no hace nada porque no intenta decir nada. Solo cuando intenta decir algo oímos un sonido o una orden de acción».
Pero ¿qué tan realista es realmente? ¿Suena y se ve igual que Johnson? ¿O es más rudimentario y robótico? La respuesta, al menos por ahora, está en un punto intermedio.
Neuroprótesis plug-and-play y clones digitales
Al ver un video de Johnson hablando con la interfaz cerebro-computadora desde su incorporación al ensayo clínico, se puede oír su voz uniendo palabras con un tono cantarín, pero no es fluida. Además, hay un retraso de ocho segundos entre la indicación y el momento en que el avatar habla.
Pero el pasado marzo, el equipo publicó una nueva investigación en Nature Neuroscience que redujo drásticamente este retraso. En 2023, el decodificador utilizaba una arquitectura secuencia a secuencia, que requería que el usuario intentara escribir una frase completa antes de que el modelo pudiera convertirla en sonido o movimiento. Ahora, el decodificador utiliza una arquitectura de streaming, que permite a los modelos escuchar activamente y traducir la actividad cerebral a sonido en tiempo real, con tan solo un segundo de retraso.
En el estudio de 2023, el avatar mueve la boca cuando Johnson habla y realiza pequeños movimientos cuando se le pide que haga una mueca, como sonreír o fruncir el ceño. Aunque el avatar no se utilizó en el estudio de marzo, los investigadores creen que la arquitectura de streaming también funcionará con él.
El avatar se parece un poco a Johnson, pero no se parece mucho. Sin embargo, Anumanchipalli afirmó que en un futuro próximo podrían surgir avatares fotorrealistas en 3D.
Anumanchipalli afirmó que podría suceder en tan solo unos años, pero es necesario investigar en diversas áreas. «No tenemos modelos listos para usar ahora», afirmó. «Por lo tanto, es necesario desarrollar la ciencia, la tecnología y la aplicación clínica; todos juntos para que esto sea posible».
“Las discapacidades no tienen por qué detenernos ni ralentizarnos”
En febrero de 2024, a Johnson le retiraron el implante por un motivo ajeno al ensayo. Sin embargo, sigue comunicándose con el equipo de investigación. Envía correos electrónicos elocuentes usando su tecnología actual sobre lo que sintió durante el ensayo y lo que preferiría ver en futuras iteraciones.
Les contó que disfrutaba escuchando su propia voz, y que el método de síntesis de transmisión le hacía sentir en control. También quiere que los implantes sean inalámbricos, en lugar de estar conectados a una computadora, algo en lo que está trabajando el equipo de investigación.
«Pensando más en el futuro, ¿cómo imaginas que funcionará?», le pregunté a Anumanchipalli. «¿Te imaginas a una persona, en tiempo real, comunicando exactamente lo que quiere con quienes la rodean?»
«Es difícil de predecir», dijo riendo. «Pero lo que veo son innovaciones que nos permiten que las personas tengan la mejor calidad de vida. Si eso significa que tienen una versión digital de sí mismos comunicándose por ellos, eso es lo que necesitan.
«Necesitamos que las neuroprótesis sean fáciles de instalar, para que se conviertan en un estándar de atención y no en un experimento de investigación», continuó. «Ahí es donde debemos estar».
Johnson espera algún día convertirse en consejera en un centro de rehabilitación física, idealmente usando una neuroprótesis para hablar con sus clientes. «Quiero que los pacientes me vean y sepan que sus vidas no han terminado», escribió en respuesta a la pregunta de un reportero de la UCSF. «Quiero mostrarles que las discapacidades no tienen por qué detenernos ni frenarnos».
