
Su sistema inmunológico almacena información sobre las amenazas que ha enfrentado durante toda su vida: un Rolodex biológico de los malos. A menudo, los perpetradores son virus y bacterias que ha derrotado; otros son agentes encubiertos, como las vacunas que se administran para desencadenar respuestas inmunitarias protectoras o incluso pistas falsas en forma de tejido sano atrapado en el fuego cruzado inmunológico.
Por Krista Conger, Universidad de Stanford
Ahora, investigadores de Stanford Medicine han ideado una forma de extraer información de esta rica base de datos interna para diagnosticar enfermedades tan diversas como la diabetes o las respuestas a la COVID-19 a las vacunas contra la gripe. Aunque prevén que el enfoque sea una forma de detectar múltiples enfermedades simultáneamente, la técnica basada en aprendizaje automático también se puede optimizar para detectar enfermedades autoinmunes complejas y difíciles de diagnosticar, como el lupus.
En un estudio de casi 600 personas (algunas sanas, otras con infecciones como COVID-19 o enfermedades autoinmunes como lupus y diabetes tipo 1), el algoritmo que desarrollaron los investigadores, llamado Mal-ID para aprendizaje automático para diagnóstico inmunológico, tuvo un éxito notable al identificar quién tenía qué basándose únicamente en la secuencia y las estructuras de sus receptores de células B y T.
«Las herramientas de diagnóstico que utilizamos hoy en día no hacen mucho uso del registro interno del sistema inmunológico sobre las enfermedades que ha detectado», dijo el investigador postdoctoral Maxim Zaslavsky, Ph.D. «Pero nuestro sistema inmunológico vigila constantemente nuestros cuerpos con células B y T, que actúan como sensores de amenazas moleculares.
«La combinación de información de los dos brazos principales del sistema inmunológico nos da una imagen más completa de la respuesta del sistema inmunológico a la enfermedad y de las vías de autoinmunidad y respuesta a las vacunas».
Zaslavsky y Erin Craig son los autores principales del estudio publicado el 21 de febrero en Science . El profesor de patología Scott Boyd, MD, Ph.D., y el profesor asociado de genética y ciencias de la computación Anshul Kundaje, Ph.D., son los autores principales de la investigación.
Además de ayudar al diagnóstico de enfermedades complicadas, Mal-ID podría rastrear las respuestas a las inmunoterapias contra el cáncer y subcategorizar los estados de la enfermedad de maneras que podrían ayudar a guiar la toma de decisiones clínicas, creen los investigadores.
«Varias de las enfermedades que estábamos analizando podrían ser significativamente diferentes a nivel biológico o molecular, pero las describimos con términos generales que no necesariamente tienen en cuenta la respuesta especializada del sistema inmunológico», dijo Boyd, quien es codirector del Centro Sean N. Parker para la Investigación de Alergias y Asma.
«Mal-ID podría ayudarnos a identificar subcategorías de condiciones particulares que podrían darnos pistas sobre qué tipo de tratamiento sería más útil para la enfermedad de alguien».
Descifrando el lenguaje de las proteínas
En un enfoque de seguimiento de puntos, los científicos utilizaron técnicas de aprendizaje automático basadas en grandes modelos de lenguaje (los que sustentan ChatGPT) para centrarse en los receptores de reconocimiento de amenazas en las células inmunes llamadas células T y los extremos comerciales de los anticuerpos (también llamados receptores) producidos por otro tipo de células inmunes llamadas células B.
Estos modelos de lenguaje buscan patrones en grandes conjuntos de datos, como textos de libros y sitios web. Con suficiente entrenamiento, pueden usar estos patrones para predecir la siguiente palabra en una oración, entre otras tareas.
En el caso de este estudio, los científicos aplicaron un gran modelo de lenguaje entrenado en proteínas, alimentaron el modelo con millones de secuencias de receptores de células B y T, y lo usaron para agrupar receptores que comparten características clave (según lo determinado por el modelo) que podrían sugerir preferencias de unión similares.
Hacerlo podría darnos una idea de qué factores desencadenantes hacen que el sistema inmunológico de una persona se movilice, produciendo un ejército de células T, células B y otras células inmunes equipadas para atacar amenazas reales y percibidas.
«Las secuencias de estos receptores inmunitarios son muy variables», dijo Zaslavsky. «Esta variabilidad ayuda al sistema inmunitario a detectar prácticamente cualquier cosa, pero también nos dificulta interpretar a qué se dirigen estas células inmunitarias».
«En este estudio, nos preguntamos si podríamos descifrar el registro del sistema inmunológico de estos encuentros con enfermedades interpretando esta información altamente variable con algunas nuevas técnicas de aprendizaje automático. Esta idea no es nueva, pero nos faltaba una forma sólida de capturar los patrones en estas secuencias de receptores inmunológicos que indican a qué está respondiendo el sistema inmunológico».
Las células B y las células T representan dos brazos separados del sistema inmunológico, pero la forma en que producen las proteínas que reconocen los agentes infecciosos o las células que deben eliminarse es similar. En resumen, segmentos específicos de ADN en los genomas de las células se mezclan y combinan aleatoriamente (a veces con una pizca adicional de mutaciones extra para darle un toque más interesante) para crear regiones codificantes que, cuando se ensamblan las estructuras proteínicas, pueden generar billones de anticuerpos únicos (en el caso de las células B) o receptores de superficie celular (en el caso de las células T).
La aleatoriedad de este proceso significa que estos anticuerpos o receptores de células T no están diseñados para reconocer ninguna molécula específica en la superficie de los invasores, pero su vertiginosa diversidad garantiza que al menos unos pocos se unirán a casi cualquier estructura extraña. (La autoinmunidad, o un ataque del sistema inmunológico a los propios tejidos del cuerpo, se evita normalmente, aunque no siempre, mediante un proceso de acondicionamiento por el que pasan las células T y B al principio del desarrollo que elimina las células problemáticas).
El acto de unión estimula a la célula a producir muchas más de sí misma para montar un ataque a gran escala; la consiguiente mayor prevalencia de células con receptores que coinciden con estructuras tridimensionales similares proporciona una huella biológica de las enfermedades o afecciones que el sistema inmunológico ha estado atacando.
Para probar su teoría, los investigadores reunieron un conjunto de datos de más de 16 millones de secuencias de receptores de células B y más de 25 millones de secuencias de receptores de células T de 593 personas con uno de seis estados inmunológicos diferentes: controles sanos, personas infectadas con SARS-CoV-2 (el virus que causa COVID-19) o con VIH, personas que habían recibido recientemente una vacuna contra la gripe y personas con lupus o diabetes tipo 1 (ambas enfermedades autoinmunes). Zaslavsky y sus colegas utilizaron luego su enfoque de aprendizaje automático para buscar puntos en común entre personas con la misma afección.
«Comparamos las frecuencias de uso de los segmentos, las secuencias de aminoácidos de las proteínas resultantes y la forma en que el modelo representaba el ‘lenguaje’ de los receptores, entre otras características», dijo Boyd.
Células T y B juntas
Los investigadores descubrieron que las secuencias de los receptores de células T proporcionaban la información más relevante sobre el lupus y la diabetes tipo 1, mientras que las secuencias de los receptores de células B eran las más informativas para identificar la infección por VIH o SARS-CoV-2 o la vacunación reciente contra la gripe. Sin embargo, en todos los casos, la combinación de los resultados de las células T y B aumentó la capacidad del algoritmo para categorizar con precisión a las personas según su estado de enfermedad, independientemente del sexo, la edad o la raza.
«A veces, los métodos tradicionales tienen dificultades para encontrar grupos de receptores que parezcan diferentes pero reconozcan los mismos objetivos», dijo Zaslavsky. «Pero aquí es donde sobresalen los modelos lingüísticos de gran tamaño. Pueden aprender la gramática y las pistas específicas del contexto del sistema inmunológico, al igual que han dominado la gramática y el contexto del inglés. De esta manera, Mal-ID puede generar una comprensión interna de estas secuencias que nos brinda información que no teníamos antes».
Aunque los investigadores desarrollaron Mal-ID en tan solo seis estados inmunológicos, prevén que el algoritmo podría adaptarse rápidamente para identificar firmas inmunológicas específicas de muchas otras enfermedades y afecciones. Están particularmente interesados en enfermedades autoinmunes como el lupus, que pueden ser difíciles de diagnosticar y tratar de manera eficaz.
«Los pacientes pueden pasar años luchando antes de recibir un diagnóstico, e incluso entonces, los nombres que les damos a estas enfermedades son como términos generales que pasan por alto la diversidad biológica detrás de enfermedades complejas», dijo Zaslavsky. «Si podemos usar Mal-ID para desentrañar la heterogeneidad detrás del lupus o la artritis reumatoide, eso tendría un gran impacto clínico».
Mal-ID también puede ayudar a los investigadores a identificar nuevos objetivos terapéuticos para muchas afecciones.
«Lo bueno de este enfoque es que funciona incluso si al principio no sabemos con certeza qué moléculas o estructuras ataca el sistema inmunitario «, afirmó Boyd. «Podemos obtener la información simplemente observando patrones similares en la forma en que responden las personas. Y, al investigar más a fondo estas respuestas, podemos descubrir nuevas direcciones para la investigación y las terapias».
Más información: Maxim E. Zaslavsky et al, Diagnóstico de enfermedades mediante aprendizaje automático de secuencias de receptores de células B y T, Science (2025). DOI: 10.1126/science.adp2407
