Utilizando este modelo, los investigadores podrán identificar fármacos de anticuerpos que puedan atacar una variedad de enfermedades infecciosas.
Anne Trafton | Noticias del MIT
Al adaptar modelos de inteligencia artificial, conocidos como modelos de lenguaje a gran escala, los investigadores han logrado grandes avances en su capacidad para predecir la estructura de una proteína a partir de su secuencia. Sin embargo, este enfoque no ha tenido tanto éxito en el caso de los anticuerpos, en parte debido a la hipervariabilidad observada en este tipo de proteínas.
Para superar esa limitación, los investigadores del MIT han desarrollado una técnica computacional que permite que los modelos de lenguaje de gran tamaño predigan las estructuras de los anticuerpos con mayor precisión. Su trabajo podría permitir a los investigadores examinar millones de posibles anticuerpos para identificar aquellos que podrían usarse para tratar el SARS-CoV-2 y otras enfermedades infecciosas.
“Nuestro método nos permite escalar, mientras que otros no lo hacen, hasta el punto en que realmente podemos encontrar algunas agujas en el pajar”, dice Bonnie Berger, profesora de Matemáticas de la Cátedra Simons, directora del grupo de Computación y Biología del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y una de las autoras principales del nuevo estudio. “Si pudiéramos ayudar a evitar que las compañías farmacéuticas realicen ensayos clínicos con el producto equivocado, realmente ahorraríamos mucho dinero”.
La técnica, que se centra en modelar las regiones hipervariables de los anticuerpos, también tiene potencial para analizar repertorios completos de anticuerpos de personas individuales. Esto podría ser útil para estudiar la respuesta inmunitaria de personas que responden de manera excepcional a enfermedades como el VIH, para ayudar a averiguar por qué sus anticuerpos combaten el virus de manera tan eficaz.
Bryan Bryson, profesor asociado de ingeniería biológica en el MIT y miembro del Instituto Ragon del MGH, el MIT y Harvard, también es uno de los autores principales del artículo, que aparece esta semana en las Actas de la Academia Nacional de Ciencias . Rohit Singh, ex científico investigador de CSAIL que ahora es profesor adjunto de bioestadística y bioinformática y biología celular en la Universidad de Duke, y Chiho Im ’22 son los autores principales del artículo. Investigadores de Sanofi y ETH Zurich también contribuyeron a la investigación.
Modelado de hipervariabilidad
Las proteínas están formadas por largas cadenas de aminoácidos que pueden plegarse para formar una enorme cantidad de estructuras posibles. En los últimos años, predecir estas estructuras se ha vuelto mucho más fácil gracias a programas de inteligencia artificial como AlphaFold. Muchos de estos programas, como ESMFold y OmegaFold, se basan en grandes modelos de lenguaje, que originalmente se desarrollaron para analizar grandes cantidades de texto, lo que les permite aprender a predecir la siguiente palabra de una secuencia. Este mismo enfoque puede funcionar para las secuencias de proteínas, ya que aprenden qué estructuras proteínicas tienen más probabilidades de formarse a partir de diferentes patrones de aminoácidos.
Sin embargo, esta técnica no siempre funciona con los anticuerpos, especialmente en un segmento del anticuerpo conocido como región hipervariable. Los anticuerpos suelen tener una estructura en forma de Y, y estas regiones hipervariables se encuentran en las puntas de la Y, donde detectan y se unen a las proteínas extrañas, también conocidas como antígenos. La parte inferior de la Y proporciona soporte estructural y ayuda a los anticuerpos a interactuar con las células inmunitarias.
Las regiones hipervariables varían en longitud, pero por lo general contienen menos de 40 aminoácidos. Se ha estimado que el sistema inmunológico humano puede producir hasta un trillón de anticuerpos diferentes modificando la secuencia de estos aminoácidos, lo que ayuda a garantizar que el cuerpo pueda responder a una gran variedad de antígenos potenciales. Esas secuencias no están limitadas evolutivamente de la misma manera que otras secuencias de proteínas, por lo que es difícil para los modelos de lenguaje grandes aprender a predecir sus estructuras con precisión.
“Parte de la razón por la que los modelos lingüísticos pueden predecir bien la estructura de las proteínas es que la evolución restringe estas secuencias de manera que el modelo puede descifrar lo que esas restricciones habrían significado”, afirma Singh. “Es similar a aprender las reglas de la gramática observando el contexto de las palabras en una oración, lo que permite averiguar lo que significa”.
Para modelar esas regiones hipervariables, los investigadores crearon dos módulos que se basan en modelos de lenguaje de proteínas existentes. Uno de estos módulos se entrenó con secuencias hipervariables de alrededor de 3000 estructuras de anticuerpos encontradas en el Protein Data Bank (PDB), lo que le permitió aprender qué secuencias tienden a generar estructuras similares. El otro módulo se entrenó con datos que correlacionan alrededor de 3700 secuencias de anticuerpos con la fuerza con la que se unen a tres antígenos diferentes.
El modelo computacional resultante, conocido como AbMap, puede predecir las estructuras de los anticuerpos y la fuerza de unión en función de sus secuencias de aminoácidos. Para demostrar la utilidad de este modelo, los investigadores lo utilizaron para predecir las estructuras de los anticuerpos que neutralizarían fuertemente la proteína de la espícula del virus SARS-CoV-2.
Los investigadores comenzaron con un conjunto de anticuerpos que se había previsto que se unirían a este objetivo y luego generaron millones de variantes modificando las regiones hipervariables. Su modelo pudo identificar las estructuras de anticuerpos que serían las más exitosas, con mucha más precisión que los modelos tradicionales de estructura de proteínas basados en grandes modelos de lenguaje.
Luego, los investigadores dieron un paso más y agruparon los anticuerpos en grupos que tenían estructuras similares. Eligieron anticuerpos de cada uno de estos grupos para realizar pruebas experimentales, en colaboración con investigadores de Sanofi. Esos experimentos descubrieron que el 82 por ciento de estos anticuerpos tenían una mayor fuerza de unión que los anticuerpos originales que se utilizaron en el modelo.
Identificar una variedad de buenos candidatos al principio del proceso de desarrollo podría ayudar a las compañías farmacéuticas a evitar gastar mucho dinero en probar candidatos que terminan fallando más adelante, dicen los investigadores.
“No quieren poner todos los huevos en una sola canasta”, dice Singh. “No quieren decir: voy a tomar este anticuerpo y lo voy a someter a ensayos preclínicos, y luego resulta ser tóxico. Prefieren tener un conjunto de buenas posibilidades y probarlas todas, de modo que tengan algunas opciones si una sale mal”.
Comparación de anticuerpos
Con esta técnica, los investigadores también podrían intentar responder algunas preguntas que se plantean desde hace tiempo sobre por qué las distintas personas responden a la infección de manera diferente. Por ejemplo, ¿por qué algunas personas desarrollan formas mucho más graves de COVID-19 y por qué algunas personas expuestas al VIH nunca se infectan?
Los científicos han intentado responder a estas preguntas mediante la secuenciación de ARN de células inmunitarias de individuos y su comparación, un proceso conocido como análisis del repertorio de anticuerpos. Trabajos anteriores han demostrado que los repertorios de anticuerpos de dos personas diferentes pueden superponerse en tan solo un 10 por ciento. Sin embargo, la secuenciación no ofrece una imagen tan completa del rendimiento de los anticuerpos como la información estructural, porque dos anticuerpos que tienen secuencias diferentes pueden tener estructuras y funciones similares.
El nuevo modelo puede ayudar a resolver ese problema generando rápidamente estructuras para todos los anticuerpos que se encuentran en un individuo. En este estudio, los investigadores demostraron que cuando se tiene en cuenta la estructura, hay una superposición mucho mayor entre individuos que el 10 por ciento observado en las comparaciones de secuencias. Ahora planean investigar más a fondo cómo estas estructuras pueden contribuir a la respuesta inmunitaria general del cuerpo contra un patógeno en particular.
“Aquí es donde un modelo de lenguaje encaja perfectamente porque tiene la escalabilidad del análisis basado en secuencias, pero se acerca a la precisión del análisis basado en estructuras”, dice Singh.
La investigación fue financiada por Sanofi y la Clínica Abdul Latif Jameel para el aprendizaje automático en salud.