
Desde las diminutas ranas arbóreas hasta las imponentes secuoyas, hasta nosotros, el ADN impulsa toda la vida en la Tierra. Integrado en cada célula de cada organismo, el ADN actúa como una especie de manual de instrucciones biológicas, que contiene toda la información genética necesaria para la vida.
por Ty Burke, Universidad de California, Berkeley
Ese proceso comienza con la transcripción: el ADN copia parte de su código para producir ARN, un tipo de molécula que puede catalizar reacciones biológicas que expresan la información contenida en el ADN. En estas reacciones, se sintetizan proteínas y se convierten en células vivas. En conjunto, esto se conoce como el dogma central de la biología molecular: el ADN produce ARN, y el ARN produce proteínas.
Una sola cadena de ADN puede contener millones de pares de nucleótidos, los componentes moleculares que transportan la información genética . Y una sola cadena de ARN puede contener decenas de miles. Existen prácticamente innumerables maneras en que los nucleótidos pueden fusionarse para dar origen a la vida. Y la complejidad combinatoria es simplemente incomprensible para la mente humana. Pero ahí es donde entra la IA.
«El aprendizaje automático puede extraer patrones de orden superior a partir de conjuntos de datos masivos», afirma Patrick Hsu, profesor adjunto de bioingeniería. «La IA ya lo ha hecho en lenguaje natural , visión y robótica. Ahora, lo estamos haciendo en biología».
En febrero de 2025, Hsu y sus colaboradores lanzaron un modelo de aprendizaje automático entrenado con más de 9,3 billones de nucleótidos en el servidor de preimpresión bioRxiv . Denominado Evo 2, Hsu lo compara con un ChatGPT biológico capaz de analizar datos genéticos a gran escala. Ya es el modelo de IA más grande en biología, y algún día, Evo 2 podría diseñar nuevas herramientas y tratamientos biológicos.
«Actualmente, disponemos de una gran cantidad de datos observacionales», afirma. «Conocemos las correlaciones entre los genes y las enfermedades, pero aún desconocemos mucho sobre las relaciones causales. Contar con un método capaz de predecir la causa y el efecto sería realmente eficaz».
Este tipo de predicción es la visión a corto plazo para Evo 2. Hsu cita el ejemplo del gen BRCA1, un gen del cáncer de mama. Si una mujer presenta una mutación en el gen BRCA1 , su riesgo de padecer cáncer de mama a lo largo de su vida aumenta drásticamente. Más del 60 % de las mujeres con una mutación en el gen BRCA1 desarrollarán cáncer de mama en algún momento de su vida, en comparación con tan solo el 13 % del total de mujeres. Se sabe que algunas mutaciones del BRCA1 son patógenas, mientras que otras son benignas. Sin embargo, la mayoría de las mutaciones son variantes de significado desconocido; simplemente desconocemos su función.
Si se tiene una mutación patogénica, se realiza una mastectomía. Y si se tiene una mutación benigna, se realiza una mamografía anual. Pero ¿qué se hace si se tiene una variante de significado incierto?, pregunta Hsu. «Resulta que Evo 2 tiene una opinión al respecto, y el modelo es de vanguardia en la clasificación de la patogenicidad de las mutaciones del gen BRCA1. Logró una precisión superior al 90 % al predecir qué mutaciones son benignas y cuáles potencialmente patógenas».
Predicción de propiedades biológicas
Evo 2 es un producto de Arc Institute, una organización independiente sin fines de lucro del Área de la Bahía, cofundada por Hsu junto con la bioingeniera y neurocientífica Silvana Konermann. El instituto busca acelerar el progreso científico y profundizar nuestra comprensión de las causas profundas de las enfermedades, y reúne a destacados investigadores biomédicos de UC Berkeley, UCSF y Stanford.
El modelo de IA se basa en su predecesor, Evo 1, lanzado en 2024 y entrenado íntegramente con organismos unicelulares. Evo 2 lo supera con creces. El modelo se entrenó con una vasta colección de información biológica, que incluye más de 128.000 genomas completos y 9,3 billones de nucleótidos de 100.000 especies de todo el árbol de la vida, incluyendo bacterias, plantas y animales.
El ADN y el ARN están compuestos por cinco nucleótidos base: adenina (A), citosina (C), guanina (G), timina (T) y uracilo (U). El ADN contiene A, C, G y T, mientras que el ARN contiene A, C, G y U. Nuestro material genético está compuesto por estos nucleótidos en innumerables secuencias diferentes, y Evo 2 utiliza esta información para realizar predicciones probabilísticas sobre lo que es más probable que suceda a continuación dentro de estas secuencias.
El modelo utiliza principios similares a los que rigen modelos de lenguajes de gran tamaño conocidos, como ChatGPT de OpenAI o Claude de Anthropic. Para construir este modelo de vanguardia, los investigadores colaboraron con NVIDIA, fabricante líder de chips de IA.
«Un modelo de aprendizaje automático predice el siguiente token, un término que designa la unidad fundamental de datos que procesa un modelo», dice Hsu. «ChatGPT predice el siguiente carácter y la siguiente palabra. Si le pides que complete la frase ‘ser o no ser’… hay una probabilidad muy alta de que ‘esa es la pregunta’ venga después. Porque, Hamlet. Pero lo que sigue en una secuencia de nucleótidos es menos claro. Si te diera una secuencia como ‘G, T, G, C, A, T, C’, ¿predecirías que la siguiente sería ‘C’ o ‘G’? No tendrías ni idea, y yo tampoco. Pero un modelo de IA puede capturar propiedades biológicas complejas basándose únicamente en la variación de la secuencia».
Evo 2 es un modelo lingüístico de gran tamaño para un idioma que nunca se habla, solo se expresa físicamente, ya sea el crecimiento de un tumor canceroso o el color de los ojos de un bebé. Evo 2 puede procesar hasta un millón de nucleótidos a la vez, lo que le permite identificar patrones en los datos e identificar relaciones con otras partes del genoma.
Esto no solo permite predecir la probabilidad de que una mutación genética sea patógena, sino que también permite predecir terapias que podrían tratar una enfermedad y proporcionar información sobre los mecanismos biológicos que la provocan. Incluso podría ayudar a orientar la investigación biomédica .
«Los investigadores ya pueden generar conjuntos de datos más grandes que nunca y realizar experimentos de mayor envergadura, pero no está claro que esto haya generado más información que nunca», afirma Hsu. «Incluso los conjuntos de datos más grandes son muy pequeños en comparación con la complejidad de la biología. Ahí es donde entran en juego los modelos de aprendizaje automático. Podemos tomar grandes conjuntos de datos biológicos y entrenar los modelos para que encuentren patrones de orden superior en los datos, más complejos de lo que podríamos imaginar».
‘La eficiencia realmente importa’
En su mayor parte, la biología se desarrolló mediante un proceso de ensayo y error. Un investigador formula una hipótesis, la prueba en un experimento científico y analiza los resultados. Luego, pasa a la siguiente hipótesis. Y así sucesivamente.
El enfoque requiere mucho tiempo, pero ha dado resultados: los seres humanos viven más que nunca. Los ensayos clínicos para nuevos tratamientos médicos tardan años en realizarse, y la gran mayoría de los nuevos tratamientos nunca llegan al mercado. Hsu compara el proceso con una excursión por las montañas de California.
«Ser investigador biomédico puede ser como caminar por el desierto», dice Hsu. «Ves un pico a lo lejos y caminas hacia él. Luego, después de tres horas de caminata, te das cuenta de que no te has acercado mucho. Y necesitas decidir si vas en la dirección correcta».
En biología, los experimentos tienden a desarrollarse a la escala temporal de la vida: días, semanas, meses y años. Y si se va en la dirección equivocada, se podría desviar del rumbo durante bastante tiempo.
«La eficiencia es fundamental. Puedes pasar años trabajando en lo equivocado y simplemente no tener suerte», afirma. «Hemos avanzado mucho en biología con algo que se acerca a la suposición y la comprobación».
Uno de los principales objetivos de los investigadores de Evo 2 es utilizar la IA para acelerar el desarrollo de descubrimientos que se conviertan en terapias reales. El concepto tiene sus raíces en la pandemia de COVID-19, que impulsó el rápido y amplio despliegue de vacunas de ARNm.
«Ese avance se gestó durante 60 años», afirma Howard Chang, vicepresidente sénior de investigación global de la empresa de biotecnología Amgen y exinvestigador del Instituto Arc. «El ARN mensajero se descubrió como una entidad biológica fundamental en 1961. No debería haber tardado tanto».
Según Chang, Evo 2 ya puede realizar acciones que deberían ayudar a acelerar el proceso. Es capaz de predecir con precisión qué genes de ARN son esenciales para la función celular y cuáles son prescindibles. Puede indicar qué genes intervienen en el control del comportamiento celular que conduce a enfermedades. Esto puede orientar a los investigadores en la dirección correcta con mayor antelación.
«Si se rastrean familias individuales propensas a una enfermedad en particular, existen muchas diferencias hereditarias que se asignan a lugares del genoma donde cambios en la información podrían estar causando la enfermedad, pero no estamos seguros de cuáles son. Evo 2 nos permite identificar eso», dice Chang.
«Si Evo 2 nos indica que una enfermedad se debe a una proteína demasiado activa, sabremos cuál es el problema y podremos intentar desarrollar un fármaco que lo aborde. Estas son las posibilidades que ofrece Evo 2», añade. «Es un nuevo tipo de oráculo».
Hsu argumenta que este tipo de avance será especialmente transformador en la biología molecular. La investigación puede tardar muchos años en completarse y la gran mayoría de los ensayos clínicos fracasan.
«La tasa de fracaso de los ensayos clínicos es del 90 %. Por lo tanto, muchas veces trabajamos en el objetivo farmacológico equivocado», afirma Hsu. «La IA puede ayudarnos a encontrar el objetivo correcto con mucha más eficacia».
Hacia un futuro más saludable
Para Hsu, la búsqueda de curas para enfermedades complejas es una tarea profundamente personal. Cuando era preadolescente, a su abuelo le diagnosticaron Alzheimer. Su abuelo vivía con su familia, y Hsu fue testigo de su inevitable declive. Poco a poco, se dio cuenta de que no había vuelta atrás. Esta enfermedad neurodegenerativa es incurable y, en última instancia, mortal.
La experiencia fue formativa. De adolescente, Hsu trabajó en los laboratorios de neurociencia de la Universidad de Stanford. Investigó el Alzheimer durante sus estudios de posgrado en Harvard, y la enfermedad sigue siendo el foco de su trabajo en Berkeley y el Arc Institute.
«Si revisamos la lista de las principales causas de muerte en Estados Unidos de hace 30 años, veremos que son las mismas que hoy: enfermedades cardíacas, cáncer, Alzheimer», afirma Hsu. «Esta es una situación bastante grave. Implica que, a pesar de la creciente investigación biomédica y del creciente gasto, no estamos logrando más avances en la cura de estas enfermedades».
La IA es esencial para mejorar las cosas, argumenta Hsu. La complejidad de la biología es simplemente inabarcable para la mente humana, y analizar grandes cantidades de datos es precisamente lo que la IA hace excepcional. Hsu visualiza un futuro donde la IA haga más eficiente la investigación biomolecular y permita tratamientos adaptados a los probables resultados de salud del paciente.
«No solo queremos comprender los efectos de mutaciones genéticas específicas y si son vías de desarrollo de enfermedades», afirma Hsu. «Queremos usar Evo 2 para realizar estudios de asociación de todo el genoma que secuencien tanto a personas sanas como a personas enfermas para determinar qué mutaciones genéticas están asociadas con una enfermedad y brindar información más específica sobre el riesgo. Queremos comprender mejor las combinaciones genéticas e integrar esto con el historial médico y el genoma del paciente para realizar predicciones más precisas sobre su salud. Esperemos que sea más pronto que tarde».
Más información: Garyk Brixi et al., Modelado y diseño genómico en todos los dominios de la vida con Evo 2, bioRxiv (2025). DOI: 10.1101/2025.02.18.638918
Leyenda: La interpretación mecanicista de Evo 2 revela características a nivel de ADN, ARN, proteínas y organismos. Crédito: bioRxiv (2025). DOI: 10.1101/2025.02.18.638918
