sábado, mayo 24Una producción de Corporación Medios Digitales del Sur

La utilidad de la IA en los diagnósticos en salas de emergencia se limita a la presentación de síntomas típicos, según los investigadores


Las herramientas de inteligencia artificial pueden ayudar a los médicos de salas de emergencia a predecir con precisión enfermedades, pero solo en pacientes con síntomas típicos, descubrieron científicos de la Universidad de Virginia Occidental.


por la Universidad de Virginia Occidental


Gangqing «Michael» Hu, profesor asistente en el Departamento de Microbiología, Inmunología y Biología Celular de la Facultad de Medicina de WVU y director de la instalación del Núcleo de Bioinformática de WVU, dirigió un estudio que comparó la precisión y exactitud de cuatro modelos ChatGPT al realizar diagnósticos médicos y explicar su razonamiento.

Sus hallazgos, publicados en la revista Scientific Reports , demuestran la necesidad de incorporar mayores cantidades de diferentes tipos de datos en el entrenamiento de la tecnología de IA para ayudar en el diagnóstico de enfermedades.

Más datos pueden determinar si la IA proporciona a los pacientes los diagnósticos correctos para los llamados «casos complejos», que no presentan los síntomas clásicos. Como ejemplo, Hu mencionó tres escenarios de su estudio con pacientes que tenían neumonía sin la fiebre típica.

«En estos tres casos, ninguno de los modelos de GPT logró un diagnóstico preciso», dijo Hu. «Eso nos llevó a revisar las notas de los médicos y observamos que estos casos eran complejos. ChatGPT suele obtener mucha información de diferentes recursos en internet, pero es posible que estos no cubran la presentación atípica de la enfermedad».

El estudio analizó datos de 30 casos de servicios de urgencias públicos, que, por razones de privacidad, no incluían datos demográficos.

Hu explicó que, al usar ChatGPT para facilitar el diagnóstico, se cargan las notas de los médicos y se solicita a la herramienta que proporcione sus tres diagnósticos principales. Los resultados variaron según las versiones que Hu probó: las series GPT-3.5, GPT-4, GPT-4o y o1.

«Al analizar si los modelos de IA dieron el diagnóstico correcto en alguno de sus tres resultados principales, no observamos una mejora significativa entre la nueva versión y la anterior», afirmó. «Sin embargo, al analizar el diagnóstico principal de cada modelo, la nueva versión tiene entre un 15 % y un 20 % más de precisión que la anterior».

Dado el bajo rendimiento actual de los modelos de IA en casos complejos y atípicos, Hu dijo que la supervisión humana es una necesidad para una atención de alta calidad centrada en el paciente cuando se utiliza la IA como herramienta de asistencia.

«No realizamos este estudio por curiosidad, para ver si el nuevo modelo daría mejores resultados. Queríamos sentar las bases para futuros estudios que requieran información adicional», dijo Hu. «Actualmente, solo ingresamos las notas médicas. En el futuro, queremos mejorar la precisión incluyendo imágenes y hallazgos de análisis de laboratorio».

Hu también planea ampliar los hallazgos de uno de sus estudios recientes en el que aplicó el modelo ChatGPT-4 a la tarea de representar los roles de un fisioterapeuta, un psicólogo, un nutricionista, un experto en inteligencia artificial y un atleta en un panel de discusión simulado sobre rehabilitación deportiva.

Dijo que cree que un modelo como ese puede mejorar la precisión diagnóstica de la IA al adoptar un enfoque conversacional en el que interactúan múltiples agentes de IA.

«Desde una posición de confianza, creo que es fundamental comprender los pasos del razonamiento», dijo Hu. «En este caso, datos de alta calidad que incluyan casos típicos y atípicos ayudan a generar confianza».

Hu enfatizó que, si bien ChatGPT es prometedor, no es un dispositivo médico certificado. Añadió que, si los proveedores de atención médica incluyeran imágenes u otros datos en un entorno clínico , el modelo de IA sería un sistema de código abierto e instalado en un clúster hospitalario para cumplir con las leyes de privacidad.

Otros colaboradores del estudio fueron Jinge Wang, investigador postdoctoral, y Kenneth Shue, voluntario de laboratorio del condado de Montgomery, Maryland, ambos del Departamento de Microbiología, Inmunología y Biología Celular de la Facultad de Medicina; así como Li Liu, de la Universidad Estatal de Arizona.

Hu señaló que las investigaciones futuras sobre el uso de ChatGPT en los departamentos de emergencia podrían examinar si mejorar las capacidades de las IA para explicar su razonamiento podría contribuir al triaje o a las decisiones sobre el tratamiento de los pacientes.

Más información: Jinge Wang et al., Evaluación preliminar de las iteraciones del modelo ChatGPT en el diagnóstico de urgencias, Scientific Reports (2025). DOI: 10.1038/s41598-025-95233-1

Leyenda: Investigadores de la Universidad de Virginia Occidental han determinado que la tecnología de IA puede utilizar la información de las notas de los exámenes médicos para ayudar a diagnosticar enfermedades en pacientes con síntomas clásicos. Crédito: WVU / Greg Ellis