La investigación, encabezada por Facultad de Medicina de Harvard (EE.UU) y que uso con el modelo de lenguaje datos reales de servicios de urgencias, evaluó si la IA podía, cómo hacen los médicos, revisar una historia clínica desordenada y usar esa información para determinar el diagnóstico y los pasos a seguir.
En general, los resultados muestran que los LLM “ofrecen actualmente un rendimiento notable en el diagnóstico diferencial, el razonamiento clínico diagnóstico y el razonamiento sobre el tratamiento, y superan tanto a las generaciones anteriores de modelos como a los propios médicos en múltiples ámbitos”, indica el estudio.
Estas mismas mejoras en el rendimiento se observan “a la hora de ofrecer segundas opiniones en casos médicos reales y no estructurados en el servicio de urgencias, donde los médicos deben actuar con rapidez con información limitada y, a menudo, incompleta”.
Los autores señalan, entre las limitaciones del estudio, que su enfoque se limitaba al razonamiento basado en texto, mientras que la práctica clínica depende en gran medida de señales visuales y auditivas, ámbitos en los que la IA actual sigue teniendo menos capacidad.
El estudio, encabezado por Peter Brodeur, de Harvard, evaluó las capacidades de diagnóstico y planificación del tratamiento de un modelo avanzado de lenguaje a gran escala —la serie o1 de OpenAI— comparando su rendimiento con el de cientos de médicos y sistemas de IA anteriores en una amplia gama de tareas de razonamiento clínico.
Entre ellas se incluían tanto casos clínicos estandarizados como un estudio en el mundo real con pacientes de urgencias seleccionados al azar.
La ventaja del LMM fue más evidente en la clasificación inicial de pacientes en el servicio de urgencias, donde los médicos deben tomar decisiones rápidas con información mínima.
Aunque tanto los seres humanos como la IA mejoraron a medida que se disponía de más datos clínicos, el modelo demostró una fortaleza en condiciones de incertidumbre, utilizando de manera eficaz incluso datos fragmentados y no estructurados de historias clínicas, resume la revista.
Los LLM, según los autores, se están acercando rápidamente al razonamiento clínico de nivel humano, y en algunas áreas lo están superando.
Lo que no quiere decir que los sistemas de IA estén preparados para ejercer la medicina de forma autónoma. "Un modelo podría acertar en el diagnóstico principal, pero también sugerir pruebas innecesarias que podrían poner en peligro al paciente”, dijo Brodeur, en un comunicado de Harvard.
Un artículo de opinión relacionado con el estudio y firmado por expertos de la Universidad de Flinders (Australia) indica que la IA debe evaluarse y regularse cuidadosamente antes de su adopción generalizada en el ámbito sanitario, ya que los rápidos avances no se traducen automáticamente en un uso seguro para los pacientes.
Los investigadores reconocen que los recientes avances en IA ofrecen oportunidades reales para apoyar a los médicos, especialmente en entornos asistenciales con gran volumen de trabajo y mucha presión.
Pero, también subrayan que la atención médica en el mundo real implica mucho más que el razonamiento basado en texto o el rendimiento en pruebas. La práctica clínica depende de la exploración física, de escuchar a los pacientes, de comprender el contexto médico y social, y de asumir la responsabilidad de los resultados.
De cara al futuro, los investigadores de Flinders sostienen que el entusiasmo por la IA médica debe ir acompañado de una gobernanza sólida y de criterios de evaluación más claros.