Ambos pueden ayudar en etapas de la gestión clínica de pacientes, desde el diagnóstico a decisiones terapéuticas, con un rendimiento al menos tan bueno como el de los médicos, lo que demuestra el potencial de estas herramientas para ayudar en el tratamiento, señala la revista.
En todo caso, los equipos firmantes de ambos artículos coinciden en que sus respectivos modelos no están aún listos para la atención clínica en el mundo real y que se necesita más investigación y pasos adicionales para llegar a ese momento.
Los grandes modelos de lenguaje (LLM) han mostrado avances prometedores, pero tienden a especializarse en tareas definidas de forma muy concreta, mientras que el trato con un paciente requiere realizar las pruebas adecuadas, establecer diagnósticos precisos, planificar las opciones terapéuticas y hacer un seguimiento de los resultados a lo largo de varias visitas.
Si los agentes de IA pudieran llevar a cabo estas tareas, logrando un razonamiento clínico eficaz, podrían ayudar a los facultativos en las tareas rutinarias y, posiblemente, paliar la escasez de médicos en algunas regiones del mundo.
El primero de los modelos puestos a prueba es MIRA (Inteligencia médica para el razonamiento y la acción), que tiene acceso a los datos de los pacientes en un sistema aislado de historias clínicas electrónicas y se evaluó utilizando datos reales de más de 500 casos clínicos atendidos en servicios de urgencias.
El modelo alcanzó una precisión diagnóstica media del 87,8 %, frente al 78,1 % obtenido por un panel de seis médicos de distintas especialidades, según el estudio, encabezado por el Hospital Universitario de Heidelberg (Alemania).
MIRA recopila información a través de un chat con un agente de IA que actúa como paciente, cuyas respuestas coinciden con los historiales documentados extraídos de las notas clínicas.
El modelo puede elegir entre más de 85.000 opciones para solicitar pruebas diagnósticas, interpretar los resultados y elaborar planes de tratamiento, lo que incluye recetar medicamentos, programar intervenciones y gestionar los ingresos hospitalarios.
Los autores concluyen que es necesario seguir trabajando para mejorar aún más la precisión y demostrar la generalización en estudios en el mundo real.
El segundo modelo es AMIE, basado en un gran modelo de lenguaje optimizado para la gestión clínica y las conversaciones, lo que le permite realizar un razonamiento continuo a lo largo de múltiples visitas para trazar la evolución de la enfermedad y las respuestas al tratamiento.
AMIE utiliza Gemini para analizar la información obtenida del paciente y ajustar sus resultados a las guías de práctica clínica y los formularios de medicamentos pertinentes y actualizados.
En un estudio de exploración clínica virtual, se comparó esta herramienta con 21 facultativos de atención primaria en 100 casos con múltiples visitas y cinco especialidades médicas.
Sus resultados fueron equiparables a los de los médicos reales en cuanto a la capacidad de razonamiento clínico y les superó en la precisión de los tratamientos y las pruebas diagnósticas, así como en su ajuste a las guías clínicas y en la fundamentación de los planes de tratamiento en dichas directrices.
En una prueba de referencia recientemente introducida para evaluar el razonamiento sobre la medicación, AMIE superó a los médicos en los casos difíciles.
"Nuestros resultados no indican que AMIE esté preparada para la atención clínica", sino que "explora fundamentalmente el arte de lo posible" señala el estudio encabezado por Valentin Liévin, de Goolge DeepMind.
El artículo precisa que "son necesarios muchos pasos adicionales", incluidos estudios prospectivos de viabilidad en pacientes con la supervisión ética y de seguridad adecuadas para garantizar que pueda funcionar como parte de un equipo sanitario.
En todo caso, consideran que este trabajo supone un paso adelante hacia el uso de herramientas de IA conversacional para ayudar a los médicos en el tratamiento de las enfermedades.