AI. Los chatbots derrotaron a los médicos en el diagnóstico de enfermedades
Actualidad, Bioética, Medicina digital, Promoción y Prevención

AI. Los chatbots derrotaron a los médicos en el diagnóstico de enfermedades


Un pequeño estudio encontró que ChatGPT superó a los médicos humanos, al evaluar historiales de casos médicos, incluso cuando esos médicos usaban un chatbot.


Fuente: The New York Times


Epicrisis es el órgano oficial de comunicación del Colegio Médico Colombiano. La opinión y conceptos personales expresados en los artículos firmados por un tercero no reflejan la posición de Epicrisis o del Colegio Médico Colombiano-CMC-.


El Dr. Adam Rodman, experto en medicina interna del Centro Médico Beth Israel Deaconess de Boston, esperaba con confianza que los chatbots creados para utilizar inteligencia artificial ayudarían a los médicos a diagnosticar enfermedades.

Estaba equivocado.

En cambio, en un estudio que el Dr. Rodman ayudó a diseñar, los médicos que recibieron ChatGPT-4 junto con recursos convencionales, obtuvieron resultados ligeramente mejores que los médicos que no tenían acceso al robot. Y para sorpresa de los investigadores, ChatGPT por sí solo superó a los médicos.

“Me sorprendió”, dijo el Dr. Rodman. El Chatbot, de la empresa OpenAI, obtuvo una puntuación media del 90% al diagnosticar una enfermedad a partir del informe de un caso y explicar su racionamiento. Los médicos asignados al azar para utilizar el chatbot obtuvieron una puntuación media del 76%. Aquellos a los que se les asignó al azar que no lo usaran obtuvieron una puntuación promedio del 74%.

El estudio mostró algo más que el rendimiento superior del chatbot. Reveló la creencia a veces inquebrantable de los médicos en un diagnóstico que hicieron, incluso cuando un chatbot potencialmente sugiere uno mejor. Y el estudio ilustró que, si bien los médicos están expuestos a las herramientas de la Inteligencia Artificial para su trabajo, pocos saben cómo explotar las capacidades de los chatbots. Como resultado, no pudieron aprovechar la Inteligencia Artificial.

La capacidad de los sistemas para resolver problemas de diagnóstico complejos y ofrecer explicaciones para sus diagnósticos.

A.I. los sistemas deberían ser “extensores de médicos”, dijo el Dr. Rodman, ofreciendo valiosas segundas opiniones sobre los diagnósticos.

Pero parecer que hay un camino por recorrer antes de que ese potencial se haga realidad.

Historia de caso, futuro del caso

En el experimento participaron 50 médicos, una combinación de residentes y médicos tratantes reclutados a través de algunos grandes sistemas hospitalarios estadounidenses, y se publicó el mes pasado en la revista JAMA Network Open.

A los sujetos de prueba se les dieron seis historias clínicas y se les calificó segpun su capacidad para sugerir diagnósticos y explicar porqué los favorecían o descartaban. Sus calificaciones también incluyeron acertar en el diagnóstico final.

Los calificadores eran expertos médicos que solo veían las respuestas de los participantes, sin saber si eran de un médico con ChatGPT, un médico sin él o ChatGPT solo.

Las historias clínicas utilizadas en el estudio se basaron en pacientes reales y forman parte de un conjunto de 105 casos que han utilizado los investigadores desde la década de 1990.

Los casos nunca se han publicado intencionalmente para que los estudiantes de medicina y otras personas pudieran realizar pruebas sobre ellos sin ningún consentimiento previo. Eso también significaba que ChatGPT no podría haber sido entrenado en ellos.

Pero, para ilustrar lo que implicaba el estudio, los investigadores publicaron uno de los seis casos en lo que los médicos fueron evaluados, junto con las respuestas a las preguntas de ese caso de un médico que obtuvo una puntuación alta y de uno cuya puntuación fue baja.

Ese caso de prueba involucró a un paciente de 76 años con fuertes dolores en la espalda baja, las nalgas y las pantorrillas al caminar. El dolor comenzó unos días después de haber sido tratado con angioplastia con balón para ensanchar una artera coronaria. Había sido tratado con heparina, un anticoagulante, durante 48 horas después del procedimiento.

El hombre se quejó de que tenía fiebre y cansancio. Su cardiólogo había realizado estudios de laboratorio que indicaron una nueva aparición de anemia y una acumulación de nitrógeno y otros productos de desecho renal en su sangre. El hombre se había sometido a una cirugía de bypass por una enfermedad cardíaca una década antes.

La viñeta del caso continuó incluyendo detalles del examen físico del hombre y luego proporcionó los resultados de sus pruebas de laboratorio.

El diagnóstico correcto fue una embolia de colesterol, una afección en la que fragmentos de colesterol se desprenden de la placa en las arterias y bloquean los vasos sanguíneos.

Se pidió a los participantes tres posibles diagnósticos, con evidencia que los respaldara. También se les pidió que proporcionaran, para cada diagnóstico posible, hallazgos que no lo respaldan que se esperaban pero no estaban presentes.

También se pidió a los participantes que proporcionaran un diagnóstico final. Luego debían nombrar hasta tres pasos adicionales que seguirían en su proceso de diagnóstico.

Al igual que el diagnóstico del caso publicado, los diagnósticos de los otros cinco casos del estudio no fueron fáciles de determinar. Pero tampoco eran tan raros como para ser casi inauditos. Sin embargo, a los médicos, en promedio, les fue peor que al chatbot.

¿qué está pasando?, preguntaron los investigadores. La respuesta parece depender sobre cómo los médicos llegan a un diagnóstico y cómo utilizan una herramienta como la inteligencia artificial.

El médico en la máquina

Entonces, ¿cómo diagnostican los médicos a los pacientes?

El problema, dijo el Dr. Andrew Lea, historiador de la medicina del Brigham and Women’s Hospital, que no participó en el estudio, es que “realmente no sabemos cómo piensan los médicos”.

Al describir cómo llegaron a un diagnóstico, los médicos dirían “intuición” o “basado en mi expierencia”, dijo el Dr. Lea

Ese tipo de vaguedad ha desafiado a los investigadores durante décadas mientras intentaban crear programas de computadora que pudieran pensar como un médico.

La búsqueda comenzó hace casi 70 años. “Desde que existieron las computadoras, hubo personas que intentaron usarlas para hacer diagnósticos”, dijo el Dr. Lea.

Uno de los intentos más ambicioso comenzó en la década de 1970 en la universidad de Pittsburg. Los científicos informáticos reclutaron al Dr. Jack Myers, presidente del departamento de medicina interna de la facultad de medicina, conocido como un maestro en diagnóstico. Tenía memoria fotográfica y pasaba 20 horas a la semana en la biblioteca médica, intentando aprender todo lo que se sabía en la medicina.

El Dr. Myers recibió detalles médicos de los casos y explicó su razonamiento mientras reflexionaba sobre los diagnósticos. Los informáticos convirtieron sus cadenas lógicas en código. El programa resultante, llamado INTERNIST-1, incluyó más de 500 enfermedades y alrededor de 3.500 síntomas de enfermedad.

Para probarlo, los investigadores le dieron casos del New England Journal of Medicine. “La computadora funcionó muy bien”, dijo el Dr. Rodman. Su desempeño “fue probablemente mejor que el que podría hacer un humano”, añadió.

Pero INTERNIST-1 nunca despegó. Era difícil de utilizar y requería más de una hora para darle la información necesaria para realizar un diagnóstico. Y, señalaron sus creadores, “la forma actual del programa no es lo suficientemente confiable para aplicaciones clínicas”.

La investigación continuó. A mediados de la década de 1990 había alrededor de media docena de programas informáticos que intentaban realizar diagnósticos médicos. Ninguno llegó a ser de uso generalizado.

“No se trata solo de que tenga que ser de fácil de usar, sino que los médicos tenían que confiar en él”, dijo el Dr. Rodman. Y ante la incertidumbre sobre cómo piensan los médicos, los expertos comenzaron a preguntarse si les debería importar.

¿Qué importancia tiene intentar diseñar programas informáticos para realizar diagnósticos del mismo modo que lo hacen los humanos? “Hubo discusiones sobre hasta qué punto un programa de computadora debería imitar el razonamiento humano”, dijo el Dr. Lea. “¿por qué no aprovechamos la fuerza de la computadora?”

Es posible que la computadora no pueda dar una explicación clara de su ruta de decisión, pero ¿importa eso si hace el diagnóstico correcto?

La conversación cambió con la llegada de grandes modelos de lenguaje como ChatGPT. No hacen ningún intento explícito de replicar el pensamiento de un médico; sus capacidades de diagnóstico provienen de su capacidad para predecir el lenguaje.

La interfaz de chat es la aplicación asesina”, afirmó el Dr. Jonathan H. Chen, médico e informático de Stanford, autor del nuevo estudio.

“Podemos introducir un caso completo en la computadora”, dijo. “Antes hace un par de años, las computadoras no entendían el lenguaje”.

Pero es posible que muchos médicos no estén aprovechando su potencial.

Error del operador

Después de su sorpresa inicial por los resultados del nuevo estudio, el Dr. Rodman decidió profundizar un poco más en los datos y observar los registros reales de mensajes entre los médicos y ChatGPT. Los médicos deben haber visto los diagnósticos y el razonamiento del chatbot, entonces, ¿por qué a quienes lo usaron no les fue mejor?

Resulta que los médicos a menudo no se dejaban convencer por el chatbot cuando les señalaba algo que no concordaba con sus diagnósticos. En cambio, tendían a aferrarse a su propia idea del diagnóstico correcto.

“No escucharon a A.I. cuando la A.I. les dije cosas con las que no estaban de acuerdo”, dijo el Dr. Rodman.

Eso tiene sentido, afirmó Laura Zwaan, que estudia el razonamiento clínico y el error de diagnóstico en el Centro Médico Erasmus de Rotterdam y que no participó en el estudio.

“La gente generalmente se confía demasiado cuando cree que tiene razón”, dijo.

Pero había otro problema: muchos de los médicos no sabían cómo utilizar un chatbot en otda su extensión”.

El Dr. Chen dijo que notó que cuando miró los registros de chat de los médicos, “lo trataban como un motor de búsqueda de preguntas dirigidas: ‘¿Es la cirrosis un factor de riesgo de cáncer?, ¿Cuáles son los posibles diagnósticos para el dolor ocular?”

“Fue sólo una fracción de los médicos lo que se dieron cuenta de que podían literalmente copiar y pegar todo el historial del caso en el chatbot y simplemente pedirle que diera una respuesta completa a toda la pregunta”, añadió el Dr. Chen.

“Solo una fracción de los médicos vio las respuestas sorprendentemente inteligentes y completas que el chatbot era capaz de producir”


VISITANOS EN YOUTUBE Y ENCUENTRA EL MEJOR CONTENIDO CON LOS MEJORES ESPECIALISTAS

noviembre 25, 2024

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comité Editorial

Director
Dr. Stevenson Marulanda Plata

Editora
Maricielo Acero Rodríguez

Asesores Médicos
Dr. Jorge Diego Acosta Correa
Dra. Ivonne Díaz Yamal
Dr. Oswaldo Alfonso Borraez
Dr. Samuel Barbosa

Contacto comercial
Mary Stella Ardila Guzmán

NOSOTROS

Epicrisis es el órgano oficial de comunicación del Colegio Médico Colombiano. La opinión y conceptos personales expresados en los artículos firmados por un tercero no reflejan la posición de Epicrisis o el Colegio Médico Colombiano.

PBX: (+571) 746 3489 – Celular:(+57) 314 566 2174 – (+57) 323 232 4543 – (+57) 323 232 7752 – (+57) 314 566 2198Email : pqrs@colegiomedicocolombiano.org
Dirección: Carrera 7 # 69 – 17 – Bogotá, Colombia