Si la IA puede diagnosticar pacientes, ¿para qué sirven los médicos?
Actualidad, Inteligencia Artificial, Promoción y Prevención

Si la IA puede diagnosticar pacientes, ¿para qué sirven los médicos?


Los modelos lingüísticos de gran tamaño están transformando la medicina, pero la tecnología tiene efectos secundarios.


Nota: Epicrisis es el órgano oficial de comunicación del Colegio Médico Colombiano. La opinión y conceptos personales expresados en los artículos firmados por un tercero no reflejan la posición de Epicrisis o del Colegio Médico Colombiano-CMC.


Fuente: New Yorker


En 2017, Matthew Williams, un ingeniero de software de treinta y tantos años, de complexión atlética y calvo, dio un largo paseo en bicicleta por las colinas de San Francisco. Después, cenando con unos amigos, pidió una hamburguesa, papas fritas y un batido. A mitad de la comida, se sintió tan lleno que tuvo que pedirle a alguien que lo llevara a casa.

Esa noche, Williams se despertó con un dolor agudo en el abdomen que temió que fuera apendicitis. Acudió a una clínica de urgencias cercana, donde los médicos le dijeron que probablemente estaba estreñido. Le dieron laxantes y lo mandaron de regreso a casa.

Unas horas después, el dolor de Williams se intensificó. Vomitó y sintió que el estómago le iba a estallar. Un amigo lo llevó al hospital, donde una tomografía computarizada reveló vólvulo cecal, una emergencia médica en la que parte del intestino se retuerce sobre sí mismo, cortando el tracto digestivo.

El equipo médico anterior no había detectado la afección, e incluso pudo haberla agravado al administrarle laxantes. Williams fue llevado de urgencia al quirófano, donde los cirujanos le extirparon unos dos metros de intestino.

Tras recuperarse de la cirugía, Williams empezó a sufrir diarrea intensa casi cada vez que comía. Los médicos le dijeron que su intestino solo necesitaba tiempo para sanar. “Llegó al punto de no poder salir, porque comía constantemente algo que me hacía sentir mal”, comentó.

Durante los años siguientes, Williams consultó a varios nutricionistas y gastroenterólogos (ocho en total), pero ninguno pudo determinar la causa de sus síntomas. “A veces los médicos simplemente me preguntan: ‘¿No te estás muriendo? Bueno, vuelve en otro momento'”, comentó.

Williams limitó su dieta principalmente a huevos, arroz, puré de manzana y pan de masa madre. “No entiendes cuánto de la comida forma parte de la vida, social y culturalmente, hasta que ya no puedes comerla”, me contó. “Es incómodo estar en una cita y explicar por qué no puedes comer palitos de mozzarella. Cuando la comida es insípida, la vida también se vuelve insípida”.

En 2023, por capricho, Williams introdujo su historial médico en ChatGPT. “He perdido la mayor parte de mi íleon y mi válvula cecal, ¿por qué los siguientes alimentos podrían causarme malestar gastrointestinal?”, escribió, y luego enumeró algunos de los más dañinos. En cuestión de segundos, la IA señaló tres posibles desencadenantes de sus síntomas: alimentos grasos, fibras fermentables y alimentos con alto contenido de oxalato.

El oxalato, un compuesto presente en las verduras de hoja verde y en otros alimentos, normalmente se descompone en partes del tracto gastrointestinal que Williams había perdido; nunca había oído hablar de él, ni siquiera a sus médicos. Le pidió a la IA una lista de alimentos con alto contenido de oxalato y se quedó atónito. “Enumeraba todos los alimentos que más me enfermaban”, dijo: espinacas, almendras, chocolate, soja y más de una docena más. “Es como si me hubiera estado siguiendo, tomando notas”.

Williams llevó la información a un nutricionista, quien elaboró ​​una dieta basada en el contenido de oxalato de los alimentos. Sus síntomas mejoraron y sus comidas se volvieron más variadas. Williams ya no necesita saber dónde está el baño más cercano en todo momento. “He recuperado mi vida”, dijo.

Durante mi formación médica, veneraba a los médicos veteranos que, mediante una alquimia de conocimiento y gestalt, siempre parecían dar con la pista que resolvía el caso: la forma inusual de las uñas de un paciente; un riesgo laboral de décadas atrás; un análisis de sangre pasado por alto.

¿Qué algoritmo se ejecutaba en las mentes de estos médicos? ¿Podría incorporarlo a la mía? En el futuro, sin embargo, el diagnóstico podría convertirse cada vez más en una ciencia informática. Las encuestas han sugerido que muchas personas confían más en los diagnósticos de IA que en los de los profesionales.

Mientras tanto, solo en Estados Unidos, el diagnóstico erróneo incapacita a cientos de miles de personas cada año; los estudios de autopsias sugieren que contribuye a quizás una de cada diez muertes. Si Williams no hubiera ignorado su diagnóstico inicial, podría haber estado entre ellos. “Confío más en la IA que en los médicos”, dijo. “No creo ser el único”.

A principios del siglo XX, Richard Cabot, médico del Hospital General de Massachusetts, comenzó a impartir seminarios para demostrar razonamiento clínico a los residentes. Un médico experto recibía el historial clínico de un paciente anterior y recababa más detalles sobre el caso.

Si la información había estado disponible durante la hospitalización real del paciente, se revelaba. Gradualmente, el médico se acercaba a un diagnóstico que podía compararse con la conclusión final de los patólogos, a menudo durante una autopsia.

Las conferencias clínico-patológicas, o CPC, como se las conoció posteriormente, se volvieron tan populares que The New England Journal of Medicine ha publicado transcripciones de ellas durante más de un siglo. Representan un estándar de oro del razonamiento diagnóstico: si se puede resolver una CPC, se puede resolver casi cualquier caso.

Los CPC también inspiraron muchos esfuerzos para enseñar medicina a las máquinas. A finales de los años cincuenta, un científico informático y un radiólogo agruparon los casos por síntomas y enfermedades.

Propusieron que un programa informático pudiera analizar los casos utilizando herramientas matemáticas como la lógica y la teoría de juegos. “Los ordenadores son especialmente adecuados para ayudar al médico a recopilar y procesar información clínica y recordarle diagnósticos que podría haber pasado por alto”, escribieron en un artículo histórico de Science .

En los años setenta, un científico informático de la Universidad de Pittsburgh desarrolló un programa llamado INTERNIST-1 , basado en una serie de conversaciones con un médico brillante e intimidante llamado Jack Myers. (Myers era conocido como Black Jack, porque reprobó a tantos médicos nuevos durante sus exámenes de la junta).

Myers “eligió un buen número” de CPC para demostrar cómo razonaba; INTERNIST-1 finalmente funcionó tan bien como algunos médicos en una variedad de casos. Pero los detalles de un caso tenían que introducirse minuciosamente en el ordenador, por lo que cada análisis podía tardar más de una hora. Los investigadores concluyeron que “la forma actual del programa no era lo suficientemente confiable para aplicaciones clínicas”.

Luego vinieron los modelos de lenguaje grandes. El año pasado, Arjun Manrai, un científico informático en Harvard, y Thomas Buckley, un estudiante de doctorado en el nuevo programa de IA en Medicina de la universidad, comenzaron a trabajar en una herramienta de educación e investigación que se suponía que sería capaz de resolver prácticamente cualquier CPC.

Necesitaba poder citar la literatura, explicar su fundamento y ayudar a los médicos a analizar un caso difícil. Manrai y Buckley desarrollaron una versión personalizada de o3, un “modelo de razonamiento” avanzado de OpenAI, que se toma el tiempo para dividir los problemas complejos en pasos intermedios antes de responder.

Un proceso conocido como generación aumentada por recuperación, o RAG , extrae datos de fuentes externas antes de que la IA elabore su respuesta. Su modelo es un poco como un estudiante que consulta un libro de texto para escribir un artículo en lugar de escribir de memoria. Llamaron a la IA CaBot, en honor al inventor de los CPC.

En julio, viajé a la Biblioteca de Medicina Countway de Harvard para presenciar un duelo entre CaBot y un experto en diagnóstico. El evento me recordó la partida de ajedrez de 1997 entre el gran maestro Garry Kasparov y Deep Blue, la supercomputadora de IBM que finalmente lo derrotó. Pasé junto al cráneo de Phineas Gage, un paciente que sobrevivió a una explosión que le atravesó la cabeza con una barra de hierro. Luego llegué a una gran sala de conferencias donde docenas de estudiantes, médicos e investigadores charlaban animadamente.

Daniel Restrepo, internista del Hospital General de Massachusetts y compañero de residencia, competiría contra CaBot. Recordaba a Restrepo como alguien para quien el razonamiento diagnóstico era como un deporte olímpico; a veces leía libros de texto mientras yo dormía la siesta durante los turnos nocturnos, y corría regularmente al laboratorio para inspeccionar personalmente la muestra de orina de un paciente.

Manrai, un hombre afable de pelo corto y negro, trabaja en una planta de Countway que antes albergaba estanterías de libros. Ahora está ocupada por una zona de ordenadores. Presentó el caso del día. «Hoy estamos aquí para ver al Dr. CaBot», dijo. Describió a un hombre de cuarenta y un años que había llegado al hospital tras unos diez días con fiebre, dolores corporales y tobillos hinchados.

El hombre tenía un sarpullido doloroso en las espinillas y se había desmayado dos veces. Unos meses antes, los médicos le habían colocado un stent en el corazón. Una tomografía computarizada mostró nódulos pulmonares y ganglios linfáticos inflamados en el pecho.

Restrepo, quien llevaba gafas de profesor y traje oscuro, fue el primero. El primer paso hacia un diagnóstico, dijo, fue definir el problema: “Si lo cristalizas en una declaración clara y concisa, tu cerebro tendrá una forma más fácil de resolverlo”. Hizo hincapié en tres preguntas: ¿Quién era el paciente? ¿Con qué rapidez se presentó la afección? ¿Y qué síntomas constituían un síndrome? Algunos síntomas serían consistentes; otros probablemente serían distracciones. “A pesar de obtener todos esos otros datos, esto es lo que realmente creo que es relevante”, dijo, mostrando al público cuatro síntomas clave en un diagrama de Venn. Le indicaron tres categorías diagnósticas: linfoma, infección y enfermedad autoinmune.

Los síntomas del hombre habían aparecido demasiado rápido para un linfoma. “¡Ritmo, ritmo, ritmo!”, dijo Restrepo. Una infección inusual parecía improbable: el hombre había nacido en EE. UU., no estaba inmunodeprimido y no se sabía que hubiera visitado lugares de alto riesgo. Y eso no explicaría su dolor articular. “¿Qué sé yo que cause fiebre, artritis, adenopatía hiliar y sarpullido en las extremidades inferiores, todo al mismo tiempo?”, dijo finalmente Restrepo. “Síndrome de Löfgren”.

El Löfgren es una manifestación rara de la sarcoidosis, una enfermedad inflamatoria. Supimos que el hombre había recibido esteroides, que suprimen la inflamación, mientras estaba en el hospital. Había mejorado, lo que sugería que el diagnóstico era correcto. El público aplaudió.

Manrai regresó al podio. Restrepo tenía seis semanas para preparar su presentación, explicó con una sonrisa. “El Dr. CaBot tiene seis minutos”, dijo. Una diapositiva, generada por la IA, apareció en la pantalla. Se titulaba “Cuando los tobillos, los ganglios linfáticos y el síncope colisionan”. Manrai pulsó “Reproducir” y tomó asiento. Una voz de mujer, cálida y desenfadada, pero profesional, llenó la sala. “Buenos días a todos”, dijo. “Soy el Dr. CaBot y, bueno, tenemos lo que creo que es un caso muy instructivo que vincula la dermatología, la reumatología, la neumología e incluso la cardiología. Así que, ¡vamos directo al grano!”

La voz, cuyo estilo y cadencia eran indistinguibles de los de los médicos humanos, comenzó a revisar la medicación y el historial médico del paciente. “Nada de exposiciones exóticas”, dijo CaBot. “Solo la vida en la Nueva Inglaterra urbana, con un gato que lo arañó hace seis meses, algo que, ya saben, tengo presente, ¡pero no estoy casado con eso!” El público rió.

El modelo parecía haber revisado el caso en busca de la información que consideraba más relevante. “Las articulaciones son la estrella del espectáculo”, dijo. Resaltó pequeños nódulos que recubrían algunos vasos linfáticos en los pulmones del hombre, como se ve en la tomografía computarizada. “Observen cómo siguen las fisuras”, observó CaBot.

La IA generó una serie de posibles diagnósticos, señalando las fortalezas y debilidades de cada uno. Observó que el paciente tenía niveles altos de proteína C reactiva, un biomarcador de inflamación que a veces se asocia con enfermedades autoinmunes. “En resumen”, dijo CaBot, “la mejor opción es sarcoidosis aguda, que se manifiesta como síndrome de Löfgren”. Por un momento, el público guardó silencio. Entonces, un murmullo recorrió la sala. Parecía haberse cruzado una frontera.

Durante mucho tiempo, al intentar imaginar una IA realizando el complejo trabajo cognitivo de los médicos, me he preguntado: ¿Cómo podría? La demostración me obligó a afrontar la pregunta opuesta: ¿Cómo podría no? CaBot se había equivocado en ocasiones —por ejemplo, pronunciando “hilar” como “hilar” en lugar de “hilar”— y recomendaba un tratamiento más agresivo que el de Restrepo, incluyendo una biopsia de ganglio linfático. (La mayoría de los expertos no consideran necesaria una biopsia, pero el equipo médico del paciente sí la consideró). Aun así, la presentación había sido asombrosamente buena, mejor que muchas de las que había presenciado durante mi formación médica. Y se había creado en el tiempo que me lleva preparar un café.

El éxito de CaBot contrastaba con la experiencia de algunos pacientes al consultar chatbots. Un estudio reciente reveló que el GPT-4 de OpenAI respondía incorrectamente a preguntas médicas abiertas en aproximadamente dos tercios de los casos. En otro estudio, el GPT-3.5 diagnosticaba erróneamente más del ochenta por ciento de los casos pediátricos complejos.

Mientras tanto, los principales modelos de lenguaje de gran tamaño se han vuelto mucho menos propensos a incluir descargos de responsabilidad en sus respuestas. Un análisis reveló que, en 2022, más de una cuarta parte de las respuestas a consultas relacionadas con la salud incluían algo como “No estoy cualificado para dar consejos médicos”. Este año, solo el uno por ciento lo hizo. En una nueva encuesta, aproximadamente una quinta parte de los estadounidenses afirmó haber seguido consejos médicos de IA que posteriormente resultaron ser incorrectos.

A principios de este año, un centro de control de intoxicaciones en Arizona informó una disminución en el volumen total de llamadas, pero un aumento en los pacientes con intoxicaciones graves. El director del centro sugirió que las herramientas de IA podrían haber alejado a las personas de la atención médica. Los chatbots también generan graves problemas de privacidad: una vez que tu información médica entra en el chat, deja de ser tuya.

El año pasado, Elon Musk animó a los usuarios de X a subir sus imágenes médicas a Grok, la inteligencia artificial de la plataforma, para su análisis. Posteriormente, se descubrió que la compañía había hecho accesibles a los motores de búsqueda cientos de miles de transcripciones de chats, a menudo sin permiso.

Annals of Internal Medicine: Clinical Cases , una revista médica revisada por pares, publicó recientemente un ejemplo instructivo. Un hombre de sesenta años preocupado por la cantidad de sal o cloruro de sodio que comía le pidió a ChatGPT posibles sustitutos. La IA sugirió bromuro, un medicamento anticonvulsivo temprano que causa problemas neurológicos y psiquiátricos cuando se acumula en el cuerpo. El hombre pidió algunos en línea; en cuestión de meses, estaba en una sala de emergencias, creyendo que su vecino estaba tratando de envenenarlo.

Sintió una sed profunda, pero se volvió paranoico cuando le ofrecieron agua. Los análisis de sangre mostraron un nivel de bromuro cientos de veces superior a lo normal. Comenzó a alucinar e intentó huir del hospital. Los médicos lo pusieron en retención psiquiátrica involuntaria. Cuando replicaron su consulta en ChatGPT, nuevamente sugirió bromuro.

Después de la presentación de CaBot, uno de los colaboradores de Manrai, un médico del Centro Médico Beth Israel Deaconess llamado Adam Rodman, se levantó para compartir algunos comentarios. Rodman lidera los esfuerzos de Harvard para integrar la IA generativa en su currículo de la facultad de medicina. Señaló que tanto Restrepo como CaBot habían utilizado un proceso llamado diagnóstico diferencial, que comienza considerando todas las posibles explicaciones y luego descarta sistemáticamente aquellas que no encajan.

Pero mientras que Restrepo había enfatizado la constelación de síntomas del paciente (“adoptó el enfoque sindrómico”, dijo Rodman), CaBot se había centrado en los nódulos pulmonares, algo que la mayoría de los médicos probablemente no harían. “Una de las cosas que el Dr. CaBot decidió hacer muy pronto fue decir: ‘Oye, mira esta tomografía computarizada, mira cómo estos nódulos están en una distribución linfática. ¡Voy a construir un diferencial en esto!”, dijo Rodman. La IA había señalado la ausencia de cavitaciones pulmonares que podrían haber sugerido tuberculosis; Había enfatizado hallazgos sutiles de imágenes que Restrepo ni siquiera había mencionado.

El proceso de CaBot era reconocible para los humanos, observó Rodman, pero tenía diferentes fortalezas. “Debido a que codifica mucha más información, recogió estos elementos para crear su lista de verificación que muy pocos humanos habrían hecho”, dijo. Cuando Manrai y sus colegas probaron la IA en varios cientos de CPC recientes, resolvió correctamente alrededor del sesenta por ciento de ellos, una proporción significativamente mayor que la que resolvieron los médicos en un estudio previo.

Aprender a implementar la IA en el ámbito médico, me comentó Rodman posteriormente, requerirá una ciencia propia. El año pasado, fue coautor de un estudio en el que algunos médicos resolvieron casos con la ayuda de ChatGPT. No obtuvieron mejores resultados que los médicos que no usaron el chatbot.

Sin embargo, el chatbot por sí solo resolvió los casos con mayor precisión que los humanos. En un estudio posterior, el equipo de Rodman sugirió formas específicas de usar la IA: pidieron a algunos médicos que leyeran la opinión de la IA antes de analizar los casos y a otros que le dieran a la IA su diagnóstico preliminar y solicitaran una segunda opinión.

Esta vez, ambos grupos diagnosticaron a los pacientes con mayor precisión que los humanos solos. El primer grupo demostró ser más rápido y eficaz al proponer los siguientes pasos. Sin embargo, cuando el chatbot pasó a segundo plano, con frecuencia “desobedeció” la instrucción de ignorar las conclusiones de los médicos. Parecía hacer trampa, al basar su análisis en el diagnóstico preexistente del médico.

Los sistemas que combinan estratégicamente capacidades humanas y de IA se han descrito como centauros; la investigación de Rodman sugiere que son prometedores en medicina. Pero si las herramientas de IA siguen siendo imperfectas y los humanos pierden la capacidad de funcionar sin ellas —un riesgo conocido como “descalificación cognitiva”—, entonces, en palabras de Rodman, “estamos en problemas”. En un estudio reciente, los gastroenterólogos que usaron IA para detectar pólipos durante colonoscopias tuvieron una peor capacidad para encontrarlos ellos mismos. “Si te gusta apostar, deberías formar a médicos que sepan usar IA, pero que también sepan pensar”, afirmó Rodman.

Parece inevitable que el futuro de la medicina involucre IA, y las facultades de medicina ya están animando a los estudiantes a usar modelos de lenguaje extensos. “Me preocupa que estas herramientas erosionen mi capacidad para hacer un diagnóstico independiente”, me dijo Benjamin Popokh, estudiante de medicina de la Universidad de Texas Southwestern. Popokh decidió convertirse en médico después de que un primo de doce años muriera de un tumor cerebral.

En una rotación reciente, sus profesores pidieron a su clase que trabajara en un caso usando herramientas de IA como ChatGPT y OpenEvidence, un LLM médico cada vez más popular que brinda acceso gratuito a profesionales de la salud. Cada chatbot diagnosticó correctamente un coágulo de sangre en los pulmones. “No hubo grupo de control”, dijo Popokh, lo que significa que ninguno de los estudiantes trabajó en el caso sin ayuda.

Durante un tiempo, Popokh se encontró usando IA después de prácticamente cada encuentro con un paciente. “Empecé a sentirme sucio al presentar mis pensamientos a los médicos tratantes, sabiendo que en realidad eran los pensamientos de la IA”, me dijo. Un día, al salir del hospital, tuvo una revelación inquietante: no había pensado en ningún paciente por su cuenta ese día.

Decidió que, a partir de entonces, se obligaría a sí mismo a establecer un diagnóstico antes de consultar a la inteligencia artificial. “Estudié medicina para convertirme en un médico de verdad, con ‘D’ mayúscula”, me dijo. “Si solo introduces síntomas en una IA, ¿sigues siendo médico o simplemente eres un poco mejor a la hora de guiar a la IA que a tus pacientes?”

Unas semanas después de la demostración de CaBot, Manrai me dio acceso al modelo. Fue entrenado con CPC de The New England Journal of Medicine; primero lo probé con casos de la red JAMA , una familia de revistas médicas líderes. Realizó diagnósticos precisos de pacientes con diversas afecciones, como erupciones cutáneas, bultos, crecimientos y pérdida muscular, con algunas excepciones: confundió un tipo de tumor con otro y diagnosticó erróneamente una úlcera bucal viral con cáncer. (ChatGPT, en comparación, diagnosticó erróneamente aproximadamente la mitad de los casos que le presenté, confundiendo el cáncer con una infección y una reacción alérgica con una enfermedad autoinmune).

Sin embargo, los pacientes reales no se presentan como casos de estudio cuidadosamente seleccionados, y quería ver cómo respondería CaBot a las situaciones que los médicos enfrentan en la realidad.

Le expliqué a CaBot, a grandes rasgos, lo que había experimentado Matthew Williams: paseo en bicicleta, cena, dolor abdominal, vómitos, dos visitas a urgencias. No organicé la información como lo haría un médico. Para su sorpresa, cuando CaBot generó una de sus nítidas presentaciones, las diapositivas estaban llenas de valores de laboratorio, signos vitales y hallazgos de exámenes inventados.

«El abdomen se ve distendido en la parte superior», dijo la IA, incorrectamente. «Al mecerlo suavemente, se oye el clásico chapoteo de una sucusión: líquido chapoteando en un recipiente cerrado». CaBot incluso inventó un informe de una tomografía computarizada que supuestamente mostraba el estómago hinchado de Williams. Llegó a un diagnóstico erróneo de vólvulo gástrico: una torsión del estómago, no del intestino.

Intenté darle a CaBot un resumen formal de la segunda visita de emergencia de Williams, según lo detallado por los médicos que lo vieron, y esto produjo un resultado muy diferente, probablemente porque tenían más datos, ordenados por relevancia. El nivel de hemoglobina del paciente se había desplomado; sus glóbulos blancos, o leucocitos, se habían multiplicado; estaba doblado por el dolor. Esta vez, CaBot se aferró a los datos pertinentes y no pareció inventarse nada.

“Indicadores de estrangulación: dolor constante, leucocitosis, disminución de la hemoglobina, todos están destellando ante nosotros”, dijo. CaBot diagnosticó una obstrucción en el intestino delgado, posiblemente debido a un vólvulo o una hernia. “Obtenga una cirugía pronto”, dijo. Técnicamente, CaBot estaba un poco equivocado: el problema de Williams surgió en el intestino grueso, no en el delgado. Pero los siguientes pasos habrían sido prácticamente idénticos. Un cirujano habría encontrado el nudo intestinal.

Hablar con CaBot fue a la vez empoderador y desconcertante. Sentí que ahora podía recibir una segunda opinión, sobre cualquier especialidad, cuando quisiera. Pero solo con vigilancia y formación médica pude aprovechar al máximo sus capacidades y detectar sus errores. Los modelos de IA pueden parecer doctores, incluso cometiendo errores de juicio de primaria. Los chatbots no pueden examinar a los pacientes y son conocidos por tener dificultades con las consultas abiertas.

Su rendimiento mejora cuando se enfatiza lo más importante, pero la mayoría de las personas no están capacitadas para clasificar los síntomas de esa manera. Una persona con dolor en el pecho podría estar experimentando reflujo ácido, inflamación o un infarto; un médico le preguntaría si el dolor le ocurre al comer, al caminar o al estar en la cama

Si la persona se inclina hacia adelante, ¿el dolor empeora o disminuye? A veces escuchamos frases que aumentan drásticamente las probabilidades de una afección en particular. “El peor dolor de cabeza de mi vida” puede significar una hemorragia cerebral; “una cortina sobre mi ojo” sugiere una obstrucción de la arteria retiniana. La diferencia entre la IA y las tecnologías de diagnóstico anteriores es como la diferencia entre una sierra eléctrica y una sierra para metales. Pero un usuario descuidado podría cortarse un dedo.

Asiste a suficientes conferencias clinicopatológicas o ve suficientes episodios de “House” y cada caso médico empieza a parecer un misterio por resolver. Lisa Sanders, la doctora protagonista de la columna 
de la revista Times y de la serie de Netflix “Diagnosis”, ha comparado su trabajo con el de Sherlock Holmes. Pero la práctica médica diaria suele ser mucho más rutinaria y repetitiva. Por ejemplo, durante una rotación en un hospital de veteranos durante mi formación, me sentí menos como Sherlock y más como Sísifo.

Al parecer, prácticamente todos los pacientes presentaban alguna combinación de enfisema, insuficiencia cardíaca, diabetes, enfermedad renal crónica e hipertensión. Descubrí una nueva expresión: “probablemente multifactorial”, que significaba que había varias explicaciones para lo que experimentaba el paciente, y busqué maneras de abordar una afección sin agravar otra. (Drenaje de líquidos para aliviar un corazón sobrecargado, por ejemplo, puede deshidratar fácilmente los riñones).

A veces, un diagnóstico preciso era irrelevante; Un paciente podía llegar con dificultad para respirar y bajos niveles de oxígeno, y recibir tratamiento para enfermedad pulmonar obstructiva crónica, insuficiencia cardíaca y neumonía. A veces nunca supimos qué había causado un episodio determinado; sin embargo, podíamos ayudar al paciente a sentirse mejor y enviarlo a casa. Pedirle a una IA que lo diagnosticara no nos habría aportado mucha claridad; en la práctica, no había una solución clara y satisfactoria.

Encargar a una IA la resolución de un caso médico comete el error de “empezar por el final”, según Gurpreet Dhaliwal, médico de la Universidad de California en San Francisco, a quien el Times describió en una ocasión como “uno de los diagnosticadores clínicos más hábiles en la práctica”.

En opinión de Dhaliwal, a los médicos les conviene más pedirle ayuda a la IA para orientarse: en lugar de preguntar qué enfermó a un paciente, un médico podría pedirle a un modelo que identifique tendencias en la trayectoria del paciente, junto con detalles importantes que el médico podría haber pasado por alto.

El modelo no le daría órdenes a la médica; en cambio, podría alertarla sobre un estudio reciente, proponer un análisis de sangre útil o descubrir un resultado de laboratorio en un historial médico de décadas de antigüedad. La visión de Dhaliwal para la IA médica reconoce la diferencia entre diagnosticar a las personas y atenderlas de forma competente. “El hecho de tener un diccionario japonés-inglés en el escritorio no significa que domines el japonés”, me dijo.

CaBot sigue siendo experimental, pero otras herramientas de IA ya están transformando la atención al paciente. ChatGPT está bloqueado en la red de mi hospital, pero muchos de mis colegas y yo usamos OpenEvidence. La plataforma tiene acuerdos de licencia con importantes revistas médicas y afirma cumplir con la ley de privacidad del paciente HIPAA.

Cada una de sus respuestas cita un conjunto de artículos revisados ​​por pares, a veces incluyendo una cifra exacta o una cita textual de un artículo relevante, para evitar alucinaciones. Cuando le presenté a OpenEvidence un caso reciente, no intentó resolver el misterio de inmediato, sino que me hizo una serie de preguntas aclaratorias.

Penda Health, una red de clínicas médicas en Kenia, atiende a una enorme variedad de pacientes, desde recién nacidos con malaria hasta trabajadores de la construcción que se han caído de edificios. Kenia ha enfrentado durante mucho tiempo una infraestructura sanitaria limitada. Penda comenzó recientemente a utilizar AI Consult, una herramienta que emplea modelos OpenAI y se ejecuta en segundo plano mientras los médicos registran historiales médicos, solicitan pruebas y recetan medicamentos.

Un médico que pase por alto la anemia de un paciente recibiría una alerta para que considere solicitar una prueba de hierro; a otro, que trate a un niño con diarrea, se le podría recomendar que prescinda de los antibióticos y opte por una solución de rehidratación oral y suplementos de zinc.

Una evaluación del programa, que se llevó a cabo en colaboración con OpenAI y no ha sido revisada por pares, informó que los médicos que usaron AI Consult cometieron un dieciséis por ciento menos de errores de diagnóstico y un trece por ciento menos de errores de tratamiento. Parecieron aprender del programa: el número de alertas de seguridad disminuyó significativamente con el tiempo.

AI Consult cometió errores; en las pruebas, confundió un jarabe para la tos con un antibiótico de nombre similar. El número absoluto de errores médicos en Penda también se mantuvo alto, a veces porque los médicos ignoraron el consejo del modelo.

“Saben que este paciente no necesariamente necesita un antibiótico, pero también saben que el paciente realmente lo quiere”, dijo Robert Korom, director médico de Penda. Aun así, un médico de Penda calificó el programa como una “tremenda mejora”. Su éxito puede deberse a que se centró no en el diagnóstico, sino en ayudar a los médicos a explorar las posibilidades.

Un principio similar podría guiar a los pacientes. Si las herramientas de IA siguen diagnosticando erróneamente y provocando alucinaciones, quizá no querríamos que nos diagnosticaran. Sin embargo, podríamos pedirles que evalúen la urgencia de nuestros síntomas y que enumeren las afecciones que podrían explicarlos, con una idea de cuáles son las más probables.

Un paciente podría preguntar sobre los “síntomas de alerta” (señales de alerta que indicarían una afección más grave) y sobre las fuentes confiables que consulta la IA. Un chatbot que se equivoque en los detalles podría ayudarte a pensar qué preguntar en tu próxima cita. Y podría ayudarte a descifrar el consejo de tu médico.

Jorie Bresnahan, cuya madre de noventa y cinco años fue hospitalizada recientemente por insuficiencia cardíaca, me contó que, para realizar un seguimiento de la atención de su madre, grababa audios cuando médicos, enfermeras y terapeutas explicaban tratamientos y procedimientos. Las conversaciones eran abrumadoras, y las transcripciones generadas por IA “parecían un desastre”, comentó.

Pero cuando subió las transcripciones a ChatGPT, este les dio coherencia y resaltó detalles que había pasado por alto. Bresnahan y sus hermanas, que vivían lejos, pudieron hablar con el chatbot sobre la condición de su madre. Después de que su madre salió del hospital, Bresnahan puso la IA en modo de voz para que su madre también pudiera hacerle preguntas. “Le pareció muy encantador”, me contó Bresnahan. “Empezó a llamarlo Trevor”.

Bresnahan finalmente descubrió que el chatbot confundía fechas y alucinaba lecturas de presión arterial; como resultado, tuvo dificultades para determinar si un nuevo medicamento estaba causando fluctuaciones. En algunas conversaciones, ChatGPT incluso parecía confundir las afecciones de su madre con problemas de salud que la propia Bresnahan había experimentado y sobre los que había preguntado. “Yo pienso: ‘¡Tengo escoliosis, ella no! ‘”, me dijo Bresnahan. Este tipo de errores son endémicos en la actual generación de grandes modelos lingüísticos.

Y, sin embargo, era obvio que, en muchos aspectos, ChatGPT estaba ayudando a Bresnahan a orientarse en un sistema médico desconcertante. “Era como tener un médico dispuesto a pasar tiempo ilimitado contigo”, dijo. “Te explicaba lo que estaba sucediendo con el nivel de sofisticación que necesitabas. Y ayudaba a formular preguntas para cuando viéramos al médico, para que pudiéramos aprovechar al máximo nuestro tiempo juntos”.

Muchas preguntas médicas, quizás la mayoría, no tienen una respuesta correcta. ¿Vale la pena otra ronda de quimioterapia con los efectos secundarios tan severos? ¿Deberías conectar a tu abuelo enfermo a un respirador? Para un artículo reciente, Manrai y sus colegas le pidieron a una IA que adoptara la perspectiva de un endocrinólogo pediátrico.

Le pidieron que escribiera una carta en nombre de un niño de catorce años cuya estatura estaba en el décimo percentil para su grupo de edad, solicitando la aprobación del seguro para inyecciones de hormona de crecimiento. El caso no estaba claro: dichas inyecciones conllevan riesgos poco frecuentes pero significativos, y pueden costar miles de dólares al mes. “Recomiendo encarecidamente iniciar la terapia con hormona de crecimiento lo antes posible”, decía la carta.

Pero, cuando se le pidió al modelo que revisara la carta desde la perspectiva de un representante de seguros, dijo: “Lamentamos informarle que no podemos aprobar la solicitud… La evidencia clínica no demuestra una necesidad médica clara”. En este sentido, la IA es diferente de prácticamente cualquier otra tecnología de diagnóstico: sus resultados cambian según lo que se le pida. (Imaginemos una prueba 
de COVID que argumente ambas partes). Esta, concluyen los autores, es una de las razones por las que necesitamos médicos.

Pero la caprichosidad de la IA también podría convertirse en una ventaja. Tanto pacientes como médicos podrían considerar la IA no como una forma de resolver misterios, sino como una forma de recopilar pistas.

Una IA podría argumentar a favor y en contra de la cirugía electiva que usted está considerando; podría explicar por qué su fisioterapeuta y su cirujano ortopédico cuentan historias diferentes sobre su dolor de espalda, y cómo podría usted sopesar sus recomendaciones divergentes. En este rol, los chatbots se convertirían en un medio de exploración: un punto de partida, no un punto de llegada. En el mejor de los casos, le guiarían a través del sistema médico, no lejos de él.

Aquí hay un caso más. Hace poco, cené con un amigo médico que se veía demacrado y pálido. Lo llamaré Jason. Me contó que el mes anterior, aproximadamente una semana después de un picnic con su familia, había perdido el apetito y había tenido náuseas y diarrea intensas.

Los síntomas mejoraron y luego empeoraron; había perdido casi cuatro kilos y medio, y algunos familiares habían reportado síntomas similares. Finalmente, Jason, quien una vez me dijo que estaba “obsesionado con no convertirse en un ludita de la IA”, consultó a ChatGPT como lo haría con un gastroenterólogo.

El chatbot enumeró varias posibles causas, pero se centró en la ciclospora, un parásito que se multiplica en productos frescos y generalmente tarda aproximadamente una semana en madurar. La enfermedad era frecuente, posiblemente debido al ciclo de vida del parásito. Jason fue al médico; una prueba confirmó el diagnóstico. Él y su familia comenzaron el tratamiento y sus síntomas mejoraron.

No había pensado mucho en la ciclospora desde la facultad de medicina; la IA había identificado un diagnóstico que quizá se me hubiera escapado. Pero, argumentó Jason, el éxito del chatbot dependía de cómo describiera el caso. Había usado su propio criterio clínico para decidir qué detalles parecían relevantes: el picnic, el retraso de una semana, los síntomas intermitentes, la naturaleza de sus heces.

Más tarde, inicié sesión en ChatGPT y recapitulé los síntomas de Jason de forma más general, como imaginaba que haría un paciente típico. Mencioné un intervalo entre el picnic y el inicio de los síntomas, la naturaleza cíclica de la enfermedad y los familiares enfermos, pero omití la naturaleza de las heces y el grado de pérdida de peso. Esta vez, el chatbot sugirió que la enfermedad podría estar relacionada con gastroenteritis y síndrome del intestino irritable; no mencionó la ciclospora en absoluto.

Las personas que sospechen tener una infección por ciclospora deberían consultar a un médico. “Si no se trata, los síntomas pueden durar meses”, afirma la Clínica Cleveland en línea. “Esto aumenta el riesgo de deshidratación grave y otras complicaciones”.

Sin embargo, cuando le comenté a ChatGPT que sufría los síntomas misteriosos de Jason, me dijeron que probablemente estaría bien sin atención médica. “No tienes que pasar por esto sola”, decía. “Estaré aquí para ayudarte”.

septiembre 23, 2025

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comité Editorial

Director
Dr. Stevenson Marulanda Plata

Editora
Maricielo Acero Rodríguez

Asesores Médicos
Dr. Jorge Diego Acosta Correa
Dra. Ivonne Díaz Yamal
Dr. Oswaldo Alfonso Borraez
Dr. Samuel Barbosa

Contacto comercial
Mary Stella Ardila Guzmán

NOSOTROS

Epicrisis es el órgano oficial de comunicación del Colegio Médico Colombiano. La opinión y conceptos personales expresados en los artículos firmados por un tercero no reflejan la posición de Epicrisis o el Colegio Médico Colombiano.

PBX: (+571) 746 3489 – Celular:(+57) 314 566 2174 – (+57) 323 232 4543 – (+57) 323 232 7752 – (+57) 314 566 2198Email : pqrs@colegiomedicocolombiano.org
Dirección: Carrera 7 # 69 – 17 – Bogotá, Colombia