Los modelos de vanguardia como el GPT-5 ahora alcanzan las mejores puntuaciones en los parámetros médicos. Pero nuestras pruebas de estrés cuentan una historia diferente.
Nota: Epicrisis es el órgano oficial de comunicación del Colegio Médico Colombiano. La opinión y conceptos personales expresados en los artículos firmados por un tercero no reflejan la posición de Epicrisis o del Colegio Médico Colombiano-CMC-.
Resumen de estudio
Los sistemas líderes a menudo aciertan incluso cuando se eliminan datos clave como imágenes, invierten las respuestas ante cambios triviales en las indicaciones y elaboran razonamientos convincentes pero defectuosos.
Estos no son fallos técnicos; revelan cómo los parámetros actuales priorizan las trampas para realizar exámenes en lugar de la comprensión médica. Evaluamos seis modelos emblemáticos en seis parámetros ampliamente utilizados y descubrimos que las altas puntuaciones en las clasificaciones ocultan fragilidad y acortan el aprendizaje.
Mediante una evaluación de rúbricas guiada por médicos, demostramos que los parámetros varían ampliamente en lo que realmente miden, pero se tratan de forma intercambiable, enmascarando los modos de fallo. Advertimos que las puntuaciones de los parámetros médicos no reflejan directamente la preparación para el mundo real.
Si queremos que la IA se gane la confianza en la atención médica, debemos exigir más que victorias en las clasificaciones y responsabilizar a los sistemas de su robustez, razonamiento sólido y alineación con las demandas médicas reales.
El documento, “La ilusión de preparación”, probó seis de los modelos más populares (OpenAI, Gemini, etc.), a través de seis puntos de referencia médicos multimodales.
¿Y el veredicto?
Las modelos obtuvieron una puntuación alta en los exámenes médicos. Pero ni siquiera están cerca de estar listos para el mundo real. Esto es lo que revelaron las pruebas de estrés:
- Aprendizaje de atajos: Los modelos a menudo respondieron correctamente incluso cuando se eliminó información clave, como imágenes médicas. No estaban razonando, estaban explotando atajos estadísticos. Eso significa que las ganancias de referencia pueden ocultar una comprensión superficial.
- Número arábigo: Frágil bajo pequeños cambios. Hacer pequeños ajustes provocó grandes cambios en las predicciones. Esta fragilidad muestra cómo el razonamiento de modelos poco confiable se vuelve bajo estrés. En las pruebas de sustitución visual, la precisión se redujo del 83% al 52% cuando se intercambiaron imágenes, exponiendo emparejamientos superficiales de respuesta visual.
- Razonamiento fabricado: Los modelos produjeron explicaciones médicas seguras y paso a paso, pero muchas no eran médicamente sólidas… o completamente fabricado. Convincente a la vista, peligroso en la práctica. Y lo que es más importante, la atención médica no es un examen de opción múltiple. Es incertidumbre, datos incompletos y mucho en juego. Así que el equipo de Microsoft pide nuevos estándares:
- Pruebas de estrés que exponen la fragilidad
- Pautas guiadas por médicos que perfilan puntos de referencia
- Evaluación de la solidez y la confiabilidad, no solo puntajes en la tabla de clasificación
La conclusión es simple
La IA médica puede superar las pruebas hoy. Pero hasta que no demuestre ser confiable bajo estrés, no está listo para la clínica.
¿Cuándo creen que los LLM populares estarán listos para la clínica?
Artículo completo y original
Deja un comentario