Un modelo de inteligencia artificial aplicado a la salud ha vuelto a encender el debate sobre los límites de estas herramientas en entornos clínicos. El sistema Med-Gemini, desarrollado por Google, utilizó en un documento científico el término “basilar ganglia”, una estructura anatómica inexistente que combina dos elementos reales: los ganglios basales y la arteria basilar.
El error no se produjo en un hospital ni en una historia clínica real, sino en un artículo preliminar publicado en 2024 para presentar el modelo. En ese texto, diseñado para mostrar cómo la herramienta podía detectar anomalías en escáneres que radiólogos habían pasado por alto, se mencionaba el diagnóstico de un “old left basilar ganglia infarct”. El problema es simple: esa región no existe.
El neurólogo Bryan Moore, investigador especializado en IA médica, detectó la incorrección y la comunicó. Según explicó a The Verge, Google modificó posteriormente una entrada de blog asociada al lanzamiento y sustituyó el término erróneo por “basal ganglia”. El artículo científico original, sin embargo, mantenía el error en el momento en que se informó sobre el caso.
Un portavoz de la compañía, Jason Freidenfelds, afirmó que el sistema identificó correctamente la patología, pero empleó un término incorrecto. La explicación oficial fue que se trataba de una confusión entre “basilar” y “basal”. La patología estaba bien señalada, la anatomía no.
Puede parecer un matiz lingüístico. No lo es. En medicina, pequeñas diferencias terminológicas pueden tener implicaciones clínicas relevantes. Un ejemplo sencillo: confundir una arteria con una región neuronal no es intercambiable desde el punto de vista diagnóstico.
Med-Gemini forma parte de un conjunto de modelos diseñados para resumir datos clínicos, generar informes radiológicos y analizar historiales médicos electrónicos. El programa de pruebas ya no acepta nuevos participantes, lo que sugiere que se está evaluando en escenarios reales, aunque en fase piloto.
El episodio ha generado inquietud entre profesionales sanitarios. Maulin Shah, director de información médica en Providence, sistema con 51 hospitales y más de 1.000 clínicas, calificó el error de peligroso. A su juicio, incluso una variación mínima en terminología anatómica puede alterar la interpretación clínica.
No es el único caso. Meses antes, Google presentó MedGemma, otro modelo centrado en radiología. Algunos profesionales detectaron que ligeros cambios en la formulación de preguntas alteraban de forma significativa las respuestas del sistema. Por ejemplo, una radiografía podía ser diagnosticada correctamente cuando se proporcionaba contexto detallado, pero fallar ante una pregunta más general sobre la misma imagen.
La profesora Judy Gichoya, de la Universidad de Emory, documentó situaciones en las que el modelo generaba diagnósticos inexistentes al modificar levemente el enunciado. El problema no es solo que la IA se equivoque, sino que lo haga con seguridad aparente.
Aquí entra en juego el llamado sesgo de automatización. Se trata de la tendencia humana a confiar en sistemas que suelen acertar, reduciendo la vigilancia ante posibles fallos. En entornos de alta presión, como una sala de urgencias, esa confianza puede traducirse en errores no detectados.
Jonathan Chen, profesor asociado en la Facultad de Medicina de Stanford, ha advertido que muchos de estos sistemas se están integrando con rapidez pese a no estar plenamente maduros. Michael Pencina, científico jefe de datos en Duke Health, sostiene que cuanto más autónomo sea el sistema, mayor debe ser el nivel de exigencia en evidencia y fiabilidad.
El artículo que presentó Med-Gemini contaba con más de 50 autores y fue revisado por profesionales médicos antes de publicarse. No se ha aclarado por qué el término incorrecto no fue detectado durante ese proceso.
La cuestión de fondo es clara: si un modelo puede inventar una estructura anatómica en un documento científico, ¿qué garantías existen en contextos asistenciales? La industria sanitaria explora el potencial de la IA para reducir carga administrativa y mejorar eficiencia, pero los estándares de validación siguen bajo escrutinio.
Algunos expertos abogan por integrar mecanismos que detecten “confabulaciones” o alerten cuando el sistema pueda estar generando contenido inexacto. Mientras tanto, el consenso es firme en un punto: la supervisión humana no es opcional.
En medicina, un término mal empleado no es un simple error tipográfico. Es una posible fuente de riesgo. La precisión no es un detalle técnico, es una condición esencial.
