Un estudio revela que casi la mitad de las respuestas médicas de la IA contienen errores

La inteligencia artificial conversacional ya forma parte del día a día de millones de personas. También cuando aparecen dudas sobre salud. Cada vez más usuarios consultan síntomas, tratamientos o nutrición en plataformas como OpenAI ChatGPT, Google Gemini o xAI Grok buscando una respuesta inmediata. Sin embargo, un nuevo estudio científico vuelve a poner límites claros a esa práctica.

Una investigación publicada en BMJ Open concluye que una parte importante de las respuestas generadas por estos sistemas contiene errores, información dudosa o recomendaciones potencialmente peligrosas. El análisis detectó que casi una de cada dos respuestas evaluadas no alcanzó estándares médicos adecuados.

Cinco modelos populares bajo examen

El trabajo analizó el comportamiento de Gemini 2.0, DeepSeek V3, Llama 3.3, ChatGPT 3.5 y Grok 2. Para ello, los investigadores lanzaron 250 preguntas relacionadas con áreas especialmente sensibles, entre ellas cáncer, vacunas, células madre, nutrición y rendimiento deportivo.

Después, especialistas independientes revisaron cada contestación. El resultado fue ajustado, pero preocupante: el 49,6 % del contenido se consideró problemático o arriesgado, mientras que el 50,4 % restante sí se alineó con criterios médicos reconocidos. Esto no significa que todos los sistemas fallen siempre. Significa algo más relevante: la fiabilidad todavía no es constante.

Por qué una IA puede sonar segura y equivocarse

Los modelos de lenguaje generan texto prediciendo qué palabra encaja después en una frase. Esa arquitectura les permite escribir con fluidez, resumir temas complejos y mantener conversaciones naturales. Pero no razonan como un médico ni comprueban cada afirmación en tiempo real.

Ahí está uno de los mayores riesgos. Una respuesta puede sonar convincente y estar bien redactada, pero incluir errores o conclusiones sin respaldo científico. Es parecido a leer un texto muy seguro de sí mismo que mezcla aciertos con fallos difíciles de detectar para un usuario común.

El informe añade otro dato importante: las preguntas abiertas provocaron más errores. Un 32 % terminó en respuestas altamente problemáticas, frente al 7,2 % registrado en preguntas cerradas.

Nutrición y deporte, los campos más expuestos

Aunque los sistemas mostraron mejor rendimiento en vacunas y cáncer, los resultados empeoraron en otras áreas. Los niveles más altos de error aparecieron en nutrición y rendimiento deportivo, dos sectores donde abundan consejos virales, promesas rápidas y recomendaciones poco contrastadas.

En la comparación entre plataformas, Grok fue el modelo que acumuló más respuestas peligrosas respecto a lo esperado dentro del análisis. Otro dato llama la atención: solo el 0,8 % de las consultas fue rechazado. Es decir, los sistemas tienden a responder incluso cuando el tema exige máxima prudencia.

Fuentes escasas y explicaciones difíciles

La auditoría también revisó si los chatbots citaban referencias médicas fiables. El promedio fue bajo: apenas alrededor del 40 % de las respuestas incluía fuentes consideradas suficientes o útiles. Además, muchas contestaciones requerían un nivel de comprensión elevado, cercano al universitario avanzado. Esto reduce su utilidad para parte de la población y aumenta el riesgo de malas interpretaciones.

El aviso para startups y grandes tecnológicas

El crecimiento de la IA aplicada a salud abre oportunidades claras: asistentes virtuales, apoyo administrativo, educación sanitaria o sistemas de triaje inicial. Pero este estudio recuerda que el principal reto sigue siendo el mismo: la confianza. Para startups healthtech y grandes compañías tecnológicas, el mensaje es directo:

  • La velocidad no sustituye a la precisión clínica.
  • La supervisión humana sigue siendo clave.
  • La transparencia sobre límites y fuentes será decisiva.

No basta con una interfaz atractiva o respuestas instantáneas. Si la herramienta se equivoca en un asunto médico sensible, el coste reputacional y humano puede ser alto.

Qué recomiendan los investigadores

Los autores del estudio piden cautela al usar chatbots para resolver dudas médicas. Recomiendan contrastar siempre la información con profesionales sanitarios y no tomar decisiones relevantes basándose solo en respuestas automatizadas. La inteligencia artificial avanza rápido en hospitales, consultas y plataformas digitales. Pero cuando está en juego la salud, la rapidez nunca debe sustituir al criterio médico.

No hay comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *