Una investigación realizada por el Instituto Lundquist para la Innovación Biomédica analizó el desempeño de distintos sistemas de inteligencia artificial ante consultas relacionadas con la salud y detectó errores, referencias incompletas y contenidos considerados problemáticos por los investigadores.
El trabajo evaluó respuestas generadas por ChatGPT, Gemini, Grok, Meta AI y DeepSeek a partir de 250 preguntas vinculadas con cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Según el informe, una parte de los resultados presentaba inconvenientes que podrían afectar la calidad de la información recibida por los usuarios.
De acuerdo con los datos difundidos por los autores, el 20 % de las respuestas fue clasificado como altamente problemático. Entre las observaciones realizadas se mencionan recomendaciones potencialmente inadecuadas, dificultades para verificar las fuentes citadas y casos en los que los sistemas generaron referencias inexistentes con apariencia de autenticidad.
El estudio también señaló que los chatbots suelen ofrecer respuestas con un alto grado de certeza, aun cuando la información proporcionada pueda contener errores o carecer de respaldo suficiente. Además, advirtió que parte de los textos analizados requería un nivel elevado de comprensión lectora.
Entre las plataformas evaluadas, Grok registró la mayor proporción de respuestas catalogadas como problemáticas, mientras que Gemini obtuvo los mejores resultados dentro de la muestra examinada.
Los investigadores sostienen que estos sistemas presentan limitaciones para validar de manera autónoma la información que generan, por lo que recomiendan cautela al utilizarlos para consultas vinculadas con la salud.