Carlos Romero.
La
Inteligencia Artificial y los modelos de lenguaje como ChatGPT se utilizan cada vez más en entornos clínicos, pero su fiabilidad para replicar recomendaciones basadas en la evidencia sigue siendo incierta, especialmente en campos tan específicos como la
cirugía de rodilla. El estudio realizado por la Universidad Europea y la clínica CEMTRO, titulado “Can Artificial Intelligence Align with Evidence? Performance of ChatGPT-40 in Knee Osteoarthritis Surgical Guidelines”, evalúa el
rendimiento de ChatGPT-4 a la hora de seguir las guías de práctica clínica (GPC) para la artroplastia de rodilla, revelando una capacidad moderada. Carlos Romero-Morales, catedrático de Fisioterapia de la Universidad Europea, señala que "es crucial evaluar rigurosamente el rendimiento de los modelos de IA frente a las guías de práctica clínica establecidas antes de su integración en el flujo de trabajo clínico”.
El estudio, publicado en la revista The Journal of Knee Surgery, examina la capacidad de
ChatGPT-4 para reproducir las recomendaciones de la guía de la Academia Americana de Cirujanos Ortopédicos (AAOS) sobre la artroplastia total de rodilla. Para ello, los investigadores formularon
20 preguntas clínicas estructuradas y las introdujeron en el chatbot en tres ocasiones diferentes para
evaluar la consistencia de sus respuestas.
Los resultados mostraron que el modelo de IA logró una
concordancia general del 60% con las directrices clínicas, un resultado que el estudio califica como un nivel de acuerdo “justo”. Carlos Romero-Morales advierte de que "la consistencia interna del texto generado por ChatGPT-4.0 en repetidas pruebas fue baja, mostrando
niveles inaceptables de similitud inferior al 50%”. Esta falta de consistencia fue especialmente notable en temas clave, donde la IA ofreció información contradictoria o incompleta sobre la utilidad de la fisioterapia preoperatoria o el uso del torniquete durante la cirugía.
Deficiencias de la IA
El trabajo también profundiza en las áreas donde la IA mostró más deficiencias. El catedrático señala que “aunque ChatGPT-4 proporcionó respuestas clínicamente aceptables en varios dominios,
persistieron discrepancias, particularmente en recomendaciones sobre resultados funcionales y estrategias de rehabilitación”. Estas inconsistencias limitan su fiabilidad para ser usado en la
toma de decisiones clínicas sin una supervisión experta.
Por otro lado, el estudio destaca el avance de esta tecnología, ya que ChatGPT-4 supone una mejora con respecto a versiones anteriores como ChatGPT-3.5, que mostraron un rendimiento aún más bajo en estudios previos. Sin embargo, los problemas de fiabilidad y de "alucinaciones" (generación de
información falsa o no verificable) siguen presentes. Romero-Morales aclara que “aunque la tecnología mejora,
su aplicación en campos especializados como la rehabilitación ortopédica debe complementar, y no sustituir, el juicio profesional. El riesgo de alucinaciones o la generación de información no verificable sigue siendo una barrera importante para su uso autónomo”.
Por ello, la conclusión principal es que la integración de esta tecnología debe hacerse con suma precaución. Como destaca Romero-Morales, "estos hallazgos tienen
implicaciones significativas para la integración de la IA en la práctica clínica ya que pueden ser un apoyo”, aunque recomienda “tener cautela y llevar a cabo una
validación robusta antes de que estas herramientas se adopten en un entorno clínico".
Las informaciones publicadas en Redacción Médica contienen afirmaciones, datos y declaraciones procedentes de instituciones oficiales y profesionales sanitarios. No obstante, ante cualquier duda relacionada con su salud, consulte con su especialista sanitario correspondiente.