Evidencian las limitaciones de los modelos de IA en la comprensión del lenguaje

Un equipo investigador internacional liderado por la URV ha analizado las capacidades de siete modelos de inteligencia artificial (IA) en la comprensión del lenguaje y las ha comparado con las de los humanos. Los resultados muestran que, a pesar de su éxito en algunas tareas específicas, los modelos no alcanzan un nivel comparable al de las personas en pruebas sencillas de comprensión de textos. «La capacidad de los modelos para llevar a cabo tareas complejas no garantiza que sean competentes en tareas sencillas» avisan.

Los modelos extensos de lenguaje (MEL) son redes neuronales diseñadas para generar textos de manera autónoma a partir de un requerimiento del usuario. Están especializados en tareas como la generación de respuestas a consultas generales, la traducción de textos, la resolución de problemas o la síntesis de contenidos. Se afirma a menudo que estos modelos tienen capacidades similares a las humanas, en términos de comprensión y razonamiento, pero los resultados de la investigación liderada por Vittoria Dentella, investigadora del Grupo de Investigación en Lengua y Lingüística de la URV, evidencian sus limitaciones: «Los MEL no comprenden realmente el lenguaje; simplemente aprovechan los patrones estadísticos presentes en sus datos de entrenamiento.»

Con el fin de comparar el rendimiento en la comprension de textos de humanos y MEL, los investigadores formularon 40 preguntas a siete modelos de IA —Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral—, utilizando estructuras gramaticales simples y verbos de uso frecuente. Por otro lado, se sometió a un grupo de 400 personas, todos hablantes nativos de inglés, a las mismas preguntas y se comparó la precisión de sus respuestas con las de los MEL. Cada pregunta se repitió tres veces, para evaluar la consistencia de las respuestas.

La media de aciertos de los humanos fue del 89%, bastante superior a la de los modelos de IA, el mejor de los cuales (ChatGPT-4) ofreció un 83% de respuestas correctas. Los resultados evidencian una gran diferencia en el rendimiento de las tecnologías de comprensión de textos: excepto ChatGPT-4, ninguno de los MLE alcanzó una precisión superior al 70%. Los humanos también fueron más consistentes ante las preguntas repetidas, manteniendo las respuestas en un 87% de los casos. Los modelos de comprensión de textos, en cambio, registraron una estabilidad que osciló entre el 66% y el 83%.

«Aunque los MLE pueden generar textos gramaticalmente correctos y aparentemente coherentes, los resultados de este estudio sugieren que, en el fondo, no entienden el significado del lenguaje de la forma en que lo hace un humano», explica Dentella. En realidad, los modelos de lenguaje extensos no interpretan el significado como lo hace una persona —integrando elementos semánticos, gramaticales, pragmáticos y contextuales. Funcionan identificando patrones en los textos y comparándolos con los que presenta la información con la que han sido entrenados y mediante algoritmos predictivos basados en estadísticas. La apariencia humana es, por tanto, una ilusión.

Esto se traduce en dificultades para mantener un criterio estable en las respuestas, especialmente cuando se somete el modelo a preguntas repetidas. También explica por qué los modelos ofrecen respuestas que no sólo son incorrectas, sino que denotan una falta de comprensión del contexto o del significado de un concepto. Es por ello que, tal y como advierte Dentella, esta tecnología no es todavía lo suficientemente fiable para ser utilizada en algunas aplicaciones críticas: «Nuestra investigación demuestra que las capacidades de los MEL para llevar a cabo tareas complejas no garantizan que sean competentes en tareas sencillas, que a menudo son las que requieren una comprensión real del lenguaje».

Referencia: Dentella, V., Günther, F., Murphy, E. et al. Testing AI on language comprehension tasks reveals insensitivity to underlying meaning. Sci Rep 14, 28083 (2024). https://doi.org/10.1038/s41598-024-79531-8

Print Friendly, PDF & Email