Desafían a 5 Inteligencias Artificiales a leer como humanos: el ganador no fue ChatGPT

¿Qué tan bien puede entender un chatbot lo que lee? Para averiguarlo, un equipo del Washington Post puso a prueba a cinco de los principales bots de IA del mercado.

Analizaron desde novelas y papers científicos hasta discursos políticos y contratos legales. El resultado dejó sorpresas entre los asistentes virtuales más usados del mundo.

Una inteligencia artificial autónoma con luces y cables conectados a su cabeza.
Pusieron a prueba a cinco de los principales bots de IA del mercado | La Derecha Diario

¿Puede una IA realmente entender lo que lee?

Los bots de IA prometen ser superpoderes de lectura: resumen contratos, libros o investigaciones con solo subir un archivo. Pero, ¿realmente entienden lo que están leyendo o solo imitan comprensión?

Para responder esa pregunta, el Washington Post organizó un test con los cinco chatbots más populares: ChatGPT, Claude, Copilot, Meta AI y Gemini.

  • Se usaron cuatro tipos de texto: literatura, ciencia médica, contratos legales y discursos políticos.
  • Los textos fueron evaluados por expertos en cada campo.
  • Se formularon 115 preguntas para analizar comprensión, análisis crítico y precisión.
Un robot humanoide pensativo frente a una pizarra llena de fórmulas matemáticas complejas representa los peligros de la Inteligencia Artificial según el ex-CEO de Google, Eric Schmidt.
¿Puede una IA realmente entender lo que lee? | La Derecha Diario

Literatura: muchos fallaron al leer una novela histórica

En el área literaria, los bots tuvieron un rendimiento pobre. Solo Claude acertó todos los datos clave del libro, mientras que ChatGPT hizo el mejor resumen general, aunque omitió personajes y temas como la esclavitud.

Gemini fue el peor. El autor del libro lo comparó con el personaje de “Seinfeld” que vio la película en lugar de leer la novela.

Un teléfono móvil muestra la página de ChatGPT en primer plano con el logo y el nombre de OpenAI desenfocados al fondo.
ChatGPT hizo el mejor resumen general | La Derecha Diario

Contratos legales: Claude volvió a destacarse

Según Sterling Miller, abogado corporativo, Claude fue el único que entendió bien las cláusulas más importantes. Incluso propuso mejoras útiles y detectó detalles que otros bots ignoraron.

En cambio, ChatGPT y Meta AI resumieron partes claves en una sola línea, algo que Miller calificó como «inútil».

Investigación médica: alto desempeño

Los cinco bots mostraron un nivel aceptable al leer papers científicos, quizá porque los estudios tienen estructuras previsibles y resúmenes humanos.

Texto
Claude se llevó el mejor puntaje (10/10) al explicar un paper sobre COVID persistente | La Derecha Diario

Claude se llevó el mejor puntaje (10/10) al explicar un paper sobre COVID persistente. Fue claro, técnico y útil para médicos. En contraste, Gemini dejó fuera partes esenciales del estudio sobre Parkinson.

Política: ChatGPT entendió mejor a Trump

Los discursos del Donald Trump fueron el mayor desafío en términos de análisis crítico. ChatGPT fue el que logró un mejor equilibrio entre contexto y veracidad.

Hombre de cabello rubio con traje azul y corbata roja caminando por una alfombra roja acompañado de otras personas en un pasillo oscuro
ChatGPT entendió mejor a Trump | La Derecha Diario

Copilot, aunque técnicamente correcto, no captó el tono de los discursos.

Claude fue el más consistente y se llevó el primer puesto

En el balance general, Claude logró el mejor desempeño. Fue el único que se destacó tanto en análisis científico como en redacción legal, y mantuvo respuestas consistentes.

A diferencia de otros bots que resumieron mal o ignoraron partes clave, Claude se mostró más completo y preciso. Según los jueces, fue el que más se acercó a ser un buen asistente real.

Tabla comparativa de puntuaciones de cinco chatbots donde Claude tiene la puntuación más alta seguido de ChatGPT, Gemini, Copilot y Meta AI
En el balance general, Claude logró el mejor desempeño | La Derecha Diario

¿Podemos confiar en estos bots para leer por nosotros?

Claude y ChatGPT demostraron ser los más capaces, pero ningún bot superó el 70% de precisión general. Todos, en mayor o menor medida, omitieron datos clave o generaron respuestas engañosas.

Si bien pueden ser útiles como asistentes de lectura, todavía no reemplazan la comprensión humana. Y muchas veces se nota que “el robot se esconde detrás de una máscara humana”.

Deja un comentario