¿Qué tan bien puede entender un chatbot lo que lee? Para averiguarlo, un equipo del Washington Post puso a prueba a cinco de los principales bots de IA del mercado.
Analizaron desde novelas y papers científicos hasta discursos políticos y contratos legales. El resultado dejó sorpresas entre los asistentes virtuales más usados del mundo.

¿Puede una IA realmente entender lo que lee?
Los bots de IA prometen ser superpoderes de lectura: resumen contratos, libros o investigaciones con solo subir un archivo. Pero, ¿realmente entienden lo que están leyendo o solo imitan comprensión?
Para responder esa pregunta, el Washington Post organizó un test con los cinco chatbots más populares: ChatGPT, Claude, Copilot, Meta AI y Gemini.
- Se usaron cuatro tipos de texto: literatura, ciencia médica, contratos legales y discursos políticos.
- Los textos fueron evaluados por expertos en cada campo.
- Se formularon 115 preguntas para analizar comprensión, análisis crítico y precisión.

Literatura: muchos fallaron al leer una novela histórica
En el área literaria, los bots tuvieron un rendimiento pobre. Solo Claude acertó todos los datos clave del libro, mientras que ChatGPT hizo el mejor resumen general, aunque omitió personajes y temas como la esclavitud.
Gemini fue el peor. El autor del libro lo comparó con el personaje de “Seinfeld” que vio la película en lugar de leer la novela.

Contratos legales: Claude volvió a destacarse
Según Sterling Miller, abogado corporativo, Claude fue el único que entendió bien las cláusulas más importantes. Incluso propuso mejoras útiles y detectó detalles que otros bots ignoraron.
En cambio, ChatGPT y Meta AI resumieron partes claves en una sola línea, algo que Miller calificó como «inútil».
Investigación médica: alto desempeño
Los cinco bots mostraron un nivel aceptable al leer papers científicos, quizá porque los estudios tienen estructuras previsibles y resúmenes humanos.

Claude se llevó el mejor puntaje (10/10) al explicar un paper sobre COVID persistente. Fue claro, técnico y útil para médicos. En contraste, Gemini dejó fuera partes esenciales del estudio sobre Parkinson.
Política: ChatGPT entendió mejor a Trump
Los discursos del Donald Trump fueron el mayor desafío en términos de análisis crítico. ChatGPT fue el que logró un mejor equilibrio entre contexto y veracidad.

Copilot, aunque técnicamente correcto, no captó el tono de los discursos.
Claude fue el más consistente y se llevó el primer puesto
En el balance general, Claude logró el mejor desempeño. Fue el único que se destacó tanto en análisis científico como en redacción legal, y mantuvo respuestas consistentes.
A diferencia de otros bots que resumieron mal o ignoraron partes clave, Claude se mostró más completo y preciso. Según los jueces, fue el que más se acercó a ser un buen asistente real.

¿Podemos confiar en estos bots para leer por nosotros?
Claude y ChatGPT demostraron ser los más capaces, pero ningún bot superó el 70% de precisión general. Todos, en mayor o menor medida, omitieron datos clave o generaron respuestas engañosas.
Si bien pueden ser útiles como asistentes de lectura, todavía no reemplazan la comprensión humana. Y muchas veces se nota que “el robot se esconde detrás de una máscara humana”.