El centro HiTZ descubre una nueva manera de crear chatbots para lenguas pequeñas

  • Noticias

Fecha de primera publicación:
18/06/2025

El uso de chatbots como ChatGPT está creciendo constantemente y se están convirtiendo en herramientas imprescindibles en muchas profesiones. Sus capacidades no dejan de ampliarse y mejorar: resumir textos, responder preguntas sobre cualquier tema, generar ideas, programar, crear documentos o traducir textos completos de un idioma a otro. Aunque ofrecen un rendimiento similar en las lenguas más extendidas, cuando se trata de lenguas más pequeñas como el euskera, la calidad no suele ser tan buena, debido a que no existen grandes cantidades de texto en estos idiomas. Por ejemplo, en Internet hay mil veces más documentos en inglés que en euskera, y cien veces más en castellano que en euskera. Entre la comunidad científica sigue siendo una incógnita si es posible lograr resultados equiparables al inglés con tan poca cantidad de textos. Según Eneko Agirre, director del centro de investigación HiTZ de la EHU, este nuevo trabajo representa “un gran avance hacia una respuesta afirmativa, aunque la incógnita aún persiste”.

Pasos para construir un chatbot en euskera

Hace aproximadamente un año, el centro HiTZ publicó un método abierto para construir un modelo lingüístico en euskera, ganando el premio al mejor artículo en el congreso más prestigioso de este ámbito. La familia de modelos lingüísticos llamada Latxa fue publicada con su código, disponible para que empresas e instituciones lo utilizaran en sus propios desarrollos. Las evaluaciones estandarizadas de laboratorio demostraron que Latxa poseía un conocimiento comparable al ChatGPT de aquel momento al operar en euskera, e incluso obtenía mejores resultados en pruebas específicas de conocimiento del idioma. Oscar Sainz, miembro del amplio equipo que desarrolla Latxa, afirma que “fue la primera vez que se alcanzó ese nivel de calidad para una lengua como el euskera, compitiendo además con gigantes tecnológicos multimillonarios, pero utilizando modelos abiertos”.

Naiara Pérez, otra de las desarrolladoras, cuenta a su vez que el Latxa construido entonces “tenía muchas capacidades, pero no era capaz de mantener conversaciones ni de seguir instrucciones para realizar tareas concretas. Es decir, aunque entendía una pregunta, no era consciente de que tenía que generar una respuesta. Lo mismo ocurría al darle órdenes para hacer resúmenes u otras instrucciones. Además, podía generar textos tóxicos o inapropiados, ya que no tenía filtros para evitarlos”.

Nuevo método

En un nuevo artículo científico, los miembros de HiTZ presentan un nuevo método para crear un chatbot en euskera capaz de mantener conversaciones. El artículo está actualmente bajo revisión, pero ya se ha puesto a disposición pública. El punto de partida es el modelo lingüístico multilingüe y abierto desarrollado por Meta, llamado Llama. “Aunque es uno de los modelos abiertos más potentes, su rendimiento en euskera es pobre, por lo que el objetivo es construir un chatbot que funcione en euskera. El camino habitual sería tomar Llama, alimentarlo con textos en euskera, y luego con ejemplos de uso en euskera, así como ejemplos para evitar usos tóxicos. Desafortunadamente, para construir un chatbot de alta calidad se necesitan muchos ejemplos de uso en euskera, lo que requiere una gran cantidad de trabajo manual y costoso, que hasta ahora solo las grandes empresas han podido asumir”, explica Eneko Agirre.

Los miembros de HiTZ han probado varias vías para evitar ese trabajo manual, y en contra de lo que se pensaba, han encontrado un método innovador y eficiente para adaptar un chatbot de calidad al euskera sin trabajo manual. Los experimentos y desarrollos realizados muestran que es suficiente continuar entrenando el chatbot Llama con texto en euskera, pero para ello es clave aplicar técnicas que eviten el problema conocido como “olvido catastrófico” (catastrophic forgetting en inglés).

¿Cuál es la mejor opción? Evaluación

Pero, ¿cómo evaluar estos modelos lingüísticos que pueden hacer “de todo”? Para llevar a cabo la evaluación, hace unos meses el centro HiTZ pidió ayuda a la sociedad. En la iniciativa llamada Ebaluatoia, los participantes podían lanzar cualquier pregunta o petición, recibir dos respuestas de diferentes chatbots y votar por la que más les gustara. En dos semanas se recopilaron trece mil valoraciones. “Entre los modelos probados había diferentes variantes de Latxa, y gracias a los votos se ha demostrado que el método desarrollado por HiTZ es el mejor para construir chatbots en euskera, y que Latxa 70B supera con creces al Latxa 8B, a pesar de su menor tamaño. De hecho, la variante más grande de Latxa está muy cerca del rendimiento de los mejores modelos cerrados, como GPT-4o de OpenAI o Claude de Anthropic”.

Latxa, disponible para desarrolladores

El trabajo realizado abre nuevas vías. Por un lado, el propio método puede aplicarse a modelos abiertos más potentes que Llama, lo que permitirá construir versiones más poderosas de Latxa en el futuro. Además, el método puede aplicarse a otras lenguas con un volumen similar de textos.

Por otro lado, todos los modelos Latxa están disponibles de forma gratuita para que desarrolladores y empresas los adapten y usen según sus necesidades. En colaboración con la Viceconsejería de Política Lingüística del Gobierno Vasco, se ha compartido con agentes del País Vasco para que lo utilicen como deseen. Más de cien personas lo han probado durante dos semanas y se les ha preguntado por los puntos fuertes y débiles de Latxa. Entre otras cosas, se les hizo una pregunta directa: “¿Está Latxa preparado para su uso por parte del público general?” La respuesta fue afirmativa, aunque se sugirieron algunas mejoras. Actualmente, el centro HiTZ, junto con el Gobierno Vasco, está estudiando cuál es la mejor manera de poner Latxa a disposición del público.

“Aunque este trabajo supone un hito, todavía queda mucho por hacer para mejorar y expandir Latxa. Los chatbots siguen mejorando continuamente y se están utilizando en todas partes. Incluso Google está en proceso de convertir su buscador en un chatbot. Europa está preocupada porque estos dispositivos reflejan visiones concretas del mundo, lo que puede generar hegemonías lingüísticas y culturales. En el caso del euskera, más allá del impacto que pueda tener en el uso del idioma, también está en juego que la cultura, el conocimiento y las perspectivas propias queden adecuadamente representadas”, concluye el director del centro HiTZ.

Información adicional

El artículo, todos los modelos Latxa, los corpus utilizados y los bancos de pruebas están disponibles aquí: https://github.com/hitz-zentroa/latxa-instruct. Los modelos Latxa heredan la “Llama License”, que permite su uso en investigación y actividad comercial.

Desde HiTZ quieren dar un agradecimiento especial a todas las personas que participaron en Ebaluatoia, sin cuya ayuda no habrían sido posibles los resultados de esta investigación. También destacan la contribución de quienes comparten textos en euskera de forma abierta (Tokikom, Berria, Hitza, Wikipedia, Argia, Bilbao Hiria Irratia, Booktegi, entre otros). “Esta generosidad es esencial para construir chatbots en euskera, y HiTZ quiere mostrar su especial agradecimiento, incluyendo a Egunkaria”.

Latxa ha sido desarrollado en el marco del proyecto IKER-GAITU financiado por el Gobierno Vasco. También ha recibido financiación del Ministerio para la Transformación Digital y de la Función Pública y del Plan de Recuperación, Transformación y Resiliencia, en colaboración con el proyecto ILENIA, con referencia 2022/TL22/00215335. HiTZ ha utilizado su propia infraestructura de computación de alto rendimiento (HPC), y los modelos finales han sido entrenados en el superordenador Leonardo de CINECA, en el marco de EuroHPC Joint Undertaking (proyecto EHPC-EXT-2024E01-042).