- Noticias
Fecha de primera publicación:
19/03/2025

El centro HiTZ está trabajando para convertir su modelo de lenguaje en euskera Latxa, un modelo de inteligencia artificial que emplea técnicas de aprendizaje automático para comprender y generar lenguaje humano, en un chatbot que cualquier persona pueda utlizar, y al mismo tiempo está abriendo nuevos caminos para medir la calidad de los chatbots. El objetivo es crear un chatbot abierto en euskera que funcione igual o mejor que modelos cerrados como ChatGPT y similares de empresas como OpenAI o Google. HiTZ quiere hacer de forma colaborativa parte de lo que estas empresas han construido con millones de dólares. ¿Cómo participar? Es muy fácil y divertido: entra en la web ebaluatoia.hitz.eus, haz una pregunta o petición, y elige qué respuesta es la mejor. Como en la primera fase exitosa del ebaluatoia, en esta segunda fase también habrá un concurso y premios para los participantes. Desde el 19 de marzo al 2 de abril se podrá participar en ebaluatoia.
El desarrollo de modelos de lenguaje ha experimentado avances significativos en los últimos años. Hoy en día, los chatbots conversacionales como ChatGPT o similares poseen capacidades avanzadas para responder a las preguntas de los usuarios y crear nuevo contenido. Parece que su construcción está en manos de grandes empresas, pero HiTZ, el Centro Vasco de Tecnología de la Lengua de la UPV/EHU ha elegido otro camino: seleccionar un buen chatbot abierto existente y enseñarle euskera.
Como se puede pensar, el proyecto es ambicioso, y se deben dar varios pasos para poder construir el mejor chatbot en euskera. Eneko Agirre, director de HiTZ, afirma que «En el camino de construir un chatbot en euskera, se nos han planteado nuevas preguntas de investigación. Nuestro objetivo no es solo construir el mejor chatbot en euskera, y que funcione tan bien en euskera como en castellano. En el camino hacia ese objetivo estamos a la vez investigando, y publicaremos lo aprendido en revistas científicas, ya que la metodología que estamos abordando y lo aprendido es útil también para otros muchos idiomas».
Por eso se lanza ebaluatoia.hitz.eus, ya que es esencial que los usuarios y usuarias euskaldunes utilicen los chatbots y ayuden a elegir el mejor. En el ebaluatoia, el usuario realizará una petición en la web, y esta le proporcionará las respuestas de dos chatbots diferentes una junto a la otra, para que el usuario elija la mejor. Para evitar sesgos, el voto del usuario es ciego, es decir, el usuario no sabe qué dos chatbots está evaluando. Para completar la clasificación de los chatbots se utliliza el sistema de evaluación ELO, usado en ajedrez. Los modelos comienzan con una puntuación arbitraria inicial (por ejemplo, 1.000 puntos cada uno), y su puntuación cambiará según vayan ganando, perdiendo o empatando partidas, dependiendo de la puntuación de sus oponentes. Según Naiara Pérez, investigadora de HiTZ, «A este tipo de evaluación se le denomina arena, porque los modelos de lenguaje compiten entre sí, y permite evaluar los chatbots en un escenario realista y práctico. En este sentido, se ha vuelto común que las propias empresas envíen sus mejores modelos a competir en el llamado Chatbot Arena para inglés. Nosotros hemos preferido llamarlo ebaluatoia».
En el ebaluatoia se probarán dieciocho chatbots construidos por HiTZ, así como los mejores chatbots comerciales. Hay de todo, chatbots muy buenos, no tan buenos, y también malos, para poder sacar conclusiones en la investigación científica. Oscar Sainz, investigador de HiTZ, afirma que «entre ellos estará el chatbot más grande jamás construido en el estado, un gigantesco chatbot basado en Latxa de 70B parámetros».
Hace poco el centro HiTZ organizó la primera fase del ebaluatoia. Fue muy exitosa, se recibieron más de cinco mil participaciones, de más de 250 participantes. El participante más prolífico realizó 470 ejercicios, y recibió un premio acorde a ello. Con lo aprendido de esa primera fase, se ha organizado una segunda fase que durará dos semanas a partir de hoy, y esta vez el objetivo es recibir veinte mil ejercicios, ¡seguro que lo conseguimos!
Información adicional
El modelo de lenguaje Latxa se ha desarrollado en el marco del proyecto IKER-GAITU financiado por el Gobierno Vasco. El Ministerio de Transformación Digital y Función Pública y el Plan de Recuperación, Transformación y Resiliencia, financiado por la Unión Europea a través de NextGenerationEU, también han financiado este proyecto, en colaboración con el proyecto ILENIA, con la referencia 2022/TL22/00215335. HiTZ ha utilizado su propia infraestructura de computación de alto rendimiento (HPC) y los últimos modelos se han entrenado en el supercomputador Leonardo de CINECA, dentro de la Iniciativa Conjunta EuroHPC (proyecto EHPC-EXT-2023E01-013).