La Universidad del País Vasco se une a Euskorpora

  • Noticias

Fecha de primera publicación:
01/04/2025

Acto de presentación de Euskorpora el 19 de febrero de 2025 | Foto: Irekia

La UPV/EHU es el nuevo socio de la asociación Euskorpora, promovida por el Gobierno Vasco. En el marco de la misión de crear el corpus digital del euskera, el vicerrectorado de Euskera y Planificación Lingüística y el centro HiTZ liderarán la aportación de la universidad, basándose en su trayectoria, conocimiento y experiencia de largos años, así como en sus actuales líneas de investigación. El Centro Vasco de Tecnología de la Lengua HiTZ promueve la investigación, la formación, la transferencia tecnológica y la innovación en inteligencia artificial basada en el lenguaje y la voz.

En palabras de la vicerrectora de Euskera y Planificación Lingüística de la UPV/EHU, Igone Zabala, “es fundamental crear un corpus digital y desarrollarlo de forma activa y metódica para que el euskera no quede fuera de la transformación digital”. La UPV/EHU puede hacer una gran aportación en esa tarea, no solo por su conocimiento en ese campo, sino también por su trabajo que ha llevado a cabo en el desarrollo de corpus en las últimas décadas. Así, el Instituto de Euskera de la UPV/EHU presentó en 2013 lo que hasta entonces era el corpus más grande del euskera. El Departamento de Euskera y Comunicación, con el grupo Ixa del centro HiTZ y la Fundación Elhuyar, lleva más de una década alimentando el corpus académico Garaterm, que hoy en día abarca más de 26 millones de palabras. Bajo los auspicios del Vicerrectorado de Euskera, en el corpus EHUskaratuak se han digitalizado, paralelizado y dispuesto para su consulta cientos de manuales traducidos al euskera. 

En este sentido, “la UPV/EHU tiene que ser un agente activo en el desarrollo y explotación del corpus del euskera y, para ello, ha dado un paso importante incorporándose como miembro de la asociación Euskorpora”, ha subrayado Zabala.  

El director del centro HiTZ, Eneko Agirre, ha señalado que “la UPV/EHU quiere equiparar la tecnología lingüística en euskera a las principales lenguas a través de la investigación de vanguardia. Y para eso es imprescindible acertar en la estrategia de elaboración de corpus, y en eso también quiere ayudar a Euskorpora». De hecho, las técnicas de Inteligencia Artificial Creativa han cambiado radicalmente la tecnología del lenguaje y es necesario adaptar la elaboración de corpus a los nuevos tiempos”. En este sentido, el centro HiTZ trabaja en la recopilación y elaboración de corpus orales y escritos abiertos para construir modelos libres. En la prestigiosa web https://huggingface.co/HiTZ se pueden ver corpus y modelos accesibles que han sido descargado miles de veces por agentes externos e internos. En opinión de Eneko Agirre “estos corpus libres son muy importantes para que cualquier empresa pueda integrar y utilizar el euskera en sus productos en el menor tiempo posible”. Como ejemplo, se puede citar el corpus libre más grande para la transcripción de la voz en euskera, que ha sido descargado 400.000 veces, y el corpus que se utiliza para entrenar el modelo lingüístico Latxa, que ha tenido un millón de descargas.