Participación do Proxecto Nós no ACL 2025

Entre o 27 de xullo e o 1 de agosto de 2025 celebrouse en Viena o ACL 2025, o principal congreso internacional no ámbito do procesamento da linguaxe natural (NLP) e da intelixencia artificial. O evento reuniu milleiros de investigadoras e investigadores de todo o mundo para compartir os avances máis recentes en modelos de linguaxe, aprendizaxe profunda e procesamento multilingüe.
O tema central da edición foi a xeneralización dos modelos de NLP, con especial foco na robustez multilingüe, na avaliación interpretativa e no aliñamento ético dos LLMs. O programa incluíu máis de 3 000 contribucións e conferencias maxistrais a cargo de figuras destacadas como:
-
Verena Rieser (Senior Staff Research Scientist en Google DeepMind), que na súa charla “Whose Gold? Re-imagining Alignment for Truly Beneficial AI” propuxo unha reflexión crítica sobre os valores que guían o aliñamento dos modelos;
-
Luke Zettlemoyer (profesor na University of Washington e Director Senior de Investigación en Meta AI), que presentou “Rethinking Pretraining: Data and Architecture”, centrada na optimización de arquitecturas e datos para mellorar a eficiencia e a calidade dos LLMs;
-
Dan Roth (profesor na University of Pennsylvania e Chief AI Scientist en Oracle), quen participou no panel “Generalization of NLP Models”, debatendo sobre os retos que supón transferir coñecemento entre linguas, dominios e tarefas.
O noso equipo participou activamente no congreso coa presentación dun póster na sección Findings, tras conseguir a publicación do artigo “Continued Pretraining and Interpretability-Based Evaluation for Low-Resource Languages: A Galician Case Study”, asinado por Pablo Rodríguez, Silvia Paniagua, Pablo Gamallo e Susana Sotelo.
Este traballo, desenvolvido no marco do proxecto ILENIA, propón un enfoque de continued pretraining (CPT) para mellorar o rendemento dos modelos de linguaxe en linguas con poucos recursos, tomando o galego como caso de estudo. O traballo explora como adaptar LLMs a linguas minoritarias sen comprometer as capacidades resolutivas previamente adquiridas, mitigando o catastrophic forgetting nas fases temperás do adestramento. Demóstrase que, con estratexias de adestramento axeitadas —baseadas en corpus de alta calidade e tarefas instrutivas— é posible adaptar modelos multilingües ao galego sen perder habilidades resolutivas e, ao mesmo tempo, mellorar a calidade do texto xerado.
Entre as principais achegas salientan:
-
A creación dun modelo de linguaxe especializado en galego, baseado en LLaMA 3.1;
-
A xeración de datasets sintéticos para avaliación e tarefas instrutivas en galego;
-
O desenvolvemento de simil-eval, un novo marco de avaliación baseado en semellanza, que ofrece maior interpretabilidade cós métodos tradicionais.
A participación no ACL 2025 supuxo unha oportunidade inmellorable para visibilizar a investigación en linguas minorizadas, compartir resultados nun foro de alto nivel, establecer novas colaboracións e afondar no estudo de metodoloxías que favorezan unha IA máis ética, robusta e inclusiva.