Ir o contido principal

Participación do Proxecto Nós no ACL 2025

Silvia Paniagua e Pablo Rodríguez no ACL 2025
Silvia Paniagua e Pablo Rodríguez no ACL 2025
O noso equipo participou no ACL 2025, un dos congresos internacionais máis prestixiosos no eido da lingüística computacional, que se celebrou en Viena (27 xullo - 1 agosto)

Entre o 27 de xullo e o 1 de agosto de 2025 celebrouse en Viena o ACL 2025, o principal congreso internacional no ámbito do procesamento da linguaxe natural (NLP) e da intelixencia artificial. O evento reuniu milleiros de investigadoras e investigadores de todo o mundo para compartir os avances máis recentes en modelos de linguaxe, aprendizaxe profunda e procesamento multilingüe.

O tema central da edición foi a xeneralización dos modelos de NLP, con especial foco na robustez multilingüe, na avaliación interpretativa e no aliñamento ético dos LLMs. O programa incluíu máis de 3 000 contribucións e conferencias maxistrais a cargo de figuras destacadas como:

  • Verena Rieser (Senior Staff Research Scientist en Google DeepMind), que na súa charla “Whose Gold? Re-imagining Alignment for Truly Beneficial AI” propuxo unha reflexión crítica sobre os valores que guían o aliñamento dos modelos;

  • Luke Zettlemoyer (profesor na University of Washington e Director Senior de Investigación en Meta AI), que presentou “Rethinking Pretraining: Data and Architecture”, centrada na optimización de arquitecturas e datos para mellorar a eficiencia e a calidade dos LLMs;

  • Dan Roth (profesor na University of Pennsylvania e Chief AI Scientist en Oracle), quen participou no panel “Generalization of NLP Models”, debatendo sobre os retos que supón transferir coñecemento entre linguas, dominios e tarefas.

O noso equipo participou activamente no congreso coa presentación dun póster na sección Findings, tras conseguir a publicación do artigo “Continued Pretraining and Interpretability-Based Evaluation for Low-Resource Languages: A Galician Case Study”, asinado por Pablo Rodríguez, Silvia Paniagua, Pablo Gamallo e Susana Sotelo.

Este traballo, desenvolvido no marco do proxecto ILENIA, propón un enfoque de continued pretraining (CPT) para mellorar o rendemento dos modelos de linguaxe en linguas con poucos recursos, tomando o galego como caso de estudo. O traballo explora como adaptar LLMs a linguas minoritarias sen comprometer as capacidades resolutivas previamente adquiridas, mitigando o catastrophic forgetting nas fases temperás do adestramento. Demóstrase que, con estratexias de adestramento axeitadas —baseadas en corpus de alta calidade e tarefas instrutivas— é posible adaptar modelos multilingües ao galego sen perder habilidades resolutivas e, ao mesmo tempo, mellorar a calidade do texto xerado.

Entre as principais achegas salientan:

  • A creación dun modelo de linguaxe especializado en galego, baseado en LLaMA 3.1;

  • A xeración de datasets sintéticos para avaliación e tarefas instrutivas en galego;

  • O desenvolvemento de simil-eval, un novo marco de avaliación baseado en semellanza, que ofrece maior interpretabilidade cós métodos tradicionais.

A participación no ACL 2025 supuxo unha oportunidade inmellorable para visibilizar a investigación en linguas minorizadas, compartir resultados nun foro de alto nivel, establecer novas colaboracións e afondar no estudo de metodoloxías que favorezan unha IA máis ética, robusta e inclusiva.

Os contidos desta páxina actualizáronse o 08.08.2025.