Pasar al contenido principal

Participación del Proxecto Nós en el ACL 2025

Silvia Paniagua e Pablo Rodríguez no ACL 2025
Silvia Paniagua e Pablo Rodríguez no ACL 2025
parte del equipo del proyecto Nós participó en el ACL 2025, uno de los congresos internacionales más prestigiosos en el ámbito de la lingüística computacional, que se celebró en Viena entre los días 27 de julio y 1 de agosto

Entre el 27 de julio y el 1 de agosto de 2025 se celebró en Viena el ACL 2025, el principal congreso internacional en el ámbito del procesamiento del lenguaje natural (NLP) y de la inteligencia artificial. El evento reunió a miles de investigadoras e investigadores de todo el mundo para compartir los avances más recientes en modelos de lenguaje, aprendizaje profundo y procesamiento multilingüe.

El tema central de esta edición fue la generalización de los modelos de NLP, con especial foco en la robustez multilingüe, la evaluación interpretativa y la alineación ética de los LLMs. El programa incluyó más de 3 000 contribuciones y conferencias magistrales a cargo de figuras destacadas como:

  • Verena Rieser (Senior Staff Research Scientist en Google DeepMind), que en su charla “Whose Gold? Re-imagining Alignment for Truly Beneficial AI” propuso una reflexión crítica sobre los valores que guían la alineación de los modelos.

  • Luke Zettlemoyer (profesor en la University of Washington y Director Senior de Investigación en Meta AI), que presentó “Rethinking Pretraining: Data and Architecture”, centrada en la optimización de arquitecturas y datos para mejorar la eficiencia y la calidad de los LLMs.

  • Dan Roth (profesor en la University of Pennsylvania y Chief AI Scientist en Oracle), quien participó en el panel “Generalization of NLP Models”, debatiendo sobre los retos que supone transferir conocimiento entre lenguas, dominios y tareas.

Nuestro equipo participó activamente en el congreso con la presentación de un póster en la sección Findings, tras conseguir la publicación del artículo Continued Pretraining and Interpretability-Based Evaluation for Low-Resource Languages: A Galician Case Study”, firmado por Pablo Rodríguez, Silvia Paniagua, Pablo Gamallo y Susana Sotelo.

Este trabajo, desarrollado por el Proyecto Nós, en el marco de ILENIA, propone un enfoque de continued pretraining (CPT) para mejorar el rendimiento de los modelos de lenguaje en lenguas con pocos recursos, tomando el gallego como caso de estudio. El trabajo explora cómo adaptar LLMs a lenguas minoritarias sin comprometer las capacidades resolutivas previamente adquiridas, mitigando el catastrophic forgetting en las fases tempranas del entrenamiento. Se demuestra que, con estrategias de entrenamiento adecuadas —basadas en corpus de alta calidad y tareas instructivas— es posible adaptar modelos multilingües al gallego sin perder habilidades resolutivas y, al mismo tiempo, mejorar la calidad del texto generado.

Entre las principales aportaciones destacan:

  • La creación de un modelo de lenguaje especializado en gallego, basado en LLaMA 3.1.

  • La generación de datasets sintéticos para evaluación y tareas instructivas en gallego.

  • El desarrollo de simil-eval, un nuevo marco de evaluación basado en similitud, que ofrece mayor interpretabilidad que los métodos tradicionales.

La participación en el ACL 2025 supuso una oportunidad inmejorable para visibilizar la investigación en lenguas minorizadas, compartir resultados en un foro de alto nivel, establecer nuevas colaboraciones y profundizar en el estudio de metodologías que favorezcan una IA más ética, robusta e inclusiva.

Los contenidos de esta página se actualizaron el 11.08.2025.