Un sistema de lenguaje grande multilingüe de código abierto para tareas de traducción

 

Actualizado el 9 de febrero de 2024 para incluir la versión más reciente de los modelos de Tower.

Ha sido anunciado el lanzamiento de Torre, un conjunto de modelos de lenguaje grande (LLM) multilingües optimizados para tareas relacionadas con la traducción. Torre se basa en LLaMA2 (1), está disponible en dos tamaños (con 7B y 13B de parámetros) y actualmente es compatible con 10 idiomas: inglés, alemán, francés, español, chino, portugués, italiano, ruso, coreano y holandés. Es considerado el modelo abierto más potente para traducción, superando a modelos especializados en traducción y a LLM de mayor escala como NLLB-54B, ALMA-R y LLaMA-2 70B, y compitiendo con modelos cerrados como GPT-3.5 y GPT-4. Torre destaca en diversas tareas relacionadas con la traducción, desde la corrección de errores gramaticales previos a la traducción hasta la traducción automática (MT), la post-edición automática (APE) y la clasificación de traducciones. Si estás trabajando en PNL multilingüe y problemas relacionados, te invitamos a probar Tower.

El desarrollo y lanzamiento de Torre es una colaboración entre Unbabel, el Laboratorio SARDINA en el Instituto Superior Técnico y el laboratorio MICS en CentralSupélec en la Universidad de París-Saclay. El objetivo de este anuncio es fomentar la investigación colaborativa y reproducible para facilitar el intercambio de conocimientos y promover avances adicionales en los LLM multilingües y la investigación asociada. Nos complace anunciar que vamos a:

  • Publicar los pesos de nuestros modelos Torre: TorreBase y TorreInstruct.
  • Poner a disposición los datos utilizados para ajustar estos modelos: Bloques de Torre.
  • Liberar los datos y el código de evaluación: TorreEval, un repositorio de evaluación de LLM para tareas relacionadas con MT.

De LLaMA2 a Torre: cómo convertimos un LLM centrado en inglés en uno multilingüe

El año pasado, los modelos de lenguaje grande marcaron pauta en la industria tecnológica. Desde GPT-3.5 hasta LLaMA y Mixtral, los LLM tanto de código abierto como cerrado han demostrado ser cada vez más efectivos en la realización de tareas de procesamiento del lenguaje natural. En el área de la traducción automática, GPT-4 se destacó como uno de los sistemas de traducción más destacados en diversas direcciones lingüísticas en el WMT2023, el benchmark más reconocido en el campo.

Sin embargo, los modelos de código abierto actuales presentan limitaciones, ya que la mayoría se construyen sobre datos en inglés con poca o ninguna información multilingüe, y aún no han avanzado significativamente en la traducción y tareas relacionadas, como la post-edición automática o la evaluación automática de traducciones, entre otros. Frente a esta situación, nos propusimos cerrar esta brecha mediante el desarrollo de un modelo multilingüe de vanguardia basado en LLaMA2.

Para lograrlo, realizamos dos pasos clave: un entrenamiento previo continuo y ajustes supervisados. El entrenamiento continuo fue fundamental para mejorar el soporte de LLaMA2 en otros idiomas, mientras que los ajustes supervisados llevaron al modelo a un nivel superior en cuanto a la precisión de tareas específicas.

Durante el proceso de entrenamiento continuo, utilizamos 20 mil millones de tokens de texto distribuidos equitativamente entre varios idiomas. Dos tercios de los tokens procedían de fuentes monolingües, como una versión filtrada del conjunto de datos mc4 (3), y el tercio restante consistía en frases paralelas de diversas fuentes públicas como OPUS (5). Un aspecto crucial fue la utilización de la tecnología de Unbabel, COMETAKiwi (2), para filtrar datos paralelos de alta calidad. El resultado fue una versión notablemente mejorada de LLaMA2 para los idiomas objetivos, conservando al mismo tiempo sus capacidades en inglés: TorreBase. Los idiomas actualmente admitidos por esta versión son inglés, alemán, francés, chino, español, portugués, italiano, holandés, coreano y ruso.

En relación a los ajustes supervisados, creamos un conjunto de datos minucioso que incluía registros detallados de diversas tareas en alta calidad, así como datos conversacionales e instrucciones de código. Generamos manualmente cientos de indicaciones distintas para todas las tareas, incluyendo plantillas desde cero y enfoques limitados. Este conjunto de datos, Bloques de Torre, abarca información para múltiples tareas relacionadas con la traducción, como la post-edición automática, la traducción automática con sus diferentes variantes (por ejemplo, traducción contextual, terminológica, multireferencial), reconocimiento de entidades nombradas, predicción de intervalos de errores, generación de paráfrasis y más. Los registros de datos fueron cuidadosamente filtrados mediante diversas heurísticas y filtros de calidad, como COMETKiwi, para garantizar el uso de datos de alta calidad durante el proceso de ajuste. Este filtrado, combinado con una selección precisa de hiperparámetros, desempeñó un papel crucial en la obtención de mejoras significativas en comparación con el modelo previamente entrenado de forma continua. El resultado, TorreInstruct, es capaz de gestionar eficientemente diversas tareas (mejorando así la eficacia en el momento de la inferencia) y puede abordar otras tareas pendientes con la ingeniería adecuada. Específicamente en traducción automática, TowerInstruct destaca con un rendimiento excepcional, superando a modelos de mayor escala y a modelos especializados en traducción como Mixtral-8x7B-Instruct (7), LLaMA-2 70B (1), ALMA-R (6) y NLLB 54B (8). De hecho, TowerInstruct es actualmente el mejor modelo abierto para traducción automática. Además, compite fuertemente con modelos cerrados como GPT-3.5 y GPT-4: TowerInstruct se iguala con GPT-3.5 e incluso puede competir en ciertas combinaciones de idiomas con GPT-4. En áreas como la post-edición automática, reconocimiento de entidades nombradas y corrección de errores de origen, TowerInstruct supera a GPT3.5 y Mixtral 8x7B en todos los aspectos, e incluso puede superar a GPT4.

Utilizando los modelos de Torre

Ponemos a disposición los pesos de los modelos preentrenados y ajustados por instrucciones, así como los datos de evaluación y ajustes de instrucciones. También lanzamos TorreEval, un repositorio de evaluación centrado en MT y tareas relacionadas que permitirá a los usuarios replicar nuestros resultados y evaluar sus propios LLM. ¡Te invitamos a visitar nuestra página en Huggingface y el repositorio en GitHub para comenzar a utilizarlos!

Estos modelos de Torre representan solo el inicio: estamos trabajando internamente para aprovechar la tecnología y los datos de Unbabel con el fin de mejorar nuestra plataforma de traducción. En el futuro, planeamos realizar lanzamientos aún más emocionantes, ¡así que mantente informado!

Agradecimientos

Este trabajo ha sido posible gracias al apoyo de las Acciones de Investigación e Innovación de Horizonte Europa de la UE (UTTER, contrato 101070631), del proyecto DECOLLAGE (ERC-2022-CoG 101088763) y del Plan Portugués de Recuperación y Resiliencia a través del proyecto C645008882-00000055 (Centro para una IA responsable). Agradecemos a GENCI-IDRIS por el soporte técnico y los recursos de HPC utilizados para respaldar parcialmente este trabajo.

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Suscríbete para recibir nuestro boletín:

Recent Articles

Related Stories

DEJA UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí