★ 기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상

Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla

생성형 대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 괄목할 만한 발전을 이루었습니다.

그러나 이러한 발전은 번역 작업에는 반영되지 않았으며, 특히 모델 크기가 중간 정도인 경우(예: 7B 또는 13B 매개변수)에는 기존의 지도 인코더-디코더 번역 모델보다 여전히 뒤쳐져 있습니다. 이전 연구에서는 이러한 중간 수준의 LLM의 번역 기능을 개선하려고 시도했지만 그 성과는 제한적이었습니다.

이 연구에서는 기존 번역 모델이 일반적으로 의존하는 풍부한 병렬 데이터의 필요성을 없애고, 번역 작업을 위해 특별히 설계된 LLM에 대한 새로운 파인튜닝 접근 방식을 제안합니다.

우리의 접근 방식은 단일 언어(monolingual) 데이터에 대한 초기 파인튜닝과, 소규모 고품질 병렬 데이터(high-quality parallel data) 세트에 대한 후속 파인튜닝의 두 가지 파인튜닝 단계로 구성됩니다.

이 전략을 통해 개발된 LLM인 ALMA(Advanced Language Model-based trAnslator)를 소개합니다.

기본 모델로 LLaMA-2를 사용한 결과, 이 모델은 WMT'21(양방향) 및 WMT'22(8방향) 테스트 데이터 세트의 10개 번역 방향에 대한 제로-샷 성능에서 평균 12 BLEU 및 12 COMET 이상의 개선을 달성할 수 있는 것으로 나타났습니다.

이 성능은 이전의 모든 작업보다 훨씬 뛰어난 것이며, 심지어 7B~13B 매개변수의 모델로 NLLB-54B, GPT-3.5-text-davinci-003보다 우월한 결과를 냅니다.

이 방법은 기계 번역에서 새로운 학습 패러다임의 토대를 구축하였습니다.

https://www.reddit.com/r/LocalLLaMA/comments/16p2smj/a_paradigm_shift_in_machine_translation_how_to/

몇 가지 주요 내용 요약:

LLM의 번역학습에 있어서 병렬 데이터가 필수인가?

이전 연구에서는 3억 개 이상의 병렬 인스턴스가 포함된 데이터 세트로 LLM을 파인튜닝했습니다. 그러나 경험적 평가에 따르면 이 전략은 최적이 아닐 수 있으며, 심지어 LLM의 번역 기능에 해를 끼칠 수도 있습니다.

심층 분석을 위해 영어→러시아어(en→ru) 한 언어 쌍에 집중합니다. LLaMA-2-7B는 유능한 번역을 달성하기 위해 제한된 훈련 예제(10K 및 100K)만 필요합니다. 그러나 예제(5백만 개 또는 2천만 개)가 너무 많으면 러시아어에 대한 기존 지식이 희석되는 것 같습니다. 반대로 MPT-7B는 본질적으로 번역 기능이 약하기 때문인지 훈련 데이터가 증가함에 따라 성능이 향상되는 것으로 나타났습니다. 이는 잘 훈련된 LLM은 상당한 양의 병렬 데이터가 필요하지 않을 수 있음을 시사합니다.

새로운 학습 레시피

우리는 LLaMA-2-7B와 같은 LLM이 병렬 데이터를 탐욕스럽게 소비하지 않는다는 것을 입증했습니다. 병렬 데이터에 크게 의존하지 않고도 번역 성능을 획기적으로 향상시키는 새로운 학습 전략을 소개합니다.

단일 언어 데이터 파인튜닝: 첫 번째 단계는 번역 작업에 포함된 비영어권 언어의 단일 언어 데이터로 LLM을 파인튜닝하여 해당 언어에 대한 숙련도를 향상시키는 것입니다. 적은 양의 단일 언어 데이터와 적당한 계산 비용(예: 6개 언어가 혼합된 10억 개의 단일 언어 토큰, 18시간 미만의 파인튜닝)을 활용하면 10가지 번역 방향에서 상당한 개선이 가능하다는 것을 보여줍니다.

고품질 데이터 파인튜닝: 3.2절에서 얻은 LLM에 소규모 병렬 데이터만 필요할 수 있다는 통찰과 학습 데이터 품질을 강조한 이전 연구를 바탕으로 하여, 이 단계에서는 작지만 고품질의 병렬 데이터 세트를 사용하여 모델을 파인튜닝합니다.

결과:

ALMA 모델은 이전의 모든 유사 연구보다 훨씬 뛰어난 성능을 보였으며 SoTA 모델과 비슷한 수준이었습니다. 가장 우수한 모델(ALMA-13B-LoRA)은 평균적으로 NLLB-54B 및 GPT-3.5-D(GPT-3.5-text-davinci-003)를 크게 능가합니다. en→xx 방향에서는 평균적으로 GPT-3.5-T(GPT-3.5-turbo-0301)보다 성능이 뛰어나며, xx→en 방향에서도 비슷한 성능을 보입니다.

BLEU와 COMET 점수를 세 그룹으로 분류하여 GPT-4/GPT-3.5-T의 상위 값보다 10점 이상 낮은 점수는 진한 빨간색 상자로, 5점 이상 낮은 점수는 옅은 빨간색 상자로, 그 외 모든 점수는 녹색 상자로 강조 표시하고 있습니다.

en→xx