ModuleFormer: Modularity Emerges from Mixture-of-Experts

모듈포머: 전문가 혼합(MoE)에서 발현되는 모듈성

Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen, Chuang Gan

https://github.com/IBM/ModuleFormer


대규모 언어 모델(LLM)은 괄목할 만한 성과를 거두고 있습니다. 하지만 기존 모델은 훈련과 배포에 많은 비용이 들며, 이전 지식을 잊어버리지 않으면서 사전 학습 데이터 외의 추가적인 데이터로 지식을 확장하는 것도 어렵습니다. 


이 논문에서는 모듈성(modularity)을 활용하여 대규모 언어 모델의 효율성과 유연성을 개선하는 새로운 신경망 아키텍처인 모듈포머(ModuleFormer)를 제안합니다. 


모듈포머는 희소 전문가 혼합(SMoE, Sparse Mixture of Experts)을 기반으로 합니다. 


도메인별 전문가(domain-specific experts)를 학습하기 위해 도메인 레이블이 지정된 데이터가 필요한 이전의 SMoE 기반 모듈형 언어 모델과 달리, ModuleFormer는 새로운 부하 분산 및 집중 손실(load balancing and concentration losses)을 통해 큐레이션되지 않은 데이터에서 모듈성을 이끌어낼 수 있습니다. 


모듈포머는 서로 다른 두 가지 유형의 모듈을 포함하는 모듈형 아키텍처입니다. 

- 새로운 스틱-브레이킹 어텐션 헤드(stick-breaking attention heads)

- 피드포워드 전문가(feedforward experts)


훈련 및 추론 중에 입력 토큰에 대한 특정 상황 또는 조건에 따라 서로 다른 모듈이 희소하게 활성화됩니다. [의역]


실험 결과, 모듈식 아키텍처가 사전 학습된 대규모 언어 모델에 세 가지 중요한 기능을 제공한다는 사실을 발견했습니다: 


1) 효율성: 모듈포머는 각 입력 토큰에 대해 모듈의 하위 집합만 활성화하므로 처리량이 2배 이상 높은 고밀도 LLM과 동일한 성능을 달성할 수 있습니다.


2) 확장성: 모듈포머는 고밀도 LLM보다 치명적인 망각(catastrophic forgetting)에 더 강하며, 새로운 모듈로의 확장이 용이하여 훈련 데이터에 포함되지 않은 새로운 지식을 학습하기 쉽습니다. 


3) 전문화: 모듈포머는 모듈의 하위 집합을 파인튜닝 작업에 맞게 전문화할 수 있으며, 작업과 관련이 없는 모듈은 경량 배포를 위해 쉽게 잘라낼 수 있습니다.