안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3310명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임

12시5분

추천 35 비추천 1 댓글 43 조회수 1419 작성일 2024-01-19 06:20:23 수정일 2024-01-26 04:18:18

https://arca.live/b/alpaca/96985071

https://arca.live/b/alpaca/75877323?p=1

어쩌다 이 글에서 내 프로젝트가 언급이 된 걸 봤는데, 아예 여기서 이것저것 교류하고싶어서 계정 파고 들어왔음 ㅎㅇㅎㅇ

인사 겸, 내가 진행중인 프로젝트에 대해 소개해줄게.

일단 모델은 cl-tohoku/bert-base-japanese-v2랑 KoGPT2를 각각 인코더, 디코더로 채용한 구조로 만들었어.

작년 4월에 초기 훈련이 끝난 상태고 성능은 일단 어느정도 나오는 것으로 보임.

데이터셋은 Tatoeba에 있는 일본어-한국어 데이터셋이랑 게임에서 쓰이는 용어, 표현 같은걸 모아서 준비했음.

https://huggingface.co/sappho192/ffxiv-ja-ko-translator

그 이후에는 모델 추론을 로컬에서 편하게 돌릴 수 있도록 탈-Python화를 1년 가까이 진행하고 있었음...

아래 움짤에 있는건 내가 예전에 개발했던 게임 채팅 번역 앱인데, 궁극적으로는 여기에 내가 훈련시킨 모델을 집어넣고 싶어서 탈-Python까지 완료하는게 정말 중요했었음. 이 부분이 정보 얻기도 힘들고 어케 진행해야할지도 막막해서 몇달 유기하고 다시 알아보고 또 유기하기를 1년 가까이 반복한 것 같다.

이 번역 앱은 5년전에 만들었고, WPF 기반에다가 Papago를 땡겨쓰고 있긴 한데, 게임 용어나 은어 같은건 해석을 잘 못하니까 전용 번역모델이 필요하다고 느끼게 되더라.

그러다 최근 한 2주? 동안 진전이 급속도로 일어나서, 모델은 ONNX모델로 변환하고 C#에서 OnnxRuntime 기반으로 돌리는데 성공했음.

퇴근하고 어젯밤에 집 와서 마지막 부분 구현하는데 진짜 맘속으로 기도 100번 했다...

https://github.com/sappho192/onnx-hf-test

원래는 최대한 허깅페이스의 Optimum으로 최대한 날먹을 하고 싶었었는데, Optimum의 OnnxRuntime API도 내부적으론 PyTorch에 의존성이 있더라고... 결과적으론 [이거]로 ONNX모델로 바꾸는 것만 도움받았고 나머진 거의 다 직접 짜게됐다...

정리해보면, 변환된 모델을 쓰려면 아래 파이프라인을 처리(구현)해야되고, 3, 4번 과정이 제일 중요했음...

1. 입력 언어의 Tokenizer

2. 인코더 데이터 준비

3. 인코더 결과를 적당히 처리해서 디코더에 입력 (최초 입력 단계)

4. 디코더에서 나온 결과를 적당히 처리해서 디코더에 다시 입력 (EOS 토큰이 나올때까지)

5. 디코더 처리가 끝나고 만들어진 토큰들을 출력 언어의 Tokenizer에 넣어 번역문 생성

HuggingFace의 Tokenizers는 Rust 구현체가 있기 때문에 이걸 DLL라이브러리로 만들어서 이용하면 날먹이 되지 않을까 싶었는데 ㅅㅂ KoGPT2는 그게 되는데 bert-japanese는 연구진이 자체적으로 토크나이저를 만든거라 안되더라고.

https://github.com/sappho192/BertJapaneseTokenizer

그래서 걔네들 소스코드 보면서 내가 직접 C# 버전으로 구현했다.

MeCab+UniDic으로 1차 분리를 하고, UniDIc에 없는 단어들은 미리 만들어둔 BPE vocabulary로 쪼개는 방식으로 토큰을 만들더라.

Rust DLL→C# 형태로 Tokenizers 라이브러리 쓰는 코드는 여기에 남겨뒀음.

https://github.com/sappho192/onnx-hf-test/tree/main/rust/decoder

인코더랑 디코더 쓰는 방법은 Netron으로 모델 입출력 구조도 확인하고 여기저기 구글링하면서 알아봤었음. 인코더는 그냥 적당히 하면 되는데 디코더의 입출력에 있는 past_key_values 값들이 Cross-Attention에 관한 값들이라 거기에 맞는 처리를 해줘야됐었음...

여기에서 시간을 제일 많이 잡아먹게 됐는데 결국 PyCharm에서 한땀한땀 Step In 디버깅 하면서 구현을 따라했다. 결국 마지막엔 이렇게 하는게 답이더라.

암튼 내가 생각하던 마일스톤까지는 이렇게 완료됐음.

앞으로의 목표는 대충 이렇다.

1. ONNX 추론 관련 코드 최적화(성능, 메모리)

아무래도 모델 크기가 크다보니 모델만 프로세스에 탑재해도 1.2GB 정도를 잡아먹는다. 그래서 최대한 모델 탑재 이외에 잡아먹는 메모리는 최소화시켜야 할 것 같아서 이래저래 최적화를 시키고 있음.

나중에 여유가 나면 양자화나 fp16 같은것도 좀 도입해보고 싶긴함.

2. 모델 성능 개선 & 성능 객관화

작년에 훈련시켰던 모델이 어느정도 성능이 나오고 있는 것 같긴 한데, 진짜로 내가 데이터셋에 추가했던 게임 관련 용어나 대화들이 영향을 준건지를 아직 검증 못해봤음. 그리고 작년 4월 이후에 게임이 업뎃되면서 콘텐츠가 많이 생겼기 때문에 이런 부분을 FIne-tuning으로 따라잡을 수 있을지도 해봐야 할 듯함.

그리고 그 외에도 좀 찝찝한 부분들이 있긴 한데, 나중에 기회되면 다시 얘기해볼게!

3. 다른 사람들도 자신만의 모델을 쉽게 훈련할 수 있도록 제반 환경을 제공

여기 채널에 나처럼 특정 분야에 특화된 일-한 번역기를 만들고 싶은 친구들이 있을 것 같아서 생각해두고 있음.

본문에 얘기한 것들이랑 링크에 있는 리포들을 참고해도 충분히 직접 가능하긴 하지만 그래도 이것저것 단계를 간소화하고 매뉴얼도 좀 더 자세히 적어야 할 것 같아서 ㅇㅇ... 궁금한건 언제든 이슈나 여기 댓글로 물어봐도 됨

대충 이렇게 나랑 내 개인 프로젝트를 소개해봤음. 앞으로 잘 부탁해~

댓글 글쓰기

hkhk

2024-01-19 06:28:15 답글

환영합니다. 그리고 정보 공유 대단히 감사

펼쳐보기▼

12시5분

2024-01-19 08:03:51 답글

ㄳㄳ 반갑슴다! 글구 혹시 쓸만한 한-일 번역 데이터셋 아는거 있으심? AIHub나 해외쪽 오픈소스 데이터셋 몇개 구해봤는데 다들 품질이 영 시원찮던데...

펼쳐보기▼

hkhk

2024-01-19 08:07:49 답글

난 요즘은 비전 모델쪽 작업만 하느라 이미지데이타만 잔뜩 있음. 회사에서 서비스하는 게임 대사 일본어 영어 번역해놓은 데이타들은 있는데 그거라도?

펼쳐보기▼

12시5분

2024-01-19 08:08:51 답글

그거라도 주면 도움될듯! 한국어로 번역하는건 내가 해도 되니까...

펼쳐보기▼

hkhk

2024-01-19 08:14:03 답글

한영일 모두 다 있는 데이터야. 회사에서 쓰는거

펼쳐보기▼

hkhk

2024-01-19 08:15:21 답글

정리해서 너 메일 주소로 보내줄께 (깃헙에 있는 주소)

펼쳐보기▼

12시5분

2024-01-19 08:16:55 답글

*수정됨

ㅇㅋㅇㅋ 고마워!!!

펼쳐보기▼

hkhk

2024-01-22 08:37:11 답글

일단 하나 보냄. 메일 확인해봐

펼쳐보기▼

12시5분

2024-01-22 11:45:20 답글

받았음. ㄳㄳ 내용물 봤는데 여러모로 유용할거같다 ㄹㅇ

펼쳐보기▼

theAS

2024-01-19 06:38:52 답글

theAS

2024-01-19 06:39:12 답글

정성글 개추

펼쳐보기▼

12시5분

2024-01-19 08:04:13 답글

1945Y

2024-01-19 06:57:55 답글

12시5분

2024-01-19 08:04:21 답글

반갑꼬리~

펼쳐보기▼

초딩영웅

2024-01-19 07:06:32 답글

와 제가 찾던내용인데 감사합니다!
그리고 환영해요! ㅎ

펼쳐보기▼

12시5분

2024-01-19 08:06:28 답글

반갑슴니당 ㅎ.ㅎ)
작업물 관련해서 궁금한거 있으면 언제든 물어보시구, 이번 주말에 제 번역모델 이용해볼 수 있는 GUI 예제 앱 만들어서 공개하려구 하니까 기대해주세여

펼쳐보기▼

초딩영웅

2024-01-19 08:09:05 답글

네 감사합니다!

펼쳐보기▼

버트가조아

2024-01-19 07:09:27 답글

onnx 변환까지 성공하셨으면, quantize_dynamic 메소드 써서 쉽게 양자화 하실 수 있습니다 ㅎㅎ 좋은 글 많이 써주세요~

펼쳐보기▼

12시5분

2024-01-19 08:07:54 답글

조언 고맙습니다! quantize_dynamic 검색해보니까 해볼만한게 많이 나오네요. 잘 부탁드려요~!

펼쳐보기▼

3시간

2024-01-19 07:42:09 답글

12시5분

2024-01-19 08:08:01 답글

lIlBrother

2024-01-19 08:11:12 답글

고수들 진짜많다…

펼쳐보기▼

12시5분

2024-01-19 08:20:55 답글

ㄴㄴ 십뉴비읾......

펼쳐보기▼

쿠루가이

2024-01-19 08:16:28 답글

12시5분

2024-01-19 08:21:27 답글

ㅇㅇ

2024-01-19 08:50:56 답글

이것과 관련되어 보이는 논문 입니다
https://arxiv.org/abs/2401.08417

arXiv.org

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT′21, WMT′22 and WMT′23 test datasets.

이것과 관련되어 보이는 논문 입니다

펼쳐보기▼

ㅇㅇ

2024-01-19 09:08:14 답글

코드 https://github.com/fe1ixxu/alma

GitHub

GitHub - fe1ixxu/ALMA: This is repository for ALMA translation models.

This is repository for ALMA translation models. Contribute to fe1ixxu/ALMA development by creating an account on GitHub.

*수정됨

코드

펼쳐보기▼

12시5분

2024-01-20 09:35:09 답글

추천 감사합니다. 아까 낮에 읽어봤는데 나중에 인코더-디코더 기반 말고 LLM 기반 번역기를 만들 때 시작점으로 삼기 좋아보이네요.

펼쳐보기▼

하늘의아리아

2024-01-19 22:11:20 답글

12시5분

2024-01-19 23:49:48 답글

그거 아니야~

펼쳐보기▼

ㅇㅇ (121.140)

2024-01-19 22:34:01 삭제 수정 답글

탈 파이썬 노하우좀 공유해줘
이게 어떻게 가능한가
나도 서비스할때 파이썬 그지 같아서 벗어나고 싶은데
방법이 없어서 플라스크 따위 쓰고 있는데
마음에 안들어 죽겠어
노하우 좀 공유해주세요 횽

펼쳐보기▼

12시5분

2024-01-19 23:49:33 답글

ㅇㅋㅇㅋ 좀더 자세히 정리해서 글로 남겨볼게
님이 서비스하는것도 언어모델임? 아님 비전이나 다른쪽?

펼쳐보기▼

이하비스

2024-01-20 04:58:30 답글

12시5분

2024-01-20 09:35:32 답글

Itamond

2024-01-22 00:21:30 답글

와 글섭러구나. 대다내

펼쳐보기▼

12시5분

2024-01-22 06:49:39 답글

대단할게 뭐있노 ㅋㅋㅋ 근데 진짜 웃긴건 파판 쉰지 2년이 되어감... 변옥 영식까지만 하고는 정작 겜은 안하고 번역기만 만들고있다

펼쳐보기▼

Itamond

2024-01-22 07:20:23 답글

*수정됨

ㅋㅋㅋㅋㅋㅋㅋ천옥 재밌던데 돌아와...

펼쳐보기▼

12시5분

2024-01-22 11:46:52 답글

"긍정적으로 검토해보겠습니다"

펼쳐보기▼

이트

2024-01-22 03:53:41 답글

와 실용적인 목적에서 시작해서 그런가 엄청 살에 닿는다. 공유 감사

펼쳐보기▼

12시5분

2024-01-22 06:52:25 답글

도움이 된다니 다행임.. 토크나이저랑 인코더/디코더 입출력 데이터 처리하는 부분은 연재물 형태로 좀더 상세하게 작성하고 있으니 기대해줘

펼쳐보기▼

엔데르

2024-01-28 08:14:09 답글

탈파이썬했다는게 프로그램자체에 모델을 탑재시켜서 인터넷연결이 필요없다는거야? 갤럭시s24의 온디바이스 비스무리한 건가?!

펼쳐보기▼

12시5분

2024-01-28 15:58:55 답글

바로 그거임 ㅇㅇ
기본적으로 많이들 쓰는 딥러닝 환경은 PyTorch/Tensorflow 기반인데다 그 외에 NumPy나 각종 Tokenizer 등등이 모두 파이썬 라이브러리라서 개발환경과 실행환경이 파이썬으로 동일함.
이게 개발할땐 편한데, 실제로 모델을 서빙할때는 성능이슈와 용량이슈가 생김.
그나마 API서버 형태로 서빙한다하면 모델최적화 좀 하고 FastAPI 같은걸로 감싸서 쓸 수 있기야 한데, 그러면 서버가 필요하고 인터넷 연결도 필요해짐.
PyInstaller 같은걸 쓰면 파이썬과 파이썬 라이브러리들을 감싸서 exe 실행파일 형태로 쓸 수 있게 되긴 한데, 문제는 쓸데없는 dependency가 주렁주렁 달려있어서 용량이 커지고 파이썬을 여전히 쓰기때문에 성능이슈도 있음

암튼 이런 이유랑, 일반 게이머들이 개인 PC에서 편하게 게임 번역기를 쓸수 있게 하려고 탈-Python을 목표했던거라서 여정이 길었음..

펼쳐보기▼

12시5분

2024-01-28 16:00:54 답글

결론은 갤럭시s24 그거랑 거의 같은식이라고 보면됨 ㅇㅇ

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27966666

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5741

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25954

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8394

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

2438 일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5559 80

2437 일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스) [19]

DopeorNope 2024.03.12 2353 80

2436 일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 4957 70

2435 정보 구글: 우리에겐 방어막이 없습니다. - 유출 문건 한글 번역 [36]

hkhk 2023.05.05 7363 67

2434 자작모델 한국어Vicuna 모델 학습완료 및 모델 공개 [76]

하늘의아리아 2023.04.20 6890 65

2433 일반 여기 계신분중에 AI 프리트레인,파인튜닝법에 대해서 궁금하신분 있을까요? [22]

ㅎ헤ㅔ헤헤헤 2023.10.04 1724 61

2432 일반 70B개발 시작. [28]

DopeorNope 2023.12.05 1834 57

2431 일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까? [24]

maywell 2024.03.09 2492 53

2430 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [42]

maywell 2024.04.28 2970 50

2429 일반 한국어 데이터셋 생성 중단(완료) 총 4.3M+ [20]

maywell 2024.01.10 2108 50

2428 스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6168 43

2427 스터디 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 1970 41

2426 일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1329 40

2425 자료 토큰 확장법 정리 [19]

버트가조아 2024.01.05 1400 36

2424 자작모델 시나트라 v0.1 허깅 리더보드 결과 [14]

maywell 2023.10.10 1542 36

2423 자작모델 레몬LLM 13b (한국어) 공개 [92]

하늘의아리아 2023.05.27 4322 36

2422 일반 한국어 멀티턴 데이터셋 생성 모델, KoMultiGen-General [7]

maywell 2024.03.14 1464 35

2421 일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임 [43]

12시5분 2024.01.19 1420 34

2420 정보 AutoGPTQ가 huggingface Transformer에 통합됨 [19]

ㅇㅇ 2023.08.24 1086 33

2419 스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까? [30]

hkhk 2023.08.22 2425 33

글쓰기

전체글 개념글