정확히는 번역이 아니라 재생성입니다.


회사에서 서버 여러 대로

DeepL 번역을 크롤링으로 시도해봤는데

속도는 빠르지만 품질이 성에 안차네요 ㅠㅠ

(딱딱한 번역체)


그래서 GPT4 API로 '단순 번역이 아닌 재생성'을 요청해봤습니다.

human 발화의 경우, '반말을 쓰는 사람', '존댓말을 쓰는 사람', '대충 말하는 사람' 등 페르소나를 다양하게 설정해주었습니다.


1,030건 중 866건(에러 없이 포맷 잘 지켜서 응답한 경우)이 한국어로 재생성됐고,

프롬프트 잘 만지면 나머지 데이터도 잘 번역할 수 있을 거 같네요.


일단 공유드립니다!!

https://huggingface.co/datasets/changpt/ko-lima-vicuna





+ (질문) 사실 저희 회사가 웹 크롤링 전문으로 하는 기업인데, DeepL 번역을 크롤링으로 제공하면 수요가 있을까요??

홍보 목적은 아니고, 저도 답답해서 회사 인프라로 DeepL 크롤러를 개발했는데 나쁘지 않은 거 같아서요.

```코드 블락```도 코드로 처리했더니 잘 남겨두네요 ㅎㅎ


+ 폴리글랏 기반으로 (비쿠나 방식의 멀티턴 대화) + (마스킹) 학습시켰더니 퀄리티가 많이 좋아졌어요. 여기에서 도움 많이 받았네요 정말..

공개할만한 모델 만들어지면 공유해보겠습니다!