내 목소리로 데이터셋이랑 모델 만들어서 배포하고 

CC by 2.0KR이나 apache 2.0, MIT license중에 하나로 정해서 올리려고 했거든?

개인이든 기업이든 commercial하게 쓸수 있도록.


문제는 그거 하려고 계속 레코딩 작업을 했는데,

법률 관련해서 알아봤더니 원곡이 있는 노래는 반주가 있던 없던 저작권 문제가 생길 수 있어서

내가 맘대로 저런 라이센스 정책을 하는게 안되겠더라고...


그래서 지금 새롭게 생각해서 하고 있는게,

GPT4한테 한국어 발음을 다양하게 발현할 수 있는 다수의 가사를 생성해달라고 한 뒤에,

각 가사마다 내가 임의로 다양한 음역대의 멜로디를 즉석으로 붙여서 데이터셋을 만들어볼까해...

TTS 고려 안하면 타임라인이나 발음 어노테이션은 필요없을거같아서 

1주일만에 끝내볼랬는데 예상한 것보다 시간이 더 많이 걸릴 듯



위에 제시된 가사들을 저음역, 중음역, 고음역, 가성 이렇게 나눠서 녹음하겠음

혹시 좋은 인사이트가 있으신 분은 의견주시면 반영하게씁니다.

Langchain으로 한국 노래 가사들 싹 크롤링해다가 참고하게 던져주고 유사하게 생성하라고 할까도 고민해봤는데 

가사에 그렇게 신경쓸 필요 없어보여서 패스

그리고 주딱성님이 내가 직접 목소리로 만든 데이터셋을 영리적 이득과 관계없이 여기에 배포하는건 규칙위반 아니라고 괜찮다고 해씀


120 (가사) x 4(음역대) x 15(초) = 2시간

이 정도 분량이 될 듯