완전히 동일한 데이터셋(20분), 동일한 알고리즘으로 학습해서 비교했음

학습 알고리즘은 mangio crepe, hop 16, 추론 알고리즘은 rmvpe로 비교


(smooth 0.9)


KLM(KLM7s_Batch2_48k) 사용한 모델은 대충 3만3천스텝 가까이서 과적합이라 판단했고, 540에포크쯤이었음.

(smooth 0.99로 당겼을때)


결론부터 말하자면 아직은 RVC 기본 사전학습모델(f0)이 퀄리티가 더 좋게 들렸음.


<미안해>는 2분40초쯤부터,

<어디에도>는 4분27초쯤부터 들어보면 될듯.

공통적으로 깨지는부분은 평가에서 제외했음.(어디에도 1분44초, 3분35초부근)


<미안해+4key> KLM 사전학습 모델, 540epoch(33,000step) / 추론 rmvpe 사용


<미안해+4key> RVC 기본 사전학습 모델(f0), 140epoch(8600step) / 추론 rmvpe 사용


<어디에도+4key> KLM 사전학습 모델, 540epoch(33,000step) / 추론 rmvpe 사용


<어디에도+4key> RVC 기본 사전학습 모델(f0), 140epoch(8600step) / 추론 rmvpe 사용



<총평>

klm모델은 고음에서 살짝살짝 깨지더라. (미안해 3분~3분20초. 깨진다기보단 살짝 눌림? 먹먹함?)

반면 기본 사전학습 모델로 뽑은건 crepe, rmvpe 둘다 괜찮게 잘 뽑힘.


저음부분도 비교해서 들어봤는데 차이를 잘 모르겠다. 발음이나 음색에서 차이가 없는거같음.


epoch에 따라 차이가 있을까 싶어서 540epoch말고도 140, 450, 600 등(로스 저점인 변곡점 부분) 여러개로 뽑아봤지만,

540이 그나마 퀄리티가 제일 나았음.


그밖에도 추론 알고리즘을 crepe, harvest 등으로 뽑아봤지만 같은 결론이 나왔음



한국어 데이터셋으로 학습한 모델이라해서 기대 많이 했는데,

아직까진 발음이 개선됐는지 잘 체감이 안되고, 고음에서 약간 깨지는 문제가 있네..


사전학습모델 다른거 쓴다고 퀄리티가 더 좋아지거나 하진 않는거같고, 이런게 있구나 정도인거같음(아직까지는..)

모델 퀄리티를 높이려면 추론 알고리즘이나 사전학습 모델 연구보단 데이터셋을 깔끔하게 깎는게 가성비가 더 좋다 생각함.


학습을 mangio crepe로 해서 다른 환경이라 그런걸수도 있고, 내 데이터셋이 안맞는걸수도 있음.

그리고 저노래에서만 뭐가 안맞아서 살짝 저런걸수도 있고..

이후에 rmvpe, harvest로도 학습해서 비교해볼 예정임.


사전학습모델이 배치2까지 학습된거고, 올해 말까지 배치8?까지 학습한다 하니 그것도 기다려봐야겠다


내 귀가 막귀라 그럴수도 있으니, 들어보고 댓글로 비교 평가좀 해줘. 발음은 진짜 잘 모르겠어서..