Tacotron2 님이 올려준 깨끗한 보컬 파일에다 입혀봤는데

어제 만들었던 모델들보다는 낫지만 잘만든 사람들거에 비하면 확실히 불안함

샘플링 44100으로 맞추고, 볼륨 노멀라이징까지 했더니 어제 만들었던거보단 확실히 나아지긴 했는데

그래도 잘만든 사람들거에 비하면 많이 부족함

데이터셋 원본의 품질에 문제가 있어서 그런건가

아니면 내가 wav 샘플링 할 때 mono를 안하고 stereo를 해서 그런가

오늘은 지쳐서 축구나 보다 잘거고 내일 다시 한번 만들어볼 예정


RVC로 했고 300epoch 학습시켰음


먼저 k1은 노래 없이 코멘트, 연기하는 음성만 가져다 만든 데이터셋으로 학습시켰고

노래 학습 데이터 없었는데도 고음 그럭저럭 나오긴 함.



다음으로 s1 모델의 경우는 노래 부르는거랑 멘트를 합쳐서 학습시켰고, 데이터셋의 품질이 아무래도 영상이나 인터뷰에서 뽑아온거라 좀 별로임.

고음에서 너무 현실적임...ㅠㅠ 노래 데이터 학습까지 시켰는데 왜...