안녕하세요. 어제 입문해서 바로 코랩 프로 결제 때리고 300 에포크 모델 하나 만들어서 놀고 있는 갓뉴비입니다.


가수 데이터셋을 가지고 학습했는데요. 충분히 데이터셋에도 포함되어 있는 음역대의 곡들을 추론해도 고음에서 계속 찢어집니다.

정제는 UVR의 Voc FT 이후 Karaoke 2로 작업했고, 학습은 harvest로 진행했습니다. 추론은 모든 알고리즘을 다 사용해 봤지만, harvest가 가장 자연스럽더라고요.

물론 rmvpe로 추론했을 때 고음 찢어짐이 거의 없었지만, 채널 분들이 글 써주신 것처럼 탁하고 생기가 없고 매우 건조해서 맛이 안 살더라고요.


rmvpe를 사용하지 않고 고음 찢어짐 문제를 해결할 수 있는 방법이 있을까요?

에포크 늘리는 건 의미 없는 것 같고, 정제 과정을 바꿔볼까요?