1.품질

음성 자체의 품질도 중요하고 보컬분리의 경우 반주나 잡음이 남아있으면 치명적임 

2.톤 일관성

주로 여러 음원에서 보컬분리하는 경우 톤 일관성이 떨어지는 경우가 많음 ai가 창법을 구분하질 못하는데 예를 들어 숨소리를 많이 섞는 허스키한 창법과 목을 쪼아서 고음을 내는 진성창법을 다 넣어서 학습시키면 추론할때 추론곡 창법에 따라 따로 적용하는게 아니라 학습된 중간값으로 노래 전체를 균일하게 부름

3.음역대

학습하지 못한 음역대가 나오면 그부분은 '예측'으로 추론해내는데 이럴때 보통 부자연스러운 경우가 많음 음원 보컬분리는 이부분 걱정은 덜한데 아마 유명인의 대화, 인터뷰 파일 같은거로 학습하는 사람은 고음에서 뒤집어진다거나할때 이거때문일거임



Rvc 로 학습할때는 데이터셋양 자체는 정말로 크게 안중요함 10분 근처만 돼도 충분한거같음