RVC 학습 시작시 매번 40k와 48k를 선택하게 되었을 것이다

예전 v2 베타 시절에 40k만 지원했었어서 관성으로 40k만 고르는 사람도 있을 거고, 그냥 48k가 가장 높아서 48k만 고르는 사람도 있을 거다


결론부터 말하자면 나도 모름! ㅈㅅㅋㅋ


그러나 학습은 잘 모르겠고 암튼 내가 궁금해졌으니 그 2개가 무슨 차이인지 알아보도록 하자



나이퀴스트 이론에 따르면, 아날로그 신호를 디지털로 저장하고 다시 원래대로 복원하기 위해서는 가장 높은 주파수의 2배만큼의 샘플링 주파수가 필요하다고 한다

위의 그림은 원래 신호(노랑색) 나이퀴스트 이론에 비해 과하게/덜하게/적당하게 복원된 신호(파랑색)을 묘사하는 그림이다

물론 샘플링 주파수를 오지게 높이는 편이 가장 복원도가 높지만, 암튼 가장 효율 좋게 복원할 수 있는 샘플링 주파수는 신호의 최대 주파수2배라고 볼 수 있다


예를 들어, WAV형식의 오디오의 경우 샘플링 주파수는 44100Hz이며, 그 경우 복원가능한 주파수는 최대 22050Hz까지라고 추측할 수 있다.

이는 인간의 가청 주파수 20000Hz에 더해, 그 외 노이즈들이 기록되는 것을 막는 처리를 위해 추가되는 2050정도의 대역에 의해 22050Hz이라는 주파수가 된 것이라고 한다


1k는 1000, 즉 40k는 그 1/2배인 20000Hz까지, 48k24000Hz까지 복원해준다고 생각하면 된다


또한 인간의 가청 주파수는 최대 20000Hz, 즉 40k의 샘플링 주파수를 이용하면 효율좋게 사람이 들을 수 있는 만큼만 복원하여 사용할 수 있다고 볼 수 있다


그러나 WAV의 44100Hz와 같은 어느쪽 주파수도 아닌 경우는 어느쪽 학습이든 반드시 샘플링 주파수를 맞춰주는 과정(리샘플링)을 거쳐야 한다

따라서 어느쪽 학습을 하는 지 이전에, 좋은 리샘플러를 쓰는지가 더욱 근본적인 문제라 할 수 있다

근데 RVC에 WAV 그냥 넣어도 해주지 않나? RVC가 어떻게 리샘플링하는지 아는 사람 있음? 전 모름! ㅈㅅㅋㅋ





그렇다면 일반적인 사람의 목소리 주파수는 어떻게 되는가?

앞에 말한 주제와 하등 상관 없는 것 같지만 암튼 내가 궁금하니까 분석해보도록 하자




나는 마침 오다시티가 컴퓨터에 있으므로 이 프로그램을 사용하여 주파수를 분석해볼 것이다



대충 내 노트북에 있는 음성을 아무거나 골라서 오다시티에 쳐넣었다



분석 > 스펙트럼 도식화



20분 전체 선택하고 돌렸더니 되게 오래걸리네

너네는 부분 선택하고 돌려라



암튼 이렇게 주파수 분석이 떴다

20000Hz까지 안보여서 창을 가로로 쭉 찢었다


아니 이럴수가! 이 음성파일의 파형은 대부분이 약 18000Hz, 잘 쳐줘도 20000Hz까지만 나타나는 게 아닌가!

이 경우는 40k로 돌려도 48k 학습과 거의 차이가 없을 거라고 예측할 수 있다




이상은 각각 UVR 돌린 음원과 그 노래를 RVC 돌린 음원의 주파수 분석이다

그렇다. 20000Hz 이상 주파수가 UVR 과정에서 컷당해서 조금도 존재하지 않는다


즉, UVR을 이용하여 MR을 제거했을 경우 48k 학습 모델과 40k 학습 모델의 추론 결과물이 크게 차이나지 않을 것이라고 추측할 수 있다



둘 중 어느 쪽 샘플링 주파수에 맞는 음성이라면 그거로 학습하면 된다

그러나 그 외의 경우, 여러 요인들을 생각해봤을 때 40k 학습이 48k 학습과 유의미한 차이를 낼거라고 생각하기 어려우므로 어느 주파수를 선택하여 학습하는지는 큰 의미가 없다고 할 수 있다


굳이 따지자면 RVC가 어떤 방식으로 리샘플링 하는지를 알아보는 게 학습을 위해 더 유익한 탐구라고 할 수 있을 것이다

>>>>>>그러니까 이제 누가 알려주셈 감사합니다<<<<<<




나도 몰라서 정보 아님

~끝~