RVC 사전학습모델 KLM, 기본(f0) 비교

AI 음성 채널

알림 알림 중 알림 취소

구독자 5520명 알림수신 127명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 RVC 사전학습모델 KLM, 기본(f0) 비교

성유진

추천 8 비추천 0 댓글 7 조회수 1082 작성일 2024-04-28 00:58:13 수정일 2024-04-28 01:04:24

https://arca.live/b/aispeech/104788226

완전히 동일한 데이터셋(20분), 동일한 알고리즘으로 학습해서 비교했음

학습 알고리즘은 mangio crepe, hop 16, 추론 알고리즘은 rmvpe로 비교

(smooth 0.9)

KLM(KLM7s_Batch2_48k) 사용한 모델은 대충 3만3천스텝 가까이서 과적합이라 판단했고, 540에포크쯤이었음.

(smooth 0.99로 당겼을때)

결론부터 말하자면 아직은 RVC 기본 사전학습모델(f0)이 퀄리티가 더 좋게 들렸음.

<미안해>는 2분40초쯤부터,

<어디에도>는 4분27초쯤부터 들어보면 될듯.

공통적으로 깨지는부분은 평가에서 제외했음.(어디에도 1분44초, 3분35초부근)

<미안해+4key> KLM 사전학습 모델, 540epoch(33,000step) / 추론 rmvpe 사용

<미안해+4key> RVC 기본 사전학습 모델(f0), 140epoch(8600step) / 추론 rmvpe 사용

<어디에도+4key> KLM 사전학습 모델, 540epoch(33,000step) / 추론 rmvpe 사용

<어디에도+4key> RVC 기본 사전학습 모델(f0), 140epoch(8600step) / 추론 rmvpe 사용

<총평>

klm모델은 고음에서 살짝살짝 깨지더라. (미안해 3분~3분20초. 깨진다기보단 살짝 눌림? 먹먹함?)

반면 기본 사전학습 모델로 뽑은건 crepe, rmvpe 둘다 괜찮게 잘 뽑힘.

저음부분도 비교해서 들어봤는데 차이를 잘 모르겠다. 발음이나 음색에서 차이가 없는거같음.

epoch에 따라 차이가 있을까 싶어서 540epoch말고도 140, 450, 600 등(로스 저점인 변곡점 부분) 여러개로 뽑아봤지만,

540이 그나마 퀄리티가 제일 나았음.

그밖에도 추론 알고리즘을 crepe, harvest 등으로 뽑아봤지만 같은 결론이 나왔음

한국어 데이터셋으로 학습한 모델이라해서 기대 많이 했는데,

아직까진 발음이 개선됐는지 잘 체감이 안되고, 고음에서 약간 깨지는 문제가 있네..

사전학습모델 다른거 쓴다고 퀄리티가 더 좋아지거나 하진 않는거같고, 이런게 있구나 정도인거같음(아직까지는..)

모델 퀄리티를 높이려면 추론 알고리즘이나 사전학습 모델 연구보단 데이터셋을 깔끔하게 깎는게 가성비가 더 좋다 생각함.

학습을 mangio crepe로 해서 다른 환경이라 그런걸수도 있고, 내 데이터셋이 안맞는걸수도 있음.

그리고 저노래에서만 뭐가 안맞아서 살짝 저런걸수도 있고..

이후에 rmvpe, harvest로도 학습해서 비교해볼 예정임.

사전학습모델이 배치2까지 학습된거고, 올해 말까지 배치8?까지 학습한다 하니 그것도 기다려봐야겠다

내 귀가 막귀라 그럴수도 있으니, 들어보고 댓글로 비교 평가좀 해줘. 발음은 진짜 잘 모르겠어서..

PPAP

2024-04-28 01:03:04

실험추

펼쳐보기▼

미사키메이무메이

2024-04-28 01:14:56

굿 개추

펼쳐보기▼

curiona

2024-04-28 01:44:45

나는 rvc기본 에서 깨지던 고음대를 klm은 표현 해주더라고 데이터셋 학습 추론 동일하게 했는데말이야. 케바케가 있구만 이것도

펼쳐보기▼

워룬

2024-04-28 04:31:29

혹시 기본 모델이랑 KLMv7 사용했을때랑 그래프 모양에 차이가 있었나요?
저는 시작점 부터 너무 차이가 나서....

펼쳐보기▼

성유진

2024-04-28 04:34:09

아녀 똑같았어요 님 글 봤는데 저런그래프는 처음보네여ㄷㄷ

펼쳐보기▼

워룬

2024-04-28 04:36:17

그럼 그냥 이 데이터셋이 KLMv7이랑 안맞는걸 수도 있겠군요...
감사합니다.

펼쳐보기▼

치킨무만

2024-04-28 09:59:51

실험 개추

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28448628

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 25034

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 15241

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 44028

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4192

숨겨진 공지 펼치기(3개)

163 📄정보 입문이 어려운 초보자를 위한 TTS 학습 2편 MB-iSTFT-VITS-Korean [6]

선무공신 2024.05.19 405 16

162 📄정보 AI커버 뉴비들을 위한 무료 플러그인+사용법 [3]

증말할거업는넘 2024.05.17 545 14

161 📄정보 KLM 버전3 나옴 [2]

성유진 2024.05.10 760 7

160 일반 3. 초보자를 위한 Pre-Trained Model의 설명과 이해 [7]

DeepWeb 2024.05.08 586 14

159 일반 2. 초보자를 위한 모델 붕괴 & 일반화 실패 이야기 [3]

DeepWeb 2024.05.07 500 15

158 일반 1. 초보를 위한 TensorBoard 그래프를 보는방법~! [10]

DeepWeb 2024.05.04 913 30

157 📄정보 RVC 사전학습모델 KLM, 기본(f0) 비교 [7]

성유진 2024.04.28 1083 8

156 📄정보 RVC 사전학습모델 비교 [7]

piru 2024.04.27 1045 9

155 일반 추가1,해결됨)RVC 한국어 사전학습모델 applio에서만 돌아감 [3]

PPAP 2024.04.23 1106 10

154 📄정보 데이터셋 비교 [7]

piru 2024.04.22 865 9

153 일반 RVC 비공식 사전학습모델 모음집 [4]

PPAP 2024.04.18 1678 12

152 📄정보 신디사이저V로 RVC같은 학습 돌리는거 라이센스 위반임+잡정보 [30]

야이야이아 2024.04.16 950 8

151 📄정보 속보)보컬 분리 모델 혁명일어남 [34]

벱나난비 2024.04.07 2715 18

150 📄정보 입문이 어려운 초보자를 위한 TTS 학습 시작 부터 원리 설명– Bert-VITS2(1편) [26]

선무공신 2024.03.08 3324 7

149 📄정보 (나빼고 다아는)UVR 화음분리 팁 [8]

벱나난비 2024.03.08 2011 12

148 일반 2024.02.25 코랩 환경 업뎃 후 일부 코랩 오류 [9]

PPAP 2024.02.25 1784 8

147 일반 RVC crepe 코랩 문제 해결했습니다. [6]

Xwlcn 2024.02.21 1206 11

146 일반 같이 재밌게 AI 음성 연구 해보실분 있나요? [5]

son 2024.02.16 1368 8

145 💾자료 데이터셋 생성기 만들어봄 [30]

배개 2024.01.18 3325 17

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.