AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

AI 음성 채널

알림 알림 중 알림 취소

구독자 5452명 알림수신 123명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2

추천 27 비추천 0 댓글 21 조회수 43242 작성일 2023-06-07 15:35:43 수정일 2023-07-01 14:24:30

https://arca.live/b/aispeech/78160170

이곳에서 다루는 주제는 주로 노래 커버이고 가끔 TTS도 다룹니다.

- 원하는 목소리로 노래를 커버 하고 싶어요!

그 노래를 이 목소리로 듣고 싶은데 이 사람은 그 노래를 부른 적이 없을 때, 마치 이 사람이 그 노래를 부른 것 같은 노래를 만들 수 있습니다.

유튜브에서 제목에 AI Cover라고 검색하면 나오는 결과물을 얻을 수 있습니다.

https://www.youtube.com/results?search_query=ai+cover

노래 커버에는 주로 SVC로 끝나는 깃헙 레포지토리의 모델을 사용해서 만듭니다.

노래를 커버하는 과정은 크게 다음의 순서로 이루어집니다.

1. 데이터셋 생성

2. 학습 환경 구성

3. 학습

4. 레퍼런스 보컬 준비

5. 추론

6. 결과물과 반주 합치기

이렇게 노래를 커버하는데에는 원곡의 레퍼런스 보컬과 커버하고 싶은 목소리의 데이터셋이 필요합니다.

만약 A가수의 Love song이라는 노래를 B가수의 목소리로 커버하고 싶다면 학습의 과정은 아래와 같습니다:

1) B가수의 노래로부터 보컬을 추출해 데이터셋으로 가공합니다.

2) 깃헙 레포지토리를 다운로드 받고 필요한 라이브러리를 설치합니다.

3) B가수의 데이터셋으로 학습을 수행합니다.

4) A가수의 Love song 노래로부터 보컬을 분리해서 원곡의 레퍼런스 보컬을 준비합니다.

5) 4번에서 준비한 레퍼런스 보컬과 3번 학습으로 얻어진 B가수 모델을 가지고 추론을 수행해 B가수가 Love song을 부르는 보컬을 얻습니다.

6) 5번에서 얻어진 커버된 보컬을 반주와 합칩니다.

대충 이러한 과정으로 진행됩니다.

처음 학습해본다면 아래 링크를 참고해보세요

https://arca.live/b/aispeech/78639996 (RVC 모델 학습, RVC만 사용)

https://arca.live/b/aispeech/79375084 (RVC 모델 학습, RVC/UVR/Goldwave 사용)

https://arca.live/b/aispeech/74125759 (DDSP 모델 학습, DDSP/Goldwave 사용)

실제 데이터셋 생성을 알아봅시다.

학습할 음성이나 노래 음성을 모델을 학습에 사용할 수 있도록 만드는 과정입니다.

SVC모델에서 취하는 데이터셋은 10초~15초 길이로 잘게 자른 원하는 화자의 보컬만 분리한 wav파일을 사용합니다.

데이터셋을 만드는데는 보통 UVR이라는 프로그램을 씁니다.

파이썬을 코드를 작성할 수 있다면 작업을 자동화하는 스크립트를 만들어 편리하게 만들 수 있습니다.

모델에 따라 다르지만 이렇게 10~15초 길이로 잘게 자른 파일 20분~2시간 어치를 준비하면 됩니다.

아래는 데이터셋을 만들 때 유용한 정보가 있는 링크입니다.

UVR 사용방법: https://arca.live/b/aispeech/76792418

UVR 작업 순서: https://arca.live/b/aispeech/76947571

전체적인 데이터셋 생성 도구들: https://arca.live/b/aispeech/76727179

데이터셋 만들기(학습 이전까지의 내용을 참조합시다): https://arca.live/b/aispeech/74125759

데이터셋을 준비했다면 원곡의 레퍼런스 보컬을 준비합시다.

레퍼런스 보컬을 준비하는 과정은 데이터셋을 만드는 과정과 크게 다르지 않습니다.

다만, 데이터셋에 비해 높은 품질의 보컬을 얻어야 하고, 데이터셋처럼 가공할 필요 없이 3분의 음악이면 3분의 보컬 그대로 사용하면 된다는 차이점이 있습니다.

아래는 레퍼런스 보컬을 준비하는데 유용한 링크입니다.

UVR 사용방법: https://arca.live/b/aispeech/76792418

UVR 작업 순서: https://arca.live/b/aispeech/76947571

듀엣보컬 분리하기: https://arca.live/b/aispeech/78030601

다음으로 학습을 어디서 할 건지 정합시다.

컴퓨터에 엔비디아의 VRAM 8GB 이상의 그래픽카드가 있다면 로컬로 학습이 가능합니다.

그런 그래픽카드가 없다면 코랩이나 런팟을 이용해야 합니다.

다음으로 어떤 모델을 사용할지 정합시다.

간단한 학습을 원하면 RVC를 쓰는게 좋습니다.

다른 모델로는 DDSP-SVC, so-vits-svc가 있고,

그 외에는 diff-svc, fish-diffusion가 있습니다.

모델 명칭	깃헙 주소	준비해야 하는 데이터셋의 양	학습에 걸리는 시간 (RTX3090 기준)
RVC	https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI	20분 이상	10분 이상
DDSP-SVC	https://github.com/yxlllc/DDSP-SVC	30분 이상	1시간 이상
so-vits-svc	https://github.com/svc-develop-team/so-vits-svc	30분 이상	1시간 이상
diff-svc	https://github.com/prophesier/diff-svc	1시간 이상	6시간 이상
fish-diffusion	https://github.com/fishaudio/fish-diffusion	1시간 이상	4시간 이상

각각의 모델을 사용해 만들어진 결과물들의 링크입니다.

사용한 모델	결과물
RVC	https://arca.live/b/aispeech?category=%EC%9E%91%ED%92%88&keyword=rvc
DDSP-SVC	https://arca.live/b/aispeech?category=%EC%9E%91%ED%92%88&keyword=ddsp-svc
so-vits-svc	https://arca.live/b/aispeech?category=%EC%9E%91%ED%92%88&keyword=so-vits
diff-svc	https://arca.live/b/aispeech?category=%EC%9E%91%ED%92%88&keyword=diff-svc

잘 모른다면 RVC로 시작하는 것을 추천합니다.

학습이 쉽고, 적은 데이터셋에, 짧은 학습으로 괜찮은 퀄리티의 결과물을 얻을 수 있습니다.

여기까지 정했다면 학습 환경을 구성하고 학습, 추론을 수행합니다.

모델마다 다소의 차이가 있어 아래의 표를 참고해 계속 진행해주세요.

아래는 로컬 혹은 코랩에서 학습 및 추론에 도움이 되는 링크들입니다.

	로컬 환경	코랩 환경
RVC	https://arca.live/b/aispeech/78639996 https://arca.live/b/aispeech/79375084	https://arca.live/b/aispeech/78261020
DDSP-SVC	https://arca.live/b/aispeech/74125759
so-vits-svc	https://arca.live/b/aispeech/77906451
diff-svc	https://www.youtube.com/watch?v=8hJ1Wullg_g
fish-diffusion	https://arca.live/b/aispeech/76805331

추론이 끝났으면 이후 믹싱 등의 과정을 통해 더 완성도있는 결과를 얻을 수 있습니다.

아래는 믹싱에 대한 정보가 있는 글의 링크들입니다.

https://arca.live/b/aispeech/78917323

- 원하는 목소리로 말하는 음성을 만들고 싶어요!

텍스트를 입력해 특정 목소리로 말하는 음성을 만드는 것을 가지고 TTS라고 합니다.

기본적으로 TTS도 위에 설명한 노래 커버와 비슷하나, 데이터셋을 만드는 과정 중 일부 차이가 있습니다.

1. 데이터셋의 wav파일의 길이가 4초 이하가 되도록 짧게 만듭니다

2. 데이터셋의 wav파일과 함께 각각의 데이터셋 음성의 대본을 작성해야 합니다. 이를 데이터셋을 만들 때의 라벨링 과정이라고 볼 수 있습니다.

TTS 모델은 여러가지가 있으나 여기서 다뤄진 모델은 VITS밖에 없습니다.

https://arca.live/b/aispeech/72903471

데이터셋 생성 및 라벨링 과정을 asr로 자동화한 레포지토리는 아래 글에서 확인할 수 있습니다.

https://arca.live/b/aispeech/78725636

라벨링없이 RVC로 공개 데이터셋을 타겟 화자의 목소리로 변환하여 VITS 학습을 수행하는,

일명 'RVC-VITS' 에 대해서는 아래 글에서 확인할 수 있습니다.

https://arca.live/b/aispeech/78461054

VITS 레포지토리의 cjke2 클리너를 약간 수정했고 asr로 대본을 작성해서 학습을 수행하는

일명 'PolyLangVITS'에 대해서는 아래 글에서 확인할 수 있습니다.

https://arca.live/b/aispeech/79678631

korean cleaner심볼 세트를 japanese cleaner 심볼 세트로 혹은 역으로 변환하는 것에 대해서는 아래 글에서 확인할 수 있습니다.

https://arca.live/b/aispeech/79985598

100조

2023-06-07 15:38:54

산리

2023-06-07 15:41:19

카린쨩노코토스키스기

2023-06-07 15:51:57

오 좀 더 꾸미거나 결과물 링크같은거 좀 넣거나 하면 메인 소개글로 쓸 수 있을거같은데

펼쳐보기▼

Tacotron2

2023-06-07 16:03:51

결과물 링크 간단하게 넣었음

펼쳐보기▼

카린쨩노코토스키스기

2023-06-07 16:49:05

너 파래진다

펼쳐보기▼

Qwrt

2023-06-07 15:52:05

맥북에어좋아

2023-06-07 16:05:30

이하비스

2023-06-07 16:19:38

PPAP

2023-06-07 16:25:25

ALG

2023-06-07 16:27:38

Musictreehun

2023-06-07 19:54:44

와 진짜 너무 감사합니다..

펼쳐보기▼

The_Voice

2023-06-08 00:22:00

*수정됨

너무 정리를 잘해줘서 뭐라 더 붙일 말도 없네. 이런건 바로 채널 공지야
그리고.. 실례지만 혹시 파래지실 생각 없으십니까?

펼쳐보기▼

KooKoo

2023-06-08 01:21:01

Tacotron2

2023-06-08 04:44:44

파딱 달리면 뻘글 쓸 때 편히 쓰지 못할 것 같음 무엇보다 관리는 내 체질이 아니기도 하고

펼쳐보기▼

현자타임

2023-06-08 02:33:10

ㅇㅇ

2023-06-08 03:02:45

나태

2023-06-12 15:09:55

ㅇㅇ

2023-06-23 02:39:33

퐁퐁

2023-08-25 11:05:48

https://arca.live/b/aispeech/79375084
이 글 정확히는 학습은 안 다루고 추론만 다룸
제대로 읽고 적은거임?

펼쳐보기▼

후로그래밍

2023-11-18 09:33:58

우와 엄청 잘 정리해주셔서 감사합니다.

펼쳐보기▼

사절꼼

2023-11-28 02:23:50

압도적 감사...!

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28091748

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 24626

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 14782

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 43243

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4066

숨겨진 공지 펼치기(3개)

5285 ❓질문 uvr denosie 사용하시는분들 수치 어느정도로 사용하시나요?

qw2r 2024.05.07 8 0

5284 ❓질문 고퀄리티 데이터셋의 기준이 뭐임?

돌대갈희 2024.05.07 19 0

5283 ❓질문 공지보면서 공부중인데 요건 좀 고전자료야? [1]

ㅇㅇ 2024.05.07 47 0

5282 ❓질문 스트리머 tts랑 ai cover만들려고 들어왔는데 요즘 제일 좋은 방식이 뭔가요?

Lulu 2024.05.07 59 0

5281 ❓질문 open voice 사용하시는 분 계신가요?

wk 2024.05.07 34 0

5280 ❓질문 보이스체인저 타입 DDSP-SVC [2]

Nna912105 2024.05.07 53 0

5279 ❓질문 데이터셋은 많으면 많을수록 좋은거임? 아니면 [3]

돌대갈희 2024.05.06 110 0

5278 ❓질문 Validation이 정확히 무엇이고 이거를 어떻게 넣는지 말해주실수 있나요? [2]

선무공신 2024.05.06 70 0

5277 ❓질문 혹시 RVC 모델을 임포트해서 쓸 수 있는 디스코드 TTS봇이 있을까

magicalrgm 2024.05.06 59 0

5276 ❓질문 더블링은 제거가 힘듦? [2]

선풍기가돌아가요 2024.05.06 86 0

5275 ❓질문 train 데이터를 여러 사람의 보이스를 사용하였을 때 [2]

감도 2024.05.05 129 0

5274 일반 1. 초보를 위한 TensorBoard 그래프를 보는방법~! [8]

DeepWeb 2024.05.04 399 26

5273 ❓질문 ai커버 처음만들어볼려고하는데 [2]

깨무 2024.05.04 186 0

5272 ❓질문 17분짜리 적용하는데 보통 얼마나 걸림? [1]

야아두미 2024.05.03 151 0

5271 ❓질문 코랩 rvc 사전학습모델 기본이 f0인가요? [1]

Shuffle 2024.05.03 95 0

5270 일반 코랩 TPU v2로 학습시켜본분? [2]

선풍기가돌아가요 2024.05.03 116 0

5269 ❓질문 님들 MR피치 어디서 조정함? [2]

쑜뀪쓨꾞 2024.05.03 78 0

5268 ❓질문 rvc k모델 그래프 보는법? [4]

ㅇㅇ 2024.05.03 93 0

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.