ddsp-svc 학습 환경 구성 및 학습, 추론 가이드.md

AI 음성 채널

알림 알림 중 알림 취소

구독자 5622명 알림수신 131명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 ddsp-svc 학습 환경 구성 및 학습, 추론 가이드.md

Tacotron2

추천 14 비추천 0 댓글 13 조회수 4009 작성일 2023-04-11 00:14:42 수정일 2023-04-12 22:48:22

https://arca.live/b/aispeech/73775693

https://arca.live/b/aispeech/73768265?p=1

https://arca.live/b/aispeech/73771209?p=1

요구사양은 브램 6기가 딱 그 정도라 데이터셋만 준비되면 대부분 학습까지 할 수 있을거임

딥러닝 노동에서 벗어났다는 1660도 가능하다는 말

즉시 노역장행

0. 깃, 파이썬, vs빌드툴 설치

1. 소스코드 클론

git clone https://github.com/yxlllc/DDSP-SVC

cd DDSP-SVC

2. 가상환경 생성 및 진입

python -m venv .venv

.venv/Scripts/activate

3. 파이토치 설치 (가상환경 상태에서)

pip3 install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 --index-url https://download.pytorch.org/whl/cu117

4. 패키지 설치 (가상환경 상태에서)

pip install -r requirements.txt

5. hubert 모델 다운로드

https://github.com/bshall/hubert/releases/download/v0.1/hubert-soft-0d54a1f4.pt -> hubert

https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip -> nsf_hifigan

https://ibm.ent.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr -> ContentVec

위 링크에서 다운받고 아래 사진처럼 배치해줌

======================여기부터 학습의 영역========================

6. 데이터셋 만들기

유튜브 어느 영상에 보니까 mp4 파일 갖고 데이터셋 만드는거 있던데 그거 써서 만들기

7. 데이터셋 넣기

data/train/audio 폴더 안에 모든 데이터 싸그리 넣기.

10초 이상 보컬 따로 분리한 파일 300개 이상이면 될 듯.

모든 데이터셋 파일은 44100Hz 모노채널 wav파일이여야 함.

그리고 그 중 괜찮은 보컬 10개 내외로 data/val/audio 폴더로 '복사' 말고 '이동' 하기

8. 전처리 (가상환경 상태에서)

python preprocess.py -c configs/combsub.yaml

9. 학습 (가상환경 상태에서)

python train.py -c configs/combsub.yaml

대충 5만스텝정도면 쓸만한 모델 나올거임.

gradio gui도 있긴 한데 gradio gui는 뭔가 에러나는 것 같아서 안 써봄

======================학습 끝========================

10. 추론 (가상환경 상태에서)

학습할 때 config파일 수정 안했으면 exp\combsub-test 폴더 안에 model_best.pt 파일 있을거임

경로명이 대충 exp\combsub-test\model_best.pt 이렇게 될거임

원본 보컬 파일 경로가 C:\Users\poly\Downloads\vocal.wav 하고 하면

python .\main.py -i C:\Users\poly\Downloads\vocal.wav -m .\exp\combsub-test\model_30000.pt -o C:\Users\poly\Downloads\vocal_infer.wav -k 0 -id 1 -eak 0

를 입력하면 C:\Users\poly\Downloads\vocal_infer.wav 파일로 출력될거임

뭐~ 이쯤 되면 다들 알겠지만 딥러닝 모델류는 전부

파이토치 설치 -> requirements 설치 -> 데이터셋 적절한 위치에 넣기 -> 전처리 -> 학습

이것만 기억하면 어지간한 깃헙 레포지토리는 다 쓸 수 있을거임

댓글 [13]

Arikui

2023-04-11 00:46:16

이건 모듈 관련으로 충돌 안나네 너무 좋당 정보글 ㄳㄳ

펼쳐보기▼

Arikui

2023-04-11 01:25:17

사전 학습 모델 설치도 추가 해줄 수 있음?  방금 전처리 하다가  FileNotFoundError: [Errno 2] No such file or directory: 'pretrain/hubert/hubert-soft-0d54a1f4.pt' 떠서 찾아보니 따로 다운받아서 넣어줘야 하네..

펼쳐보기▼

Tacotron2

2023-04-11 01:41:45

맞다 깜빡했네 추가했음

펼쳐보기▼

popop098

2023-04-11 01:48:23

diff svc에 썻던 wav그대로 가져다 써도 되겠지?

펼쳐보기▼

Tacotron2

2023-04-11 01:57:48

물논~

펼쳐보기▼

popop098

2023-04-11 01:59:55

근데
python .\main.py -i C:\Users\poly\Downloads\vocal.wav -m .\exp\combsub-test\model_30000.pt -o C:\Users\poly\Downloads\vocal_infer.wav -k 0 -id 1 -eak 0
이거 파일하나하나 일일히 해야하는거임?

펼쳐보기▼

Tacotron2

2023-04-11 02:03:45

난 main.py 수정해서 리스트로 넣어서 추론하고 있음

펼쳐보기▼

popop098

2023-04-11 02:22:36

오.. 그럼 난 포크해서 내 입맛대로 바꿔야겠음

펼쳐보기▼

김뚝딱뚝딱

2023-04-11 18:44:29

저는 batch/s 가 10언저리로뜨는데 어떻게 높게해요?

펼쳐보기▼

김치가이

2023-04-12 12:01:04

*수정됨

File "C:\Users\143122\AppData\Local\anaconda3\lib\site-packages\torch\nn\modules\transformer.py", line 506, in forward
    return torch._transformer_encoder_layer_fwd(
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 7.66 GiB (GPU 0; 8.00 GiB total capacity; 809.64 MiB already allocated; 5.02 GiB free; 1.18 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
메모리 부족같은데 어떻게 하나요ㅠㅠ 출력중이었습니다.

펼쳐보기▼

김치가이

2023-04-13 09:08:24

나같은 경우인 사람들을 위해 댓글 남겨둠. 완전한 해결 방법은 아니고 노래 길이를 줄여보셈. 4분짜리 노래 절반 자르니 됨.

펼쳐보기▼

purplepopcorn

2023-04-13 23:06:27

정보 감사합니다. 오늘 밤에 diff 출력물 마지막으로 뽑아보고 찍먹갑니다.

펼쳐보기▼

우엉

2023-06-07 14:41:01

*수정됨

원본 보컬 파일이 멀말하는건지.. 잘 모르겠네요

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31207175

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 25846

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 16170

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 45419

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4552

숨겨진 공지 펼치기(3개)

❓질문 ddsp 코랩 뭐가 문제여 [5]

Shrimp 2023.04.12 316 0

일반 런포드 ddsp-svc 세팅 명령어 메모용 [1]

이하비스 2023.04.12 320 1

일반 오오 뉴비 드디어 첫 목소리 완성했어요 [5]

라아마 2023.04.12 334 0

❓질문 뭐지 vits가 단체로 추론이 이상함

미미미미믹 2023.04.12 233 1

❓질문 DDSP-SVC 순간적인 음변화 깨짐

popop098 2023.04.12 324 0

❓질문 DDSP-SVC 출력 메모리 부족 어떻게 해결하나요? [1]

김치가이 2023.04.12 167 0

📄정보 DDSP 코랩도 있음 [1]

Shrimp 2023.04.12 518 6

❓질문 MB-iSTFT-VITS 추론 이거 왜이러냐 [2]

미미미미믹 2023.04.11 486 0

❓질문 ddsp svc 추론결과가 바람소리밖에 안들림

popop098 2023.04.11 601 0

❓질문 뭘 해도 이 오류는 해결 못하는건가ㅋㅋ [2]

Teletubbie 2023.04.11 196 0

일반 ddsp 브램 2기가 입갤ㅋㅋㅋㅋ [1]

Tacotron2 2023.04.11 398 0

일반 ddsp-svc fairseq설치하는데 느리네.. [3]

popop098 2023.04.11 207 0

❓질문 핑프) 저기 초면에 죄송하지만 저는 한번에... [4]

깜장망토 2023.04.11 283 1

❓질문 DDSP-SVC 학습시 에러 질문.. [4]

Arikui 2023.04.11 817 0

❓질문 본인 목소리 녹음 뭐로함? [3]

ㅇㅇ 2023.04.11 421 0

📄정보 ddsp-svc 학습 환경 구성 및 학습, 추론 가이드.md [13]

Tacotron2 2023.04.11 4010 14

❓질문 신기술 경연대회인 김에 Fish Diffusion이랑 RVC도 누가 알려줘

PPAP 2023.04.10 717 1

전체글 개념글