DDSP-SVC 사용법 A to Z - AI 음성 채널

AI 음성 채널

알림 알림 중 알림 취소

구독자 5623명 알림수신 131명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 DDSP-SVC 사용법 A to Z

dbsqeen

추천 19 비추천 0 댓글 90 조회수 28875 작성일 2023-04-15 13:57:27 수정일 2023-06-26 19:10:30

https://arca.live/b/aispeech/74125759

*윈도우 10(19045) / rtx3080 / 파이토치1.13.1+cu117 에서 실행하였습니다

*깃허브(https://github.com/yxlllc/DDSP-SVC) 원문 내용 기반으로 진행합니다

*"C:\DDSP-SVC" 디렉토리 기준으로 진행합니다

*빨간글씨는 명령어(복붙하면 됩니다), 파란글씨는 사족입니다

0.기본적으로 알아야될 것

-명령어 입력에는 cmd, powershell, vs 등등 아무거나 사용하셔도 무방합니다 - 그냥 cmd 쓰세요

-(diff-svc 혹은 이런 작업을 몇번 해보신 분들은 아시겠지만) 파이토치부터 시작해서 requirements로 깔리는 수많은 것들은 버전에 민감합니다. 각각의 구성요소가 다른 구성요소의 n버전 "이상"~m버전 "이하"를 요구하며 서로 얽혀있다보니 무조건 최신버전이 좋다는 생각은 수많은 에러를 만들어내는 원인이 되기에, 웬만하면 가이드 버전 맞춰서 설치하는 게 정신건강에 이롭습니다.

[ddsp-svc설치]

1-1.기본 프로그램부터 설치해봅시다

파이썬 3.8, 쿠다11.7 설치하시고..

1-2.cmd를 엽니다 (단축키 // 윈도우키+R - cmd 입력)

1-3.파이토치 설치단계입니다 - 설치하셨다면 스킵

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

1-3-1.파이토치 버전 확인

python

import torch

print(torch.__version__)

버전이 뿅하고 나오면 성공

컨트롤+Z로 파이썬 빠져나온 뒤 1-4 진행하시면 됩니다

1-4.ddsp-svc를 설치합니다

cd C:\

git clone https://github.com/yxlllc/DDSP-SVC

1-5.ddsp-svc 폴더로 이동후 requirements 설치 - 오류없이 설치되어야 합니다

cd C:\DDSP-SVC

pip install -r requirements.txt

1-6.pretrained 모델 넣기

pretrained 모델 - C:\DDSP-SVC\pretrain\hubert (hubert보다 성능좋은 contentvec을 사용합니다)

https://oo.pe/https://ibm.ent.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr

nsf_hifigan - C:\DDSP-SVC\pretrain\nsf_hifigan

https://oo.pe/https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip

[데이터 전처리]

2-1.목소리 데이터를 구합니다(diff-svc를 사용하기 때문에 확장자는 mp4, mp3, wav 뭐든 상관없습니다)

*일반적인 대화 데이터는 웬만하면 넣지 마시고, 데이터가 너무 적어 불가피하게 사용해야겠다면 웃음소리는 꼭 빼세요.

*알고 계시겠지만 딥러닝에서의 인풋 데이터의 질은 너무나도 중요합니다. 질이 떨어지는 데이터는 버리세요.

2-2.데이터 정제

학습에 사용될 수 있는 이상적인 데이터는 저음부~고음부가 모두 담긴 깨끗한 보컬 파일인데, 본인 목소리로 학습하지 않는 이상 이런 데이터를 구하기가 쉽지 않습니다. 가수의 무손실 음원(flac)에서 보컬만 추출하는 방법을 예시로 설명드립니다. - mp3파일같은 손실압축파일은 보컬이 깔끔하게 분리되지 않을 수 있으니 추천드리지 않습니다.

-------------------------------------------------------------------------------------

2-2-1.instrumental 파일이 세트로 있는 경우 -> utagoe (사용법은 구글링)

2-2-2.instrumental 파일이 없는 경우 -> ultimate vocal remover (https://github.com/Anjok07/ultimatevocalremovergui) 이외 다른 프로그램도 많으니 재량껏 보컬만 추출하시면 됩니다

-------------------------------------------------------------------------------------

2-2-1의 방법을 사용하면 비교적 깨끗하게 추출이 가능한데, 2-2-2의 방법으로는 잡음이 섞여나오는 등 한계가 있기 때문에 따로 작업을 해주시는 게 좋습니다. goldwave(이후 노멀라이징 할때도 쓰입니다) 설치후 추출한 보컬 데이터를 열어 백보컬과 잡음을 제거한 후 저장합니다.

이후 izotope rx10같은 유틸리티로 de-reverb, de-noise를 약하게 먹여주면 조금 더 좋긴 하지만 귀찮고 손이 많이 가는 작업이라 안 해도 무방합니다.

모든 데이터를 다 손보셨다면 goldwave-일괄처리(batch processing)로 노멀라이징과 wav 변환을 시켜줍니다.

source 탭에서 파일(또는 폴더)를 선택하고, 옆의 process 탭으로 가서

add effect-goldwave-auto gain-default 로 노멀라이징을,

add effect-goldwave-silence reduction-shorten silences longer than 5 seconds 로 무음부분을 지워줍니다

convert 탭으로 가서 16비트 44.1 wav로 변환한 후 실행하시면 일괄작업됩니다

이후에 할 diff-svc를 이용한 전처리 과정에서도 노멀라이징과 무음부분 삭제를 해주긴 합니다만 막상 전처리 된 결과물을 보면 엉망진창이라 전문 프로그램으로 미리 노멀라이징 해줍니다. 제대로 무음삭제를 해 줘야 껍데기 파일 훈련시키는데 시간과 자원을 낭비하지 않고, 제대로 노멀라이징 해줘야 훈련 이후 결과물을 뽑아냈을 때 소리 크기가 안정적입니다.

2-3.diff-svc설치

- 전처리에 ddsp-svc보다 diff-svc를 사용하는 게 오류도 적고 정신건강에 좋습니다. wav를 15초 단위로 잘라주는 다른 유틸리티를 써도 무방합니다.

ddsp-svc쪽 cmd창은 놔두고 새로 하나 더 열어줍니다 (단축키 // 윈도우키+R - cmd)

cd C:\

git clone https://github.com/wlsdml1114/diff-svc

cd C:\diff-svc

pip install -r requirements.txt

2-4.diff-svc 아래에 preprocess 폴더를 만들고 데이터를 전부 넣어줍니다

2-5.데이터 자르기

python sep_wav.py

실행후 diff-svc\preprocess_out\final 에 보면 10~15초 단위로 잘린 파일들이 있습니다.

그대로 DDSP-SVC\data\train\audio로 가져옵니다.

diff-svc는 더 이상 쓸 일이 없으니 탐색기 창과 커맨드 창은 닫아줍니다.

2-6.데이터 전처리

다시 ddsp-svc 커맨드 창으로 돌아와서

python draw.py

실행하면 DDSP-SVC\data\train\audio 에 넣어놓은 데이터 중 "괜찮아 보이는" 5~10개 파일을

컴퓨터가 자동으로 선별하여 C:\DDSP-SVC\data\val\audio 쪽으로 이동시켜 줍니다.

val\audio쪽에 들어간 데이터들은 나중에 학습하면서 실시간으로 학습 정도를 확인할 수 있는 레퍼런스 파일이 되니

컴퓨터가 선별한 파일들이 마음에 들지 않으면 빼거나 교체해도 무방합니다.

python preprocess.py -c configs/combsub.yaml

ddsp-svc 내부 전처리 작업입니다. DDSP-SVC\data\train 쪽에 가보시면 f0, units, volume 폴더가 새로 생긴 걸 확인할 수 있습니다.

[학습]

3-1.먼저 설정파일을 수정해야 합니다.

DDSP-SVC\configs 에 combsub.yaml 파일을 엽니다. (연결 프로그램-메모장 또는 vscode)

8행 encoder: 'contentvec'

12행 encoder_out_channels: 256

13행 encoder_ckpt: pretrain/hubert/checkpoint_best_legacy_500.pt

36행 cache_device: 'cuda'

이렇게 수정해주시고

33행 34행은 각자 사양에 맞게 수정해야 하는데

num_workers는 디폴트값인 2로 두고

batch_size를 8~128 사이 값으로 조정합니다

*나중에 직접 트레이닝하면서 최적화할 수 있으니 대략적인 값으로만 알아서 설정하세요

num_workers는 cpu와 gpu 사이의 밸런스를, batch_size는 한번에 얼마나 큰 덩어리로 학습할 것인지를(=gpu vram 사용량) 결정합니다.

제가 쓰는 3080 12gb 기준 // 데이터파일 2000개 -> batch96, 데이터파일 500개 -> batch128 일때 vram 11gb정도 점유합니다.

배치사이즈를 너무 타이트하게 잡으면 램부족으로 학습이 중단되거나 학습이 매우 느려질 수 있으니 10% 여유분을 남겨 두셔야 합니다.

3-2.학습

python train.py -c configs/combsub.yaml

실행하면 데이터파일 로딩후 학습을 시작합니다. 작업관리자에서 gpu vram util을 확인합니다.

학습한 pt파일은 DDSP-SVC\exp\combsub-test 에 저장되며 기본설정으로 2000스텝마다 저장됩니다.

config.yaml 파일에서 num_workers와 batch_size 그리고 저장되는 주기인 (37행)interval_val 도 설정 가능합니다.

gpu가 영 일을 안한다 -> num_workers를 4로 수정 (사실 별 차이는 없습니다)

vram 사용량이 적다 -> batch_size를 적절히 수정

아까 수정한 combsub.yaml 이 전역설정, 방금 수정한 config.yaml 이 개별설정의 개념입니다.

-학습은 언제든지 종료할 수 있으며 커맨드 창에서 "컨트롤+C" 로 종료할 수 있습니다.

-학습 종료->배치사이즈 수정->재시작 해가며 적절한 배치사이즈를 찾으면 됩니다.

-학습을 다시 시작하면 맨 마지막으로 저장된 체크포인트부터 시작합니다.

-diff-svc와는 다르게 오래된 체크포인트를 자동으로 지워주지 않습니다. 용량확보가 필요하다면 수동으로 DDSP-SVC\exp\combsub-test 에서 오래된 pt 파일을 지워주면 됩니다.

학습과정을 보고싶다면 새로운 커맨드 창을 연 뒤

tensorboard --logdir="C:\DDSP-SVC\exp\combsub-test\logs"

명령어를 실행한 뒤 http://localhost:6006/ 주소로 접속하면 손실율(loss값) 추이와 함께 아까 data\val\audio 쪽에 따로 뽑아놨던 오디오 파일들이 학습되는 과정을 직접 들어볼 수 있습니다.

적당하게 학습이 진행됐다 싶으면 학습을 종료합니다.

[결과물 출력]

4-1.결과물 파일 처리

결과물을 뽑을 때도 vocal-instrumental 파일 분리가 필요합니다.

(vocal+instumental이 섞여있는 일반 음원에 학습한 데이터를 프로세싱하면 이상한 무엇인가가 나옵니다)

2-2에서 알려드린대로 재량껏 분리한 뒤 편의를 위해 DDSP-SVC\exp 폴더로 이동시킵니다.

각각 vocal.wav / instrumental.wav 로 이름변경한 뒤

python main.py -i "C:\DDSP-SVC\exp\vocal.wav" -m "C:\DDSP-SVC\exp\combsub-test\model_best.pt" -o "C:\DDSP-SVC\exp\vocal_trans.wav" -k 0 -id 1 -eak 0

실행하면 새로운 목소리로 덧입혀진 vocal_trans.wav 가 출력됩니다.

*원래 아웃풋 데이터가 크면(길이가 길면) 프로그램이 알아서 자른 뒤에 프로세싱하고 다시 이어붙이는데, 간혹 CUDA out of memory 에러가 뜨는 경우가 있습니다. 그럴 땐 번거롭지만 수동으로 적당히 잘라서 프로세싱한 뒤 다시 이어붙이면 됩니다.

4-2.결과물 합치기

이제 vocal_trans.wav 와 instrumental.wav 를 합치면 작업이 모두 끝납니다.

goldwave에서 vocal_trans.wav , instrumental.wav 두 파일을 모두 불러옵니다.

vocal_trans를 선택하고 컨트롤+C (복사)

아래쪽 instrumental 선택후 컨트롤+M 하면 vocal과 instrumental을 병합할 수 있습니다.

그리고 저장하면 끝!

사실 이 글을 쓰게 된 계기가 정보글이 별로 없어서 정보공유 차원에서 쓰기 시작한 것도 있지만

결과물이 생각보다 꽤 괜찮아서 자랑할려고 쓰기 시작했는데..

공지에 한국 가수는 창작물 업로드가 안된다네요 ㅠ.ㅠ

아무쪼록 도움이 되었으면 좋겠습니다

댓글 [90]

aslkvb

2023-04-15 14:06:49

감사합니다

펼쳐보기▼

kikikiki

2023-04-15 14:09:39

너무 잘 정리해서 추천드립니다.

펼쳐보기▼

kikikiki

2023-04-15 14:10:48

혹시 ultimate vocal remover처럼 AI로 보컬을 추출하는 경우에도 flac 파일이 더 깔끔하게 결과가 나오나요?

펼쳐보기▼

dbsqeen

2023-04-15 14:19:22

사실 차이가 막 크진 않은데, 손실압축의 원리가 주파수 대역이 겹칠때 우리 귀에 최종적으로 들리지 않고 묻힐것 같은 소리는 지워버리는 원리여서 inst 트랙이 많은 음악의 경우에는 보컬 분리하면 아무리 잘 분리해도 잡음이 낄수 있습니다. 그 잡음들이 나중에 트레이닝시키면 고스란히 묻어나기 때문에..무손실 압축 파일을 쓰셔야 좀더 나은 결과가 나올 겁니다.

펼쳐보기▼

kikikiki

2023-04-15 14:24:00

그렇군요. 답변 감사합니다.

펼쳐보기▼

Nark

2023-04-15 14:35:29

저음/고음부가 부족한경우 임의적으로 음성샘플의 피치를 변경해서 투입해야할까요?
프로그램 사용해서 피치 조절한 경우 이게 샘플로써 의미가 있나 싶게 들리는데, 어떤 의견이 있으신가 궁금합니다.

펼쳐보기▼

dbsqeen

2023-04-15 14:49:28

무에서 유를 창조해낼 수는 없으니, 아예 없는것 보단 뭐라도 있는 게 낫습니다..

펼쳐보기▼

Boreas

2023-04-15 15:02:45

Boreas

2023-04-15 15:08:51

cd C:\

git clone https://github.com/yxlllc/DDSP-SVC 여기서 invalid syntax 뜨면 어떻게 해야 하나요?

GitHub

GitHub - yxlllc/DDSP-SVC: Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing)

Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing) - GitHub - yxlllc/DDSP-SVC: Real-time end-to-end singing voice conversion system based…

cd C:\

git clone https://github.com/yxlllc/DDSP-SVC 여기서 invalid syntax 뜨면 어떻게 해야 하나요?

펼쳐보기▼

Boreas

2023-04-15 15:09:55

2.0.0+cu117
>>> cd C:\
  File "<stdin>", line 1
    cd C:\
       ^
SyntaxError: invalid syntax
>>>
>>> git clone https://github.com/yxlllc/DDSP-SVC
  File "<stdin>", line 1
    git clone https://github.com/yxlllc/DDSP-SVC
        ^^^^^
SyntaxError: invalid syntax
>>>요로코롬 떠요!

GitHub

GitHub - yxlllc/DDSP-SVC: Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing)

Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing) - GitHub - yxlllc/DDSP-SVC: Real-time end-to-end singing voice conversion system based…

2.0.0+cu117
>>> cd C:\
  File "<stdin>", line 1
    cd C:\
       ^
SyntaxError: invalid syntax
>>>
>>> git clone https://github.com/yxlllc/DDSP-SVC
  File "<stdin>", line 1
    git clone https://github.com/yxlllc/DDSP-SVC
        ^^^^^
SyntaxError: invalid syntax
>>>요로코롬 떠요!

펼쳐보기▼

dbsqeen

2023-04-15 15:13:12

">>>" 이게 cmd 내에서 파이썬 실행중이라 그렇습니다. 컨트롤+Z로 파이썬 빠져나오시고 명령어 실행하시면 됩니다. 본문 수정해놓겠습니다

펼쳐보기▼

Boreas

2023-04-15 15:15:35

engui

2023-04-15 15:40:37

2.2에 사용된 diff-svc 레포지토리 owner입니다.
https://github.com/wlsdml1114/DDSP-SVC-KOR
한국어버전 제작 + jupyter notebook으로 코랩처럼 로컬에 돌릴 수 있게 코드작업중입니다.(빠르면 내일 완성예정)

GitHub

GitHub - wlsdml1114/DDSP-SVC-KOR: Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing)

Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing) - GitHub - wlsdml1114/DDSP-SVC-KOR: Real-time end-to-end singing voice conversion syste…

*수정됨

2.2에 사용된 diff-svc 레포지토리 owner입니다.
https://github.com/wlsdml1114/DDSP-SVC-KOR
한국어버전 제작 + jupyter notebook으로 코랩처럼 로컬에 돌릴 수 있게 코드작업중입니다.(빠르면 내일 완성예정)

펼쳐보기▼

engui

2023-04-15 15:42:37

2.2에서 작성하신 전처리부분도 통합해서 올릴예정입니다

펼쳐보기▼

dbsqeen

2023-04-15 15:47:04

감사합니다~ 다시보니 제가 2.2를 두번 썼네요 본문 2.3으로 수정했습니다

펼쳐보기▼

The_Voice

2023-04-15 23:27:26

음챈의 보배

펼쳐보기▼

dbsqeen

2023-04-16 01:30:49

네^^ 참고하셔도 됩니다. 도움이 되었으면 좋겠습니다.

펼쳐보기▼

Teletubbie

2023-04-16 03:39:26

Preprocess the audio clips in : data/train\audio
Preprocess the audio clips in : data/val\audio
데이터 로딩 두개 한 후에 학습을 시작 안하고 그냥 아무 오류도 없이 명령 대기 상태로 다시 돌아가면 어떻게 해야 하나요?

펼쳐보기▼

Teletubbie

2023-04-16 03:44:11

아 전처리가 아니라 트레인 명령을 입력해야 되는거였네요 감사합니다ㅎㅎ

펼쳐보기▼

Boreas

2023-04-16 08:11:45

C:\diff-svc>python sep_wav.py
C:\Users\repla\AppData\Local\Programs\Python\Python310\lib\site-packages\pydub\utils.py:170: RuntimeWarning: Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work
  warn("Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work", RuntimeWarning)
mp4 to wav 변환 작업 중...: 100%|████████████████████████████████████████████████████████████████| 6/6 [00:00<?, ?it/s]
노멀라이징 작업 중...:   0%|                                                                     | 0/6 [00:00<?, ?it/s]
Traceback (most recent call last):
  File "C:\diff-svc\sep_wav.py", line 285, in <module>
    main(
  File "C:\diff-svc\sep_wav.py", line 172, in main
    audio_norm(filepath, out_filepath, use_preprocessing)
  File "C:\diff-svc\sep_wav.py", line 108, in audio_norm
    normalizedsound.export(output_filepath, format="flac")
  File "C:\Users\repla\AppData\Local\Programs\Python\Python310\lib\site-packages\pydub\audio_segment.py", line 963, in export
    p = subprocess.Popen(conversion_command, stdin=devnull, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  File "C:\Users\repla\AppData\Local\Programs\Python\Python310\lib\subprocess.py", line 971, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
  File "C:\Users\repla\AppData\Local\Programs\Python\Python310\lib\subprocess.py", line 1440, in _execute_child
    hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
FileNotFoundError: [WinError 2] 지정된 파일을 찾을 수 없습니다

펼쳐보기▼

Boreas

2023-04-16 08:12:49

이거 어떻게 해야 돼요? ㅠㅠ ffmpeg 라는 게 없다는 줄 알고 다운 받았는데도 안돼요...

펼쳐보기▼

Boreas

2023-04-16 08:37:14

이건 다른 분이 WAV자르는 파일 올려주신걸로 해결했어요! 혹시  batch_size 128 이상으로 올려도 되나요...?

펼쳐보기▼

dbsqeen

2023-04-16 09:46:48

네 더 높이셔도 됩니다

펼쳐보기▼

맥북에어좋아

2023-04-18 18:41:01

늦었지만 답 답니다. 시스템 환경변수 설정 안해서 그렇습니다.

펼쳐보기▼

무루

2023-05-06 14:33:16

*수정됨

좀 더 자세히 설명 가능하실까요?
저는 계속 안되고 있네요 ㅜㅜ

펼쳐보기▼

맥북에어좋아

2023-05-06 14:37:34

ffmpeg를 내려받긴 했는데 시스템에서 내려받은 위치를 모릅니다. 그래서 활용을 못합니다. 그 위치를 알려주는게 환경변수 설정이고 구글에 ffmpeg 환경변수 설정 이라 치시면 친절하게 적혀있습니다. 본인도 글쓴이와 같은 상황을 겪었는데 다음과 같은 방법으로 해결했습니다. powershell에서 내려받으면 자동으로 될줄 알았는데 안돼가지고 직접 파일 내려받고 시스템 환경변수 설정후 아주 잘 쓰고 있습니다

펼쳐보기▼

무루

2023-05-06 14:42:10

감사합니다 ㅎㅎ 한번 해보겠습니다!

펼쳐보기▼

맥북에어좋아

2023-05-06 14:44:57

무루

2023-05-06 15:40:36

노멀 라이징 단계는 무사히 통과 했는데

목소리 추출 중...:   0%|                                                                        | 0/19 [00:00<?, ?it/s]
Traceback (most recent call last):
  File "sep_wav.py", line 285, in <module>
    main(
  File "sep_wav.py", line 216, in main
    sources = extract_voice(
  File "sep_wav.py", line 61, in extract_voice
    out = model.forward(chunk)
  File "C:\Users\rizin\AppData\Local\Programs\Python\Python38\lib\site-packages\torchaudio\models\_hdemucs.py", line 539, in forward
    raise ValueError(
ValueError: The channel dimension of input Tensor must match `audio_channels` of HDemucs model. Found:6.

목소리 추출에서 또 막히네요 ㅜㅜ

펼쳐보기▼

맥북에어좋아

2023-05-06 15:44:37

음... 시킨대로 모노, 16비트 44100hz 맞죠? 대충 15초씩 짤리고 오류가 나긴 하거든요? 함 preproses_out인가 폴더에 잘린거 없어요? 저도 오류 나는데 잘 잘려서 그냥 쓰거든요.

펼쳐보기▼

무루

2023-05-06 15:56:31

폴더 보니까 잘 잘려 있네요(?) ㅋㅋㅋㅋㅋㅋ

펼쳐보기▼

맥북에어좋아

2023-05-06 15:57:09

ㅋㅋㅋㅋㅋ 함 확인해보고 잘 잘려있으면 그냥 쓰세요 ㅋㅋㅋㅋㅋ 저도 그러고 있으니까요

펼쳐보기▼

dbsqeen

2023-05-17 11:19:58

저도 간헐적으로 HDemucs 오류가 떴는데, (특정 파일에서) 인풋파일이 모노채널이면 이 오류가 뜨더라구요. 모노채널로 변환하는 과정에서 인풋파일이 '이미 모노채널이라는 이유로 오류가 뜨는' 참 괴상한 현상입니다.

펼쳐보기▼

모레모

2023-04-16 11:13:07

*수정됨

3-2에서 Preprocess the audio clips in : data/train\audio
Preprocess the audio clips in : data/val\audio 이러고 그냥 끝나는데 왜그런지 혹시 알수 있을까요?

펼쳐보기▼

dbsqeen

2023-04-16 11:49:49

제가 train 커맨드를 적는다는게 preprocess 커맨드를 적어 놨더라구요^^;; 수정해놨습니다

펼쳐보기▼

모레모

2023-04-16 11:57:39

캬 감사합니다! 완전 알못이라 이런것도 해결을 못하네요 ㅠㅠ 이제 잘됩니다.

펼쳐보기▼

Boreas

2023-04-16 13:11:51

마지막에 python main.py -i "C:\DDSP-SVC\exp\vocal.wav" -m "C:\DDSP-SVC\exp\combsub-test\model_best.pt" -o "C:\DDSP-SVC\exp\vocal_trans.wav" -k 0 -id 1 -eak 0
로 하지 않으면 오류가 뜹니당

펼쳐보기▼

Boreas

2023-04-16 13:13:16

-m ."C:\DDSP-SVC\exp\combsub-test\model_best.pt"
이거를 -m "C:\DDSP-SVC\exp\combsub-test\model_best.pt"
이걸로 수정 해야 될 것 같아요!

펼쳐보기▼

dbsqeen

2023-04-16 14:00:38

헉 감사합니다 수정했습니다

펼쳐보기▼

skjayq

2023-04-16 13:42:32

혹시 3만스텝에 loss 0.7 정도인데 정상적인 수치일까요?

펼쳐보기▼

dbsqeen

2023-04-16 14:16:25

같은 시간을 트레이닝 시켜도 배치사이즈에 따라 스텝은 천차만별이고, 손실율은 데이터세트의 크기나 종류에 따라서도 영향을 받는 수치이기 때문에 몇 스텝에 손실율 얼마정도가 정상적이다..라는 말씀은 드리기가 어렵구요, 커맨드 창에서 학습이 잘 진행되고 있고 gpu가 열심히 일하고 있으면 정상적인 겁니다.

펼쳐보기▼

dbsqeen

2023-04-16 14:27:37

조금 더 덧붙이자면, 일반적으로 데이터셋 크기가 작고 종류가 일관적일 때에는(다양하지 못할 때) 조금만 트레이닝 시켜도 손실율은 빠르게 낮아지지만 결과물 생성시에 데이터셋이 커버할 수 있는 범위를 조금이라도 넘어가면 품질이 왕창 떨어집니다(=중간에 자꾸 튑니다). 반면에 데이터셋 크기가 크고 종류가 다양할 때에는 같은 시간 트레이닝 시켰을 때 손실율 자체는 앞의 상황보다 훨씬 크게 나오지만 결과물을 생성해보면 데이터셋 커버리지가 넓기 때문에 결과물은 더 안정적이고 따라서 품질도 좋게 들릴 겁니다. 손실율이 낮다고 무조건 좋은 게 아니라는 거죠. 결론적으로, 손실율을 절대적인 수치로 접근하기보단 상대적인 수치로 인식해야 합니다. 트레이닝할 때 손실율이 떨어지는 추이를 보았을 때, 지속적으로 조금씩이라도 떨어진다면 계속 트레이닝 시켰을 때 더 좋은 결과가 나올 것이고, 일정 값 주변에서 진동하는 추이를 보이면 더이상의 학습은 크게 의미가 없기에 학습을 중단하면 됩니다.

펼쳐보기▼

al06r

2023-04-28 10:03:32

너무너무 고마워용

펼쳐보기▼

쉽독맨션

2023-04-30 15:59:19

*수정됨

1-5에서
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.0 requires FuzzyTM>=0.4.0, which is not installed.
라고 뜨는데 혹시 다른것도 설치 해야할까요?

펼쳐보기▼

dbsqeen

2023-05-17 11:12:15

pip install FuzzyTM 으로 설치하시면 됩니다.

펼쳐보기▼

Noctchill

2023-05-02 07:11:05

처음거 ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch 뜨는데 해결법 앎..?

펼쳐보기▼

불고기맛

2023-05-07 04:25:08

1-5에서 pip install -r requirements.txt 뜨면서 에러나는데 해결법좀....

펼쳐보기▼

9o0p

2023-05-13 08:04:15

혹시 새 모델로 다시 처음부터 학습하려면 python train.py -c configs/combsub.yaml 뒤에 명령어 추가로 뭐라고 써야하나요

펼쳐보기▼

dbsqeen

2023-05-17 11:11:02

exp 폴더 내에 combsub-test(기본값) 폴더를 삭제하거나 이름 바꾼 후 명령어 실행하시면, 새로운 combsub-test 폴더에서 처음부터 학습 시작합니다.

펼쳐보기▼

9o0p

2023-05-17 11:42:41

ㄱㅅㄱㅅ

펼쳐보기▼

여름빛황혼의비

2023-05-16 09:21:25

좋은 정보글 감사합니다.

펼쳐보기▼

asterisk

2023-05-16 17:24:30

*수정됨

학습 시작 하려 할때..
RuntimeError: Given groups=1, weight of size [256, 768, 3], expected input[12, 256, 172] to have 768 channels, but got 256 channels instead 발생하는데 이거 해결해보신분 있나요?

펼쳐보기▼

asterisk

2023-05-16 17:28:15

*수정됨

아니 hubert는 256 쓰고 contentvet 은 756 쓰라해서 756 했더니 오류 뿜내;;; 뭐 어쩌라는거지...
  encoder_out_channels: 256 # 256 if using 'hubertsoft'
config 내용안에 수정하니 잘돌아감

펼쳐보기▼

dbsqeen

2023-05-17 11:09:18

지금 ddsp에 diff를 얹은 3.0 버전이 릴리즈 돼서 최근 레포지토리 사용하시면 config 파일 구성과 디폴트값이 다를 겁니다. 아마 인코더로 contentvec768l12 버전이 디폴트로 올라가 있을 거고, 이에 따라 인코더 채널도 768로 되어있을 텐데 본문대로 진행하신다면 각각 contentvec, 256 사용하시면 됩니다.

펼쳐보기▼

킹응애

2023-05-20 12:50:44

어억 저는 오히려 반대던데....

펼쳐보기▼

킹응애

2023-05-20 16:16:43

*수정됨

RuntimeError: Given groups=1, weight of size [256, 768, 3], expected input[1, 256, 566] to have 768 channels, but got 256 channels instead 
저는 마지막 학습된거 파일 넣어서 출력 시키려고 하는데 이게 발생하네요 해결법좀 알려 주실 수 있나요?

펼쳐보기▼

두부두로

2023-06-11 03:00:44

전 comsub.yaml말고 밑에  comsub-old 파일에도 값을 똑같이 256으로 수정하니깐 해결됐어요

펼쳐보기▼

volii

2023-05-23 01:20:48

안녕하세요 현재 잘 따라해서 어떻게 해서 학습중인데 1초당 10 스텝씩 학습하는게 이게 속도는 맞는건가요? 배치사이즈는 일단 80으로 해뒀는데 .. gpu 사용량은 약 30퍼센트 정도이긴 합니다 배치사이즈를 올려야할까요?

펼쳐보기▼

ㅇㅇ (182.218)

2023-06-03 18:46:01 삭제 수정

마지막에 학습 종료하고
python main.py -i "C:\DDSP-SVC\exp\vocal.wav" -m "C:\DDSP-SVC\exp\combsub-test\model_best.pt" -o "C:\DDSP-SVC\exp\vocal_trans.wav" -k 0 -id 1 -eak 0
출력하는 명령어 입력하니까


  File "main.py", line 162, in <module>
    model, args = load_model(cmd.model_path, device=device)
  File "C:\DDSP-SVC\ddsp\vocoder.py", line 472, in load_model
    ckpt = torch.load(model_path, map_location=torch.device(device))
  File "C:\Users\chiwa\AppData\Local\Programs\Python\Python38\lib\site-packages\torch\serialization.py", line 791, in load
    with _open_file_like(f, 'rb') as opened_file:
  File "C:\Users\chiwa\AppData\Local\Programs\Python\Python38\lib\site-packages\torch\serialization.py", line 271, in _open_file_like
    return _open_file(name_or_buffer, mode)
  File "C:\Users\chiwa\AppData\Local\Programs\Python\Python38\lib\site-packages\torch\serialization.py", line 252, in __init__
    super().__init__(open(name, mode))
FileNotFoundError: [Errno 2] No such file or directory: 'C:\\DDSP-SVC\\exp\\combsub-test\\model_best.pt'
이라는 오류가 출력되는데

model_best.pt 이게 없어서 그런걸로 예상되는데 이 파일은 학습시키다보면 알아서 생성되나요??

펼쳐보기▼

dbsqeen

2023-06-04 13:01:05

업데이트하면서 기본값이 바뀐것 같습니다.. model_best.pt 대신 학습한 pt파일 직접 입력해주시면 됩니다.

펼쳐보기▼

adqwddgfgfasfdsz

2023-06-06 13:55:45

python preprocess.py -c configs/combsub.yaml를 쓰면

Traceback (most recent call last):
  File "c:\DDSP-SVC\preprocess.py", line 12, in <module>
    from ddsp.vocoder import F0_Extractor, Volume_Extractor, Units_Encoder
  File "c:\DDSP-SVC\ddsp\vocoder.py", line 10, in <module>
    from transformers import HubertModel, Wav2Vec2FeatureExtractor
ModuleNotFoundError: No module named 'transformers'
라고 하면서 안되는데 어떻게 해야할까요 ㅠㅠ

펼쳐보기▼

우엉

2023-06-07 07:39:23

*수정됨

python preprocess.py -c configs/combsub.yaml를 쓰면       Traceback (most recent call last):
  File "C:\Users\USER\Desktop\까마귀\DDSP-SVC-KOR-master\preprocess.py", line 184, in <module>
    units_encoder = Units_Encoder(
  File "C:\Users\USER\Desktop\까마귀\DDSP-SVC-KOR-master\ddsp\vocoder.py", line 124, in __init__
    self.model = Audio2HubertSoft(encoder_ckpt).to(device)
  File "C:\Users\USER\Desktop\까마귀\DDSP-SVC-KOR-master\ddsp\vocoder.py", line 189, in __init__
    checkpoint = torch.load(path)
  File "C:\Users\USER\anaconda3\lib\site-packages\torch\serialization.py", line 791, in load
    with _open_file_like(f, 'rb') as opened_file:
  File "C:\Users\USER\anaconda3\lib\site-packages\torch\serialization.py", line 271, in _open_file_like
    return _open_file(name_or_buffer, mode)
  File "C:\Users\USER\anaconda3\lib\site-packages\torch\serialization.py", line 252, in __init__
    super().__init__(open(name, mode))
FileNotFoundError: [Errno 2] No such file or directory: 'pretrain/hubert/hubert-soft-0d54a1f4.pt' 이게 뜨는데 머죠?

펼쳐보기▼

우엉

2023-06-07 08:45:37

*수정됨

혹시 학습한 모델 파일은 어떻게 바꾸죠?? pt 파일로 되어있는데요 음원 파일로 어떻게함?

펼쳐보기▼

dbsqeen

2023-06-07 10:35:09

본문 정독하시고 순서대로 빠짐없이 진행해주셔야 합니다. 에러나는 부분은 config 수정하시면 해결됩니다.

펼쳐보기▼

우엉

2023-06-07 12:31:52

instrumental 이 먼가요

펼쳐보기▼

ㅇㅇ (1.240)

2023-06-09 17:00:48 삭제 수정

mr

펼쳐보기▼

ㅇㅇ (1.240)

2023-06-09 17:25:08 삭제 수정

스텝 설정하는방법 없음? 무슨 4백만 스텝이나 학습함

펼쳐보기▼

dbsqeen

2023-06-09 18:01:15

config 파일에 epoch 설정하는 부분이 있긴 한데, 미리 최대치 설정해두고 학습 돌리는것 보다는 training epoch을 100만정도(사실상 무한정 트레이닝) 의미없는 숫자로 크게 잡아놓고 학습하시면서 텐서보드로 손실율과 결과물 직접 확인하고 적당히 됐다 싶으면 cmd에서 Ctrl+C로 학습 종료하시는걸 추천드립니다.

펼쳐보기▼

분홍수염바이킹

2023-06-10 04:40:30

*수정됨

1-5단계에서 pip install -r requirements.txt까지 입력하면 에러가 뜨면서 아래 메시지가 출력되는데
Could not build wheels for fairseq, which is required to install pyproject.toml-based projects 
출력된 메시지에서 나오는 것만 다운로드받아도 무방할까요?

펼쳐보기▼

우엉

2023-06-10 12:06:02

몇 스텝정도 해야지 목소리 괜찮아짐?

펼쳐보기▼

랔하

2023-06-10 13:17:40

마지막 출력파트에서 python main.py -i "D:\DDSP-SVC\exp\vocal.wav\" -m "D:\DDSP-SVC\exp\combsub-test\model_22000.pt\" -o "D:\DDSP-SVC\exp\vocal_trans.wav\" -k 0 -id 1 -eak 0 입력해줬는데 계속 'the following arguments are required: -m/--model_path' 에러가 뜨네요... 이름이랑 경로 확인해보니까 분명 틀린 게 없는데 대체 왜 하필이면 -i랑 -o만 잘되고 -m만 이렇게 되는지 모르겠어요

펼쳐보기▼

dbsqeen

2023-06-10 14:09:01

경로 뒤에 역슬래시 다 빼시면 됩니다 python main.py -i "D:\DDSP-SVC\exp\vocal.wav" -m "D:\DDSP-SVC\exp\combsub-test\model_22000.pt" -o "D:\DDSP-SVC\exp\vocal_trans.wav" -k 0 -id 1 -eak 0

펼쳐보기▼

랔하

2023-06-10 14:11:38

*수정됨

역슬래시 빼면 계속 no such file or directory: "D:\\DDSP-SVC\\exp\\combsub-test\\config.yaml" 뜨는데요 몇번이고 쳐다봐도 combsub-test 안에 config 잘만 있는데 대체 왜 이러는 건가요??

펼쳐보기▼

dbsqeen

2023-06-10 14:19:34

경로에 config.yaml 파일이 없으면 실수로 지운 것이니 복구하시면 되고, config파일이 있는데 에러가 나는 상황이면 이건 명령어가 잘못 들어가서 나는 오류가 아니니 저도 해결해드릴 방법이 없네요..원인을 모르겠다면 레포지토리 새로 clone 하시고 핵심 파일들만 그쪽으로 복사해서 다시 추론 명령어 실행해보시면 (본문 내용따라 정상적으로 트레이닝까지 마쳤다는 전제 하에) 정상적으로 진행될 겁니다.

펼쳐보기▼

히또

2023-06-15 08:38:25

혹시 데이터 양은 어느 정도로 설정하셨나요? 한 사람 당 몇시간? 몇분? 분량의 데이터가 적절한가요?

펼쳐보기▼

dbsqeen

2023-06-17 13:43:47

데이터 양보단 품질이나 특성이 더 중요하기 때문에 확답드리긴 어렵지만.. 양질의 데이터라는 전제 하에 최소한 30분은 확보되어야 할 것 같구요, 3시간 정도의 데이터에 학습만 잘 시키면 꽤 괜찮은 퀄리티의 결과물을 낼 수 있을 것 같습니다.

펼쳐보기▼

쏭크

2023-06-16 09:32:03

*수정됨

1-3부터
You should consider upgrading via the 'c:\users\happy\appdata\local\programs\python\python38\python.exe -m pip install --upgrade pip' command. 라는 에러가 뜨네용..

펼쳐보기▼

dqw4124124

2023-06-22 14:03:51

*수정됨

본인목소리 녹음파일은 train이고 가수 목소리가 val인가요?? 제 목소리를 학습시켜서 가수노래를 부르고싶은데...
그리고 목소리 녹음파일안에 공백이 없어야할까요? 웃음소리같은건 없는데 공백도 많아서요

펼쳐보기▼

dbsqeen

2023-06-24 00:14:23

val 폴더에 들어가는 파일은 말 그대로 validation data 파일이구요, train 폴더에 들어가는 본인 목소리 파일 중 몇 개만 이동시켜주시면 됩니다. 공백이 있으면 gpu가 공백을 학습(의미없는 학습)하는데 리소스를 쓰기 때문에 효율적인 학습을 위해서 공백을 최대한 없애주는 게 낫습니다. 본문에 goldwave 공백 제거기능 쓰시면 간단하게 없앨 수 있습니다.

펼쳐보기▼

퐁퐁

2023-07-25 07:08:43

*수정됨

설명을 덧붙이자면
파이썬 venv로 가상한경 구성하면 아나콘다 같은거 없이도 모듈 버전 관리하기 편함
python -m venv .venv <- .venv 가상환경 생성
(cmd)call .venv\Scripts\activate.bat 
(PowerShell) .venv\Scripts\Activate.ps1
^- 가상환경 실행-^
뭐 아나콘다 써도 되는데...
난 갠적으로 아나콘다보다는 파이썬 venv쓰는게 편하더라.

펼쳐보기▼

사쿠라하나비

2023-07-28 06:04:23

*수정됨

pip install -r requirements.txt 진행시에
 [end of output]

  note: This error originates from a subprocess, and is likely not a problem with pip.
  ERROR: Failed building wheel for fairseq
Failed to build fairseq
ERROR: Could not build wheels for fairseq, which is required to install pyproject.toml-based projects

오류가 뜨는데 해결법을 모르겠습니다.
관련 비주얼툴도 깔아보고 해봤지만 해결이 안되네요

펼쳐보기▼

마르중독

2023-08-11 21:48:20

환장하긋네요
C:\DDSP-SVC>python preprocess.py -c configs/combsub.yaml
할 때
https://arca.live/b/aispeech/76745708
저도 이런 오류가 떠서 글의 방법대로 해결했더니 

FileNotFoundError: [Errno 2] No such file or directory: 'pretrain/rmvpe/model.pt'

이런게 뜨네요 -.-;; 그 어떤 수단을 써봐도 계속 저녀석이 나옵니다 rmvpe 폴더를 만들고 model.pt를 집어넣으면 해결이 될것 같은데 (??) model.pt 를 받을데가 없으니 어찌해야 할지 모르곘네요

model.pt

model.pt

This domain may be for sale!

환장하긋네요
C:\DDSP-SVC>python preprocess.py -c configs/combsub.yaml
할 때
https://arca.live/b/aispeech/76745708
저도 이런 오류가 떠서 글의 방법대로 해결했더니 

FileNotFoundError: [Errno 2] No such file or directory: 'pretrain/rmvpe/model.pt'

이런게 뜨네요 -.-;; 그 어떤 수단을 써봐도 계속 저녀석이 나옵니다 rmvpe 폴더를 만들고 model.pt를 집어넣으면 해결이 될것 같은데 (??) model.pt 를 받을데가 없으니 어찌해야 할지 모르곘네요

펼쳐보기▼

캬루총동원령1

2023-09-15 23:30:24

https://huggingface.co/datasets/ylzz1997/rmvpe_pretrain_model/resolve/main/rmvpe.pt
에서 받으셔서 파일명을 model.pt로 바꾼 후 rmvpe 폴더 만들어서 넣어주면 됩니다.

펼쳐보기▼

캬루총동원령1

2023-09-15 23:29:39

epochs는 몇정도를 추천하시나요?

펼쳐보기▼

캬루총동원령1

2023-09-16 00:09:49

그리고 Key Down은 설정할 수 있나요?

펼쳐보기▼

이야녕

2023-09-18 11:29:09

E:\test\stable-diffusion-webui\DDSP-SVC>python preprocess.py -c configs/combsub.yaml
Error importing generated parsers, run `python setup.py antlr` to regenerate.

펼쳐보기▼

이야녕

2023-09-18 11:29:54

이렇게 뜨는데 어떻게 해야하나요..

펼쳐보기▼

개렁이

2023-10-01 11:22:56

학습 시작할때
RuntimeError: Error(s) in loading state_dict for CombSubFast:
        size mismatch for unit2ctrl.stack.0.weight: copying a param with shape torch.Size([256, 768, 3]) from checkpoint, the shape in current model is torch.Size([256, 256, 3]).
에러가 떠서 찾아보니 config 12행을 768로 바꿔서 하면 진행된다해서 768로 바꾸고 했더니 결과출력에서
RuntimeError: Given groups=1, weight of size [256, 768, 3], expected input[1, 256, 1401] to have 768 channels, but got 256 channels instead
에러가 뜹니다. 이번엔 config 12행을 256으로 바꿔도 해결이 안되네요 뭔가 방법이 없을까요?

펼쳐보기▼

개렁이

2023-10-01 13:24:06

해결했습니다.
config 폴더에 combsub.yaml 파일만 수정하지말고 exp\combsub-test 폴더에 config.yaml도 수정한뒤 데이터 전처리를 다시하니깐 잘되네요

펼쳐보기▼

에너지100퍼센트

2023-10-05 22:27:33

보고싶다고 하신거

https://arca.live/b/breaking/55441932?target=all&keyword=%EB%A7%98%EC%97%90+%EB%93%A0+%EC%A7%88%EC%97%90+%EA%B0%91%EC%9E%90%EA%B8%B0+%EC%A7%88%EB%82%B4%EC%82%AC%EC%A0%95+OK%EC%9D%B8+%EB%A6%AC%EC%A1%B0%ED%8A%B8%EC%84%AC&p=1

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인