https://arca.live/b/aispeech/73768265?p=1

https://arca.live/b/aispeech/73771209?p=1


요구사양은 브램 6기가 딱 그 정도라 데이터셋만 준비되면 대부분 학습까지 할 수 있을거임




딥러닝 노동에서 벗어났다는 1660도 가능하다는 말





즉시 노역장행



0. 깃, 파이썬, vs빌드툴 설치


1. 소스코드 클론

git clone https://github.com/yxlllc/DDSP-SVC

cd DDSP-SVC


2. 가상환경 생성 및 진입

python -m venv .venv

.venv/Scripts/activate


3. 파이토치 설치 (가상환경 상태에서)

pip3 install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 --index-url https://download.pytorch.org/whl/cu117


4. 패키지 설치 (가상환경 상태에서)

pip install -r requirements.txt


5. hubert 모델 다운로드

https://github.com/bshall/hubert/releases/download/v0.1/hubert-soft-0d54a1f4.pt -> hubert

https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip -> nsf_hifigan

https://ibm.ent.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr -> ContentVec

위 링크에서 다운받고 아래 사진처럼 배치해줌



======================여기부터 학습의 영역========================


6. 데이터셋 만들기

유튜브 어느 영상에 보니까 mp4 파일 갖고 데이터셋 만드는거 있던데 그거 써서 만들기


7. 데이터셋 넣기

data/train/audio 폴더 안에 모든 데이터 싸그리 넣기.

10초 이상 보컬 따로 분리한 파일 300개 이상이면 될 듯.

모든 데이터셋 파일은 44100Hz 모노채널 wav파일이여야 함.

그리고 그 중 괜찮은 보컬 10개 내외로 data/val/audio 폴더로 '복사' 말고 '이동' 하기


8. 전처리 (가상환경 상태에서)

python preprocess.py -c configs/combsub.yaml


9. 학습 (가상환경 상태에서)

python train.py -c configs/combsub.yaml

대충 5만스텝정도면 쓸만한 모델 나올거임.


gradio gui도 있긴 한데 gradio gui는 뭔가 에러나는 것 같아서 안 써봄


======================학습 끝========================


10. 추론 (가상환경 상태에서)

학습할 때 config파일 수정 안했으면 exp\combsub-test 폴더 안에 model_best.pt 파일 있을거임

경로명이 대충 exp\combsub-test\model_best.pt 이렇게 될거임


원본 보컬 파일 경로가 C:\Users\poly\Downloads\vocal.wav 하고 하면


python .\main.py -i C:\Users\poly\Downloads\vocal.wav -m .\exp\combsub-test\model_30000.pt -o C:\Users\poly\Downloads\vocal_infer.wav -k 0 -id 1 -eak 0


를 입력하면 C:\Users\poly\Downloads\vocal_infer.wav 파일로 출력될거임



뭐~ 이쯤 되면 다들 알겠지만 딥러닝 모델류는 전부

파이토치 설치 -> requirements 설치 -> 데이터셋 적절한 위치에 넣기 -> 전처리 -> 학습

이것만 기억하면 어지간한 깃헙 레포지토리는 다 쓸 수 있을거임