VITS학습 해보려고 했는데 자동으로 데이터셋 만드는 걸 찾아보는데 잘 안나오는 거 같더라고

그래서 여기저기 찾아서 짜집기로 함 만들어봄


주요 기능


- 유튜트에서 비디오 음성 다운로드 (로컬파일도 가능)

- 영상 wav로 변환

- wav 보컬 추출

- 대사 추출 후 대사에 따른 음성 파일 분리

- train.txt와 val.txt 자동 생성 (4:1 비율)


주의 사항

- ffmpeg가 컴퓨터에 설치되어있어야 실행할 때 에러 안남

- 이렇게 만들어도 이상한 보컬이나 콧노래같은건 직접 좀 쳐내야 학습이 잘됨


https://github.com/hopoduck/EZVitsDataset


사용방법 같은건 깃헙에 적어놨는데 사실 나도 파이썬 뉴비라 잘 모를 수 있음..