VITS학습 해보려고 했는데 자동으로 데이터셋 만드는 걸 찾아보는데 잘 안나오는 거 같더라고
그래서 여기저기 찾아서 짜집기로 함 만들어봄
주요 기능
- 유튜트에서 비디오 음성 다운로드 (로컬파일도 가능)
- 영상 wav로 변환
- wav 보컬 추출
- 대사 추출 후 대사에 따른 음성 파일 분리
- train.txt와 val.txt 자동 생성 (4:1 비율)
주의 사항
- ffmpeg가 컴퓨터에 설치되어있어야 실행할 때 에러 안남
- 이렇게 만들어도 이상한 보컬이나 콧노래같은건 직접 좀 쳐내야 학습이 잘됨
https://github.com/hopoduck/EZVitsDataset
사용방법 같은건 깃헙에 적어놨는데 사실 나도 파이썬 뉴비라 잘 모를 수 있음..