tts 데이터 고르기 공략

AI 음성 채널

알림 알림 중 알림 취소

구독자 5611명 알림수신 131명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 tts 데이터 고르기 공략

에반게리온

추천 11 비추천 0 댓글 8 조회수 2449 작성일 2023-12-23 16:04:10

https://arca.live/b/aispeech/94804554

우선 데이터셋은 상황을 강조하기 위해 영상으로 업로드함을 알려드림

일단 비추천을 넘어 안되는거

1.노래데이터

이런건 진짜 하지마셈

2.그냥 잡음에 가까운 소리.

여기는 예시를 들지도 않겠음. 이정도는 그냥 알거라 믿음

3.잡음이 섞인 보이스

이렇게 뭔가(예,비명소리)같이 뭔가라도 섞인 보이스는 안됨.

특히 후술한 경우는 박수소리가 들릴텐데, 이 박수소리는 후술할 mr제거로도 안먹히니 주의!

4.감정이 섞인 보이스.

여기 흐르는 음악같은 경우는 uvr쓰면 다 해결되는데

2개가 해결이 안됨

첫번째는 중간부터의 박수소리고,

두번째는 감정이 심하게 담긴 목소리.

감정 어느정도 담긴건 괜찮은데, 엄청 심하게 담긴, 목소리가 평소와 다를정도로 심하게 다르면,

개같이 버려야함.

이제 어느정도 작업하면 데이터로 쓸수있는 음성파일.

1. 음악이 섞여있는 경우

이런건 uvr 쓰면 해결됨. 위에서 말했던 감정도 별로 안들어있는 등 딱히 음악이 있다는 점만 뺴면 비추천할 요인은 없음.

물론 배경음악 없는 데이터라도 uvr 써서 싹 해버리는거 추천함

은근 배경음악 섞여 나오는 경우도 있음.

이런 경우처럼 음악이 은근슬쩍 있는 경우도 있으니

그냥 애초에 음원 데이터셋을 uvr로 돌려버리는걸 추천함

종합하자면

1.노래데이터, 잡음에 가까운 소리, 잡음이 섞인 소리, 감정이 심하게 묻어나는 음성 쓰면 X

2.음악이 섞여있으면 UVR로 돌려버리면 바로 쓸수있는 데이터가 되니 위에 해당되지 않는 음악이 섞인 음성이라면 UVR 돌려버리면 됨.

댓글 [8]

인드라812

2023-12-23 17:26:59

가이드도 만들어주시고 데이터셋 고르는법도 알려주시고.. 열일하시는 센세.. 따흐흑

펼쳐보기▼

인드라812

2023-12-23 17:27:21

오늘도 감동의 눙물 한바가지 흘렷읍니다..

펼쳐보기▼

로간

2023-12-24 09:20:52

정말 대단합니다 선생!!!

펼쳐보기▼

퍽

2023-12-25 11:36:26

자료 공유 해줘도 될까

펼쳐보기▼

PPAP

2023-12-25 23:20:26

이거 데이터셋이면 공지에 걸려

펼쳐보기▼

퍽

2023-12-26 00:54:10

알았어 지울께..  받아는 놨어?

펼쳐보기▼

PPAP

2023-12-26 03:41:14

혼동을 드려서 죄송합니다, 저는 글쓴이가 아닙니다.
혹시 데이터셋에서 잘못되거나 이상이 있는지 애매한 것을 글쓴이에게 첨삭받고 싶으신 것이라면, 이메일이나 디스코드, 오픈채팅같은 글쓴이와 별도의 대화수단을 구축하시는 걸 추천드립니다

혹시 제가 도와드릴 수 있는 일일수도 있으니 괜찮으시다면 무슨 일로 데이터셋을 공유하려고 하셨는지 여쭤봐도 괜찮겠습니까?

펼쳐보기▼

퍽

2023-12-26 04:25:51

남자 목소리로 espnet2 파인튜닝(사전학습은 kss)을 했는데, 보코더를 아무리 바꿔도 전자음이 나옴.  

vits finetuning해봤는데 전자음은 훨씬 덜한데 억양이 이상함.

그리고 espnet2 결과물을 vits voice 클로닝하니까  전자음은 덜해지는데 vits 특유의 발음과 억양 문제가 살짝 묻어남.

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인