MeloTTS fine turning 방식 질문

AI 음성 채널

알림 알림 중 알림 취소

구독자 5612명 알림수신 131명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

❓질문 MeloTTS fine turning 방식 질문

lllIlllllllIllll

추천 0 비추천 0 댓글 8 조회수 576 작성일 2024-04-15 08:14:13

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/aispeech/103703271

안녕하세요. MeloTTS fine turning을 다른분들이 올려준 자료를 가지고 진행하고 있습니다.

참고를하여 진행하고 있으나 매끄럽지 못한 부분이 생겨 질문을 다시 드립니다.

제 작업 순서는 다음과 같습니다.

1. download_utils.py에서 필요한 것들 다운로드

'KR': 'https://myshell-public-repo-hosting.s3.amazonaws.com/openvoice/basespeakers/KR/checkpoint.pth'

-> G_0.pth 이름 바꾸고 logs/KR-default 저장

https://myshell-public-repo-hosting.s3.amazonaws.com/openvoice/basespeakers/KR/config.json

->./config/config.json에 저장

'D.pth': 'https://myshell-public-repo-hosting.s3.amazonaws.com/openvoice/basespeakers/pretrained/D.pth',    
'DUR.pth': 'https://myshell-public-repo-hosting.s3.amazonaws.com/openvoice/basespeakers/pretrained/DUR.pth',

-> logs/KR-default 저장

2. 데이터 전처리를 metadata.list로 합니다. (테스트로 현재 10개만 사용)

형식은 아래와 같습니다.

./data/KR-default/wavs/1_0000.wav|KR-default|KR|그는 괜찮은 척하려고 애쓰는 것 같았다.

...

데이터 역시 같은 경로(./data/KR-default/wavs/)에 있습니다.

python preprocess_text.py --metadata data/KR-default/metadata.list 로 전처리를 해주니 ./data/KR-default/config.json 생성

3. 1번에서 다운받은 config.json가 2번을 진행할 때 디폴트로 사용되는거 같고 실제로 값을 지정해도 결과는 같았던거 같습니다.

bash train.sh data/KR-default/config.json 2

torchrun --nproc_per_node 2 --master_port 10902 train.py --c data/KR-default/config.json --model KR-default --pretrain_G logs/KR-default/G_0.pth --pretrain_D logs/KR-default/D.pth --pretrain_dur logs/KR-default/DUR.pth

터미널에서 두가지 방식으로 학습을 진행해 보았고 1번에서 다운받은 config.json을 사용하니 학습 진행시 seed 등이 없다는 에러가 생겨 깃허브에 있는 json과 비교해 없는 값들은 채워 넣고 다시 2번을 진행하였습니다.

다시 진행하니

buckets: [12, 12]

Using noise scaled MAS for VITS2

Using duration discriminator for VITS2

(torch.Size([10, 192]), torch.Size([8, 192]))

(torch.Size([256, 256]), torch.Size([1, 256]))

enc_p.language_emb.weight is not in the checkpoint

(torch.Size([256, 256]), torch.Size([1, 256]))

emb_g.weight is not in the checkpoint

list index out of range

오류가 발생해 confing.json에 있는 num_languages 값을 10으로도 8로도 바꾸어 주었지만 현재 여기서 넘어가지 못하고 있는 상황입니다.

두서 없는 질문 죄송하고 긴글 읽어주셔서 감사합니다.

댓글 [8]

아이군

2024-04-15 11:27:08

data/KR-default/config.json 내용좀.

나의 경우에는 성공했는데, config 가지고 뭔가 하는 작업 일체를 한적이 없음. num_languages 값도 8이 맞음. 그냥 config 손 안대고도 돌아가야 정상임. 준비 해야 하는것은 wav 파일들과 metadata.list 파일뿐임. 이후에는 명령을 통해서 각각 필요에 맞게 생성됨.

에러와는 무관한 이야기지만, G_0, D, DUR 파일은 파라미터로 넘길꺼면 그냥 밖에 다른 디렉토리에 있어도 됨.

펼쳐보기▼

lllIlllllllIllll

2024-04-15 12:07:20

안녕하세요. 답변 감사합니다.

config.json은 git clone하고 있던 config를 사용하다가 download_utils에 있는 것도 사용해 보았습니다.

아래는 git clone시에 있던 config를 가지고 사용해서 전처리한 config.json입니다.

{
  "train": {
    "log_interval": 200,
    "eval_interval": 1000,
    "seed": 52,
    "epochs": 10000,
    "learning_rate": 0.0003,
    "betas": [
      0.8,
      0.99
    ],
    "eps": 1e-09,
    "batch_size": 6,
    "fp16_run": false,
    "lr_decay": 0.999875,
    "segment_size": 16384,
    "init_lr_ratio": 1,
    "warmup_epochs": 0,
    "c_mel": 45,
    "c_kl": 1.0,
    "skip_optimizer": true
  },
  "data": {
    "training_files": "data/KR-default/train.list",
    "validation_files": "data/KR-default/val.list",
    "max_wav_value": 32768.0,
    "sampling_rate": 44100,
    "filter_length": 2048,
    "hop_length": 512,
    "win_length": 2048,
    "n_mel_channels": 128,
    "mel_fmin": 0.0,
    "mel_fmax": null,
    "add_blank": true,
    "n_speakers": 1,
    "cleaned_text": true,
    "spk2id": {
      "KR-default": 0
    }
  },
  "model": {
    "use_spk_conditioned_encoder": true,
    "use_noise_scaled_mas": true,
    "use_mel_posterior_encoder": false,
    "use_duration_discriminator": true,
    "inter_channels": 192,
    "hidden_channels": 192,
    "filter_channels": 768,
    "n_heads": 2,
    "n_layers": 6,
    "n_layers_trans_flow": 3,
    "kernel_size": 3,
    "p_dropout": 0.1,
    "resblock": "1",
    "resblock_kernel_sizes": [
      3,
      7,
      11
    ],
    "resblock_dilation_sizes": [
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ]
    ],
    "upsample_rates": [
      8,
      8,
      2,
      2,
      2
    ],
    "upsample_initial_channel": 512,
    "upsample_kernel_sizes": [
      16,
      16,
      8,
      2,
      2
    ],
    "n_layers_q": 3,
    "use_spectral_norm": false,
    "gin_channels": 256
  },
  "num_languages": 8,
  "num_tones": 16,
  "symbols": [
    "_",
    "\"",
    "(",
    ")",
    "*",
    "/",
    ":",
    "AA",
    "E",
    "EE",
    "En",
    "N",
    "OO",
    "Q",
    "V",
    "[",
    "\\",
    "]",
    "^",
    "a",
    "a:",
    "aa",
    "ae",
    "ah",
    "ai",
    "an",
    "ang",
    "ao",
    "aw",
    "ay",
    "b",
    "by",
    "c",
    "ch",
    "d",
    "dh",
    "dy",
    "e",
    "e:",
    "eh",
    "ei",
    "en",
    "eng",
    "er",
    "ey",
    "f",
    "g",
    "gy",
    "h",
    "hh",
    "hy",
    "i",
    "i0",
    "i:",
    "ia",
    "ian",
    "iang",
    "iao",
    "ie",
    "ih",
    "in",
    "ing",
    "iong",
    "ir",
    "iu",
    "iy",
    "j",
    "jh",
    "k",
    "ky",
    "l",
    "m",
    "my",
    "n",
    "ng",
    "ny",
    "o",
    "o:",
    "ong",
    "ou",
    "ow",
    "oy",
    "p",
    "py",
    "q",
    "r",
    "ry",
    "s",
    "sh",
    "t",
    "th",
    "ts",
    "ty",
    "u",
    "u:",
    "ua",
    "uai",
    "uan",
    "uang",
    "uh",
    "ui",
    "un",
    "uo",
    "uw",
    "v",
    "van",
    "ve",
    "vn",
    "w",
    "x",
    "y",
    "z",
    "zh",
    "zy",
    "~",
    "æ",
    "ç",
    "ð",
    "ø",
    "ŋ",
    "œ",
    "ɐ",
    "ɑ",
    "ɒ",
    "ɔ",
    "ɕ",
    "ə",
    "ɛ",
    "ɜ",
    "ɡ",
    "ɣ",
    "ɥ",
    "ɦ",
    "ɪ",
    "ɫ",
    "ɬ",
    "ɭ",
    "ɯ",
    "ɲ",
    "ɵ",
    "ɸ",
    "ɹ",
    "ɾ",
    "ʁ",
    "ʃ",
    "ʊ",
    "ʌ",
    "ʎ",
    "ʏ",
    "ʑ",
    "ʒ",
    "ʝ",
    "ʲ",
    "ˈ",
    "ˌ",
    "ː",
    "*",
    "*",
    "β",
    "θ",
    "ᄀ",
    "ᄁ",
    "ᄂ",
    "ᄃ",
    "ᄄ",
    "ᄅ",
    "ᄆ",
    "ᄇ",
    "ᄈ",
    "ᄉ",
    "ᄊ",
    "ᄋ",
    "ᄌ",
    "ᄍ",
    "ᄎ",
    "ᄏ",
    "ᄐ",
    "ᄑ",
    "ᄒ",
    "ᅡ",
    "ᅢ",
    "ᅣ",
    "ᅤ",
    "ᅥ",
    "ᅦ",
    "ᅧ",
    "ᅨ",
    "ᅩ",
    "ᅪ",
    "ᅫ",
    "ᅬ",
    "ᅭ",
    "ᅮ",
    "ᅯ",
    "ᅰ",
    "ᅱ",
    "ᅲ",
    "ᅳ",
    "ᅴ",
    "ᅵ",
    "ᆨ",
    "ᆫ",
    "ᆮ",
    "ᆯ",
    "ᆷ",
    "ᆸ",
    "ᆼ",
    "ㄸ",
    "!",
    "?",
    "…",
    ",",
    ".",
    "'",
    "-",
    "¿",
    "¡",
    "SP",
    "UNK"
  ]
}

펼쳐보기▼

adffdfd

2024-04-15 12:40:54

num_languages를 10으로 바꾸시고 n_speakers를 256으로 바꾸시면 될거같습니다

펼쳐보기▼

lllIlllllllIllll

2024-04-16 04:06:33

*수정됨

안녕하세요 답변 감사합니다.

n_speakers를 256으로 바꾸었더니 아래의 에러는 사라졌습니다.

(torch.Size([256, 256]), torch.Size([1, 256]))
enc_p.language_emb.weight is not in the checkpoint
(torch.Size([256, 256]), torch.Size([1, 256]))

다만 num_languages을 10으로 바꾸어도 여전히 텐서 사이즈가 안맞고 있습니다. ㅠ
(torch.Size([10, 192]), torch.Size([8, 192]))
enc_p.language_emb.weight is not in the checkpoint

펼쳐보기▼

lllIlllllllIllll

2024-04-16 04:09:46

*수정됨

num_languages를 10으로 하든 8로 하든 (torch.Size([10, 192]), torch.Size([8, 192])

텐서 사이즈가 계속 안맞고 있는 상황입니다 ㅠ

펼쳐보기▼

아이군

2024-04-16 05:41:14

*수정됨

내꺼 학습 로그 다시 보니깐 다음 오류는 똑같이 나고 있는데 학습 진행에는 문제 없었음
enc_p.language_emb.weight is not in the checkpoint
emb_g.weight is not in the checkpoint

n_speaker는 모델의 학습에 사용된 화자의 수인데, 싱글 스피커라면 1이 맞음. num_languages도 코드를 뒤져보면 10이라는 숫자는 어떤 이유로 나온것인지 모르겠지만.. (ZH, JP, EN, ZH_MIX_EN, KR, ES, SP, FR) 암튼..

다음 명령어들 결과도 첨부 부탁
nvcc -V
nvidia-smi
python -c 'import torch; print(torch.__version__)'
python -c 'import torch; print(torch.cuda.is_available())'
python -c 'import torch; print(torch.version.cuda)'
python -c 'import torch; print(torch.rand(2,3).cuda())'

펼쳐보기▼

lllIlllllllIllll

2024-04-16 05:46:10

답변 감사합니다.

git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
pip install -e .
python -m unidic download

이후에 토치 버전은 그대로 사용하셧을까요?

https://github.com/myshell-ai/MeloTTS/issues/13 에서

pip install -U torch==2.2.1
pip install -U torchaudio==2.2.1
pip install -U transformers==4.38.1

로 버전을 올렸는데 학습이 되고는 있는거 같습니다.

torchrun ... 으로 하면 중간에 멈추는 이슈가 있는거 같던데
bash train.sh  .. 으로 진행하셨나요?

지속적인 답변 감사합니다.

GitHub

GitHub - myshell-ai/MeloTTS: High-quality multi-lingual text-to-speech library by MyShell.ai. Support English, Spanish, French, Chinese, Japanese and Korean.

High-quality multi-lingual text-to-speech library by MyShell.ai. Support English, Spanish, French, Chinese, Japanese and Korean. - myshell-ai/MeloTTS

답변 감사합니다.

git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
pip install -e .
python -m unidic download

이후에 토치 버전은 그대로 사용하셧을까요?

https://github.com/myshell-ai/MeloTTS/issues/13 에서

pip install -U torch==2.2.1
pip install -U torchaudio==2.2.1
pip install -U transformers==4.38.1

로 버전을 올렸는데 학습이 되고는 있는거 같습니다.

torchrun ... 으로 하면 중간에 멈추는 이슈가 있는거 같던데
bash train.sh  .. 으로 진행하셨나요?

지속적인 답변 감사합니다.

펼쳐보기▼

Taem

2024-04-21 16:19:54

파인 튜닝 하면 내가 원하는 목소리로 tts가 되는건가여???

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30910753

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 25759

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 16057

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 45233

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4508

숨겨진 공지 펼치기(3개)

5287 ❓질문 음성 파일 자르는법 질문 [2]

여섯시내고양 2024.05.08 136 0

5286 일반 3. 초보자를 위한 Pre-Trained Model의 설명과 이해 [8]

DeepWeb 2024.05.08 928 14

5285 ❓질문 open voice로 만든 tts음성인데요 [4]

wk 2024.05.08 494 0

5284 일반 2. 초보자를 위한 모델 붕괴 & 일반화 실패 이야기 [4]

DeepWeb 2024.05.07 751 15

5283 ❓질문 uvr denosie 사용하시는분들 수치 어느정도로 사용하시나요?

qw2r 2024.05.07 87 0

5282 ❓질문 고퀄리티 데이터셋의 기준이 뭐임? [7]

돌대갈희 2024.05.07 260 0

5281 ❓질문 공지보면서 공부중인데 요건 좀 고전자료야? [2]

ㅇㅇ 2024.05.07 292 0

5280 ❓질문 스트리머 tts랑 ai cover만들려고 들어왔는데 요즘 제일 좋은 방식이 뭔가요?

Lulu 2024.05.07 438 0

5279 ❓질문 open voice 사용하시는 분 계신가요? [4]

wk 2024.05.07 286 0

5278 ❓질문 보이스체인저 타입 DDSP-SVC [2]

Nna912105 2024.05.07 293 0

5277 ❓질문 데이터셋은 많으면 많을수록 좋은거임? 아니면 [3]

돌대갈희 2024.05.06 285 0

5276 ❓질문 Validation이 정확히 무엇이고 이거를 어떻게 넣는지 말해주실수 있나요? [2]

선무공신 2024.05.06 209 0

5275 ❓질문 혹시 RVC 모델을 임포트해서 쓸 수 있는 디스코드 TTS봇이 있을까 [2]

magicalrgm 2024.05.06 218 0

5274 ❓질문 더블링은 제거가 힘듦? [2]

선풍기가돌아가요 2024.05.06 197 0

5273 ❓질문 train 데이터를 여러 사람의 보이스를 사용하였을 때 [2]

감도 2024.05.05 206 0

5272 일반 1. 초보를 위한 TensorBoard 그래프를 보는방법~! [10]

DeepWeb 2024.05.04 1442 30

5271 ❓질문 ai커버 처음만들어볼려고하는데 [2]

깨무 2024.05.04 354 0

5270 ❓질문 17분짜리 적용하는데 보통 얼마나 걸림? [1]

야아두미 2024.05.03 200 0

전체글 개념글