3줄요약

1. 학습 해상도는 높을수록 좋다

2. 512 -> 768은 체감 크지만 768 -> 1024는 학습시간 2배 증가하는거에 비해 딱히?

3. 태그 정제 굳이 할 필요없음


1. 학습 해상도



학습한 캐릭터 (홀로라이브 하쿠이 코요리)

해상도 구분 : 512, 512 / 768, 768 / 1024, 1024

해상도 이외 모든 세팅 동일 : rank = alpha = 8 / Unet = 0.00015 / Text = 0.00003 / cosine with restarts / 학습 이미지 180장 repeat 5 epoch 20 = 총 18000스탭 / batch size = 1 / 이미지가 학습 해상도보다 작을 시 bucket 해상도로 업스케일하는 기능 on





9000 스탭 학습시간(512 = 1시간 / 768 = 2시간 / 1024 = 4시간). 한번 더 돌려서 18000스탭 학습했으니까 총 소요시간은 이의 2배 (2, 4, 8시간)

이미지 픽셀 수에 따라 정말 정직하게 비례함...

특이사항) 같은 셋팅인데도 해상도가 높을수록 로스가 작다


512는 확실히 머리장식 구현도가 떨어짐. 768하고 1024는 큰 차이는 없지만 1024가 조금 더 안정적인 모습


해상도가 높아질수록 넥타이랑 가슴 주머니의 시계 표현이 개선되는 모습


full body 구도에선 큰 차이 없다


2. 태그 정제

  로라 캐릭 학습 과정.process - AI 그림 채널 (arca.live)  

이 글 쓴 본인인데 여기선 여러 의상 구현하려면 최대한 태그 정제하는게 좋다고 설명했는데 (이론상으론 문제없긴함) 오히려 정제 안한게 좋다는 사람도 있고 나도 직접 비교해보진 않아서 실험해봄



학습한 캐릭터 (홀로라이브 히메모리 루나)

데이터셋 : 의상 1(기본) / 의상 2(캐주얼) 각각 56장

WD 1.4 Tagger (0.35) 돌린 후 태그 정제.

정제 기준 : 의상에 상관없이 공통적으로 들어갈 수 있는 태그 대부분 / 캐릭 이름(himemori luna), 1girl, solo, 머리색, 눈색, 배경(white background, simple background), 표정, 그 외 기타(virtual youtuber, twitter username, breasts 등)


정제유무 외 모든 세팅 동일 : 해상도 = 768, 768 / rank = alpha = 8 / Unet = 0.00015 / Text = 0.00003 / cosine with restarts / repeat 7 epoch 20 = 총 17920스탭 / batch size = 1


정제한 로라와 안한 로라 2개로 정제된 태그와 정제안한 태그를 각각 뽑는것으로 비교


*Tagging = 정제 O, Untagging = 정제 X

의상 1 정제된 태그 : long hair, crown, princess, pink dress, hair rings, earrings, bracelet earrings, one side up, short sleeves, wavy hair, detached collar, bare shoulders, cowboy shot, thighhighs, frilled skirt


정제한 로라는 태그에서 heterochromia 와 눈색을 빼버리고 로라 자체에 흡수시켜 프롬을 안써도 오드아이로 나오지만 정제안한 로라는 그렇지 않은 모습. 스커트 부분도 약간 어설픈 느낌.


의상 1 정제안한 태그 : cowboy shot, thighhighs, 1girl, himemori luna, virtual youtuber, solo, heterochromia, candy hair ornament, long hair, crown, dress, jewelry, pink hair, food-themed hair ornament, green eyes, open mouth, hair ornament, purple eyes, single hair ring, princess, looking at viewer, pink dress, smile, white background, hair rings, earrings, simple background, bracelet, crescent, crescent earrings, gradient hair, multicolored hair, mini crown, breasts, one side up, bangs, :d, short sleeves, wavy hair, detached collar, purple hair, medium breasts, twitter username, blush


물론 정제안한 로라도 태그를 다 써주면 제대로 나오긴함.



의상 2 정제된 태그 : cowboy shot, crown, ahoge, necklace earrings, blue dress, earrings, bracelet, starry sky print, off shoulder, off-shoulder dress, hairclip, parted lips, star \(symbol\), bare shoulders, collarbone, short hair, star print, sleeveless, sleeveless dress print, blue hair


눈색 문제는 여전하지만 정제안한 로라도 의상은 거의 동일한 구현도를 보여줌


의상 2 정제안한 태그 : cowboy shot, himemori luna, 1girl, virtual youtuber, dress, heterochromia, crown, solo, ahoge, jewelry, hair ornament, purple eyes, crescent, green eyes, candy hair ornament, mini crown, necklace, multicolored hair, crescent earrings, blue dress, blush, food-themed hair ornament, purple hair, earrings, looking at viewer, bracelet, pink hair, white background, bangs, starry sky print, off shoulder, gradient hair, simple background, off-shoulder dress, hairclip, parted lips, star \(symbol\), bare shoulders, collarbone, short hair, star print, sleeveless, sleeveless dress, crescent print, blue hair


오히려 정제한 로라에 정제 안한 고봉밥 프롬을 쓰니까 구현도가 떨어지는 모습?



결론만 말하면 2개 의상 구현하려는 정도에선 정제 하나 안하나 큰 차이는 없는듯. 일부러 어렵게하려고 둘다 dress 계열로 준비했는데도 체인지 잘되니 뭔..

짧은 프롬으로도 구현도 높게 뽑고싶으면 정제하고, 프롬 길게써도 상관없으면 안해도 될듯.

구현하려는 의상이 3개 4개 넘어가면 다를수도 있겠지만 이건 나중에 실험해봄