아무리 내용이 고화질이어도, 512로 생성하면 손가락이 잘 안나옴

뇌피셜이라서 일반으로 적었는데


---


손가락은 정말 섬세하게 그려야 하는 경우가 많은데

그림을 생성하는 과정이 노이즈 -> 그림 인것으로 보아 

노이즈 계산을 그리드로 한다 치면


512 해상도는 손가락을 계산하는 곳이 4x4가 된다면 (가정)

768 해상도는 손가락을 계산하는 곳이 6x6 정도가 되니까 더 자세하게 나오게 되는듯


픽셀아트 할때도 32 스프라이트랑 64 스프라이트랑 표현 범위나 양이 다른거처럼

해상도 높은거를 학습시킨다음에 낮은것을 생성시키면 아무런 의미가 없고

낮은거를 학습시킨다음 높은거를 생성시켜도 아무런 의미가 없는게 아닐까 싶음


아직 머신러닝을 배우는 초짜지만, 게임이나 데이터는... 자세하게 말할수 없지만 이리저리 해본적 있어서

이것도 그런 느낌으로 가는게 아닌가 싶음


----


일례로 ,

손가락이 잘 나오게 하는 방법은 손가락 대강 모양이 나온 이미지를 img2img로 업스케일 하거나

hiresfix에서 1.25-1.5배정도의 Latent Scale 로 해서 업스케일 하면 어느정도의 개선점이 있음


비슷한 사항으로는 멀리있는 사람의 얼굴이 제대로 안나오는것도

업스케일하면 제대로 나오는게 그런 이치인듯


1024x1024 이미지를 생성했을때에도 랜덤하게 나오는 경우가 1024x1024내의 일부 영역을 512x512로 인식해서 파트별로 채워넣어서 사람 2개나오고 이지랄 나는거인듯.


---


그래서 이것을 해결할 방법은


   1. img2img랑 친해진다 (Latent Upscale)

   2. 762 모델은 762 만 생성한다


이정도인듯. 후자를 안하는 이유는 2가지 떄문일거라 생각함:


   1. 저렇게 하면 이미지 뽑을때 컵라면도 같이 끓일수 있게 되고

   2. 학습할때 최소 A100이 필요하게 된다는점 



---


머신러닝에 대해 1은 알지만 2는 모르는 현생 프로그래머 입장이라

반박시 너가 맞고 내가 틀림


근데 최근에 Lora등등을 해보면서 느낀거라 도움이 될까해서 끄적임

뇌피셜이라 일반 태그 달음