[병합 대회] colormixed - AI 그림 채널

https://huggingface.co/1q2W3e/colormixed/tree/main

우선 간단하게 병합식부터 보고 갑시다

사실 병합식이라고 말해봐야 별거 없긴함

사용된 모델은 qwerty, zetacolorv5, ultracolor, Counterfeit-V2.5_fp16, abyssorangemix2경랑화ver, lightningcounter7_3ver, 7th_anime_v3_A 이렇게 7가지 정도 사용됨

1,0.9,0.7,0.5,0.3,0.1,0,0,0,0.5,1,1,0,0,0,0.5,1,1,0,0.1,0.3,0.5,0.7,0.9,1

lightningcounter7_3ver+Counterfeit-V2.5_fp16 = qwerty

1,0.9,0.7,0.5,0.3,0.1,1,1,1,1,1,1,0,0,0,0,0,0,0,0.1,0.3,0.5,0.7,0.9,1

lightningcounter2.5+zetacolorv5 = 0001

1,0.8,0.6,0.4,0.2,0,1,0.5,0,0.5,1,0.5,0.5,0.5,0,0.5,1,0.5,0,0,0.2,0.4,0.6,0.8,1

qwerty+0001 = 0002

1,0.9,0.7,0.5,0.3,0.1,1,1,1,1,1,1,0,0,0,0,0,0,0,0.1,0.3,0.5,0.7,0.9,1

0002+ultracolor = 0003

1,1,0.89963,0.87452,0.7452,0.6578,1,1,0.36,0.1948,0.1425,0.1732,0.23,0.8653,0.7469,0.6452,0.7942,0.8734,0.7777,0.3842,0.9152,0.8649,0.8695,0.1653,0.3521

Counterfeit-V2.5_fp16+0003 = 0008

1,1,0.89963,0.87452,0.7452,0.6578,1,1,0.36,0.1948,0.1425,0.1732,0.23,0.8653,0.7469,0.6452,0.7942,0.8734,0.7777,0.3842,0.9152,0.8649,0.8695,0.1653,0.3521

0008+7th_A = 0009

1,1,0.89963,0.87452,0.7452,0.6578,1,1,0.36,0.1948,0.1425,0.1732,0.23,0.8653,0.7469,0.6452,0.7942,0.8734,0.7777,0.3842,0.9152,0.8649,0.8695,0.1653,0.3521

0009+ultracolor = 0010

1,1,0.89963,0.87452,0.7452,0.6578,0.85,0.85,0.85,0.85,0.85,0.85,0,0.8653,0.7469,0.6452,0.7942,0.8734,0.7777,0.3842,0.9152,0.8649,0.8695,0.1653,0.3521

abyssorangemix2경랑화+qwerty = 0011

1,1,0.89963,0.87452,0.7452,0.6578,1,1,0.36,0.1948,0.1425,0.1732,0.23,0.8653,0.7469,0.6452,0.7942,0.8734,0.7777,0.3842,0.9152,0.8649,0.8695,0.1653,0.3521

0011+ultracolor = 0012

1,0.9,0.7,0.5,0.3,0.1,0,0,0,0.5,1,1,0,0,0,0.5,1,1,0,0.1,0.3,0.5,0.7,0.9,1

qwerty+0012 = colormixed

여기에 숫자로 적혀있는 모델들은 https://huggingface.co/1q2W3e/Attached-model_collection/tree/main 여기에 모아둠

0009

0010

0012

간단하게 결과물들 보면

쭉 뽑아본 결과 인물만 중점으로 뽑을거면 clip skip 1로 설정하고 배경도 같이 뽑으려면 clip skip 2 로 설정하는게 그림의 결과물이 가장 잘 나온듯함 특히 clip skip 1에서 전신을 뽑으려고 하면 얼굴이 망가지는 경우가 적지않은게 아쉬운 포인트였음

Latent (nearest-exact)으로 hires해서 뽑을 때는 전체적인 그림의 선이 거친느낌으로 표현되었고 장식이나 문양이 상당히 디테일하게 나오는걸 볼 수 있음 또 선이 거칠기 때문에 배경프롬하고 인물 프롬을 같이 뽑을 때는 얼굴이 거친선 때문에 더 망가지는것처럼 보임(1번째 사진 clip skip 2참고)

R-ESRGAN 4x+ Anime6B같은 경우에는 선이 무척 깔끔하게 마무리되는걸 볼 수 있고 장식이나 문양이 상당히 심플하게 나오는걸 볼 수 있었음 또 선이 깔끔하게 마무리되어서 배경프롬하고 인물을 같이 뽑을때 망가지는 얼굴을 상대적으로 잘 잡아주는듯함 (1번째 사진 clip skip2참고)

즉 장식을 가진 캐릭터를 뽑을때는 Latent (nearest-exact) 으로 뽑는편이 더 이쁘게 뽑힐 수 있고 배경프롬하고 인물을 같이 뽑을 때는 R-ESRGAN 4x+ Anime6B 을 사용하는게 더 이쁘게 뽑힌다는거임

사람 없는 배경만 뽑는경우에는 확실하게 R-ESRGAN 4x+ Anime6B으로 뽑는편이 좋아보이는걸 위 그림으로 확인 가능함

물론 아포칼립스 느낌으로 무너진 건물을 표현하고 싶은거라면 당연히 Latent (nearest-exact)으로 뽑는게 더 좋다고 생각됨

간단하게 1줄 문장으로 이루어진 프롬도 인식하나 확인해봄

간단하게 steps랑 scale에 따라 어떻게 나오는지도 비교해봄

하나하나 올리기에는 양이 너무 많아서 그냥 x/y파일로 한 번에 올리겠음

hires를 적용 안하고 뽑았는데 확대 하고 봤을때 scale이 높아질 수록 그림의 밝기가 밝아진게 느껴짐 또 steps수가 높을 수록 그림 자체의 퀄이 올라가는게 느껴지긴하나 10하고 20사이에서만 큰 차이가 느껴질 뿐 20부터 90까지는 크게 달라지는 부분이 많지는 않음

DPM++ 2M Karras, DPM++ SDE Karras로 생성할 때 그림의 차이도 비교해 봄

보면 알 수 있는 그림의 결과물의 차이가 분명하게 있으니 여러방면으로 뽑아보고 셈플을 결정합시다

간단하게 장단점을 정리하자면 기본적으로 Counterfeit-V2.5_fp16이 어느정도 섞여있어서 배경프롬 없이도 배경이 상당히 이쁘게 잘 나오는 편이기도하고 qwerty의 발광효과도 어느정도 넘어오면서 빛 표현도 나름 괜찮게 나오는 편임 또 ultracolor나 Counterfeit-V2.5_fp16이 들어갔음에도 손이 어느정도 괜찮게 나오는경우가 많음 대략 150장 가까이 뽑았는데 손가락이 꼬여서 키메라 처럼 나오는경우는 상당히 드물었음 물론 6손이나 7손은 많이 나오지만 포토샵 처리하기 어려운 편은 아니였다고 생각함

다만 단점으로 배경프롬이 들어가는 그림을 뽑거나 전신샷에서 인물이 가까이에 있는 경우가 아닌 좀 멀리 떨어져있는 경우 얼굴 붕괴가 잘 일어나는 편임 뽑힌 그림들도 전체적으로 봤을때 머리부터 발끝까지 나온 그림의 경우는 얼굴이 거의 무조건적으로 붕괴되어있음 즉 전신을 뽑을 때는 t2i만 이용해서는 완벽하게 안나오고 i2i까지 돌려야함

여기서 부터 아래쪽으로는 위에 묶여있는 사진 풀어서 올려둘테니 관심없으면 넘어가면 될듯함(exif 확인을 위함임)