어제 누가 찾길래 내가 쓰던 거 올림


https://arca.live/b/aiart/71245444

https://arca.live/b/aiart/69615136

원 출처는 이 두 주소들인데 직관적으로 보기에 너무 복잡해서 한장으로 합침

난 인물 영향 여부랑 영향도(프롬프트 해석 방향아님 자세 색감 이런 거)가 중요해서 관련 부분을 강조함


* Block weight의 U-net 사용 구조

IN과 OUT을 저렇게 매칭시킨 이유는 유넷(U-net)의 구조 때문인데 

대충 U자처럼 생겨서 유넷이라고 부름 

보면 회색 화살표처럼 서로 대응되는 블록은 무관하지 않음 블록 병합에서는 한쪽은 IN, 한쪽은 OUT

MID에 가까이 갈 수록(IN11, OUT00 같은) 깊은 층, 멀어질수록 얕은 층(IN00, OUT11 같은)으로 분류

- 주의 : 원래의 U-net 구조에선 In, Out을 Contracting Path, Expansive Path라고 함. block weight 설명을 위해 동일한 기능을 여기서 쓰이는 단어로 바꾼거니 실제 논문과 혼동 없길 바람


저 그림을 보고 아래 web ui에서 쓰는 weight setting을 보면 큰 U자가 그려질 거

(IN00의 위치와 OUT00의 위치에 주목)

우리가 쓰는 Merge block의 인터페이스가 왜 이랬는지를 생각하면 유추 가능

하지만 정확히 어떻게 대응되고 효과가 있는지는 내가 테스트를 덜해봐서... 일단 이론대로만 놔둔 상태


* U-net 블록 구조가 얼굴만 학습, 몸만 학습, 배경만 학습 이런 식이 아니고 왜 저꼴이냐면

이런 식으로 U구조의 안쪽(Depth)으로 깊게 들어갈수록 지 꼴리는 대로 해체하고 또 해체해서 특성을 학습하기 때문

딥러닝 비전(그러니까 이미지)기초가 되는 모델이 시신경을 모방했지만 정작 사람이랑 학습하는 과정이 차이가 있다는 말이 여기서 시작됨


그래서 얕은 층에서는 큼직한 텍스처, 배경 색감을 위주로 학습하고 깊은 층에서는 디테일하고 우리가 구별하기 힘든 정보들을 주로 학습해서 얘가 얼굴만 학습, 몸만 학습, 이렇게 완벽히 쏙쏙 골라 구별해 병합시키는 건 힘들다

위 예시로만 보면 이 AI는 대충 이런 형태를 개, 강아지라고 부르나보다! 하겠지 


하지만 AI가 강아지의 다른 생김새나 구도를 모른다면?


그래서 이런 참사가 생기는 거ㅋㅋㅋㅋㅋㅋㅋㅋㅋ


학습을 어떻게 시켜주느냐 = AI의 성능을 어떻게 높일 것인가와 직결된 것도 이 때문

이건 로라 학습과도 관련 있고 손가락이 왜 힘든지도 관련이 있다

여기 쓰인 정보들은 딥러닝 컴퓨터 비전(Computer Vision) 기초 쪽이니 더 궁금하면 찾아보고

https://arca.live/b/aiart/71349997 - 손가락 잘 안나오는 거 겉핥기로 더 설명한 챈러

그림 그리는 사람은 알겠지만 사람도 손발 잘 그리면 개고수임(대개 대갈치기를 많이 하기 때문에)


* 병합 심화 팁(daam)

daam이 프롬프트 별로 영향력을 알려주기도 하지만 레이어 별로도 확인이 가능함 따라서

https://arca.live/b/aiart/73100870 - 각 블록 별 어디가 영향 받는지 이미지로 보고 싶다면

https://arca.live/b/aiart/68018858 - 이분 daam을 보면 여기서 말하는 in, out블록을 감 잡을 수 있을 거

https://arca.live/b/aiart/69975184 - daam의 레이어를 어떻게 활용할 건지 직관적으로 보여준 예

이렇게도 쓸 수 있다


* U-net에 관해 좀 더 알고 싶다면

https://arca.live/b/aiart/69178242 

https://arca.live/b/aiart/68377943

https://arca.live/b/aiart/68129941

https://arca.live/b/aiart/67792304 

이 정도 글들이 여기서 언급한 이론을 더 실용적으로 쓸 수 있게 만들어 줄 거


[검색 단어] Supermerger, Merge Block weight, MBW, Block Setting, 병합, 블록