가끔 포챈에서 엠베딩 올리다가 학습만 다루는데가 있길래 이곳에다가는 글써도 될거같아서 올림.

데이터셋을 개인적으로 확보하고 싶은 사람들을 위한 데이터셋 확보 방법 정리 (꽤 잘됨)


[1]---

https://bionus.github.io/imgbrd-grabber/

그래버 다운로드 후, 겔부루 검색


[2]---

그래버 옵션에서 Separate log files 가서 태그 별도 저장 선택. ","로 하면 구분이 잘 안되서 안쓰이는 "|"로 구분. 


그리고 이미지 다운로드.

10월 30일 기준으로 현재 버그가 있어서 겔부루 다운로드시 Images per Page를 100으로 해야 모두 다운로드 가능.


[3]---

다운로드된 이미지를 전처리.


처리전, 원하지 않는 이미지 삭제. (2009년 이미지 등, 너무 오래된 이미지라던가 목적에 따라 이미지 삭제)

Focal Point Crop을 이용하여 주요 학습 지역을 위주로 자동 처리


[4]---

같이 다운로드한 이미지의 태그가 전처리된 이미지에 같이 넣어질 수 있도록 파이썬 스크립트 제작

정규식을 이용하여 이름을 비교 후, 이미지의 해시 이름과 와 일치하는 데이터셋 파일 이름에 맞추어서 txt파일 생성.

이때 | 로 구분된 항목을 ,로 바꾸어서 넣는다.

파이썬 스크립트니까 필요없는 항목이나 추가하고 싶은 항목 또는 변경하고 싶은 항목을 알아서 넣으면 됨.


특히, 모델이 잘 알아듣지 못하는 파라미터는 과감히 제외하는 것을 추천.


[5]---

학습 시작.

효과는 deepdanbooru 사용했을때 1.2에서 1.5나오던 항목이 태그까지 같이 수집하는 경우 0.8-1.0 정도로 내려감.


짤은 스미야오 데이터셋 학습 패턴. (0.003 LR, 50+k steps, 400+ dataset, 2015년 이전 모든 그림 삭제)


이런느낌으로 학습됨. 그래프 패턴에서 보이듯, 약 1.8k에서 안정적으로 쓸만한 엠베딩이됨. 

단점은 하이퍼네트워크의 경우는 작가의 성향과 맞는 프롬프트를 사용하면 잘 나오는데 아닌 경우 조금 애매해짐. (뭔가 학습을 잘못했거나 다른 방법을 사용해야 하는 듯)



이 방법으로 100개 이상의 데이터를 꽤나 괜찮은 퀄리티로 유지하면서 수집 가능.


플롯팅은 plotly사용시 쉬움.




--- 아래부터는 학습된 짤

higuma, 약 20k 정도 학습, 0.003, 옛날 그림 삭제 안함

RTX3090 기준으로 2시간 학습



메메, 약 20k 정도 학습, 0.003, 옛날 그림 삭제 안함
RTX3090기준 2시간 학습