개인적으로 사용중인 데이터셋 확보 방법

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8789명 알림수신 126명 @Anon

그림 AI 학습 정보를 공유하는 채널

정보 개인적으로 사용중인 데이터셋 확보 방법

예리한_밤색_올빼미

추천 10 비추천 0 댓글 6 조회수 1610 작성일 2022-10-30 03:02:08 수정일 2022-10-30 03:29:59

https://arca.live/b/hypernetworks/61764162

가끔 포챈에서 엠베딩 올리다가 학습만 다루는데가 있길래 이곳에다가는 글써도 될거같아서 올림.

데이터셋을 개인적으로 확보하고 싶은 사람들을 위한 데이터셋 확보 방법 정리 (꽤 잘됨)

[1]---

https://bionus.github.io/imgbrd-grabber/

그래버 다운로드 후, 겔부루 검색

[2]---

그래버 옵션에서 Separate log files 가서 태그 별도 저장 선택. ","로 하면 구분이 잘 안되서 안쓰이는 "|"로 구분.

그리고 이미지 다운로드.

10월 30일 기준으로 현재 버그가 있어서 겔부루 다운로드시 Images per Page를 100으로 해야 모두 다운로드 가능.

[3]---

다운로드된 이미지를 전처리.

처리전, 원하지 않는 이미지 삭제. (2009년 이미지 등, 너무 오래된 이미지라던가 목적에 따라 이미지 삭제)

Focal Point Crop을 이용하여 주요 학습 지역을 위주로 자동 처리

[4]---

같이 다운로드한 이미지의 태그가 전처리된 이미지에 같이 넣어질 수 있도록 파이썬 스크립트 제작

정규식을 이용하여 이름을 비교 후, 이미지의 해시 이름과 와 일치하는 데이터셋 파일 이름에 맞추어서 txt파일 생성.

이때 | 로 구분된 항목을 ,로 바꾸어서 넣는다.

파이썬 스크립트니까 필요없는 항목이나 추가하고 싶은 항목 또는 변경하고 싶은 항목을 알아서 넣으면 됨.

특히, 모델이 잘 알아듣지 못하는 파라미터는 과감히 제외하는 것을 추천.

[5]---

학습 시작.

효과는 deepdanbooru 사용했을때 1.2에서 1.5나오던 항목이 태그까지 같이 수집하는 경우 0.8-1.0 정도로 내려감.

짤은 스미야오 데이터셋 학습 패턴. (0.003 LR, 50+k steps, 400+ dataset, 2015년 이전 모든 그림 삭제)

이런느낌으로 학습됨. 그래프 패턴에서 보이듯, 약 1.8k에서 안정적으로 쓸만한 엠베딩이됨.

단점은 하이퍼네트워크의 경우는 작가의 성향과 맞는 프롬프트를 사용하면 잘 나오는데 아닌 경우 조금 애매해짐. (뭔가 학습을 잘못했거나 다른 방법을 사용해야 하는 듯)

이 방법으로 100개 이상의 데이터를 꽤나 괜찮은 퀄리티로 유지하면서 수집 가능.

플롯팅은 plotly사용시 쉬움.

--- 아래부터는 학습된 짤

higuma, 약 20k 정도 학습, 0.003, 옛날 그림 삭제 안함

RTX3090 기준으로 2시간 학습

메메, 약 20k 정도 학습, 0.003, 옛날 그림 삭제 안함
RTX3090기준 2시간 학습

얌전한_까만_개복치

2022-10-30 03:18:56

혹시 파이썬으로 만든 원본 태그 떼오는 툴 공유해줄 수 있을까? 딱히 상용 프로그램에 기능이 없어서 그냥 방치해놓고 있었는데...

펼쳐보기▼

예리한_밤색_올빼미

2022-10-30 03:19:24

*수정됨

툴이라기라고 하기엔 주피터로 돌린 10줄짜리 파이썬 코드인데 

1. 저장된 폴더 안에서 이미지 파일 정규식으로 떼서 md5해시만 따고
2. 전처리된 폴더안에서 md5부분만 떼서, dict로 비교한다음 
3. 일치하면 같이 동봉된 .tags.txt를 전처리된 이미지 이름과 같이 변경

일케하면 따온 태그를 전처리된 폴더에 넣을수 있음
여기서 내가말하는건 다이어그램의 이미지 네임 맵퍼 부분임

펼쳐보기▼

얌전한_까만_개복치

2022-10-30 03:21:16

아 Grabber에 태그 별도 저장 기능이 있구나 쏘리...

펼쳐보기▼

예리한_밤색_올빼미

2022-10-30 03:23:00

주피터 랩스 깔아서 돌려두면 파이썬으로 이리저리 관리하기도 쉽고, 주피터로 UI 실행하면 어디서든 확인가능해서 혹시 홈랩 돌리고 있으면 주피터 랩스 까는거 추천

펼쳐보기▼

얌전한_까만_개복치

2022-10-30 03:25:02

ㅇㅇ ipynb 진짜 편하더라. 웬만한 툴은 주피터 노트북 쓰면 도중 변수 체크도 잘되고 편한듯

펼쳐보기▼

예리한_밤색_올빼미

2022-10-30 03:27:50

*수정됨

나는 이렇게 돌리고 있음

1. 코드 개조해서 학습 현황을 비동기로 주기적으로 저장 (10-25마다 한번씩 - 학습에 방해되지 않게)
2. 주기적으로 저장된 정보를 pandas + plotly를 이용하여 추적
    데이터 추세선을 보기 위한 trend, 그리고 high freq데이터를 리샘플하는 느낌의 rolling하여 mean, min, max구함
3. 미리보기도 IPython Image 기능 이용해서 최근 10개만 추려서 보기
4. 좋은거 같으면 원격으로 중지후 새로운 데이터셋 원격으로 학습 시작

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인