ckpt to 디퓨전 쓰는 ShivamShrirao 드림부스 relase에서 8bit adam(비트바이샌드) 사용하는데 성공했음

( 1배치 사이즈, fp16(xFormers) 사용기준 vram 11.4gb 사용 대신 체크포인트 생성할때 순간적으로 메모리가 튀어서 아슬한 vram이면 학습한 모델 날릴수도 있음)

deepSpeed쓰면 8gb기준으로도 학습 가능하다는데 vram으로도 느리고 불안정한걸 deepspeed까지 사용해서 쓰는건 아닌거 같아서 가이드쓸 생각은없음


1. 24gb vram사용하는 드림부스(xio relase)

(얘의 장점은 따로 컨버터로 ckpt <-> 디퓨전 할 필요가없음, xFormers나 비트바이센드등의 별도 패키지도 필요없고 vram만 충분하면 오히려 안정적으로 돌아감)


2. 약 11gb vram을 사용하는 ShivamShrirao 드림부스

(얘는 vram을 적게 사용하는 파이토치 8bit adam이나 xFormers같은 학습에 도움되는 최적화 패키지를 사용해서

vram 사용량을 극도로 낮춤 

포럼에서는 학습 모델 퀄리티가 24vram 사용하는 드림부스 빌드보다 떨어진다고하는데 이건 확인이 필요함

이 드림부스 빌드는 별도로 패키지 설치해야되는 부분이 많고

파이썬 - cuda 툴킷 - 파이토치 - xFormers - 비트바이샌드의  서로를 참조하고 호출함수가 많아서 제대로 설치를 안하면 작동도 안하고 중간에 오류 내뱉음(시스템마다 최적화 버전이 틀려서 정규화도 안됨)


yaml을 통한 통합팩처럼 만들어볼까 싶다가도 특정 패키지는 시스템이랑 서로의 버전을 심하게 가려서 힘들거같음


1번이나 2번 둘중 하나만 가이드 쓸 예정임