다른분이 옆챈에서 먼저 이 기능을 소개하긴 했는데, 여기에서는 글이 없어서 작성. 


fp8 학습 기능은 최신 버전의 kohya_ss에서 추가된 기능이라고 함.

최신 버전의 kohya_ss GUI로 재설치 한 다음 기본 12GB VRAM용 Full bf16 세팅에서 새로 생긴 fp8 base training 딸깍하면 끝.

그렇게 돌려보면 2배치 기준 6.5GB로 나옴.


기존의 12GB VRAM용 Full bf16 세팅에서는 10.5~11.5GB로 나오니 상당히 VRAM 사용이 절감되고 이렇다면 8GB VRAM에서도 SDXL 학습이 가능해보임.


RTX 4060 8GB 구입할 돈으로 인텔 Arc A770 16GB 구입해서 8GB VRAM 테스트는 다른 사람이 해주겠지.


학습 속도는 bf16이랑 비슷하니 VRAM 부자는 불필요한 옵션일지도. fp8 추론에서도 속도는 비슷하거나 느리다고 보고되니 당연한 결과이긴 하지만.


간단하게 Animagine XL V3 Base로 캐릭터 학습을 해봤는데 데이터셋이 Animagine XL V3 입맛에 안맞았는지 그림체도 학습되었네. 이건 데이터셋 문제이니 학습 자체는 잘 된다고 봐야할지도. 캐릭터는 뱅드림의 아오바 모카.


Cache text encoder outputs 안쓰고 --network_train_unet_only 안써서 text encoder 학습까지 시도하면 2배치 기준 7.9~8.1GB로 보고됨.


12GB VRAM 그래픽카드에서는 Cache text encoder outputs 제약에서 벗어나서 다양한 학습 세팅을 할 수 있게 되었음.