1024x1024 steps 15로 5장 뽑을 때, webui 1.8.0은 59.4초(1.42it/s) forge는 53.9초(1.56it/s) 나오네.

그건 그렇고 torch 2.2.1 용 xformers가 아직 안나와서 sdp-no-mem 쓰는데 torch 2.2.0 + xformers 0.0.24 보다 조금 더 빠르다.

뭐... 의미있을 정도는 아닌 거 같지만. (1.52it/s → 1.56it/s)


테스트는 아래 벤치마크 글의 Toki를 씀.

https://chimolog.co/bto-gpu-stable-diffusion-specs/#1024%C3%971024%EF%BC%9A%E3%83%88%E3%82%AD%EF%BC%88%E3%83%8D%E3%82%A4%E3%83%86%E3%82%A3%E3%83%96%E9%AB%98%E8%A7%A3%E5%83%8F%E5%BA%A6%E3%82%A4%E3%83%A9%E3%82%B9%E3%83%88%EF%BC%89

↓ 이 이미지 EXIF 사용함 ↓



근데, 설정이 달라서인지 내 결과랑은 다르네.

글구 WebUI랑 Forge 결과물도 조금 다름.

WebUIForge


p.s. 3060 12GB를 PCIe 3.0 x4 슬롯에 꼽아봤는데, 큰 성능저하가 없다.

hello asuka 10장에 2.2초 느려지고, toki 5장은 0.2초 느려지네.

PCIe 4.0 x4랑 PCIE 3.0 x4랑 속도 비교를 준비하고 있었는데, 4070으로 해봐야 될 거 같다.