ROCm 한번 써봤는데 대충 속도는 잘 나오는 거 같음 ㅇㅇ

나는 우분투 대신 Rocky 9.2 썼음. 우분투 혐오자라서..

이거 따라서 torch/torchvision 빌드 때리고 ROCm 5.5 환경 만듦.

대충 512x768 짤 하나 찌는데 6.8초 걸림. (4.28it/s, pytorch-DirectML(Windows)에서는 1.2it/s ㅅㅂ..)

System info 벤치마크에서는

7.6 / 3.8 / 3.8 / 1.3 / 1.1 (기본 메모리 최적화, 배치사이즈 커지면 처짐. 근데 또 hires fix는 빠르게 돌아감;)

7.17 / 8.1 / 8.1 / 8.1 / error (sdp, sdp-no-mem 둘 다 동일, 배치사이즈 16 넘기면 OOM으로 터짐.)

특이한 점은 hires 쓰려면 메모리 최적화를 꺼야 한다는 점임. 오히려 메모리 최적화를 하면 HIP 메모리 부족으로 터짐;

메모리 최적화를 켜면 속도 자체는 빨라지긴 하는데 큰 차이는 없는듯. 512x768 기준 0.8-1초(총 소요 6초) 정도 빨라진다 정도?

hires fix는 1분 12초정도 걸림.

a1111 v1.3.1 환경이고,

hires fix, VAE 로딩 정상 동작 확인 / lycoris 확장 정상 동작 확인함.

생각 이상으로 괜찮긴 함. ROCm 윈도우 지원 좀 빨리 됐으면 ㅅㅂ..

DirectML 성능은 진짜 개쓰레기임.

심지어 VRAM도 오지게 잡아먹어서 개같이 터지더라


아래는 테스트로 뽑아본 짤들.