로컬 wsl2 3090 24gb인데 개잘죽는다...


512사이즈는 배치사이즈 10으로 해도 거뜬한데 


사이즈 1024로 학습시 배치사이즈1에 gradient_accumulation_steps=1 로 줘도 존나 개복치마냥 죽음(fp16, 8bit adam 다킴)