7B 모델은 3090ti에서 빠르게 생성되며(~500개 토큰의 경우 ~30초, ~17개 토큰/초) ChatGPT 인터페이스보다 훨씬 빠릅니다. 생성하는 동안 ~14GB VRAM을 사용합니다. 이것은 또한 batch_size=1이론적인 처리량이 이보다 높다는 것을 의미합니다.


https://github.com/facebookresearch/llama/issues/4