LLaMA의 배포된 가중치는 FP16임

FP16 기준
7B(6.7B) - 14GB
13B - 27GB
33B(32.5B) - 68GB
65B(65.2B) - 135GB

INT8으로 양자화하면
비트수가 절반으로 줄어드니까 파이썬 오버헤드를 제외하고 절반정도로 줄어듦

그리고 텐서코어 가속 조건이 Compute Capability 7.2 이상으로 변함(V100은 INT8 미지원)

7B(6.7B) - 7GB
13B - 14GB
33B(32.5B) - 34GB
65B(65.2B) - 68GB

INT4으로 양자화하면
비트수가 1/4로 줄어드니까 파이썬 오버헤드를 제외하고 절반정도로 줄어듦

그리고 텐서코어 가속 조건이 Compute Capability 7.5 이상으로 변함(7.2까지는 INT4 미지원)

7B(6.7B) - 4GB
13B - 7GB
33B(32.5B) - 17GB
65B(65.2B) - 34GB

INT4까지 가면 33B까지 돌릴 수 있음
다만 FP16에서 INT8으로 전환한 후 보정을 안해주면 FP16과 동일한 결과가 나오지 않을 가능성이 높음

연구에 따르면 LLMs의 경우 INT8과 INT4의 양자화에 의한 정확도 감소가 타 모델에 비해 낮은 편임
또한 LLMs의 많은 개수의 파라메터를 가진 모델을 양자화해서 쓰는 것이 LLMs의 낮은 파라메터를 가진 반정밀도 모델에 비해서 높은 성능을 보여준다는 결과가 있음

물론 VRAM을 모두 채운 후에도 로드해야하는 가중치를 RAM과 보조기억장치에 로드하고 추후에 로드하는 방식을 사용할 수 있음(FlexGen)
그러나 I/O타임을 생각하면 별로 추천하지 않음
단순히 '돌아간다'에 의미를 두는게 목적이면 해도 됨

- LLMs이 스마트폰이나 태블릿에서 돌아갈 수 있는가?

불가능함. LLMs는 파라메터의 개수가 가지고있는 정보량과 비례함
일정 수준까지는 낮출 수 있지만 그 이하로는 낮출 수 없음

논문에 따르면 학습에 사용된 데이터는 2017년~2020년의 데이터지만
실제로
학습된 데이터는 2016년의 데이터로 추정됨.

GTX1080ti가 제일 최신 GPU라고 답하고 Pascal 아키텍쳐가 제일 최신 NVIDIA GPU 아키텍쳐라고 답함
Pascal GPU의 MSRP는 제대로 답하는 모습을 보이지만 Turing GPU부터는 MSRP를 답하지 못하며 존재 자체를 모르는 모습을 보임