이제 이런거 됨

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("TheBloke/Llama-2-7b-Chat-GPTQ", torch_dtype=torch.float16, device_map="auto")

자세한것 이거 읽어보고

https://huggingface.co/blog/gptq-integration

사실 자랑할려왔음

이거 통합하는데 내가 기여함 ㅇㅇ

ㅖㅏ