이제 이런거 됨
from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("TheBloke/Llama-2-7b-Chat-GPTQ", torch_dtype=torch.float16, device_map="auto")
자세한것 이거 읽어보고
https://huggingface.co/blog/gptq-integration
사실 자랑할려왔음
이거 통합하는데 내가 기여함 ㅇㅇ
ㅖㅏ