뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다. - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3544명 알림수신 175명 @바바리맨

제한없는 언어모델을 위한 채널

질문 뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다.

추천 0 비추천 0 댓글 4 조회수 490 작성일 2024-04-24 10:21:34

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104457859

안녕하세요
이번에 나온 라마3 70B를 로컬에서 돌리는 법에 대해 조사중입니다.
채널 글을 몇 개 읽어 봤는데, 대부분 양자화를 통해 단일 GPU에서 돌리는 방식에 대해 정보가 많은 것 같더라구요.
저는 GPU 6대 정도로 구성된 워크 스테이션을 사용해서 돌려 보려고 하는데, 어떤 라이브러리나 오픈소스가 이러한 기능을 지원해주는지 몰라서, 검색할 키워드를 여쭙고자 질문 드립니다. 상세한 내용은 직접 깨지면서 알아보겠습니다!

댓글 [4] 글쓰기

2024-04-24 10:26:45 답글

*수정됨

vllm이 이런거가 가장 일반적이긴합니다.

펼쳐보기▼

2024-04-24 10:28:16 답글

감사합니다!

펼쳐보기▼

ㅇㅇ (211.114)

2024-04-24 12:34:20 삭제 수정 답글

https://github.com/oobabooga/text-generation-webui

사용해보셔요



모델 로더는 ExLlamav2 사용하시고

https://huggingface.co/turboderp/Llama-3-70B-Instruct-exl2

이 모델중에서 골라서 사용해보시면 됩니다


모델 로드하시는 탭에서

gpu-split

Comma-separated list of VRAM (in GB) to use per GPU. Example: 20,7,7

이곳에 예제처럼 20,20,20 이런식으로 적어주시면 gpu에 자동으로 나눠서 할당됩니다



https://www.reddit.com/r/LocalLLaMA/comments/1cal17l/llm_comparisontest_llama_3_instruct_70b_8b/

여기 보시면 4.5비트와 5비트가 높은 평가를 받았습니다


양자화 안된 모델은 사용해본적이 없어서 모르겠네요

GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models. - oobabooga/text-generation-webui

*수정됨

사용해보셔요



모델 로더는 ExLlamav2 사용하시고

https://huggingface.co/turboderp/Llama-3-70B-Instruct-exl2

이 모델중에서 골라서 사용해보시면 됩니다


모델 로드하시는 탭에서

gpu-split

Comma-separated list of VRAM (in GB) to use per GPU. Example: 20,7,7

이곳에 예제처럼 20,20,20 이런식으로 적어주시면 gpu에 자동으로 나눠서 할당됩니다



https://www.reddit.com/r/LocalLLaMA/comments/1cal17l/llm_comparisontest_llama_3_instruct_70b_8b/

여기 보시면 4.5비트와 5비트가 높은 평가를 받았습니다


양자화 안된 모델은 사용해본적이 없어서 모르겠네요

펼쳐보기▼

2024-04-24 12:45:54 답글

감사합니다!!

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31775266

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6339

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28795

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9583

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5542

공지 신문고

바바리맨 2023.04.18 2383

숨겨진 공지 펼치기(1개)

일반 vLLM 소형 모델 인퍼런스 느낀점 및 팁 [18]

maywell 2024.04.25 1591 20

일반 [어쩌다 AI] H100 컴퓨터 사양 문의 [15]

ㅇㅇ (58.87) 2024.04.25 964 1

질문 모델을 학습시키고 레포를 만들고 리더보드도 올려보고 하면서 원론적인 궁금증이 있습니다. [6]

뉴비챗 2024.04.24 562 2

일반 라마3를 실리콘 맥미니에서 돌려보았음. [9]

뿌리골무 2024.04.24 994 6

일반 라마3 덕분에 LLM기술들, 1년 이내로 상향평준화 완료? [6]

뿌리골무 2024.04.24 969 0

일반 재미있을 것 같은 프로젝트 [1]

pussydestroyer 2024.04.24 682 5

일반 Snowflake Arctic: 480b moe+dense모델 [1]

jackofmaster 2024.04.24 359 4

일반 m4 맥스튜디오가 램 512gb로 나오면 닥치고 이거사는게 맞지않나요? [11]

돌돌돌돌 2024.04.24 817 1

질문 GPU에 정수연산기와 실수 연산기는 독립적으로 동작하는데 [3]

ㅇㅇ (221.141) 2024.04.24 384 1

일반 엔드 유저 분들은 이거부터 보세요! Feat. Groq Cloud [2]

pussydestroyer 2024.04.24 694 6

질문 뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다. [4]

AkiAkane 2024.04.24 491 0

질문 모델 레이어를 쌓아서 학습할 수 있을까요? [2]

gadgetrie 2024.04.24 372 0

질문 왜 양자화라는 이름이 붙었나요? [19]

shower 2024.04.24 775 1

질문 5090사기 vs m4 맥스튜디오 사기 [13]

돌돌돌돌 2024.04.24 802 2

정보 merge kit에 Evolutionary Model Merging추가 [1]

jackofmaster 2024.04.24 289 3

일반 GDDR7 모듈들 출시되는거 보면 5090은 36기가로 나올 수도 있을듯 [5]

iau 2024.04.24 549 6

일반 wavecoder ultra 6.7B - 마이크로소프트 [4]

zzzzz5 2024.04.24 432 5

질문 님들 제가 지금 exllamav2로 llama3 70b instruct 모델 변환중인데... [10]

ㅇㅇ (220.78) 2024.04.24 572 0

질문 LlamaModel에서 gate구조에 대한 궁금증 [3]

에라 2024.04.24 358 1

정보 애플의 완전 오픈소스 모델: OpenELM [13]

jackofmaster 2024.04.24 1595 14

전체글 개념글