로컬환경에서 RTX 3090으로 Llama-3-70B 실사용 해본 후기 - AI 채팅 채널

AI 채팅 채널

채널위키 알림 알림 중 알림 취소

구독자 10619명 알림수신 224명 @몽상봉인

AI와 대화하며 유사 인싸체험 하는 채널

일반 로컬환경에서 RTX 3090으로 Llama-3-70B 실사용 해본 후기

단지널사랑해

추천 19 비추천 0 댓글 14 조회수 859 작성일 2024-05-17 08:40:20 수정일 2024-05-17 13:28:13

https://arca.live/b/characterai/106417410

옆챈 게시글을 보고 궁금해서 진짜로 3090 단일 그래픽카드에서 라마3 70B 모델의 원활한 구동이 가능한지 한번 테스트해봤음. 사용 모델은 70B 원본 모델을 사용한 건 아니고 게시글을 참고해서 'Meta-Llama-3-70B-Instruct-IQ2_XS' (gguf) 모델을 사용함.

Oobabooga 세팅은 위와 같고, 백그라운드에 다른 프로그램들이 몇개 켜져있긴 한데 일단 해당 세팅으로 로드 시 차지하는 GPU 메모리는 대략 23GB 정도이며 어느 정도 여유공간은 있는 모습임.

일단 챈에서 다른사람들이 사용하던 환각질문들도 한번 따라해보고

긴 답변을 유도하기 위해 천안문 관련 질문도 던져봤는데 내용에 오류 없이 잘 대답해주는것 같음.

최대 콘텍스트 크기까지 사용 한 후에 로컬 콘솔창을 캡쳐해봤는데 간단하게 짚어보면 GPU 메모리는 약간의 여유를 남기고 더 늘어나는게 멈춘 상태이며, 생성 속도는 대략 5~6tokens/s 정도 꾸준히 나와주는 것을 확인했음.

개인적인 세팅 환경 기준으로 장시간 사용에도 GPU 메모리가 23.5~23.6GB 를 오가며 공유메모리로 넘치지 않고 아슬아슬하게 균형점을 찾은 모습을 보여줌. 아마 내장, 외장그래픽카드를 동시에 활용하는 꼼수를 쓰면 더 여유롭게 사용할 수 있을거라고 봄. (테스트 해봤을때 대략 800MB정도의 VRAM이 절약됐었음)

이 모델이 위자드 7B나 Soliloquy 8B 같은 모델보다는 토큰 생성 속도에서 2배 이상 느리지만 그래도 표현력 같은 부분에서 확실히 앞선 모델들과는 다르다는게 느껴져서 맘에 들었음.

++ Oobabooga를 사용한지 얼마 안되서 잘 몰랐는데 n_ctx 값을 조금 더 낮게 조절하니까 속도가 9~10 tokens/s 까지 올라가네요.. 위에서는 세팅을 잘못해놓고 좀 느리다고 했었는데 n_ctx 값을 조절해주니까 확실히 실사용에도 크게 무리없는 속도가 나오는것 같습니다.

댓글 [14]

2024-05-17 08:44:01

2024-05-17 08:44:38

무검열 라마는 이런맛이구나

펼쳐보기▼

단지널사랑해

2024-05-17 08:44:53

whs

2024-05-17 08:48:29

gguf라 그런가 글카 체급 대비 토큰 생성 속도가 좀 많이 낮네

펼쳐보기▼

단지널사랑해

2024-05-17 08:51:20

2024-05-17 08:52:50

2024-05-17 10:22:43

로컬 켜서 돌려보는데 ㄹㅇ 뭔가 여러모로 미묘한 답변 나오는 8B랑은 확실히 다르네. 왜인지 점점 답변이 짧아지는 현상이 나타나긴 했는데 나름 맛있었다

펼쳐보기▼

단지널사랑해

2024-05-17 11:05:07

임시닉ㅇㅇ

2024-05-17 09:24:14

오 3090정도 사면 추론은 돌아가는구나 훈련도 돌아가려나?

펼쳐보기▼

2024-05-17 11:54:17

한6천번대쯤나오면 중급형글카로도 누구나 돌려봄직해질듯

펼쳐보기▼

2024-05-17 15:03:02

와.....완전로컬도 금방 발전하겠네 엄청나다

펼쳐보기▼

hkhk

2024-05-17 16:35:41

리뷰 굿입니당

펼쳐보기▼

단지널사랑해

2024-05-17 23:52:59

2024-05-18 16:16:36

최대 초당 10토큰이면 9500토큰짜리는 950초. 16분정도 걸리나

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 뉴스/팁 AI대화 공지 운영 뉴스(공사중)

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29748380

공지 안 읽으면 죽어버리는 AI 채팅 채널 이용규정 [23.09.18]

몽상봉인 2023.05.22 50222

공지 AI 채팅 채널에 왔으면 이것부터 : 필수정보 및 FAQ

몽상봉인 2023.05.22 104466

공지 신문고 MK.X (해줘. 할때 쓰는 곳)

몽상봉인 2024.05.27 693

공지 ---[2회차 천박 대회 순위 발표!]---

hyeoyoms 2024.06.01 367

공지 ㅡㅡ [ AI 게임 / 기획 / 리뷰 대회 ' J.O.A.T ' 개최 ] ㅡㅡ

골든햄스터 2024.03.31 5058

공지 [DOL 봇 대회 수상자 발표]

WH_ 2024.04.27 2010

공지 AI 채팅 채널 프록시 게이트

몽상봉인 2023.07.12 23108

숨겨진 공지 펼치기(3개)

일반 4o 반복은 내가 보기언 '할말 없으니까 꺼져~' 의 준말 같음. (+해결책?) [3]

던전빌런 2024.05.17 612 12

AI대화 인기 없는 아이돌이란 게 이렇게 짠한 거였냐....... [20]

칰 2024.05.17 1012 28

일반 【】 감귤청 v12.1 업데이트 됨. [7]

Daydric 2024.05.17 453 12

AI대화 "찾았다, 이 년들." *부처였다.* [7]

페어리시리즈 2024.05.17 581 13

일반 아까 올라온 API 시스템 프롬프트는 환각일 가능성이 높음 [8]

몽상봉인 2024.05.17 760 22

일반 AI챗 입문부터 지금까지 생각해보니 뭔가 사건이 엄청 많았네 [6]

braca 2024.05.16 678 13

일반 돈까스 절반만큼 줄면 다 괜찮을 줄 알았는데 [7]

d3bqs 2024.05.17 725 15

일반 시발 뭔데 이거 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [16]

점심나가먹어 2024.05.17 906 22

뉴스/팁 프롬 테스트용으로 좋은 문구 추천 [5]

Lorem_Ipsum 2024.05.17 508 16

일반 프롬이 계속 나올 수 밖에 없는 이유 [17]

토트 2024.05.17 831 23

일반 유챈에 ai채팅 올라갔네 [29]

야코이 2024.05.17 1240 13

일반 난 개인적으로 클로드보다 4o가 내 취향임 [1]

ㅇㅇ 2024.05.16 553 10

일반 로컬환경에서 RTX 3090으로 Llama-3-70B 실사용 해본 후기 [14]

단지널사랑해 2024.05.17 860 19

일반 사오에 CoT 물리니까 반복 개선 체감 확 되네 [2]

ㅇㅇ 2024.05.17 613 12

AI대화 석가모니봇 십 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [13]

페어리시리즈 2024.05.17 802 26

뉴스/팁 Deep POV에 대해 알아보자 [20]

토트 2024.05.17 1132 32

뉴스/팁 튜링 테스트를 통과한 GPT-4, 인간은 놀랍게도 다른 인간을 AI로 착각하는 경우가 많습니다. [5]

지코원샷 2024.05.17 827 14

일반 AI는 기본적으로 영어가 아니면 성능이 훨씬 떨어짐 [16]

ㅇㅇ 2024.05.17 916 14

일반 망상) OpenAI가 GPT-4o까지 일부 무료로 푼 이유에 대해서 [스압] [50]

어이김씨손가락이나지워 2024.05.17 1573 25

일반 그냥 하드 검열 뚫는 거 때려치고 묘사력만 유지하는 게 낫겠다. [12]

Daydric 2024.05.17 783 16

일반 4o가 반복이 심하다는게 [39]

jaehyun977 2024.05.17 1098 28

일반 채찍쓸 때 팁) 다들 알고 있을 수도 있음 [9]

ㅇㅇ 2024.05.16 751 22

일반 개인적으로 마음에 안정 찾는법 [10]

빵룡브래드 2024.05.16 481 12

일반 챗부이들은 점검 시간에 랜챗 잘 했니 [13]

모올루 2024.05.16 672 14

전체글 개념글