1.58bit 양자화의 시대가 온다 - Ai 언어모델 로컬 채널

그렇다면 1비트에서 약간 양보해서 +1, 0, -1 의 3가지 값 (ternary을 가질 수 있게 하는 형태로 구성하면 어떨까라는 생각을 해볼 수가 있는데요, 이렇게하면 대략 1.58bit 정도로 정보를 인코딩할 수 있습니다. 왜 1.6667 도 아니고 1.5 도 아니고 1.58bit 일까요?

예를 들어서 100 개의 대상을 3가지중 하나의 값을 갖는 형태로 인코딩한다면, 경우의 수는 3^100 이 됩니다.

3^100 은 대략 2^158 정도와 비슷한 숫자입니다. 따라서 1.58 bit 라고 표현하는 것입니다.

간단한 수식으로 다시 표현하자면 log2(3) 에 해당하는데 요것은 대략 1.5849625 입니다

어쨌든 0 을 추가한 형태로 하면 쌩 1비트 양자화의 단점이 상당히 커버된다고 합니다. 물론 4비트나 더 높은 정보량으로 양자화한 것에 비해서 당연히 성능이 떨어지고, 이미 모델이 학습된 이후에 후반 단계로 하는 양자화로는 만들 수 없고, 모델을 처음부터 pretrain 시키는 방식으로만 만들 수 있는 결과이긴 하기 때문에 당장 여러분에게 도움이 되진 않을 것입니다.

하지만 이러한 1비트 구조가 갖는 아주 중요한 의미가 있는데요, 바로 1비트나 1.58bit 구조에서는 더 이상 행렬연산에서 곱셈이 필요없어진다는 점입니다.

이 말은 앞으로 새로운 gpu 구조를 설계할 때, 아예 극단적으로 덧셈에만 특화된 구조로 칩을 만들고, 관련 아키텍처도 단순화할 수 있다는 것입니다. 양자화로 인한 정보의 손실은 트랜스포머 구조에서 어텐션 헤드의 갯수, 차원의 성분수, 레이어의 갯수를 늘리는 것으로 보충할 수 있는데, 이렇게 파라메터 갯수를 키워서 얻는 이득의 폭이 양자화로 인한 손실보다 크다는 점이지요. 같은 성능을 내면서 메모리도 적게 먹고, 속도도 빠르고, 발열도 적어지고 할 수 있습니다. 모바일 기기에서 추론이나 학습을 돌리는데 훨씬 좋아지겠죠. 지금은 전성비같은 것이 중요한 고려사항이 아니지만 앞으로 모바일 기기에서 자기 주변의 환경을 학습하게 되는 것도 점점 대중화될 것입니다.

https://www.projectaria.com/datasets/aea/

앞으로 MoE 같은 구조를 응용한다던가, 아예 1.58bit 에 최적화된 언어모델 구조 (llama 같은 구조를 빌리지 말고 완전히 새롭게), 모바일에서 돌리기 최적화, 전용 하드웨어의 설계등으로 연구를 확대할 것이라고 하니 관심을 가져볼만 합니다.

댓글 글쓰기

파라노이아

2024-02-28 09:39:33 답글

기술이 극한까지 압축되고 최적화되어서 딱 몇 년만 지나도 똥컴에서도 작은 매개변수 정돈 우습게 모델 굴리는 시대가 올듯...

펼쳐보기▼

noopSD

2024-02-28 15:59:56 답글

이거 뭐 single bit 로 streaming 하는 DSD 도 아니고... 지만 발상 자체는 재밌네요. 쓸만하게 나왔으면 합니다.

펼쳐보기▼

불타는장작

2024-02-28 16:17:20 답글

이거보니 3진법 반도체 생각나네 빨리 혁신이 있었음 좋겠누

펼쳐보기▼

12시5분

2024-02-29 02:22:07 답글

먼가... 이진 트리의 느낌이 살짝 오기도 하고 그렇네요 ㅋㅋ
예전에 논리회로 배울 때 기억으론 부동소수점 연산을 구현한 논리회로가 정수 연산 회로보다 많이 크고 복잡하다고 들었는데 저런 구조가 메인이 되면 AI 전용 연산칩을 만드는것도 많이 수월해지겠네요.

펼쳐보기▼

딸레

2024-02-29 19:56:10 답글

부동소수점 연산 안해도 된다는점부터 큰 장점같은데 빨리 연구되면 좋겠네요 로컬 LLM 4060에서 돌리는 행복회로를 돌려봅니다...

펼쳐보기▼

플레이신팬

2024-03-18 02:10:08 답글

4060은 부동소수점 연산 중 곱하기 나누기 나머지 등을 구현한 부분들이 있어서 부동소수점 덧셈에 특화된 전용 장비가 나와야 효율이 좋지 않을까요?

펼쳐보기▼

딸레

2024-03-18 10:53:53 답글

아하...전용칩을 기대해야겠네요

펼쳐보기▼

용바오

2024-04-09 23:39:08 답글

mistral-7b-instruct-1.58bit 이런 모델들이 나오길래 찾아보다가 이렇게 유익한 글을 접하게 되었네요. 정말 감사합니디.

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27972352

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5745

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25964

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8396

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

2441 일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5563 80

2440 일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스) [19]

DopeorNope 2024.03.12 2354 80

2439 일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 4957 70

2438 정보 구글: 우리에겐 방어막이 없습니다. - 유출 문건 한글 번역 [36]

hkhk 2023.05.05 7364 67

2437 자작모델 한국어Vicuna 모델 학습완료 및 모델 공개 [76]

하늘의아리아 2023.04.20 6890 65

2436 일반 여기 계신분중에 AI 프리트레인,파인튜닝법에 대해서 궁금하신분 있을까요? [22]

ㅎ헤ㅔ헤헤헤 2023.10.04 1724 61

2435 일반 70B개발 시작. [28]

DopeorNope 2023.12.05 1835 57

2434 일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까? [24]

maywell 2024.03.09 2494 53

2433 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [42]

maywell 2024.04.28 2980 50

2432 일반 한국어 데이터셋 생성 중단(완료) 총 4.3M+ [20]

maywell 2024.01.10 2109 50

2431 스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6168 43

2430 스터디 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 1970 41

2429 일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1329 40

2428 자료 토큰 확장법 정리 [19]

버트가조아 2024.01.05 1400 36

2427 자작모델 시나트라 v0.1 허깅 리더보드 결과 [14]

maywell 2023.10.10 1543 36

2426 자작모델 레몬LLM 13b (한국어) 공개 [92]

하늘의아리아 2023.05.27 4322 36

2425 일반 한국어 멀티턴 데이터셋 생성 모델, KoMultiGen-General [7]

maywell 2024.03.14 1464 35

2424 일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임 [43]

12시5분 2024.01.19 1420 34

2423 정보 AutoGPTQ가 huggingface Transformer에 통합됨 [19]

ㅇㅇ 2023.08.24 1086 33

2422 스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까? [30]

hkhk 2023.08.22 2427 33

글쓰기

전체글 개념글