비트넷 b1.58 모델 재현 + 모델 공개 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3539명 알림수신 174명 @바바리맨

제한없는 언어모델을 위한 채널

일반 비트넷 b1.58 모델 재현 + 모델 공개

ㅇㅇ (141.223)

추천 18 비추천 0 댓글 4 조회수 1355 작성일 2024-03-29 14:40:45

https://arca.live/b/alpaca/102378229

최근 화제가 된 비트넷 1.58 논문이 있어서 재현 시험이 있었지만 규모가 다소 작고(15.5M), 모델 및 학습 설정이 논문과 다른 부분의 한계가 있었습니다.

논문에서 나온 단계를 비슷한게 재현한 사례가 나왔는데 논문에서 나온 700M, 1.3B, 3B 규모의 모델을 사용했고 학습도 동일하게 RedPajama 데이터셋을 100B 토큰 학습시켰습니다.

고무적인 부분으로는 결과로는 발표한 perplexity 및 벤치마크 데이터가 비교적으로 유사하게 나왔고, 모델도 공개했습니다.

Models	PPL	ARCe	ARCc	HS	BQ	OQ	PQ	WGe	Avg
FP16 700M (reported)	12.33	54.7	23.0	37.0	60.0	20.2	68.9	54.8	45.5
BitNet b1.58 700M (reported)	12.87	51.8	21.4	35.1	58.2	20.0	68.1	55.2	44.3
BitNet b1.58 700M (reproduced)	12.78	51.4	21.8	35.0	59.6	20.6	67.5	55.4	44.5
FP16 1.3B (reported)	11.25	56.9	23.5	38.5	59.1	21.6	70.0	53.9	46.2
BitNet b1.58 1.3B (reported)	11.29	54.9	24.2	37.7	56.7	19.6	68.8	55.8	45.4
BitNet b1.58 1.3B (reproduced)	11.19	55.8	23.7	37.6	59.0	20.2	69.2	56.0	45.9
FP16 3B (reported)	10.04	62.1	25.6	43.3	61.8	24.6	72.1	58.2	49.7
BitNet b1.58 3B (reported)	9.91	61.4	28.3	42.9	61.5	26.6	71.5	59.3	50.2
BitNet b1.58 3B (reproduced)	9.

아무래도 재현 결과가 원래 논문의 값보다 차이가 있긴있는데 (살짝 더 나쁜 편) 이는 아무래도 모델 학습 과정에서 생기는 무작위적 변동성과 논문에서 모델 학습을 튜닝했을 과정도 있을 것 같습니다.

아직 3B에 머물고 있고 격차가 완전히 좁혀지지는 않았지만 논문의 신빙성이 어느정도 높아지지 않았나 생각됩니다.

기존 모델은 기본적으로 1T 토큰, 많으면 12T 토큰으로 학습시키는데 100B는 최근 트렌드에 비하여 다소 짧은 편인 부분이 있어서 경쟁력 있는 고성능 모델이 나올 수 있는지 불확실합니다.

https://huggingface.co/1bitLLM/bitnet_b1_58-3B

1bitLLM/bitnet_b1_58-3B · Hugging Face

1bitLLM/bitnet_b1_58-3B · Hugging Face

huggingface.co

Source: https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=450544&page=1

댓글 [4] 글쓰기

ㅇㅇ (222.101)

2024-03-29 16:27:26 삭제 수정 답글

매우 흥미롭네요

펼쳐보기▼

ㅇㅇ (141.223)

2024-03-30 07:54:02 삭제 수정 답글

추가적인 재현 시도:

Nous Research에서 OLMo-1B모델에 대하여 독립적으로 재현을 했는데 여기에서도 논문의 주장을 어느 정도 확인 했다고 하네요.
https://huggingface.co/NousResearch/OLMo-Bitnet-1B

NousResearch/OLMo-Bitnet-1B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

추가적인 재현 시도:

Nous Research에서 OLMo-1B모델에 대하여 독립적으로 재현을 했는데 여기에서도 논문의 주장을 어느 정도 확인 했다고 하네요.

펼쳐보기▼

2024-03-31 02:12:19 답글

잉 오히려 reproduced가 약간 더 좋은걸로 보이는데요? ㅋㅋㅋ

펼쳐보기▼

2024-04-01 14:47:07 답글

더큰모델에도 적용되면 좋겠네요

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31525260

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6298

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28644

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9509

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5498

공지 신문고

바바리맨 2023.04.18 2367

숨겨진 공지 펼치기(1개)

1603 일반 형님들 안녕하세요 llm 뉴비입니다 [4]

RoT 2024.04.21 528 0

1602 일반 llama3 8b 아이폰에서 로컬로 돌리는거 신기하네요 [4]

ㅇㅇ 2024.04.21 945 4

1601 일반 허깅페이스 15T 데이터셋 공개ㄷㄷ [20]

qnqnqn 2024.04.21 1505 12

1600 일반 님들 70B 정도 되는 모델 로컬에서 돌릴려면 4090 몇개 정도 있으면 될까요? [7]

이게예술이지ㅋㅋ 2024.04.21 1000 0

1599 일반 llama-70B 이새끼 뭐임? ㄷㄷㄷ [6]

이게예술이지ㅋㅋ 2024.04.21 1391 7

1598 일반 Oobabooga, 자신만의 벤치마크 발표 [4]

파인애플 2024.04.21 652 8

1597 일반 chat 모델에 completion(raw) 데이터를 어떻게 학습 할 수 있을까? [16]

maywell 2024.04.20 1506 28

1596 일반 llama3 70b instruct하고 claude3 opus 같은질문에 대한 답변 비교 [1]

그래요 2024.04.20 617 5

1595 일반 llama3 학습을 위해 llama2를 이용해서 데이타셋 정제를 한거 같네요 [5]

그래요 2024.04.20 742 6

1594 일반 효율적인 무한 컨텍스트 변환기(비공식) [4]

zzzzz5 2024.04.19 979 12

1593 일반 개인적으로 생각하는 추가 학습 아이디어 [1]

모맵 2024.04.19 467 0

1592 일반 chatbot arena에서 카타고리 english로 바꾸니 llama3 성능이 말이 안되는데요 [4]

그래요 2024.04.19 484 7

1591 일반 llama-3 찍먹 가능한 곳 추천 [5]

angmond2 2024.04.19 905 5

1590 일반 트위터) chatbot-arena 근황 [3]

사과는맛있어맛있으면바나나 2024.04.19 610 7

1589 일반 역댁꿉! 라마3 8B 의 무서움 (소오~름) [5]

ㅇㅇ (125.133) 2024.04.19 1130 -2

1588 일반 llama3 8b 모델이 llama2 70b 모델 성능에 근접하네요 [11]

그래요 2024.04.19 813 2

1587 일반 Llama-3-Instruct exllamav2 EOS 미작동 문제 응급조치 방법? [3]

포리X 2024.04.19 320 5

1586 일반 Llama3 400b benchmark [1]

ㅇㅇ (211.246) 2024.04.19 446 2

1585 일반 예측 성공! [1]

ㅇㅇ 2024.04.19 487 4

1584 일반 챈섭 오픈 Llama-3-70B-exl2_5.0bpw / Llama-3-8B-hf-exl2-6bpw (종료) [23]

변태Lv1 2024.04.18 1273 12

전체글 개념글