최근 화제가 된 비트넷 1.58 논문이 있어서 재현 시험이 있었지만 규모가 다소 작고(15.5M), 모델 및 학습 설정이 논문과 다른 부분의 한계가 있었습니다.



논문에서 나온 단계를 비슷한게 재현한 사례가 나왔는데 논문에서 나온 700M, 1.3B, 3B 규모의 모델을 사용했고 학습도 동일하게 RedPajama 데이터셋을 100B 토큰 학습시켰습니다.

고무적인 부분으로는 결과로는 발표한 perplexity 및 벤치마크 데이터가 비교적으로 유사하게 나왔고, 모델도 공개했습니다.

ModelsPPLARCeARCcHSBQOQPQWGeAvg
FP16 700M (reported)12.3354.723.037.060.020.268.954.845.5
BitNet b1.58 700M (reported)12.8751.821.435.158.220.068.155.244.3
BitNet b1.58 700M (reproduced)12.7851.421.835.059.620.667.555.444.5
FP16 1.3B (reported)11.2556.923.538.559.121.670.053.946.2
BitNet b1.58 1.3B (reported)11.2954.924.237.756.719.668.855.845.4
BitNet b1.58 1.3B (reproduced)11.1955.823.737.659.020.269.256.045.9
FP16 3B (reported)10.0462.125.643.361.824.672.158.249.7
BitNet b1.58 3B (reported)9.9161.428.342.961.526.671.559.350.2
BitNet b1.58 3B (reproduced)9.


아무래도 재현 결과가 원래 논문의 값보다 차이가 있긴있는데 (살짝 더 나쁜 편) 이는 아무래도 모델 학습 과정에서 생기는 무작위적 변동성과 논문에서 모델 학습을 튜닝했을 과정도 있을 것 같습니다.

아직 3B에 머물고 있고 격차가 완전히 좁혀지지는 않았지만 논문의 신빙성이 어느정도 높아지지 않았나 생각됩니다.

기존 모델은 기본적으로 1T 토큰, 많으면 12T 토큰으로 학습시키는데 100B는 최근 트렌드에 비하여 다소 짧은 편인 부분이 있어서 경쟁력 있는 고성능 모델이 나올 수 있는지 불확실합니다.

https://huggingface.co/1bitLLM/bitnet_b1_58-3B



Source: https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=450544&page=1