Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3350명 알림수신 165명 @바바리맨

제한없는 언어모델을 위한 채널

정보 DenseFormer - 레이어 갯수가 트랜스포머 모델이 더 레이어가 많은 트랜스포머를 능가하게 만들기

hkhk

추천 17 비추천 0 댓글 6 조회수 1087 작성일 2024-03-22 16:57:35 수정일 2024-03-22 16:58:13

https://arca.live/b/alpaca/101849393

DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging

https://arxiv.org/abs/2402.02622

트랜스포머 기반 LLM들의 성능을 뻥튀기 하는 편법(?) 중 하나가 모델의 레이어를 복제해서 늘려붙이는 것인데요, 70B 모델의 중간 층들을 복붙해서 120B로 더 깊게 만드니까 모델의 추론성능이 높아지더라는 현상을 발견해서 mergekit 같은 툴들로 여러가지 병합 모델들이 매주 쏟아져나오고 있습니다.

특히나 서로 다른 모델을 겹쳐서 쌓아올리는게 아니라 그냥 자기 자신을 쌓아올리는 것만으로도 성능이 올라가는 것을 보면서, 뭔가 저 원리를 이용해서 트랜스포머의 디코딩 방식을 바꾸면 모델을 억지로 무겁게 만들지 않고도 성능을 높일 수는 없을까 하는 생각이 들지요.

아래에 DenseFormer 라는 이름으로 소개된 기법은, 48겹의 트랜스포머로 더 큰 72겹짜리 모델의 성능을 능가할 수가 있다고 합니다. 용량도 적고 속도도 더 빠르다니 굉장히 흥미롭네요.

적용한 방법을 간단히 설명하면 Depth Weight Average 라는 방법인데, 트랜스포머의 n 번째 블럭을 처리할 때, 그 입력은 n-1 번째 블럭의 출력값이 되는데 (원래방식), 그걸 좀 바꿔서 n-1 번째에 더해서 n-2 번째, n-3 번째, ... 등등 복수개의 출력값을 가중평균내서 n 번째 블럭의 입력값으로 쓰는 것입니다. 가중평균이니까 가까운 n-1 번째의 가중치는 높게주고, 먼 블럭의 가중치는 멀어질수록 점점 작아져서 영향력이 줄어들게 하는 것이지요. 이렇게 하면 개념적으로 같은 트랜스포머의 레이어를 여러겹으로 복사해서 추론능력을 올리는 방법과 비슷한 효과가 나는 것 같습니다.

<span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span>

https://twitter.com/MatPagliardini/status/1771168258856501564

https://github.com/epfml/DenseFormer

댓글 글쓰기

2024-03-22 20:49:01 답글

(1.58bit + DenseFormer + Moe) > GPT4

펼쳐보기▼

ㅇㅇ (114.71)

2024-03-23 05:38:41 삭제 수정 답글

resnet처럼 가져가는건가

펼쳐보기▼

hkhk

2024-03-23 15:51:40 답글

트랜스포머 디코더에는 기본적으로 residual connection 이 달려있습니다. 오히려 residual 쪽이 메인 줄기이고, 멀티헤드어텐션 쪽을 거치는 경로가 메인경로를 타고 올라가는 활성값에 약간씩 드리프트를 주는 역할 (점진적으로 의미를 주입)을 하지요

펼쳐보기▼

2024-03-23 06:49:30 답글

https://arca.live/b/alpaca/92192893 예전에 본 거랑 비슷한 느낌이네요 ㅎㅎ

펼쳐보기▼

hkhk

2024-03-23 15:50:05 답글

스킵 커넥션을 여러개 만들게 되면 학습하면서 역전파할때도 저 경로가 모두 계산 그래프에 포함되서 구조가 고정될거 같네요. DenseFormer 는 학습을 다시 하지 않고 그냥 디코딩 추론 코드만 바꿔서 하는 것 같은?

펼쳐보기▼

2024-03-23 15:55:35 답글

트랜스포머의 U-net화임?

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28246142

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5864

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26421

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8620

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 4921

공지 신문고

바바리맨 2023.04.18 2164

숨겨진 공지 펼치기(1개)

일반 애시당초 모든 일에 커버가능한 LLM은 존재할수 없는듯 [3]

고닉고로시 2024.03.25 573 4

일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5785 80

일반 grok 이거 맥에서도 가능한가요? [1]

ㅇㅇ (222.108) 2024.03.25 367 1

질문 여기 grok말고 groq 관심있으신분들은 없으신가요 [6]

ㅇㅇ 2024.03.24 558 4

정보 Mistral 7B v0.2 가 나왔습니다 [10]

noopSD 2024.03.24 1598 16

일반 언어모델쪽 산업이 지금보다 더 커질까? [2]

ㅇㅇ (121.173) 2024.03.24 633 2

일반 토이 프로젝트 같은거 없을까요? [2]

ㅇㅇ (175.126) 2024.03.24 483 1

정보 최적의 모델 병합을 자동적으로 탐색하는 알고리즘 [1]

hkhk 2024.03.23 950 17

질문 혹시 커뮤니티 어투에 특화된 한글 데이터셋이 있을까요? [7]

Dikko 2024.03.23 567 3

정보 DenseFormer - 레이어 갯수가 트랜스포머 모델이 더 레이어가 많은 트랜스포머를 능가하게 만들기 [6]

hkhk 2024.03.22 1088 17

질문 RAM 관련해서 질문 드립니다. [2]

ㅇㅇ (223.38) 2024.03.22 451 1

일반 ai가 결국 승자독식의 형태로 흘러갈까 [3]

ㅇㅇ 2024.03.22 689 -2

일반 제가 하려던게 이런거거든요. 로컬 AI가 편한것 같아요. [9]

BEO_pptac 2024.03.22 1020 2

질문 일반인이 LLM을 파인튜닝 할 수 있나요? [7]

엔피 2024.03.22 942 2

질문 문장완성 모델에도 E2E 학습 개념이 있나요? [1]

3시간 2024.03.22 284 0

일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1360 40

일반 3080 초당 토큰 0.67이 맞나요? [13]

ㅇㅇ (14.55) 2024.03.21 588 0

질문 우바부가로 한번 입문해보려고 설정했는데 남들과 같은 성능이 안나오는거 같습니다. 뭐가 문제일까요? [6]

kkge 2024.03.21 552 1

정보 BitNet 구현 코드(논문 기준) [3]

Cinnamomo 2024.03.21 680 6

전체글 개념글