Not all layers are equally as important - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3428명 알림수신 169명 @바바리맨

제한없는 언어모델을 위한 채널

정보 Not all layers are equally as important

Recharger

추천 6 비추천 0 댓글 0 조회수 427 작성일 2023-11-23 03:08:16

https://arca.live/b/alpaca/92192893

https://arxiv.org/abs/2311.02265

residual connection을 인접한 레이어 간에만 끼우며 모든 레이어의 비중이 1인 현재 방식 대신,

직전의 모든 레이어와 직접 연결하고 각 연결의 비중은 학습 가능한 파라미터로 만들면 유의미한 성능 개선이 있었다는 논문입니다.

다만 논문 그대로 구현하면 학습은 몰라도 추론 시엔 모든 레이어에서의 결과값이 필요하다 보니 메모리가 많이 필요할 것 같은데,

실제로 적용한다면 비슷한 결과를 내는 변형이나 계산 트릭을 고안해야 될 것 같네요.

인접한 레이어 말곤 중요도가 크게 떨어진다면 그냥 x' = 0.9x + layer(x)처럼 거리에 따라 지수적으로 감소하도록 때우는 것도 고려해볼만할 수도요?

댓글 [0] 글쓰기

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29289625

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6066

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27367

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9011

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

일반 이 실험에 몇 개월이 걸릴까요...? [11]

ㅎ헤ㅔ헤헤헤 2023.11.24 764 7

일반 llama.cpp에서 openai형 서버가 정식으로 지원될 예정 [1]

사과는맛있어맛있으면바나나 2023.11.24 433 4

자작모델 PiVoT-0.1-early 모델 공개 [4]

maywell 2023.11.24 707 12

일반 dpo 학습 해보신 분들 혹시 주제에 대해 편향이 생기거나 하나요? [3]

존코더 2023.11.24 365 0

질문 랭체인 쓸 때 PDF에서 비정형 표 추출 [9]

ㅇㅇ (163.180) 2023.11.24 593 0

질문 컴고수님들 질문있어요 (시스템램 확장 => igpu ram상승 ?)

해상ai 2023.11.24 168 0

일반 Synatra 0.3 RP 점수에서 신기한점 [11]

maywell 2023.11.24 659 6

질문 QLora loss zero 문제 [4]

mocha 2023.11.24 399 0

질문 시나트라 모델이 사이즈도 작은데 한국어를 꽤 잘하는거 같아서 [3]

뉴비챗 2023.11.24 601 0

일반 TheBloke HF에 한국어 로컬모델 양자화 뜸 [9]

레드우드 2023.11.23 632 6

정보 Not all layers are equally as important

Recharger 2023.11.23 428 6

질문 우바부가를 wsl에서 실행하시는 분들 어떻게 실행하시나요? [6]

그래요 2023.11.23 340 0

정보 허깅에 새로 공개된 병합모델 MythoMist-7b에 시나트라가 병합재료로 들어감. [7]

파라노이아 2023.11.22 765 5

일반 큰거.. 오나? [3]

ㅇㅇ (211.44) 2023.11.22 862 7

정보 H100보다 성능이 좋은 하드웨어...? [6]

ㅎ헤ㅔ헤헤헤 2023.11.22 928 5

일반 로컬은 아니지만 gpts 프롬프트 하나 여기 투척한다. 뉴스 검증 프롬프트 [5]

3시간 2023.11.22 688 7

일반 샘 알트만 복귀 [7]

ㅇㅇ 2023.11.22 535 1

질문 노이즈 임베딩은 정확한 정보를 요구하는 모델에는 안쓰는게 좋겠죠?

dsfajklklasd 2023.11.22 291 0

일반 무료한 오후에 한 뻘짓 GPTs를 이용한 mixture of experts 만들기 [1]

그래요 2023.11.22 541 2

글쓰기

전체글 개념글