기존 토큰과 확장된 토큰에 대해서 특정 레이어의 특정 토큰들만 얼리거나 학습률을 차등화하기

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3527명 알림수신 174명 @바바리맨

제한없는 언어모델을 위한 채널

정보 기존 토큰과 확장된 토큰에 대해서 특정 레이어의 특정 토큰들만 얼리거나 학습률을 차등화하기

hkhk

추천 7 비추천 0 댓글 8 조회수 944 작성일 2024-01-05 01:54:26 수정일 2024-01-05 16:07:01

https://arca.live/b/alpaca/95876035

야놀자 모델의 확장에서 추가된 한국어 토큰에 대해서는 얼려두었다라는 논의 글을 보고 약간 조사를 해봤는데, 레이어단위와 별도로 토큰 단위로도 얼리는게 가능하구나라는 것을 알 수 있는 정보를 찾아서 링크합니다.

[수정: 토큰단위로 학습률 조절은 안됩니다. 또한 그냥 개념만 대충 설명하는 코드이니 실제 실행은 안될겁니다. chatgpt 가 만들어준 코드라고 하네요 ;;]

import torch
import transformers

model = transformers.RobertaModel.from_pretrained('roberta-base')
embedding_layer = model.embeddings

weight = embedding_layer.weight

vocab_size = weight.size(0)

new_token_indices = [vocab_size - num_added_toks + i for i in range(num_added_toks)]

# Set a high learning rate for the new tokens' embeddings
high_lr = 1e-3
for index in new_token_indices:
    weight[index].requires_grad = True
    weight[index].lr = high_lr

# Set a low learning rate for the existing tokens' embeddings
low_lr = 1e-5
for index in range(vocab_size - num_added_toks):
    weight[index].requires_grad = True
    weight[index].lr = low_lr

#ALTERNATIVELY, you can freeze the existing token embeddings with:
# Freeze the embeddings of the existing tokens
for index in range(vocab_size - num_added_toks):
    weight[index].requires_grad = False

https://github.com/huggingface/tokenizers/issues/1160

다만, 저 위의 코드는 chatgpt 가 만든 코드라서 lr이 각 웨이트마다 있는 것처럼 착각해서 만들어짐. lr은 글로벌 파라메터이므로 모듈 내에서는 개별적으로 조절이 불가. 그냥 requires_grad조절 만 가능함

transformers의 llama model소스를 살펴보고 내용 보충합니다.

https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/modeling_llama.py

llama causal 모델은 크게 3개의 덩어리로 나눠져 있습니다

1. token (input_ids 로 입력받는 부분) 을 embed로 변환하는 레이어 - self.embed_tokens 레이어

2. embed를 GPT의 디코더 구조에 따라 해석하는 부분 (self.layers 배열에 정의된 레이어들

3. 최종적인 hidden_state로부터 다음 토큰을 예측하는 부분 (self.lm_head 레이어)

여기서 토큰 확장에 따라 직접 영향받는 레이어는 embed_tokens 와 lm_head 두개의 레이어입니다

토큰 갯수(vocab_size)가 30000 개이고, 각 엠베딩의 벡터의 성분 갯수 (hidden_size)가 4096 (llama 의 config.json에 정의) 이라고 할때

embed_tokens 와 lm_head 는 둘다 [30000, 4096] 텐서가 됩니다. (embed_tokens 에는 padding에 대한 것도 있지만 여기선 중요한게 아니므로 생략)

텐서가 담고 있는 각각 weight 들은 역전파를 돌릴지 말지에 대한 정보 (requires_grad)를 갖고 있습니다. [3,3] 짜리 LinearLayer 같은 텐서 1 개에는, requires_grad 가 1개 있는게 아니라 각각의 MLP마다 requires_grad가 있어서 총 9개의 requires_grad가 있는 것입니다.

lm_head는 맨 뒤쪽에 있는 레이어고 embed_tokens 는 맨 앞에있는 레이어이기 때문에 둘 다 영어쪽의 토큰에 해당하는 웨이트들의 학습을 얼리면 한국어 학습에 영어가 지장을 받지 않는다.. 가 핵심이 되겠네요.

레이어끼리는 중간층에서 서로 얽혀있기 때문에 맨 뒤에 있는 영어토큰을 얼려도 중간에 타고 들어와서 앞쪽 레이어의 영어 토큰이 영향을 받을 수가 있으니 둘 다 얼리는게 맞을거 같습니다.

댓글 [8] 글쓰기

maywell

2024-01-05 01:55:55 답글

vocab 확장의 새 지평선이 열리나?

펼쳐보기▼

hkhk

2024-01-05 02:30:56 답글

*수정됨

transformers의 llama model소스를 살펴보고 내용 보충합니다.

llama causal 모델은 크게 3개의 덩어리로 나눠져 있습니다

1. token (input_ids 로 입력받는 부분) 을 embed로 변환하는 레이어 - self.embed_tokens 레이어
2. embed를 GPT의 디코더 구조에 따라 해석하는 부분 (self.layers 배열에 정의된 레이어들
3. 최종적인 hidden_state로부터 다음 토큰을 예측하는 부분 (self.lm_head 레이어)

여기서 토큰 확장에 따라 직접 영향받는 레이어는 embed_tokens 와 lm_head 두개의 레이어입니다

토큰 갯수(vocab_size)가 30000 개이고, 각 엠베딩의 벡터의 성분 갯수 (hidden_size)가 4096 (llama 의 config.json에 정의) 이라고 할때
embed_tokens 와 lm_head 는 둘다 [30000, 4096] 텐서가 됩니다. (embed_tokens 에는 padding에 대한 것도 있지만 여기선 중요한게 아니므로 생략)

lm_head는 맨 뒤쪽에 있는 레이어고 embed_tokens 는 맨 앞에있는 레이어이기 때문에 둘 다 영어쪽의 토큰에 해당하는 웨이트들의 학습을 얼리면 한국어 학습에 영어가 지장을 받지 않는다.. 가 핵심이 되겠네요. 레이어끼리는 중간층에서 서로 얽혀있기 때문에 맨 뒤에 있는 영어토큰을 얼려도 중간에 타고 들어와서 앞쪽 레이어의 영어 토큰이 영향을 받을 수가 있으니 둘 다 얼리는게 맞을거 같습니다.

펼쳐보기▼

DopeorNope

2024-01-05 13:52:54 답글

*수정됨

근데 이거, 위 예시모델은 가능할지 모르겠지만, 대부분 LLM모델은 model.named_parameters로  param과 name을 가져와서 그 name이 embed나 lm_head있으면, param.require_grad로조절 하게 되는데.

이 pram을 인덱스 셀렉션으로 required_grad를 적용하게 되면, leaf_variable이 아니기 때문에, 각각 셀력션으로 얼리기 불가능하더라구요.

require_grad 변경하는것 자체가 leaf_variable에만 적용됩니다.

펼쳐보기▼

hkhk

2024-01-05 16:06:16 답글

def freeze_partial_embedding_hook(grad):
        grad[:32000] = 0
        return grad

    # Freeze all the parameters 
    for name, param in model.named_parameters():
        if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
            param.requires_grad = True
            param.register_hook(freeze_partial_embedding_hook)
        else:
            param.requires_grad = False

요런식으로 훅을 이용해서 얼리는 식으로 하는 것 같습니다

펼쳐보기▼

DopeorNope

2024-01-05 18:07:07 답글

*수정됨

아 확인했습니다.

그래디언트 0 으로 줘버리는 방법 재밌네요.

저도 이번에 토큰 확장 하고 있거든요.

재밌는 주제 던져주셔서 감사합니다...!

펼쳐보기▼

seok7354

2024-01-09 08:49:06 답글

추가 pretrain이 맞나요? 그럼 unlabeled data로만 학습하는건가..?

펼쳐보기▼

hkhk

2024-01-09 09:16:02 답글

pretrain 용 데이타로 할 것 같습니다. (제가 해보진 않음)

펼쳐보기▼

seok7354

2024-01-10 04:43:57 답글

vocab을 5000정도 증가해서 학습한다면 한국어를 이해하는 모델이 나오는데 얼마나 걸릴까요(mistral-7b 기준, a100 1장)

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31369429

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6280

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28538

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9479

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

628 정보 허깅에서 믹스트랄로 제작한 데이터셋 코스모페디아 공개. [3]

파라노이아 2024.02.21 585 9

627 정보 Jan으로 GGUF 모델을 쉽게 구동해보기 (+ Synatra 7B DPO 구동) [6]

12시5분 2024.02.20 737 7

626 정보 macOS 에서 nvtop 이 되는군요

noopSD 2024.02.18 303 1

625 정보 엔비디아가 자체 챗봇을 냈다네요 [3]

노랑노랑 2024.02.14 753 4

624 정보 RAG를 자동으로 최적화해주는 툴 - AutoRAG [12]

제풀이 2024.02.13 2067 19

623 정보 파인튜닝한 miqu 70B가 gpt4를 이겼다는 소식 [8]

사과는맛있어맛있으면바나나 2024.02.07 1899 15

622 정보 Qwen1.5 출시. 한국어도 지원 [11]

ㅇㅇ 2024.02.05 1135 4

621 정보 딥 러닝을 이용한 자연어 처리 입문 위키독스 [7]

고닉고로시 2024.02.05 1089 14

620 정보 a100 80g로 라마7b 100만 context, x8way로 1000만 context 논문 [4]

그래요 2024.02.02 1298 14

619 정보 miqu-70b는 mistral model의 초기 버전의 유출 [6]

ㅇㅇ 2024.01.31 955 6

618 정보 100+개 언어를 지원하는 Eagle 7B (RWKV-v5기반) 모델 [10]

12시5분 2024.01.31 772 9

617 정보 100개이상의 언어(한국어 포함)를 지원하는 다국어 임베딩 모델 BGE-M3 [1]

ㅇㅇ 2024.01.31 1041 7

616 정보 mistral medium 유출? miqu-70b [6]

ㅇㅇ 2024.01.30 876 3

615 정보 gemini pro(bard)가 gpt-4 성능에 근접했다는 소식입니다 [3]

그래요 2024.01.27 1193 13

614 정보 일→한 번역기 윈도우 앱 데모 만들었다 [23]

12시5분 2024.01.26 995 15

613 정보 데이타셋 클리닝을 위해 활용하는 편집자 모델 '카렌' [2]

hkhk 2024.01.25 446 6

612 정보 Stability AI에서 Stable LM2 1.6B를 공개했습니다 [1]

그래요 2024.01.24 694 4

611 정보 독자적인 방식의 토크나이저를 탈-Python화 시키기 [11]

12시5분 2024.01.22 1129 21

610 정보 orion-14B: 한국어를 포함한 다국어 언어 모델 [8]

ㅇㅇ 2024.01.21 982 7

609 정보 네이티브 환경에서 허깅페이스 Tokenizer 활용하기 [7]

12시5분 2024.01.20 751 10

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.