간단하게 알아보는 LoRA의 원리

AI 그림 채널

채널위키 알림 알림 중 알림 취소

구독자 74875명 알림수신 1655명 @NO_NSFW

인공지능으로 제작한 그림을 자랑하고 정보를 공유하는 채널

정보 간단하게 알아보는 LoRA의 원리

ㅇㅇ

추천 42 비추천 0 댓글 41 조회수 11379 작성일 2023-02-02 19:47:15 수정일 2023-02-02 19:58:07

https://arca.live/b/aiart/68914565

사실 간단하지 않음

시작하기 앞서, 이 글은

1. 행렬이 어떤 것인지 알고, 행렬간 연산을 할 수 있는 사람

2. 정규분포에 대해서 알고, 각 독립 변수의 분포의 합을 구할 수 있는 사람

3. (선택사항) 행렬의 rank가 무엇인지 아는 사람

이 아니라면 이해하기 힘들 수 있음을 알림

우선 LoRA는 2021년 10월 microsoft에서 발표한 논문

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS(https://arxiv.org/pdf/2106.09685.pdf)에서 공개된 것이고

비슷하게 읽어볼 논문으론 (내 추측으론) SD model의 하이퍼네트워크의 기반이 된

2016년에 발표된 HyperNetwork (https://arxiv.org/pdf/1609.09106)이 있음.

------------------------------------------시작------------------------------------------

1. LoRA는?

LoRA는 Low-Rank 어쩌구 저쩌구이기 때문에 Low Rank가 무엇인지 알고 시작을 해야함

Low는 낮은 거고 Rank는 행렬의 rank를 지칭하는 것임

행렬의 rank는 간단히 행렬의 행이나 열에서 서로 독립인 행과 열의 개수를 가리키는데,

우리가 사용할 d * r, r * k(r은 d나 k보다 매우 작음)의 행렬에선 그냥 행이나 열 중에 작은 값이라고 생각하면 됨.

그래서 종합하면 LoRA는 낮은 rank의 행렬을 이용해 거대 모델(우리는 SD 모델)을 튜닝하는 방법이라고 할 수 있다

2. 그래서 어떻게 튜닝되는데?

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 중 일부.

영어가 좀 길지만, 우리가 볼 것은 3번 식만 보면 된다.

W0는 원래 모델(행렬 d * k)이고 ΔW는 파인 튜닝을 진행했을 때 원래 모델과의 차이를 가리킴(당연히 원래 모델과 같은 크기(d*k)의 행렬이겠지?)

근데 dreambooth처럼 ΔW를 전부 계산하면 VRAM도 많이 잡아 먹고 학습 결과물도 새로운 모델 그 자체가 나오기 때문에 저장공간도 잡아먹음

근데 LoRA는 여기서 ΔW를 B * A의 행렬 곱으로 나눔과 동시에 B를 d * r행렬, A를 r * k행렬로, 즉 low-rank 행렬 두 개의 곱으로 나눴다.

그렇게 되면 parameter 수도 원랜 W0랑 같이 d * k만큼 가지고 있을 것이,

B, A 모두 합쳐 (d + k) * r 만큼의 파라미터를 가지게 됨(적은 용량, 빠른 계산) (r << d, k 이므로 당연히 (d + k) * r < d ∗ k임)

그리고 원본모델 W0는 가만히 냅두고 BA에 대해서만 학습을 진행하기 때문에, 적은 용량 빠른 계산 모든 이점을 취할 수 있게 됨

또한 원래 모델과 합친다고 할 때, 원래 모델 W0은 내비 두고 학습된 BA 부분만 더해주면 되기 때문에,

파인 튜닝한 결과가 모듈처럼 붙였다 뗐다가 할 수 있는 거( <lora:이름:가중치>, 여러 개 써서 lora 여러 개 불러오는 게 이거 때문에 가능)

근데 행렬 쪼개서 계산한다고 파인튜닝이 잘되냐? microsoft가 잘된대 ㅇㅇ 그냥 하셈

빌게이츠가 나보다 똑똑할거니깐 코런갑다 하고 LoRA잘 쓰면 된다

여기 까지만 읽으면 사실 거의 다 이해한 거임. 3부터는 학습에 관련된 얘기라서 안 할 거면 몰?라도 됨

이 밑에서부터는

1. 딥러닝 모델이 어떻게 학습되는지 개략적으로 이해하는 사람

이 아니라면 따라오기 힘들 수 있음

3. α/r 값을 곱해준다?

다만 논문에서 잘 보면 ΔW에다가 α/r 값을 곱해준다고 했음. 왜? 그냥 BA값을 모델을 그냥 더하지 않는 이유가 있을까?

3-1. 1/r

답은 당연히 있음, 우선 1/r로 나누는 부분부터 살펴본다면

BA는 두 low-rank, rank(B)=rank(A)=r 행렬임. 그래서 생성된 ΔW 행렬의 성분은 두 행렬 BA의 행렬곱으로 만들어 지게 됨

예를 들어, ΔW의 (1, 1) 성분은 ∑B_1i * A_i1, i = 1, 2, ... , r임

근데 A행렬은 정규분포를 따른다고 했기 때문에 ΔW의 (1, 1) 성분은 r개의 독립변수의 정규분포의 합이 될 수밖에 없음

따라서 ΔW의 각 성분의 분포는 ΣN(0, 1) = N(0, r)이 되기 때문에, ΔW는 더 이상 표준 정규분포가 아니게 되어버림

그래서 1/r을 곱해서 ΔW을 표준정규분포로 바꿔주는 작업을 하게 된거임

3-2. α값은?

1/r은 왜 하는 지 알겠는데 α은 왜 나왔냐? 하면 설명이 긴데 간단히 두 가지 측면으로 나눠보면,

1) 1/r 을 곱했기 때문에 상대적으로 높은 rank를 가진 LoRA는 학습되는 속도가 느려진다.

2) α값을 곱함으로써 ΔW를 더 빨리 내가 원하는 방향으로 학습할 수 있음.

이 있다

다만, α을 수정하는 것 자체는 learning rate를 바꾸는 결과와 유사하게 내가 손 대야 할 hyperparameter가 늘어남을 유도함

그래서 microsoft가 공개했을 당시는 α값을 그냥 1로 고정하고 진행했다. (수정할 hyperparameter 수를 줄이기 위해서)

예제들만 봐도 r=4, r=8 이런 식이라 1/r 부분이 큰 영향을 주지 않았기 때문에, 아주 튜닝도 잘되고 용량도 작은 LoRA가 나왔음

그러나 SD 모델에 LoRA 모델을 학습시키는 과정에서 왜인진 모르겠는데 r=128 이상 쓰는(내 생각엔 이정도면 low-rank아님) 모델들이 나왔고

sd 1.x 모델 용량이 2.0GB인데, r=128 LoRA모델은 약 144MB니깐 충분히 작?은 용량으로도 파인튜닝이 되니 r=128이 유행타기 시작한 것 같음

그러다 보니 논문대로 α값은 1로 뒀는데 1/r 부분은 그대로 두는 사태가 벌어져 실제 학습률이 1/128토막나서 학습되는 경우가 생기게 되었고

몇몇 high rank 모델들이 underflow문제가 발생하게 됐음.(LoRA가 작동 안 함)

그렇게 되어 LoRA repo에서도 α값을 hyperparameter로 추가하는 일이 벌어졌다고 볼 수 있다.

이에 대한 해결책으로 두 가지 방법이 있다고 생각되는데

1. microsoft 논문의 예제대로 r=4, r=8 등 low-rank를 쓰면서 α=1로 두고 learning rate값만 hyperparameter로 둔다.

2. high rank의 경우, α = r로 두어서 ΔW의 스케일링 효과를 아예 없애고 learning rate값만 hyperparameter로 둔다.

난 LoRA 취지에 맞게 r=4, r=8로 low rank로 하는 걸 선호하긴 하는데, 둘이 뭔 차이냐고 물어보면

나도 ㅁ?ㄹ

학습 시 적정 hyperparameter를 설정할 수 있는 마법의 방법이 있다면 나도 좀 알고 싶네

끝.

ㅇㅇ

2023-02-02 19:50:00

ㅁㅋㅍ

2023-02-02 19:50:45

알겠습니다!(모르것는디)

펼쳐보기▼

버츄얼티쳐

2023-02-02 19:52:05

논문추

펼쳐보기▼

이하비스

2023-02-02 19:52:36

인끝도

2023-02-02 19:54:24

간?단

펼쳐보기▼

ㅇㅇ

2023-02-02 20:02:06

오(이해못함)

펼쳐보기▼

산리

2023-02-02 20:04:38

제세현

2023-02-02 20:09:31

qwer

2023-02-02 20:12:24

*수정됨

rank가 network dimension 값이지? 그걸 4나 8로 해도 캐릭터 구현이 제대로 되나?? 예를 들면 블루아카 키사키 옷 무늬 같은 디테일한거

펼쳐보기▼

ㅇㅇ

2023-02-02 20:12:40

*수정됨

ㅇㅇ 됨. 이거 이후에 rank별로 비교한거 올리려고 컴터 굴리는 중

펼쳐보기▼

qwer

2023-02-02 20:13:00

오... 생각도 못했는데 낮춰서도 해봐야겠다 ㄳㄳ

펼쳐보기▼

HakasaeJin

2023-02-02 20:20:17

노인깎는방망이

2023-02-02 20:53:05

학습챈에 저거 알파 조정하게 추가한거가지고 무지하게 징징대는애들 있더만 kohya 병신 아니냐고

펼쳐보기▼

죠셉죠스타

2023-02-02 21:00:13

일단 추

펼쳐보기▼

zsZkQWEqJvtVbh0i

2023-02-02 21:31:38

Hedther

2023-02-02 21:33:04

컴알못인 저는 조용히 추천만 남기겠습니다...

펼쳐보기▼

ㅇㅇ

2023-02-02 22:05:16

초고추장커피국밥

2023-02-02 22:06:23

아하(이해못함)

펼쳐보기▼

호랑할배

2023-02-02 23:10:38

4메가짜리 용령으로도 고퀄리티 학습파일을 공유할 수 있다고 싱글벙글하던게 로라인데 어느새 보니 144메가 짜리가 대세로 돌아다님. 하이퍼도 레이어 늘려서 용량 크게하나 1,1레이어로 용량 줄이나 퀄리티 차이 크게 못느끼겠어서 작은걸로 만들고 다녔는데. 용량이 크면 무조건 성능이 비례해서 좋을거라는 환상같은게 있는거 같음. 좋은글 개추

펼쳐보기▼

화인즈

2023-02-02 23:27:56

이리보니 ㄹㅇ 신기하네 이런방식인데 학습이 왜 잘되는거야?

펼쳐보기▼

봉하부엉이

2023-02-03 00:23:29

난죽음을경험한적이없네

2023-02-03 01:52:51

ㅇㅇ

2023-02-03 02:11:52

*수정됨

직관적으로 말하자면 학습할때의 파라미터의 변화량 ΔW를 두개의 행렬 A,B로 나누어 근사한다는 느낌으로 생각하면 됨
파라미터 초기화는 구현,심도있는 공부 아니면 skip하면됨.

펼쳐보기▼

ㅇㅇ

2023-02-03 02:18:02

*수정됨

low rank는 정확히 말하자면 근사할 d*k의 파라미터가 r<d인 시점에서 그냥 더 낮은 rank여서 low rank라 부름.

펼쳐보기▼

ㅇㅇ

2023-02-03 02:29:54

그리고 learning rate없이 학습하는 optimizer(https://github.com/facebookresearch/dadaptation) 있으니까 hyperparameter에 lr없애는 방법도 있음

GitHub

GitHub - facebookresearch/dadaptation: D-Adaptation for SGD, Adam and AdaGrad

D-Adaptation for SGD, Adam and AdaGrad. Contribute to facebookresearch/dadaptation development by creating an account on GitHub.

그리고 learning rate없이 학습하는 optimizer(https://github.com/facebookresearch/dadaptation) 있으니까 hyperparameter에 lr없애는 방법도 있음

펼쳐보기▼

ㅇㅇ

2023-02-03 03:12:39

barunsol

2023-02-03 02:54:18

꿈을꾼다

2023-02-03 03:03:59

*수정됨

수알못 질문 "ΔW의 (1, 1) 성분은 ∑B_1i * A_i1, i = 1, 2, ... , r임"
이부분 "B_1i * A_i1, i" 요거 표기가 뭔지 모르겠음 텍스트로 된 표기는 못봐바서...

그리고 왜 ∑B_1i * A_i1, i 의 답이 덧샘들이 아니라 "1, 2, ... , r"임? 
∑가 더하는거 아니었나? ΔW의 (1, 1) 성분은 B의 제1행 성분과 행렬 A의 제1열 성분들을 곱해서 더한 값이어야 되는거 아님?

펼쳐보기▼

ㅇㅇ

2023-02-03 03:12:23

ㅇㅇ 그 곱해서 더 하는게 r개만큼 있다는 표시임, B의 열의 갯수와 A의 행의 갯수가 r개니깐

펼쳐보기▼

ㅇㅇ

2023-02-03 03:15:52

*수정됨

풀어서 쓰면 ΔW_11 = B_11*A_11 + B_12*A_21 + B_13*A_31 + --- + B_1r*A_r1

펼쳐보기▼

꿈을꾼다

2023-02-03 03:19:22

아하 풀어쓴거 보니까 이제 이해가 감 ㄱㅅ

펼쳐보기▼

저능아분쇄기

2023-03-23 17:27:05

이게 이해가 된다고? 믹서기 큰거 사서 들어가야겠다

펼쳐보기▼

IBEAAA

2023-02-03 04:50:59

a가 추가된 이유가 있었군요 ㅎㅎ 뭔가 생기기는 했는데 무슨 용도인지 애매하던 참에 자세하게 알려주셔서 감사합니다! 학습이 잘 된 Lora 파일들 메타데이터 확인해보고 있는데 대부분은 그냥 r 128 a 128로 설정하고 lr만 조정하고 있는 것 같습니다. 이번에는 rank를 낯추고 a를 1로 해서 테스트를 해봐야겠네요.

펼쳐보기▼

DaVi

2023-02-03 05:59:59

근데 128도 충분히 low rank일듯. 딥러닝 잘 아는건 아니지만, 아마 내가 알기론 sd1.5가 dimension이 512인걸로 알고 있는데, matrix라서 1/16정도만 바뀌는거라...

펼쳐보기▼

ㅇㅇ

2023-02-03 07:59:22

*수정됨

맞음. low rank라는게 weight를 dxd행렬이면 여기서 d가 full rank임 그리고 우리가 사용할 r < d이면 low rank라고 부름.
sd1.5 dimension은 512보다 좀 크고 다양함(320,640,1280,1280,cross attention은 768).
512를 128로 lora하면 메트릭스의 크기는 1/2배정도밖에 안 작아짐.(512*128 + 128*512)/(512*512) = 0.5

펼쳐보기▼

노인깎는방망이

2023-02-03 12:44:42

이게 마따
애초에 140메가라고 쳐도 몇기가짜리 모델을 통짜로 파인튜닝하는것보다 쉽다는 점에서 가치가 충분함

펼쳐보기▼

ㅇㅇ

2023-02-03 07:45:31

valkyria

2023-02-03 13:32:49

간단하다해서 들어왔는데 첫줄부터 사기였음을 고하는 ㅋㅋㅋㅋㅋㅋㅋ

펼쳐보기▼

초광속입자

2023-02-04 02:56:32

선형대수 복습해야겠네…

펼쳐보기▼

로안a

2023-02-04 13:49:18

ㅗㅜㅑ.. 굿굿. 그런데 LoRA 모델이 이미지 모델을 위해서가 아니라, 거대 자연어처리 모델 학습을 줄이기 위해서 나온 논문이구나! 몰랐었네.

펼쳐보기▼

잘풀리는집

2023-02-10 01:02:12

빨리 버튼 하나만 누르면 되게 해주세요!.

현기증 납니다.

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 그림 공지 운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28115840

공지 AI 그림 채널 통합 공지 (2023-10-05)

NO_NSFW 2022.10.23 590452

공지 ( 진행중 ) 대회 관련 공지 / 현재 진행중인 대회

NO_NSFW 2023.02.01 68071

공지 AI그림 채널 신문고

NO_NSFW 2022.12.10 74050

공지 곤살레스(아카 AI) 관련 공지

NO_NSFW 2024.03.26 9628

공지 본 채널은 AI 그림의 수익화를 반대합니다.

NO_NSFW 2023.05.11 56067

공지 공지 정보글에 여러분들의 기여가 필요합니다

DeepCreamPy 2023.02.21 82685

숨겨진 공지 펼치기(2개)

그림 뚝딱 뽑은 악마녀 [6]

Passchendaele 2023.02.02 582 6

그림 이게남자라니놀랍네요 [5]

깡통계 2023.02.02 669 7

그림 여성향 만화 주인공 스타일 [1]

깡통계 2023.02.02 557 4

일반 고대 도시 [3]

저어어새 2023.02.02 312 4

그림 해골좌 lora는 다 좋은데 빈유캐가 안뽑힌다 [3]

Shrimp 2023.02.02 1982 1

그림 어째선지 새벽녘 숲을 속옷바람으로 산책하는 엘프 [3]

노인깎는방망이 2023.02.02 618 6

일반 토끼 쓸데없이 왤케 귀여움 ㅋㅋㅋㅋ [18]

ㅇㅇ 2023.02.02 1533 30

일반 판타지 [1]

저어어새 2023.02.02 315 1

그림 아청) 꼬맹이들을 울려보았다. [7]

일반 오렌지믹스2가 9:16 비율이 타율이 높은거같?음

ㅇㅇ 2023.02.02 352 1

그림 쓰읍 좀 아쉬운데 [4]

Passchendaele 2023.02.02 251 1

그림 분명 조금만 하다가 자야지 했는데 [4]

파른 2023.02.02 328 5

일반 너무 몸만 나오는게 많으면 무슨 프롬을 넣어줘야할까 [8]

ㅁㅋㅍ 2023.02.02 417 1

일반 코랩 이상한 이유를 알아냈음 [3]

구군구 2023.02.02 471 1

일반 어중간한 시드 부여잡고 한장씩 뽑는 건 답이 없는 듯 [2]

이네 2023.02.02 319 1

일반 아 삭제글 보고싶다 [4]

이하비스 2023.02.02 345 3

일반 심각한 수준의 [8]

Lucetepolis 2023.02.02 1127 27

그림 괴물을 만들고 싶었어 [17]

이솔레스티 2023.02.02 1283 22

그림 네온 사인 [3]

MkLekc 2023.02.02 323 6

그림 손모양 뽑기 너무 빡세다 진짜 [3]

MkLekc 2023.02.02 478 4

그림 DosMix 뽑으니깐..예쁘네~ [1]

하그노스 2023.02.02 831 3

일반 원래 바질이랑 병합하면 뷰지가 잘 안 나오나? [1]

nxnx 2023.02.02 240 6

전체글 개념글