딥러닝 모델은 어떻게 정보를 '기억' 할까?

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3310명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까?

hkhk

추천 33 비추천 0 댓글 30 조회수 2426 작성일 2023-08-22 19:14:02 수정일 2023-08-23 08:10:48

https://arca.live/b/alpaca/84431241

안녕하세요? 오랫만에 스터디 글을 써보겠습니다. 오늘의 주제는 '메모리'입니다.

생성모델에서 언어모델이건 이미지모델이건, 뭔가 모델이 '알고' 있는 내용을 바탕으로 만들어내는 것은 분명해보입니다. 그리고 파인튜닝을 통해서 그 내용에 영향을 줄 수 있는 것도 직접 확인해 볼 수 있습니다.

혹자는 파인튜닝은 기존의 베이스 모델이 알고 있던 정보의 형태를 정렬하는 것만 가능할 뿐, 새로운 지식을 추가하는 것은 아니다라고 주장하는 경우도 있는데요, 몇몇 사례를 놓고 이러한 주장이 맞는지 틀린지에 대해서는 단언할 수가 없습니다. 왜냐하면 추가 학습하는 데이타셋의 크기, 학습시간, 모델의 형태, LoRA의 경우 랭크나 학습률, 대상 모듈 등의 하이퍼파라메터, 파운데이션 모델 자체의 과적합 여부 등, 여러가지 요소가 영향을 끼치기 때문이지요.

이런 부분에 대해서는 딥러닝 모델의 원리를 알아야 각각의 정황정보를 해석할 수 있고, 올바른 판단을 내릴 수 있겠죠.

그래서 오늘 시간에는 어찌보면 가장 흥미로운 주제라고도 할 수 있는 딥러닝 모델의 '기억' 에 대한 얘기를 해보려고 합니다.

https://www.youtube.com/watch?v=piF6D6CQxUw

제가 전달해드리는 내용은 위 영상을 토대로 한 것입니다. 크게 어렵지 않은 내용이고 애니메이션으로 설명을 잘 만든 영상이기 때문에 가능하면 직접 영상을 전부 보시는 것을 권해드립니다.

보통의 컴퓨터의 메모리는 램같은 휘발성 장치, 혹은 HDD나 SSD 같은 비휘발성 장치에 담겨 있고 CPU 가 통제해서 읽을 수 있는 형태를 띄고 있습니다.

이런 식의 메모리의 특징은 각 정보마다 '위치' 가 존재한다는 중요한 특징이 있습니다. cpu 나 I/O 장치는 어떤 정보가 필요할 때 그 위치로 찾아가면 됩니다.

따라서 정보의 양이 얼마나 되는지, 얼마나 가득찼는지, 비어있는지등을 쉽게 판별할 수가 있으며, 그 정보를 끄집어내는데에 필요한 시간도 상대적으로 일정한 편입니다.

그에 비해 생물의 뇌나 딥러닝 모델이 정보를 기억하는 방식은 전혀 다릅니다.

정보는 일정한 위치에 저장되어 있지 않으며, 한번에 그 정보를 끄집어낼 수도 없습니다. 대신, 일정한 규칙을 토대로 시간 스텝을 밟아가면서 뉴런들간의 연결을 타고 훑어가다보면 원하는 정보를 끄집어낼 가능성이 있는 형태입니다. 이런 형태를 Associative Networks 라고 부릅니다

인간 뇌의 뉴런 그림인데, 가운데 뉴런을 중심으로 주변의 다른 뉴런에 뻗어나가있는 연결들을 볼 수 있습니다.

인공지능 초기부터 학자들은 이것을 수학적으로 특징을 따서 그래프 형태로 모델링할 수 있는 방법을 연구해왔습니다

이와 관련해서는 헵의 규칙이라는 발견이 유명한데 1949년 심리학자인 헵이 '시넵시스 앞과 뒤에서 동시에 신경세포가 흥분할 대 해당 시냅시스의 효율이 강화된다' 라는 논문을 발표했습니다. 이것을 통징적으로 헵의 규칙 또는 헵의 학습규칙이라고 합니다. 그 특징에 주목하여 연결에 가중치를 수치화한 퍼셉트론이라는 모델이 만들어졌고, 퍼셉트론끼리 연결을 어떤 형태로 할까 연구를 거듭하면서 MLP, CNN, RNN, Transformer 같은 다양한 딥러닝 모델이 발전하게 됩니다.

제가 참고한 영상에서 소개한 네트워크는 홉필드 네트워크란 것인데, 뉴런을 서로 연결하고 특정 규칙에 따라 업데이트하면서 상태를 변화시키는 간단한 모델입니다. 여러가지 문제점(아래 글을 보다보면 나옵니다) 때문에 요즘의 모델에서 사용되는 방식은 아니지만 구조가 간단하고, 시각화가 용이해서 이미지의 기억이라는 개념을 설명하기에 적합하기 때문에 이 모델을 선택했습니다.

위에 보는 것처럼 8*8 픽셀 그리드 형태를 기억하는 홉필드 네트워크를 보면 뉴런이 8*8 형태로 배치되어있고 서로서로 양방향 연결된 형태입니다. 그리고 각 뉴런은 +1 아니면 -1 이라는 모아니면 도 식의 상태값만 가지고 있습니다.

이 네트워크도 일종의 딥러닝 모델이기 때문에 우리가 원하는 것을 학습을 시킬 수 있고, 그 대상을 각 연결의 가중치라는 형태로 기억하게 됩니다.

예를 들어서 위 그림의 왼쪽에 있는 숫자 1 모양의 그림을 학습시켰다고 가정해봅시다.

그러면 나중에 네트워크의 초기값을 랜덤으로 준 상태에서 시작해도, 네트워크를 계속 업데이트하다보면 점점 원래의 학습한 형태로 모양이 변합니다.

위의 최종 결과물을 보면 원래 모양과 같은 결과가 나오는 경우도 있고 반전된 결과가 나오는 경우도 있는데 저런 대칭성이 나타나는 것은 홉필드 네트워크의 종특이니까 일단 그러려니 합시다.

이런 네트워크의 기억방식을 잘 비유할 수 있는 대상이 있다면 '메모리폼 베게' 를 예로 들 수 있습니다. 어떤 외부의 주체가 있어서 꾸겨놓았던 베게의 모양을 원래대로 잘 펼쳐주는 것이 아니라, 베게를 구성하는 각 분자들간의 연결구조에 존재하는 연결들의 강함과 약함이 전체 사물의 형태를 기억하는 역할을 하는 것이지요.

그럼 저 네트워크는 저런 그림 한장만 기억할 수 있는 것일까요? 그렇지 않습니다. 저 네트워크는 여러장의 그림을 기억할 수 있습니다.

위의 경우를 보면 4가지 이미지를 학습시켰습니다. 역시 랜덤하게 초기화시켜서 네트워크를 돌리다보면 재미있는 결과가 나오기 시작하는데요

위 그림을 보면 6장의 그림중 4가지는 원래의 학습된 기억을 끄집어냈는데 2가지는 두개의 이미지가 혼합된 결과를 끄집어냅니다. 일종의 할루시네이션이라고 볼 수도 있겠네요.

참고로 저렇게 하나의 네트워크에 여러장의 이미지를 학습시킨 방법은, 각 이미지를 학습한 가중치를 '평균' 을 낸 결과물입니다. 평균을 내서 만든 모델에서 각각 원래의 이미지를 선명하게 학습하는 것이 신기하기도 합니다. 이전 글에서 엠베딩을 설명하면서 mean pooling 이라는 텐서들의 평균을 이용하는 것에 이어서 평균이란 존재가 또 나오네요.

디퓨전에서 체크포인트 모델을 평균을 내서 실사(바질믹스) + 카툰(어비스 오렌지) => 반실사 모델을 만들어내는 신기한 원리의 가장 간단한 사례라고도 할 수 있겠네요. 체크포인트 병합의 경우에도 결국 평균을 내서 만든다는 점에서는 근본적으로 동일합니다.

그럼 이 시점에서 가장 중요한 질문이 남았네요. 저런 모델은 이미지를 몇장이나 기억할 수 있는걸까요? 답은 '모델의 크기와 정확한 패턴의 기억량은 비례한다' 입니다. (홉필드 네트워크의 경우에 한정된 것인지? 다른 종류의 모델에도 통용되는 얘기인지는 확인하지 못했습니다)

'정확한 패턴 (stable memory = 홉필드 네트워크를 돌리면 안정적으로 수렴하는 결과값)' 이라고 한 부분을 주목할 필요가 있습니다. 위의 사례에서 보았듯이 모델은 할루시네이션 같은 부정확한 기억도 만들 수 있습니다. 모델의 규모가 커지고 기억하는 내용들이 많아지다보면, 원래 학습하지는 않았지만 개연성이 있는 조작된 기억이나 기억의 조합들도 만들어낼 수 있는 능력이 생겨납니다. 가끔 꿈을 꾸다보면 내가 겪었던 경험 2가지 이상이 괴이하게 조합되어서 체험하게 되는 경우들이 있는데 이러한 associative memory 의 특성인 것 같ㅅ브니다.

이제 홉필드 네트워크를 통해 네트워크식 기억 방식, 즉 연관식 메모리 (associative memory) 의 느낌을 대강 알았으니 스테이블 디퓨전 (이하 SD)의 모델이라는 실제 사례를 통해서 이미지가 어디에 어떤 형태로 기억되는지 확인해봅시다.

SD 에 대해서 공부를 해보신 분들이라면 SD 는 여러개의 모델이 합쳐서 돌아가는 시스템이란 것을 알고 계실 것입니다. 그 모델들은 각각 CLIP, VAE, 그리고 U-Net 입니다. 이중에서 실제 그림을 그려내는 데에 가장 중요한 역할을 하는 것은 바로 U-Net 입니다. CLIP 은 텍스트 프롬프트와 이미지와의 연관관계에 대한 정보를 담고 있고, VAE 는 저해상도 정보에 해당하는 Latent Space 의 인코딩을 pixel 로 디코딩하는 역할을 합니다. (VAE 에도 이미지를 만들어내는 정보들이 담기긴 했지만 통상적으로 우리가 파인튜닝을 하는 대상은 아니기 때문에 이 글에서 VAE쪽 부분은 논외로 하겠습니다.)

그리고 U-Net 은 그림을 그려내는 리버스 디퓨전 프로세스에서 가장 중요한 역할인 '노이즈 예측' 을 담당합니다

디퓨전 프로세스는 SD 를 학습할 때 사용된다면, 실제 SD 로 그림을 찍어낼 때는 리버스 디퓨전 프로세스를 사용합니다. 흩어져있던 노이즈가 확산의 반대 과정을 거치면서 선명한 이미지로 수렴하게 되는데, 그 비결은 원본 노이즈를 대상을 스케쥴러로 나눠놓은 각 단계에 대해서 U-net 이 대답을 해줄 수 있기 때문입니다

질문 - 지금 보여드리는 이미지는 CFG 에 의거해 추구하는 원본과 비교할때 어떤 노이즈가 낀 걸로 보이나요? 지금의 타임스텝은 t 입니다.

Unet의 답 - 이런 노이즈 이미지가 낀 것으로 예측됩니다 휴먼. [이미지 정보]

그 대답 역시 '어떤 노이즈 패턴 (Predicted noise)' 인데 그 패턴을 원본 이미지에 점점 거둬내게 되면 점점 노이즈가 사라지는 결과물을 얻을 수 있는 것이지요.

이런 '예측된 노이즈' 를 품고 있는 것이 U-net 인데, U-net 이 애니풍 이미지로 학습되었다면 U-Nnet 은 예측된 노이즈를 내놓아야 할 때 애니풍 이미지에 노이즈가 낀 이미지를 기준으로 결과를 내놓겠죠.

U-net 은 원본 사이즈의 이미지를 더 낮은 크기로 점점 줄여서, 결국에는 한줄의 덩어리로 길게 뽑아낸 형태로 변형시키는 CNN 과 그 CNN 을 뒤집은 형태를 서로 연결시킨 모양에 더해서 스킵 연결을 추가한 형태인데요,

이 경우 생성형 모델에서 이미지를 만드는 데에 가장 큰 역할을 하는 부분은 CNN 을 뒤집어놓은 모양, 즉 작은 크기의 이미지를 더 큰 크기의 이미지로 불리는 업샘플링 역할을 하는 레이어입니다. 이 부분에 관련된 레이어들을 어떻게 적은 수의 파라메터로 뽑아서 커스텀 학습을 시킬까 하는 방법으로 LoRA 가 유명해졌고, 그 후에 여러가지 변종들이 많이 등장하게 됩니다. 자세한 것은 (https://github.com/KohakuBlueleaf/LyCORIS/blob/main/Algo.md) 를 참고하시면 되겠습니다.

언어모델에서도 기억들은 역시 Causal Model 에 가까운 모습으로 저장되는데, 이것은 우리 인간이 정보를 기억하는 것과도 흡사하죠. 집 현관 비밀번호라던가 중요한 전화번호 같은 것들은 그 숫자를 순서대로 기억하는 것은 쉽지만, 거꾸로 기억하는 것은 거의 불가능하다는 것은 스스로 실험해보시면 잘 알 수 있는 사실입니다. 우리의 기억이 순서와 민감한 associative memory 이기 때문에 그렇습니다. 그래서 파이 소숫점 5000 자리까지 기억한다던가 하는 사람들은 순서라는 특징을 최대한 이용할 수 있도록 노래를 만든다던가 어떤 기억을 보조하는 수단들을 동원해서 1자리 부터 '찾아가는' 식으로 기억을 하지, 소숫점 300 자리 숫자는 뭐게? 소숫점 1000 자리 숫자는 뭐게? 하는 질문에는 대답을 못합니다. 제아무리 우영우 할머니가 완벽한 photographic 메모리를 갖고 있더라도 종족이 인간인 이상, 그 기억에 도달하기 위해서는 순서를 밟아나가야 합니다.

언어모델의 내부를 들여다보면, 실제 말들을 찍어내는데 가장 중요한 역할을 하는, 기억에 연관된 부분이라면 트랜스포머의 어텐션쪽보다는 피드포워드 계층이라고 할 수 있습니다. lora 파인튜닝의 경우 QKVO 같은 어텐션 유닛쪽만 대상 모듈로 삼는 경우가 많은데 그러면 새로운 정보나 개념을 학습시키는데에 한계가 있을 수 있습니다. 또한 새로운 개념은 새로운 단어와 연결되어야 하는데 토크나이저를 업데이트 하냐 마냐도 중요한 정보이지요. 예를 들어 크툴루 신화에 대한 정보를 추가하고 싶은데 토크나이저에 '크툴루' 가 없으면 '크' '툴루' 나 '크툴' '루' 혹은 '크', '툴', '루' 같은 식 중의 한가지로 (혹은 아예 바이트 단위로 더 쪼개질 수도 있는) 해석하게 되는데 학습 능력은 떨어질 수 밖에 없겠죠.

이러한 개념을 잘 활용해서 학습 내용에 따라 적절히 대상 모듈과 하이퍼파라메터, 토크나이저를 수정해야만 좋은 로라 파인튜닝 결과를 얻을 수 있을 것으로 보입니다. 아직까지는 그냥 원클릭으로 쉽게 파인튜닝을 할 수 있어요! 라는 것은 위에서 말한 요소들로 인해 쉽지 않은 부분입니다. 물론 기술이 더 발전하면 자동으로 관련 정보까지 조정해서 파인튜닝을 해주는 방법이 나올 수도 있을 것입니다.

하지만 굳이 파인튜닝이 아니라 정보들을 적당한 문장단위 청크로 나누고 각각의 엠베딩을 따놓아서 벡터디비에 인덱싱 한 다음에 필요할 때마다 찾아와서 프롬프트에 덧붙여주는 방식 - RAG = Retrieval Augmented Generation 이 있기 때문에 이쪽이 더 효율성은 높을 것입니다. AI 채팅의 경우 월드인포나 로어북 같은것을 요 방식으로 구현하면 좋겠지요.

이상으로 딥러닝 모델의 기억에 대한 정보와 관련 상식들을 간단히 알아보았습니다. 언제나 그렇지만 추가로 궁금하신점, 정정이 필요한 부분은 댓글로 남겨주세요.

읽어주셔서 감사합니다.

댓글 글쓰기

쿠루가이

2023-08-22 21:38:58 답글

하늘의아리아

2023-08-23 00:18:23 답글

달걀계란

2023-08-23 00:26:22 답글

감사합니다

펼쳐보기▼

그래요

2023-08-23 00:44:21 답글

다지

2023-08-23 02:14:30 답글

bedovyy

2023-08-23 05:36:28 답글

철권짱

2023-08-23 08:47:29 답글

calisolo

2023-08-23 12:04:37 답글

피드포워드가 기억에 연관되어있나요?
그렇지 않아도 피드포워드가 필수적인지 궁금했는데 추가 설명 해주시면 좋을것같아요

펼쳐보기▼

hkhk

2023-08-23 12:13:52 답글

피드포워드는 필수입니다. 그게 없으면 어텐션 연산들은 모두 선형적인 행렬연산이라 레이어를 늘릴 수가 없어요. 트랜스포머라는 구조에서 잠시 벗어나서 그냥 간단한 일반적인 이미지 분류기 모델을 생각해보세요. cnn도 쓰지 않은 멀티레이어 퍼셉트론으로 이미지 분류기를 만든다고 할때 결국 각 층의 연결에 실제 정보들이 저장되고 레이어 사이에 relu같은 층을 끼워넣어서 비선형성을 부여하죠. 비선형성 덕분에 레이어들이 붕괴되지 않고 구조가 유지되는 것입니다. 이제 그 mlp 층을 다시 뒤집어서 붙여서 오토인코더를 구성한다고 하면 잠재공간에서 실제정보를 생성해내는 역할도 할 수 있겠죠.

펼쳐보기▼

hkhk

2023-08-23 12:17:54 답글

오토인코더의 디코더쪽에서 실질적인 생성작용이 일어나는데, 그 잠재공간의 엠베딩이 더욱 정교하게 만들어지는데 도움을 주는 쪽은 어텐션 헤드들이고, 엠베딩들로 구성된 확률 분포로부터 다음 토큰을 예측해내는 모델의 역할을 하는건 피드포워드층입니다. 워낙 어텐션이 상대적으로 새로운 존재였고, 복잡한 구조가 필요한 부분이라 상대적으로 피드포워드의 중요성이 잘 느껴지지 않지만 어디까지나 생성에 있어서 주연은 피드포워드고 조연이 어텐션 헤드들이라고 보면 좋을거 같아요

펼쳐보기▼

calisolo

2023-08-23 12:28:31 답글

네 비선형성을 부여한다는건 이해가됩니다만, 그러면 아래 그림의 구조도에서 어텐션과 MLP를 병렬로 연결하고 있는데,  이러한 연결만으로도 의미가 있을까요? 

포지셔널 인코딩도 그렇고,  값을 더하는 것으로 의미가 보존되는게 왜 가능한지 잘 모르겠습니다.  

https://arca.live/b/alpaca/84041724?mode=best&p=1

펼쳐보기▼

hkhk

2023-08-23 13:06:22 답글

GPT-NeoX 에서 어텐션과 MLP 를 병렬로 연결한건 성능 향상이 목적이었던거 같고요,
직렬을 병렬로 바꿨는데 왜 잘 되는가? 를 생각해본다면, 레이어1 에서의 어텐션에 대한 피드포워드는 그 옆에 있는 레이어1의 MLP 의 입력에는 영향을 못 미치겠지만, 레이어 2 의 MLP 의 입력에는 영향을 주겠죠. 첫번째 레이어의 MLP 와 마지막 레이어의 어텐션은 안 쓰고 버리는 대신 중간 레이어들에 대해서는 병렬작동이 되서 15% 정도 성능향상이 있는 것 같습니다.

펼쳐보기▼

calisolo

2023-08-23 13:15:34 답글

으음 진도가 빠릅니다. 선생님..  일단 15%는 어디에서 등장한 것인가요.  (GPT-NeoX의 소개에서 가져오셨다면 일단 드린 링크는  GPT-J라서  NeoX의 구조는 또 다른 부분이 있을것 같습니다.)

그리고 hidden state 4096x 4096이 각 블록의 종단에 있는 것으로 보이는데, 이 부분 역시 비선형성 부여가 가능한 feed forward아닌가요?  이 때 병렬로 구성한 MLP의 역할은 무엇일까요?

펼쳐보기▼

hkhk

2023-08-23 13:17:23 답글

https://arxiv.org/abs/2204.06745 에 보면 this led to 15% throughput increase... 하는 내용이 있습니다.

arXiv.org

GPT-NeoX-20B: An Open-Source Autoregressive Language Model

We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense autoregressive model that has publicly availa…

에 보면 this led to 15% throughput increase... 하는 내용이 있습니다.

펼쳐보기▼

hkhk

2023-08-23 13:19:34 답글

*수정됨

hidden state 4096x 는 별도의 연산이 아니라 그냥 아래쪽에 있는 add 의 결과 텐서가 그렇다는걸 표시한거 같습니다.

펼쳐보기▼

hkhk

2023-08-23 13:15:26 답글

*수정됨

예를 들어서 그림을 보고 음란성을 판단해서 채널을 닫아버릴지 말지를 판단하는 아카 대법관이 있다고 합시다.

1. 실사인가?
2. 젖보똥이 노출되어있나?
3. 모자이크처리가 되어있나?
4. 로리인가?

를 중점적으로 체크를 할 것인데, 신기하게도 이 대법관은 어텐션 헤드가 4개 달린 몬스터의 형상을 하고 있습니다. 그리고 각 헤드는 그림을 볼 때 세세한 디테일만 훑어 보거나, 아주 전체적인 윤곽만 보거나 하는 식으로만 볼 수 있습니다.

그림 한장이 들어왔을때 1 번헤드는 실눈을 뜨고 (디테일 보기 모드 = 트랜스포머의 낮은 레이어) 그림을 훑어가면서 나름대로 자기 기준 (실사와 얼마나 일치하는가?) 을 매기면서 채점표를 만들고, 2번헤드 역시 실눈을 뜨고 젖보똥에 해당하는 요소가 있는지에 대한 채점표를 매깁니다. 3번헤드는 모자이크 스러운 형상이 있는지 역시 채점표를 매깁니다. 지금은 실눈을 뜨고 아주 가깝게 확대해서 보는 것이기 때문에 작은 픽셀들의 관점에서만 체크를 합니다.

이 채점표들은 비트맵 모양으로 되어있고 각 헤드가 매긴 채점표를 합산하여 2번째 단계, 이번에는 실눈을 약간 풀고 조금 뒤로 물러나서 전체적인 모양에 집중해봅니다. 1번째 단계에서는 작은 형체, 뭔가 윤곽이 뾰족하다 부드럽다, 같은 요소들을 봤다면 이번에는 조금 더 신체의 각 요소들의 관점에서 보고 역시 각 헤드들이 채점표를 만든 다음에 합산해서 또 넘깁니다

이런식으로 해서 마지막 단계에서는 전체 채점표를 갖고 최종적으로 실사 음란물인지 아닌지, 특히 가중처벌의 대상이 될 것인지를 판단할 수 있을 것입니다.

펼쳐보기▼

calisolo

2023-08-23 13:35:03 답글

이 부분 설명주신 맥락과, 제가 드린 질문의 포인트가 조금 다릅니다. 

설명주신 부분은 모델전체의 과정에서 합연산의 누적에도 불구하고 어떻게 의미가 부여될 수 있는지를 말하신거같고,  제가 이해되지않는 부분은, 포지셔널 인코딩은 어텐션 가중치에 비해 매우 작은 주기함수인데, 어텐션 가중치에 그냥 더하는 것만으로 모델이 숫자집합 벡터에서 그 주기함수가 더해졌는지 더해지지 않았는지 판별하여 단어의 위치를 찾을 수 있는지입니다.  (다음 층에 전달 되는 것은 주기함수가 더해진 결과일텐데, 어떻게 주기함수가 더해졌는지 판단할 수 있죠? 포지셔널 인코딩의 숫자와 기존 가중치의 숫자가 사용하는 자릿수가 다르다면 이해가 될거같은데 그런가요?)

펼쳐보기▼

hkhk

2023-08-23 13:37:21 답글

포지셔널 인코딩과 어텐션 가중치는 직접 비교 대상이 아니지요. 포지션 인코딩은 맨 처음 토큰이 임베딩으로 변한 다음에 합해져서 매 레이어마다 어텐션 가중치로 곱해지기 때문에 계속 변환의 대상이 됩니다. 포지션 인코딩은 토큰 임베딩과 비교해서 의미있는 표식 역할만 하면 충분하다고 생각합니다.

펼쳐보기▼

calisolo

2023-08-23 13:40:34 답글

아 네 그 부분은 제가 헷갈렸네요. 그렇다면 포지션 인코딩과 토큰 임베딩이 합해질텐데, 어떻게 표식역할이 수행가능한가요?  

다차원의 덧셈 이후에도 포지션 인코딩이 보존되는 원리가 제가 궁금한 부분입니다.

펼쳐보기▼

hkhk

2023-08-23 13:47:07 답글

*수정됨

인코딩이 '그대로' 보존되진 않겠죠. 어디까지나 표식이기 때문에, 1번째 라는 포지션 정보가 붙은 임베딩과 2번째 라는 포지션 정보가 붙은 임베딩이 서로 구분되는 것만으로도 효과는 충분합니다. 구분만 되어준다면 학습과정에서 그 구분성을 이용해서 최적화가 일어날테니까요

똑같은 '그것' 이라는 토큰에 해당하는 임베딩에 +1, +2 이라는 포지션 인코딩들이 각각 더해져서 '그것(+1)' 이 된 것과 '그것(+2)' 라는 것이 구분되면 된거죠

펼쳐보기▼

calisolo

2023-08-23 13:51:41 답글

*수정됨

구분이 어떻게 가능하죠? 곱셈이라면 될것 같은데 덧셈이라 잘모르겠습니다.

[1,2,3,4] 라는 임베딩을 다음층에서 받았다고 할때,  [0,1,0,1]이라는 포지션 정보가 더해진 [1,1,3,3]인지 [0,1,1,0] 이라는 포지션 정보가 더해진 [1,1,2,4] 인지 어떻게 분간할 수 있을까요?

말하고나니 곱셈으로는 '구분성'이 변하지 않을거같네요.. 덧셈이어야 하는건 알겠습니다만, 다음층에서 포지션 정보를 어떻게 분간할수 있을지는 여전히 궁금합니다.

펼쳐보기▼

hkhk

2023-08-23 14:02:56 답글

일단 전체 벡터 공간이 매우 광활하고, 포지션 인코딩 값은 끽해야 4096 개 정도인데, 최대한 공간에 넓게 분산되도록 디자인 되어 있을 것이기 때문에 충돌 확률이 높지 않을 것 같고, 설사 충돌한다고 하더라도 언어모델의 특성상 많은 redundancy 가 있기 때문에 한 토큰의 모호성이 전체 문장 해석에 치명적으로 작용하지는 않을 것 같습니다.

펼쳐보기▼

calisolo

2023-08-23 14:12:30 답글

말씀하신 관점 이해하였습니다. 임베딩이 벡터공간내에 할당되는것까지는 받아들이고 있었는데,  벡터간의 합/차를 나타내는 positional encoding에 대해서도 의미가 부여되게끔 학습이 가능한게 너무신기하네요.  back prop을 공부해봐야 마음속에서 납득할 수 있을것 같습니다.

충돌한다고 말씀하신 부분덕분에 쉽게 이해가 되긴 했는데, 확률상 충돌이 일어나는걸 감수한다기보다는 임베딩이 충돌이 안되게끔 벡터공간내에 자리잡는 pretraining 과정이 진행될듯도 하네요..

펼쳐보기▼

hkhk

2023-08-29 06:31:17 답글

포지셔널 인코딩 같이 피처를 더해서 합성하는걸로 효과를 보는 부분은 트랜스포머의 전유물이라기보다는 CNN 의 발전 과정에서 GoogLenet 의 인셉션 블럭 같은 부분부터 발전하게 시작한 기법입니다. CNN 쪽으로 돌아가서 인셉션이나 ResNet, 쪽에 대한 내용들을 공부하다보면, 트랜스포머의 이해가 훨씬 쉬워집니다

펼쳐보기▼

hkhk

2023-08-23 13:25:22 답글

https://stats.stackexchange.com/questions/tagged/transformers
남들도 비슷하게 궁금해한 주제들이 많이 있으니 문답들을 찬찬히 살펴보시면 도움이 될겁니다

Cross Validated

Newest ‘transformers’ Questions

Q&A for people interested in statistics, machine learning, data analysis, data mining, and data visualization

남들도 비슷하게 궁금해한 주제들이 많이 있으니 문답들을 찬찬히 살펴보시면 도움이 될겁니다

펼쳐보기▼

calisolo

2023-08-23 13:26:27 답글

항상 감사합니다. 많은 정보주셔서 천천히 살펴보겠습니다.

펼쳐보기▼

calisolo

2023-08-23 12:43:18 답글

생각하기로는 다차원 수식이 선형성? 으로서 기능하고, 각 계수에 더해지는 숫자에 따라 그 고유의미를 가진 선형성으로 매핑될거같네요.. 

모델 학습과정에서 어떻게 그게 가능한지는 잘모르겠어서 더 생각해보겠습니다.

펼쳐보기▼

모찌파

2023-08-29 04:33:00 답글

언제나 좋은 강의 너무 감사하고 잘 배우고 있습니다. 
마지막에 설명해주신 RAG의 경우에, 여러 임베딩들을 합성해야 하는 경우도 있을텐데요. 이럴때는 어떻게 합성하는게 올바른가요..?

펼쳐보기▼

hkhk

2023-08-29 06:28:49 답글

A 임베딩으로 리트리벌 해온 정보 PA, 
B 임베딩으로 리트리벌 해온 정보 PB,
PA와 PB 를 프롬프트에 스까넣고 Generate 돌리면 되지 않을까요?

펼쳐보기▼

음냐우웅

2023-10-20 02:21:55 답글

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27972198

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5745

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25964

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8396

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

2441 일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5563 80

2440 일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스) [19]

DopeorNope 2024.03.12 2354 80

2439 일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 4957 70

2438 정보 구글: 우리에겐 방어막이 없습니다. - 유출 문건 한글 번역 [36]

hkhk 2023.05.05 7364 67

2437 자작모델 한국어Vicuna 모델 학습완료 및 모델 공개 [76]

하늘의아리아 2023.04.20 6890 65

2436 일반 여기 계신분중에 AI 프리트레인,파인튜닝법에 대해서 궁금하신분 있을까요? [22]

ㅎ헤ㅔ헤헤헤 2023.10.04 1724 61

2435 일반 70B개발 시작. [28]

DopeorNope 2023.12.05 1835 57

2434 일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까? [24]

maywell 2024.03.09 2494 53

2433 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [42]

maywell 2024.04.28 2980 50

2432 일반 한국어 데이터셋 생성 중단(완료) 총 4.3M+ [20]

maywell 2024.01.10 2109 50

2431 스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6168 43

2430 스터디 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 1970 41

2429 일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1329 40

2428 자료 토큰 확장법 정리 [19]

버트가조아 2024.01.05 1400 36

2427 자작모델 시나트라 v0.1 허깅 리더보드 결과 [14]

maywell 2023.10.10 1543 36

2426 자작모델 레몬LLM 13b (한국어) 공개 [92]

하늘의아리아 2023.05.27 4322 36

2425 일반 한국어 멀티턴 데이터셋 생성 모델, KoMultiGen-General [7]

maywell 2024.03.14 1464 35

2424 일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임 [43]

12시5분 2024.01.19 1420 34

2423 정보 AutoGPTQ가 huggingface Transformer에 통합됨 [19]

ㅇㅇ 2023.08.24 1086 33

2422 스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까? [30]

hkhk 2023.08.22 2427 33

글쓰기

전체글 개념글