딥러닝 논문 읽는 요령 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3368명 알림수신 166명 @바바리맨

제한없는 언어모델을 위한 채널

스터디 딥러닝 논문 읽는 요령

hkhk

추천 20 비추천 0 댓글 20 조회수 1202 작성일 2023-05-09 15:23:34 수정일 2023-05-10 07:15:25

https://arca.live/b/alpaca/75961234

이전에 다른 게시물의 번외편으로 붙어있던 부분을 레퍼런스 용이하도록 따로 떼어냄. 앞으로 채널 찾아와서 '스터디' 탭을 누르면 바로 이론 공부할 자료들이 나오도록 편집하려고 함.

딥러닝 논문 읽는 요령

논문을 자세히 읽어보는 것은 대다수 사람들에게 벅찬 일일 것이다. 나는 아예 논문을 읽을 수 없다라고 단정한다면, 나에게 있어서 논문의 가치는 0% 다. 하지만 약간의 요령과 끈기를 가지고 들여다본다면 논문이 갖고 있는 정보를 0% 가 아니라 50% 정도는 끌어낼 수 있다는 생각을 해보자.

논문을 왜 굳이 읽어야 하냐고? 요즘에 인공지능판처럼 몇주만 지나도 세월이 바뀐것처럼 느껴지는 판을 본 적이 있는가? 새로운 기술은 결국 '논문' 이라는 형태로 소개되고, 그 논문의 의미를 일반 유저가 받아들일 수 있을 수준으로 누군가 해석해주기까지는 시간이 걸리게 된다. 결국 나 스스로의 힘으로 정보라는 밥을 찾아먹을 수 있느냐, 남이 주는 정보를 받아먹을 수 밖에 없느냐라는, 주도권의 문제이기도 하다.

빠르게 기술이 급전개하는 분야에서 어느정도 얼리아답타로서 활동하고 싶다면 1) 논문 읽기를 두려워하지 말아야 하고, 2) 깃헙에 공개된 코드를 내 컴퓨터나 코랩에 받아서 실행해보는 것을 두려워 하지 말아야 한다. 앞의 2가지를 할 수 있다면 당신의 몸값은 4배 이상 뛰어오를 수 있다.

우리는 석사 박사 학위 따려고 논문 쓰고, 읽고 하는게 아니라 그냥 소식만 알면 되는 수준으로 논문을 읽는 것만 해도 된다.

1) 논문을 읽을 때는 abstract, conclusion, 그림과 표 부분부터 본다

- 중간에 나오는 수식이나, 기존 사례 연구를 언급한 부분은 논문이 기본적으로 갖춰야 할 학문적 엄밀함과 진실성에 대한 부분이기 때문에 대부분의 경우 그 의미만 살펴보려는 우리같은 아마추어에게는 관련이 없다. 과감하게 패스하고 결론만 읽자

- 요약(abstract) 부분과 결론(conclusion) 부분을 읽었는데 조금 더 시간이 남는다면 각 단원의 제목을 읽어보자.

2) 몇가지 용어를 알아두면 좋다

- 논문에서 novel 이라는 단어가 나오면 소설을 말하는게 아니라, '새로운 방식'을 의미한다. 남들이 시도 안한 방식을 우리가 최초로 시도해서 어떤 결과를 이끌어냈다면 novel 이라는 단어를 주장(claim) 할 수 있다.

- stochastic. 어려워 보이는 단어지만 딥러닝에서는 흔히 쓰는 용어인데, 쉽게 얘기하자면 '랜덤' 을 의미한다. 딥러닝이나 다른 과학 분야에서 어떤 문제를 풀 때는 직접 계산을 해서 (주로 복잡한 적분) 푸는 게 사실상 불가능한 (intractable) 한 경우가 많은데 이럴 때는 우회책으로 비스무리한 근사값 (approximation) 을 구하는 쪽으로 선회한다. 관련 용어로는 monte-carlo 방식이 있는데 역시 랜덤하게 여러번 찍다보면 전체 모양에 가까워진다는 것을 활용한거다. 통계에서도 여론 조사할때 모든 사람을 대상으로 조사하는 대신 몇명만 찍어서 (sampling) 전체의 모양을 유추하는 것과 같은 원리. 참고로 몬테카를로는 도박으로 유명한 모나코의 지명. 그야말로 찍기다

- markov, ancestral. 마르코프 체인은 다음의 확률적 결과가 이전의 확률과 연결되어 있는 모델을 표현한 말이다. 예를 들어 어떤 단어가 나온 다음 단어의 확률을 계산할 때에는 이전에 나왔던 단어들에 영향을 받게 된다 (이게 안되면 문법부터 틀려버릴 것이다). 이런식으로 이전의 확률을 보다보면 그 이전의 확률과 연결되어 있고.. 이런 식으로 체인 형태를 띄게 되는 확률 모델을 마르코프 체인이라고 한다. 자기 조상을 거슬러올라간다는 점에서 ancestral 이라는 용어와 밀접한 관련이 있다. 스테이블 디퓨전에서는 이미지에 노이즈를 가했다가 그 역방향 계산하는 것을 학습시켜서 점점 디노이징을 하는 과정을 마르코프 과정이라고 부른다

- ablation study. ablation 은 뺀다는 의미인데, 한마디로 우리가 이 논문에서 새롭게 (novel) 적용한 부분이 정말 효과가 있는건지 증명하기 위해서 그 부분을 넣었을 때의 결과와 뺐을 때의 결과를 비교해보는 것을 의미한다. 다른말로 표현하자면 '해골물 테스트' 라고 읽어도 큰 무리는 아니라고 할 수 있겠다

- SOTA (State of the art) = 예술의 경지... 가 아니라 지금까지 최고수준을 지칭하는 용어이다. 예를 들어 이미지 인식 모델에서 우리가 novel 하게 제안한 방법을 썼더니 기존의 SOTA 모델이 냈던 스코어를 돌파했다. 같은 식으로 활용한다

- ground truth, gold label = 인공지능을 사용해서 어떤 실제의 사물을 흉내내는게 목적이라면, 목표물로 삼았던 실제의 사물 같은 것을 ground truth, 즉 '정답' 이라고 생각하면 된다

- empirical = 경험적인. 즉, 어떤 공식이나 연역적 방법을 이용해서 증명한 것이 아닐때 주장을 설명하는 말이다. 많이 해보니까 대충 이런 경향이 있더라 (엄밀한 증명은 못하겠다) ... 라는 귀납적 추론을 의미한다.

- intractable - 쉽게 유도해내는 것 (계산)이 불가능한 대상. tractor(트랙터) 는 끌어댕기는거, tractable = 끌어낼 수 있는, intractable 은 끌어낼 수 없는.. 을 의미함. 이런 대상이 나오면 어떻게 대응한다? 데이타 셋을 왕창 준비한 다음에 학습 돌려서 approximation (근사치) 를 구하는 쪽으로 우회하면 된다.

3) 논문을 직접 봐서 모르겠다면, 유투브의 힘을 빌자.

- 가능하다면 인도인이 운영하는 채널을 찾아보자. 인도인들은 세상 모든 것에 대해 튜토리얼을 만드는, 튜토리얼에 진심인 민족이다.

- 나도 RNN 이나 트랜스포머, CrossEntropy 같은 개념들에 대해서 기존의 책이나 영상들을 아무리 봐도 이해를 못해서 헤메었었는데, 결국 나를 깨달음의 경지로 인도해준 사람들은 인도사람들이었다.

트랜스포머쪽으로 많은 설명 영상을 올려주는 인도인 채널 CodeEmporium

4) 용어에 대한 설명은 chat-gpt 를 이용하자

- chatgpt 는 너무 복잡하게 얽혀있는 주제에 대해 물어보면 피상적인 답을 듣기 쉽다. 구체적으로 들어갈 수록 좋은데, 용어단위로 해설을 듣고 참고하기에는 괜찮은 것 같다. 위키피디아의 설명들은 그에 비해서는 최악에 가깝다

5) 어려운 주제를 파고들려면 여러가지 방향으로 다양하게 접근해보는 것이 한가지 방법이다

- 대표적인 방법들로 책, 각종 유투브, 스택익스체인지의 관련 태그, 블로그(특히 허깅페이스), 레딧(스테이블 디퓨전과 로컬라마), 트위터 (얀르쿤, 엘비스 등등), 강의코스 (deeplearningai) 등이 있다.

- 한가지로 해서 모르겠다 싶으면 다른 버전의 설명을 찾아보고 이걸로도 모르겠다 싶으면 또 다른 버전의 설명을 찾아보고..
- 이론만 봐서 모르겠다 싶으면 간단하게라도 직접 내 컴에서 깔아서 실행시키면서 따라가보고..

- 파이썬은 수많은 나쁜점 더러운 점이 있지만, 그럼에도 불구하고 가장 좋은 점은 쉽게 자기 컴퓨터에 개발환경을 설치하고 디버거를 돌린 상태에서 해당 프로그램 (내 경우에는 automatic1111 webui 나 alpaca-lora) 을 메모리상의 변수를 뜯어보면서 파악할 수 있다는 점이다. 실습하다보면 이론이 갑자기 납득이 가기 시작하고, 이론이 이해가 가기 시작하면 코드가 이해되기 시작하고 하는 관계들이 있으니 끈기가 필요하다.

댓글 글쓰기

시큼한파인애플

2023-05-09 15:38:24 답글

모든 개발자는 수상한 인도인의 도움을 받아본적 있다

펼쳐보기▼

사과는맛있어맛있으면바나나

2023-05-09 16:14:23 답글

수상하게 코딩에 진심인 인도인들

펼쳐보기▼

해상ai

2023-05-09 20:17:16 답글

불타는장작

2023-05-09 21:38:50 답글

케파사

2023-05-09 22:52:26 답글

케파사

2023-05-09 23:02:45 답글

*수정됨

논문을 고르는 요령도 있을까? 뉴비 글 읽고 andrew ng ML 강의랑 statquest+밑바닥 딥러닝 책 구해서 읽고 있는 중인데 논문은 아직 건드려보지도 못했거든

펼쳐보기▼

hkhk

2023-05-10 04:49:22 답글

제목 낚시보고 끌려가 읽는거지 뭐. ai모델을 사용하거나 공부하다보면 뭐가 해결되면좋겠다 싶은게 생길거야. 대표적으로는 컨텍스트 길이 제한 문제라던가, 파라메터 크기를 줄여서 저사양에서도 돌아간다던가, 지능점수가 높아진다던가.. 그런 문제에 대한 돌파구가 대부분 논문형태로 먼저 소개되니까

펼쳐보기▼

케파사

2023-05-10 06:10:02 답글

결국에는 답이 아니라 문제가 뭔지를 파악해야 된다는 말이네. 3권까지 열심히 읽으면 문제가 뭔지 좀 보이려나...! 항상 친절히 답변해줘서 고마워!

펼쳐보기▼

그래요

2023-05-09 23:19:02 답글

앞으로 구글이 사업화전에는 논문발표 안할거라 해서 그게 아쉽기는 합니다 뭐 오픈ai넘들 때문이기는 하지만요

펼쳐보기▼

맥북에어좋아

2023-05-09 23:31:17 답글

하늘의아리아

2023-05-10 00:51:52 답글

감별사

2023-05-10 04:05:09 답글

그런데 논문은 어디서 읽어야 하나요? arixv?

펼쳐보기▼

hkhk

2023-05-10 04:50:20 답글

레딧이나 트위터, 스택익스체인지 등에서 뉴스 형태로 arxiv의 링크가 걸리지

펼쳐보기▼

감별사

2023-05-10 04:59:24 답글

어그로 끌려서 논문 읽어보니 어... state of art란 말이 첫줄부터 딱.. 웃기네용ㅋㅋ

펼쳐보기▼

nrr

2023-05-10 05:01:02 답글

*수정됨

센세 너무나 감사합니다. 혹시 나중에 시간되시면 SCI급 논문 저널 구분하는 방법이랑 해외 탑컨퍼런스 구조에 대해서도 알려주실수 있을까요. 파트로 대학원다니면서도 저널논문, 컨퍼런스 논문 이런거 구분 하나도 못하는 삐꾸이옵니다..

펼쳐보기▼

hkhk

2023-05-10 06:37:26 답글

나도 그런거 구분하는법은 몰라. 근데 꼭 저명한 학술회에서 발표된 내용이 우리에게도 유용할거라는 보장은 없어. 왜냐하면 너무 기술 근간을 다루는 부분은 즉각적인 실용적 가치가 나타나려면 시간이 한참걸리거든. 우리가 읽는걸 목표로 해야하는건 컨트롤넷이나 디퓨전 로라처럼 즉각적인 응용 성이 있는 기술에 대한 설명을 이해하는거라고 생각해

펼쳐보기▼

vpaqnddl22

2023-06-02 17:15:43 답글

이 분야 사이클이 빨라서 사실상 컨퍼런스가 다른 학계의 저널정도 역할을 합니다. 특히 탑티어 컨퍼런스들이 더 그렇고요. 저널은 느려서 사실 애용되진 않는 것 같습니다. 저널도 없는건 아닙니다. 논문의 품질은 스키밍하고 알아보는게 더 좋겠지만 그게 안된다면 대충 탑티어 컨퍼런스, IT공룡들 논문,  혹은 (외국) 커뮤니티에서 신나서 떠들고 있는 논문들은 바이럴이긴 해도 시사하는 바들이 없진 않습니다.

펼쳐보기▼

ㅇㅇ

2023-05-12 05:18:10 답글

개추 개추

펼쳐보기▼

탐9생활

2023-05-21 00:21:14 답글

vpaqnddl22

2023-06-02 17:10:48 답글

1번이 정말 중요한 스킬이긴 한데... 볼게 너무 많아서 이렇게 보다보면 도대체 내가 뭘 봤는지 뭘 아는지 뭘 모르는지 모르는 상태에 도달하게 되는 것 같습니다 ㅠ 들어본건 많지만 자세힌 모르는 그런

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28367913

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5934

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26689

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8748

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

2386 학습 본격적으로 학습 지원요청 받기 시작 [50]

변태Lv1 2023.08.01 4490 21

2385 일반 "이미지 기반 한국어 대화가 가능한 멀티모달 모델" KoLLaVA 프로젝트를 소개합니다. [24]

tabtoyou (211.186) 2023.06.18 2584 21

2384 스터디 TinyStories 모델로 알아보는 트랜스포머의 내부 원리 [17]

hkhk 2023.05.23 1524 21

2383 스터디 생성형 AI에 대해 알아보자 - 1. 개론 [8]

hkhk 2023.05.10 1289 21

2382 자료 62만 대화문 번역완료(shareGPT 원본데이터셋) [33]

하늘의아리아 2023.04.17 1180 21

2381 일반 vLLM 소형 모델 인퍼런스 느낀점 및 팁 [18]

maywell 2024.04.25 1241 20

2380 학습 3달 간 LLM qlora 7b ~ 13b 사이 모델 fine tuning 한 결과 [12]

ㅇㅇ (61.33) 2024.04.14 1672 20

2379 스터디 LoRA The Explorer - LoRA 만으로 Pretraining 을 시키는 기술 [7]

hkhk 2024.03.20 1349 20

2378 일반 EEVE-ALMA 영어-한국어 번역모델 [7]

ㅇㅇ (49.172) 2024.03.03 1667 20

2377 정보 LLM 작동 원리 시각적 제공 [3]

zzzzz5 2024.03.01 1403 20

2376 자작모델 한국어 소설 작성 모델 public 전환 [13]

maywell 2024.02.26 1212 20

2375 일반 Ko-Mixtral-v1.3-MoE-7Bx2 vs GPT4 답변 비교 공유드립니다. [14]

DopeorNope 2024.01.30 1731 20

2374 자작모델 현재 제작중인 소설용 AI [10]

maywell 2023.12.20 1529 20

2373 정보 LLAMA-2-13B를 파인튜닝하여 LLAMA-2-Chat-70B를 이기는 법 orca2 [1]

ㅎ헤ㅔ헤헤헤 2023.11.21 1149 20

2372 일반 arxiv 논문 번역할때 개꿀팁(ar5iv) [21]

nrr 2023.10.26 1166 20

2371 자작모델 Astral-7B-Instruct-v0.01 [10]

JINfe 2023.10.13 1897 20

2370 스터디 Mistral 7B 의 SWA (Sliding Window Attention) 에 대한 분석 [5]

hkhk 2023.09.28 3891 20

2369 스터디 GPT 구조 (디코더로만 구성된 트랜스포머) 에 대한 설명 + 하이퍼파라메터에 대한 설명 [7]

hkhk 2023.08.28 1639 20

글쓰기

전체글 개념글