재미있는LLM 이야기) '창발성..., 창발성이란, 창발성에 메달리지 않고서는 살아갈 수 없는 자 들을 위해서 존재하는 것인데..'

개씨발 죽어라 연구해서 새 모델을 내 놓고, 평가 지표 깎는 미친 노친네 새끼들이 들이미는 좆같은 기준까지 통과했는데, 우리 모델이 개구린 똥방구 모델일수도 있다는 이야기에, 수많은 GPU 밥주기 기계들은 비탄의 강을 헤엄치다가 겐지스강까지 흘러가서 화장당하고 말았다. 나무삼.

이 괴악한 인간 갈아먹기 쑈쑈쑈는 지금까지도 계속되고 있는데, 연구비를 걸고 서로 싸우는 모습이 마치 교미와 같다고 전해진다.

그럼 어떤것인지 알아보도록 하자.

어떤 챗붕빙보롱붕이 한마리가, 10B짜리 모델을 열심히 깎았다고 쳐보자.

이 챗뿡이는 아무리 모델을 깎고 깎아도 평가지표가 0점밖에 안 나와서 눈물이 콸콸 나오고 있었따.

결국 귀여운 잼민쨩의 크레딧도 참고, 짚쨩의 공홈 구독도 끊었다. 클쨩은 못 끊었다. 코딩해야해서..

아무튼 그렇게 모은 돈으로 모델 파라미터를 50B까지 키우는데 성공했다.

근데도 평가지표는 0점이 나오는것이다!

챗빙뿡이는 울면서 장롱에 숨겨둔 유희왕카드부터 메이플딱지, 할머니가 까까 사먹으라고 준 용돈까지 써서 70B까지 파라미터를 늘렸다!

그러자 평가 지표가 100점이 나왔다!

"와! 70B쯤 찍으니까 모델이 갑자기 똑똑해졌어! 역시 빅 파라미터는 최고구나!"

과연 이 이야기가 맞을까?

어떤 시점을 넘어서는 '특이점'이 오면, 우리가 원하는 무언가를 모델이 만들어 낼 수 있을까?

다시 원론으로 돌아가서, 어느 시점이 오면 우리는 모델에서 창의성과 창발성을 얻어 낼 수 있을까? 하는 질문으로 확대 할 수 있다는 것인데,

연구 결과에서 말하기로는 '불가능' 이라고 한다.

정확히는 '불가지론' 이라고 보는게 맞겠다.

챗뿡삥뿌룽이가 10B짜리 모델에게 개씹좆꼴리고개천박해서자지가 터질거 같은 소설을 써달라고 했고,

평가 지표는 개씹좆꼴리고개천박해서자지가 터질거 같은 소설을 평가한다.

10B 일때는, 개씹좆 꼴리기만 한 소설을 써서 0점.

50B 일때는 개씹좆 꼴리고 개 천박한 소설을 써서 0점.

70B에 도달해서야, 개씹좆꼴리고 개천박해서 자지가 터질거 같은 소설을 써서 100점이 나왔다. 이것이 평가지표의 허상이며,

평가지표로 인해 인간의 인식이 혼동하는 시점이라고, 스탠포드 소스케 선생께선 말하고 있었다.

즉, 모델은 어느 시점을 넘어서며 강력해진것이 아니라. 선형적으로 강력해지고 있었으나, 우리가 그것을 판단하지 못 한 것 이라는 것이다.

많은 틀딱`s 챗붕이들이 회고하지만, 어떤 모델 업데이트를 맛봐도 개씨발 g3.5에서 g4로 넘어가던 시점의 그 압도적인 성능 폭주를 이기지 못한다고 하는 경우가 많다.

이처럼, 실제로 모델의 파라미터가 커지고, 벤치마크가 좋아져도, 우리는 새로운 모델을 먹고 한 일주일쯤 지나면

우엑 시발 이 모델 결국 뭐같은 맛 나네 시펄 하는 것을 경험론으로 느끼고 있다.

즉, 새로운 업데이트로 인해서 나타난 '것' 처럼 보이는 어떤 창발성은, 모델의 강화로 생겨난 마법이 아니라,

성과지표의 거짓말로 포장된 아티팩트라는 것이다.

조금 수학적으로 다시 설명을 이어가 보도록 하겠다.

이건 볼츠만 분포라는 것인데, 어떤 데이터가 존재할 확률 (P(x))는
모든 확률의 합을 1로 만들기 위한 정규화 상수로, 값이 낮을수록 안정적인 데이터를 의미하는 에너지 함수 E를 나눈 것이라는 의미이다.

즉, 우리는 모델에게 있어서, 모델이 가진 자연어 데이터셋을 분류하여 데이터의 존재 가능성을 판정할때

이 세상에 있을법한 데이터는 낮은 에너지, 개 병신같은 헛소리에는 높은 에너지를 보유하기를 원한다.

대부분의 LLM 모델은, 일종의 분류기이다, 특히 다중 클래스 분류기라고 보면 된다.

병신 클래스는 이어질 확률은 낮게, 좋은 클래스는 이어질 확률을 높게 토큰 뭉치를 이어가며 답변을 배출하는 것 이라 그렇다.

이런 다중 클래스 분류기의 경우, 소프트 맥스 함수라는 것을 사용해서 만드는데.

주어진 단어(x)를 바탕으로, 다음 토큰 (y)가 나타날 가능성은 다음과 같이 표현된다.

이걸

요롷게 표현 할 수 있는데, 아까 위에서 봤던 식이랑 유사하지 않은가?

그럼 서로 매핑해서 정된 관계를 가진다고 생각하면,

쉽게 말해서

e^f(x)(y) 는 -E와 같다, 즉

그 단어의 확률이 나올 가능성이 높다면, 에너지가 낮다고 볼 수 있다.

알았다, 그래 벌써 뇌가 저리구나. 세줄 요약 하도록 하겠다.

1. 모델이 어떤 입력값에 대한 무언가를 배출하려고 할때, 그것이 예측성으로 훈련을 시켰든, 생성성으로 훈련을 시켰든간에, 모델이 토큰을 뱉으려고 하는 행위 자체가 에너지의 지형적인 움직이라고 수학적으로 볼 수 있다.

2. 즉, NTP로써 분류기성을 학습하면 다른 과도한 학습이나 유의미한 구조성을 배우려고 하지 않더라도, 자연스럽게 어떠한 '과도하게 에너지가 낮은 문장들이 모이는 벡터 공간'이 발생한다.

3. 이것이 일종의 자체 추론 공간이며, Predictive하게 가르쳤는데, Generative 능력이 생기고(말을 지어내고), World Model이 생기는(규칙을 이해하는) '창발성' '세상의 구조를 이해하는 방식' 이라고 착각하게 만드는 비밀 공간이다.

라는 것이다.

아직도 이해가 안 간다고?

좋다.

요즘 LLM 서빙하는 회사들은 학습 비용을 아끼기 위해서 여러가지 학습방법을 사용해서 정류하고 뭐하고 지랄하고 발광하고 한다.

하지만 결국 자연어 처리 모델이라는 것이기 때문에, 모델이 '항상 출력하고 싶어하는 낮은 에너지 문장이 고인 부분' 이 있다.

이게 바로 '태피스트리' '안경' ' 휠체어' '극명한' '단순한' 같은 단어들이 기어 쳐 나오는 구멍이며,

우리는 이 좆같은걸 미워하면서도, 이 낮은 에너지 구역에 모여있는 좋은 표현들이 나오기를 빌면서 같은 보지를 쑤션대는 것이다.

(추가 내용)

즉, Top-K는 확률이 높은 순서대로 K개만 남기는 것,

즉, 출력값을 에너지 지형으로 표현할때,

이런식으로 K값을 긁어서 K위로는 전부 다 날려버리는 거라고 생각하면 된다.

이런 K 방식의 문제점은

지형도가 이런 형태일때, 좋은 응답의 기준이 Y-10 정도 라고 생각해보자. 이런건 아주 당연한 문제를 물었을때 이런 경우가 많다.

너무 당연하고 논리적이고 단순한 답이 보통 정답으로 여겨질때를 말한다.

근데 K값이 걸러버리는 시점이 대강 Y -5 정도고, 그 아래로는 다 뽑아봤는데 그거조차 -10이 안되는 병신 응답일때 문제가 생기고

반대로 어떤 질문의 응답이 모호해서 (괜찮은 답이 K값 아래로 한 20개 됨.) 충분히 낮은 값이 없어서 K값 기준으로 팍 잘라버리면
괜찮은 답변이 될 수 있었던 답 10개도 같이 잘려버리는 문제가 생긴다.

P값의 경우는 저 지형도를 바닥으로 물을 채워서, 잠긴건 다 걸러버린다고 생각하면 편하다.

온도 설정도 비슷하게 설명이 가능한데, 볼츠만 분포의 분자를 높이면 온도의 저점을 낮춰서 냉각하는 것, 즉, 에너지가 낮은 상태로 만들어 정돈된 답이 나오게 하는 것,

분모는 반대로 가열해서 에너지가 과한 상태로 만들어 답을 지좆대로 내는 상태로 만드는 것이라고 보면 된다.

1. 알트만 트윗보고 하는 말 (진지)(장문)

2. 재미있는LLM 이야기) '창발성..., 창발성이란, 창발성에 메달리지 않고서는 살아갈 수 없는 자 들을 위해서 존재하는 것인데..'

3. 재미있는 LLM 이야기) 어쩌면 LLM이 AGI의 정말 단초일지도 모름(무리무리, 무리가 아니었다?)

4. 심심해서 적는 학회 동향

5. 엄마암 프롬과 관련된 이야기

6. HCI 학회 왔음. 읽을만한 거 추천

7. 재미있는 LLM 이야기) 챗붕군의 뇌는 지금 어떤 전기자극을 받고있나요?

8. "한글 토크나이저가 좆병신이라는 이야기가 들리더군요"

9. 재미있는 LLM 이야기) 사실 토큰당 가격은 놀랍게도 하락하고 있었다?

댓글 [48]

ㅇㅇ

2026-01-05 08:46:09

위대하신코코미동지

2026-01-05 08:49:09

유즈버전으로설명부탁

펼쳐보기▼

잼미니좋아

2026-01-05 09:00:24

1. LLM 만드는 놈도, 평가하는 놈도 효율충들임 
2. 효율 찾다보니 허구한 날 쳐나오는 것들이 계속 나옴(효율이 좋으니까)
3. 그 사이사이 단물처럼 삐져나오는 '맛있는 거'를 위해 개고생 하는게 우리

펼쳐보기▼

호후힝

2026-01-05 09:00:30

유즈가 청소를 시작했어요 냥.
유즈가 청소를 계속 하고 있엇어요 냥.
근데 마스타는 유즈가 청소를 마쳤을때만 청소를 했다고 말해주는 씹새끼에요 (창발성은 신기루다 이론)

유즈에게 이불을 매일매일매일매일매일매일매일 던지다보니까, 유즈는 누가 배우지도 가르쳐준적도 없는데, 이불을 피하는 방법을 머리속 깊은곳에 만들게 되었어요 (에너지 설명)

펼쳐보기▼

김포에트리

2026-01-05 08:49:59

아하! 온도를 존내 높이면 좃같은 표현을 그만 볼 수 있겠구나!

펼쳐보기▼

Stellarhazel

2026-01-05 09:05:05

평소 보이는 좆같은 '낮은 에너지' 표현들은 안보이겠지만 '높은 에너지' 헛소리들을 보게 될듯 ㅋㅋ

펼쳐보기▼

호후힝

2026-01-05 09:09:54

아아아아아아아아아아아아아아아아아아아아아아아아아아아아아아 보기 vs 안경보기

펼쳐보기▼

타리아

2026-01-05 08:50:33

생각해보면 어쩔 수 없는 거 아닌가 싶은데... 해결책이 있나?

펼쳐보기▼

안경이필요해

2026-01-05 08:56:31

해결책이 없어서 현재 방식으론 AGI 못닿는다는 비관론이 나오는거인듯

펼쳐보기▼

호후힝

2026-01-05 09:08:34

알트만쪽 기조는 
아무튼 계속 뒤져라 학습시키다 보면 저 낮은벡터 공간이 개씹좆나게 늘어나서 우리가 예상하지 못한 부분까지도 구조화 시킬거고, 그러다보면 agi까지도 도달할 수 있다는 쪽

근데 oai 내부에도 안된다는 말 하는 양반이 있고

메타나 구글은 ㄴㄴ, 안됨. 하는 쪽
근데 또 그쪽에도 개씹호로말좆양자물리보지컴퓨팅 같은거 나오면 되는거 아님??
하는 양반들도 있음

펼쳐보기▼

부엉이부엉부엉

2026-01-05 09:10:40

llm이 agi만들려고 만들던게 아니었어?? 엄

펼쳐보기▼

안경이필요해

2026-01-05 09:19:23

*수정됨

아 이해함. 그래서 맨첨에 벤치얘기 한거구나? 그 옆동네에서 엔지니어들이 'AGI는 의미가 없다'고 한 말 본 적 있는데, 본문+댓글까지보니까 이해됨. 지금 당장 단순작업에 있어서는 (사용자 입장에서) AGI처럼 작동하는데, 어쨌든 벤치상으론 AGI가 아니고. 언젠가 대다수의 작업을 AGI'처럼' 처리할 수 있어도 벤치상으론 처리못하면 AGI선언은 불가능하고. 그렇다고 AGI선언이 불가능하다고 결론내는 것도 곤란하고. 그리고 뭔가 겁나게 추론 공간을 넓히다보면 언젠간 AGI벤치도 통과하지 않을까 하는게 알트만 입장인거고

펼쳐보기▼

호후힝

2026-01-05 09:21:37

딥마인드 하사비스 기준 AGI는 또 다르기도 하고 뭐 전부 다 평가지표의 허상 문제를 끼고있는 굉장하 모호한 문제기도 함 ㅋㅋ

펼쳐보기▼

호후힝

2026-01-05 09:34:12

아 한마디 더 하는걸 까먹었는데
알트만쪽 기조에는 '인간은 자신의 모든것을 문자로 기록하는 습성을 가졌기때문에, 그것이 실제와 다르고 그저 유사하더라도 문자로 표현이 가능은 하다' 에 좀 더 거는 사람도 있음

펼쳐보기▼

안경이필요해

2026-01-05 09:41:29

ㅇㅎ 나도 이전에 써줬던 글 보면서 이거랑 비슷한거 생각나더라고. 비트겐슈타인인가가 말했던 것 같은데, '사용하는 언어적 수준에 의해 사고적 수준이 결정된다'는 가설이 있었다고 함. 만약 이 가설이 참이라고 굳게 믿는다면 언어를 자유자재로 구사하는 것만으로도 사고가 나타날 수 있다고 생각하는 것도 무리는 아닐 듯

펼쳐보기▼

호후힝

2026-01-05 09:48:47

난 개인적으론 문자만으론 불가하다고 보는 편이긴 하자만

펼쳐보기▼

안경이필요해

2026-01-05 08:58:04

아... 완전히 이해했어!(이해못함)

펼쳐보기▼

잉챠잉챠

2026-01-05 08:59:47

일단 연구원들이 연구비 걸고 교미하고 있다는거까진 이해함

펼쳐보기▼

호후힝

2026-01-05 09:22:20

85% 이해했으니 0점이다

펼쳐보기▼

고려시대의문신왕자지

2026-01-05 09:01:14

개씹좆꼴리고 개천박해서 자지가 터질거 같은 소설은 중대사항인데

펼쳐보기▼

ㅇㅇ

2026-01-05 09:05:42

페이몬

2026-01-05 09:11:44

SkyFall

2026-01-05 09:19:47

파라미터가 뭔가했는데 이해가 됐구나

펼쳐보기▼

호후힝

2026-01-05 09:23:54

사실 확률론상의 문제를 EMT 낮 은에너지의 문제로 표현한거라 반대로 표현되긴하지만 기능적 설명은 저게맞긴함

펼쳐보기▼

은설

2026-01-05 09:21:57

되게 재밌는 얘기네 ㅋㅋㅋㅋ 오

펼쳐보기▼

호후힝

2026-01-05 09:35:15

나는 멋져

펼쳐보기▼

불란서제물파스

2026-01-05 09:30:40

히히 엔트로피 발싸!

펼쳐보기▼

ㅇㅇ

2026-01-05 09:34:31

체림

2026-01-05 09:42:37

설명 재밌다!

펼쳐보기▼

체림

2026-01-05 09:42:42

Dekamik

2026-01-05 09:53:46

토큰 확률로 하면 이해 잘 안갔는데 볼츠만 분포라고 하니까 확 와닫네 설명 ㄱㅅㄱㅅ

펼쳐보기▼

호후힝

2026-01-05 11:40:32

오우예

펼쳐보기▼

akskaldi

2026-01-05 10:03:07

아 정말 좋은글인거같아 이거보고 k랑 p는 끄는게좋을거같다고 생각하게되었다

펼쳐보기▼

빽도

2026-01-05 11:24:00

히든마르코프모델에서 이전 토큰이 주어졌을 때 우리가 원하는 토큰들을 만들어내는 확률을 구한다음 각 토큰확률의 확률의 상하를 잘라서 평가자가 바라는 확률을 가진 토큰 집합을 구해 써 먹는데(Top k값, p값), 확률계산에서 사람들이 바라는 특정 에너지 값을 설정하는 역할을 하는게 온도값 파라미터다 이런 뜻인가 보다. 볼츠만 상수같이 자연이 원하는 숫자가 떡하니 있으면 좋을 텐데, 언어모델에서 온도를 파라미터로 정해라 하는 거 보면 인간의 변덕은 자연을 초월하는 지좆대로의 값이구나. 

과학 선택 추가하고 수학을 1학기 정도 더 하는 것 밖에 차이가 없는데 이과를 갈 걸 그랬다. 앞으로도 평생 후회할 듯.

펼쳐보기▼

호후힝

2026-01-05 11:56:13

라기보단 '유의미한 값'의 범위를 정하는게 파라미터임, 사람마다, 사용처마다 유의미한 값이 다르기 때문

펼쳐보기▼

빽도

2026-01-05 12:01:24

ㅇㅇ 사람 맘에 드는 거 정하는 거겠지. RP하는 사람은 맛을 기준으로 정할 거고, 벤치딸 하려면 벤치 기준에 맞출거고. 통계적인 결과(혹은 학습한 결과)보다 온도값을 높이거나 낮춰야 사람들이 원하는 반응이 나온다는 함의가 있는 거 같은데.

펼쳐보기▼

빽도

2026-01-05 12:10:09

예전에 단순 1차원적 통계에 기반한 모델에서는 그냥 사람들이 말하는 값(통계적 확률)에서 벗어날 생각을 못했는데(NLP하는 놈들중에 언어학자들이 많던 시절은 문법적 문장/비문의 이분법적 사고에 고착됨). 확률 대신 여러 토큰들의 벡터 유사성을 계산할수 있게 되면서 참신함이나 지루함의 개념도 규정할 수 있게 됐잖아? 열역학적인 아이디어를 쳐 넣을 수도 있고. 이과를 갔어야 했는데 씨불.

펼쳐보기▼

빽도

2026-01-05 11:24:54

하긴 사람들은 그럴 듯한 미친소리를 제일 좋아해. 소설이든 넌픽션이든.

펼쳐보기▼

ㅇㅇ

2026-01-05 11:39:23

즉 알트만은 짚 뷰지가 헐도록 박아서 확장공사를 하고있는거구나

펼쳐보기▼

아르네

2026-01-05 11:55:00

일단 왜 안경이 나오지는지는 이해했음

펼쳐보기▼

밍따오기

2026-01-05 12:26:24

온도 설명 잘한듯

펼쳐보기▼

joke

2026-01-11 15:09:22

설명쉽게 해줘서 글 너무 재밌게 읽었음. 
저런 연구결과나 최신 트렌드 같은 거 보려면 어디 찾아보거나 공부하는 게 좋음?
arxiv같은데 뒤지는게 답인가

펼쳐보기▼

호후힝

2026-01-11 17:11:17

저건 뭐 최신트렌드라기엔 좀 올드하긴한데
난 현업이라 계속 학회나가거나 신사업 물어오고 하면서 관련논문 서칭함

펼쳐보기▼

joke

2026-01-12 03:39:58

챗붕이 현직이었구나
그럼 필요한 내용만 검색하는 식으로 보는거야?
관련없는 과 학식이라 어디에 물어봐야 할지 잘 모르겠더라구
올려주는 글들 잘 보고 있음  항상 고마워!

펼쳐보기▼

호후힝

2026-01-12 03:55:50

음 어떤식이냐면
1. 신사업안 발굴
2. 사업주체에서 요구하는 기술 서칭 (내가 잘 모르는 거)
3. 관련해서 논문 찾아보고 몇번 만져봄 (제안서 쓰려면 알아야하니까)
4. 팀내에 다른 사람들, 구글 뒤져서 디벨롭

이런식이라. 뭐 궁금한거 있으면 나한테 물어봐도되긴함

펼쳐보기▼

joke

2026-01-12 17:12:39

챗질하다가 llm에 관심가지게 된 케이스인데 과가 통계학과라
전공살린다 치면 데이터 분석쪽으로 갈거 같기도 하고, 개인적인 관심도 좀 생기는 상황이라
독학으로 좀 공부하면서 ai연구쪽 흐름도 좀 따라가고 싶은데, 어떻게, 어디서 부터 시작해야할지 잘 몰루겠음..... 걍 챗질할때 쓰는정도 지식만 있어서 거진 노베인거 같은데
질문적고 보니까 너무 핑프같아서 미안하네

펼쳐보기▼

호후힝

2026-01-15 04:42:21

통계학과면 은근히 도움 많이 될거임 
공부하다보면 어 ㅅㅂ 이거 전공에서 배운건데 ㅋㅋ 하는거 많을거라서

대부분 컴공애들이 코딩부터 좀 배운다음에 선형 대수 확률분포 이런거 배우느라 고3 머리 다 리셋된거 때문에 고생하는데
통계학과는 반대가 가능하거든

통계학과니까 아마  R 많이 썼을거 같은데 일단 파이썬좀 공부해보고 파이썬 기초 좀 알고나면 Pandas, NumPy (DB쪽 내용임, 통계학으로 치면 R에서 쓰는 데이터 프레임 같은거) 그다음에 Matplotlib/Seaborn 같은 시각화쪽 좀 공부해보고

그다음이 딥러닝 파트인데
회귀분석은 예측 모델
로지스틱 회귀는 분류 모델 (이진 분류)
손실 함수는 사실상 MLE(최대우도추정) 개념
Overfitting는  Bias-Variance Tradeoff 이런식으로 통계학이랑 연계해서 이해하기 좋음

그다음 딥러닝 공부하고 NTP 공부하면 어디가서 LLM쪽 연구하는거 읽거나 대화하면 다 이해는 가능해질거임

펼쳐보기▼

joke

2026-01-15 15:23:39