


5.5는 Claude와의 격차를 정말 크게 줄였지만, 아직 몇 가지가 빠져 있다.
여전히 약어를 너무 많이 쓰고, 지나치게 복잡하다. 5.5와 Claude로 새로운 주제를 배워보라. 예를 들어 천체물리학을 이해하려고 해보면 된다. 5.5는 방정식, 약어, 축약 표현으로 사용자를 순식간에 놓치게 만들지만 Claude는 그렇지 않다. 특히 이런 문제는 여러 턴으로 대화할 때 확실히 드러난다. 나는 Claude와 기본적인 힘에 대해 아주 긴 대화를 했는데 정말 훌륭했다.
Claude는 또 멋진 사실이나 흥미로운 내용을 세련되게 말해주는 능력이 정말 좋다. 5.5는 그렇지 않다. 내가 그 물리학 대화를 했을 때 Claude는 계속 새로운 샛길을 깊이 파고들게 도와줬지만, 혼란스럽거나 산만한 방식은 아니었다. OpenAI는 이런 걸 세련되게 하는 방법에 대한 더 나은 SFT 데이터와 RN 데이터가 부족한 것뿐이다. 손으로 예시를 많이 모으는 게 그렇게 어려운 일은 아니다.
Claude의 설명은 그냥 더 낫다. 5.5는 자주 지나치게 단순하거나 지나치게 복잡한 답을 하는데, 결국 내용은 좀 단순하다. 다시 말하지만 나는 GPT가 Claude처럼 수작업으로 세밀하게 튜닝된 모델은 아니라고 생각한다. 물론 이 말은 Claude가 행동 방식과 응답 스타일에 대해 GPT보다 더 강한 성향을 갖고 있다는 뜻일 수도 있다. OpenAI는 이 부분에서 Anthropic 쪽으로 30% 정도 더 가까워질 필요가 있다.
나는 OpenAI의 큰 문제가 사람들이 자리에 앉아서 Claude와 오래 대화해보거나, 뭔가 새로운 걸 배우거나, 사이드 프로젝트를 만들어보는 데 시간을 쓰지 않는다는 점이라고 정말 생각한다. 그러면 문제들이 너무 빨리 드러난다.
긍정적으로 볼 만한 지점은, 아주 솔직히 말하면 Claude Opus 모델들이 그냥 좀 멍청하다는 것이다. 4.7은 아예 생각을 안 하는 것처럼 보이고, 5.5가 그렇지 않은 방식으로 약하게 느껴진다.
“그냥 포스트트레이닝을 고치면 된다”는 말은 들리는 것만큼 쉽지는 않다. 그래도 지능, 비용, 강화학습, 추론의 최전선을 밀어붙이는 것보다는 더 단순해야 한다.

기습시위하는 X AI직원
행동 양식이 흥미로운 이유는, 여러 이유 중에서도 특히 그것이 모델을 사용자에게 더 유용하게 만들 수 있는 신호대잡음비가 높은 레버이기 때문이다.
이건 연구소나 모델마다 절대 똑같은 모습으로 나타나지는 않는다. 하지만 그게 또 재미있는 부분이다.