아주 중요한 기술적 산업적 인사이트가 농축된 글인 것 같은데 제대로 된 한국어 번역이 없어서 제가 번역해봤습니다. deepl 로 초안을 만든 다음에 원문과 한줄한줄 의미를 대조하고, 읽기 쉽게 의역을 첨가했습니다. (번역한 여러줄 중 2줄 정도는 deepl 이 의미를 거꾸로 번역했습니다)


원문 링크: https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

자유롭게 퍼가기하셔도 좋으며 크레딧을 남겨주시면 감사하겠습니다.

(번역: arca.live Ai 언어모델 로컬 채널 @hkhk)


구글: 우리에겐 방어막이 없습니다.

OpenAI 도 마찬가지고요

    OpenAI 는 우리에게 많은 걱정을 안겨다 주었습니다. 다음의 이정표는 누가 먼저 돌파하게 될까요? 다음의 큰 한방은 무엇일까요?

    불편한 진실은, 우리에겐 이길 가망이 없다는 겁니다. OpenAI 도 마찬가지고요. 두 회사가 티키타카하고 있는 동안, 조용히 제3의 세력이 주도권을 가져가고 있습니다

    물론 그 제3의 세력은 오픈소스 진영을 말하는 것입니다. 쉽게 말해 우리들의 성과를 벌컥벌컥 들이키고 있습니다. 우리가 "주요한 미해결 과제" 라고 생각했던 것들은 몇사람의 손에서 오늘 즉각 해결되고 있습니다. 몇가지를 예를 들어보자면

    - 휴대폰에서 언어모델 구동하기 : 사람들은 픽셀 6 하드웨어에서 초당 5 토큰을 뽑아내는데 성공했습니다

    - 대규모의 개인화된 모델: 노트북 수준의 하드웨어에서 하루만에 파인튜닝을 해낼 수 있습니다

    - 출시의 책임소지: 이건 해결되었다기보다는 그냥 사람들이 생까기로 한거긴 한데, 그림 모델의 경우 아무 제약없는 모델이 출시되어 사람들에게 그냥 막 배포되고 있는게 현실입니다. 언어모델도 크게 다를것 같진 않습니다

    - 멀티모달: 현재 최고수준급의 ScienceQA 멀티 모달 모델은 한시간 만에 학습이 가능한 수준입니다


    현재 우리의 모델은 품질측면에서 약간 더 우위에 있긴 하지만 그 격차는 빠른 속도로 좁혀지고 있습니다. 오픈 소스 모델들은 더 빠르고 더 특화가 용이하며, 더 개인용으로 적합하고, 규모대비 역량이 우월합니다. 우리가 천만달러의 예산으로 540B 짜리 모델을 다루느라 고생하는 사이에 오픈소스 개인들은 13B 모델에 100달러를 들여 새 모델을 찍어냅니다. 그것도 몇달만이 아니라 몇주 안에 말이죠. 이런 것들은 우리에게 시사하는 바가 큽니다:

    이제 우리에게 비법의 레시피같은 경쟁우위는 없습니다. Google에게 있어서 최선의 대안은 다른 사람들이 Google 외부에서 하고 있는 일에서 배우고 협력하는 것입니다. 서드파티 통합을 활성화하는 데 우선순위를 두어야 합니다.

    제한 없는 무료 대안의 품질이 비슷하다면 사람들은 제한이 있는 모델에 돈을 지불하지 않을 것입니다. 우리의 부가가치가 실제로 존재하는지 고민해야 합니다.

    우리가 개발하는 거대 모델은 우리의 속도를 늦추고 있습니다. 장기적으로 최고의 모델은 빠르게 개선을 반복할 수 있는 모델입니다. 이제 20B 미만의 파라메터 모델의 능력이 어느정도인지 알았으니 더 이상 고민할 것 없이 소형 모델 개발에 투자해야 합니다


무슨 일이 일어났나?

    3월 초, 메타의 LLaMA가 대중에게 유출되면서 오픈 소스 커뮤니티는 처음으로 제대로 된 성능의  파운데이션 모델을 손에 넣었습니다. 이 모델에는 인스트럭션이나 대화에 맞추는 파인튜닝이 적용되지 않았으며 RLHF도 없었습니다. 그럼에도 불구하고 커뮤니티는 자신들이 확보한 것의 가치를 즉시 이해했습니다.

    주요 개발 사이에 불과 며칠 사이에 엄청난 혁신이 쏟아져 나왔습니다(전체 분석은 타임라인 참조). 한 달이 지난 지금, 인스트럭션 튜닝, 양자화, 품질 개선, 인간의 평가 부여, 멀티모달리티, 인간 피드백 기반 강화학습(RLHF) 등 다양한 버전이 등장했으며, 이 중 상당수는 서로를 기반으로 합니다.

    가장 중요한 것은 누구나 손댈 수 있을 정도로 비용 규모 문제를 해결했다는 점입니다. 새로운 아이디어의 대부분은 평범한 사람들의 것입니다. 교육과 실험에 대한 진입 장벽이 대형 연구 기관의 총 역량 수준에서 한 사람의 저녁 시간, 고급 노트북 수준으로 낮아졌습니다.


이런 일이 일어날걸 예상할 수 있었던 이유

    여러 면에서 이것은 누구에게도 놀라운 일이 아닙니다. 현재 오픈 소스 LLM의 르네상스는 이미지 생성의 르네상스에 이어 뜨겁게 달아오르고 있습니다. 커뮤니티에서도 이러한 유사점을 발견할 수 있으며, 많은 사람들이 지금을 LLM의 "스테이블 디퓨전 모먼트"라고 부릅니다.

    두 사례 모두 저비용 대중의 참여가 가능했던 것은 로라(LoRA)라는 훨씬 저렴한 파인튜닝 기법과 규모 면에서 획기적인 발전(이미지 합성의 경우 스테이블 디퓨전, LLM의 경우 친칠라 규모 법칙)이 결합되었기 때문입니다. 두 경우 모두, 일반인이 충분히 높은 품질의 모델에 대한 액세스가 가능해짐에 따라 전 세계 개인과 기관의 아이디어와 실험, 개선의 반복을 촉발시켰습니다. 두 경우 모두 대형 업체를 빠르게 앞질렀습니다.

    이러한 기여는 이미지 생성 영역에서 중추적인 역할을 했으며, Stable Diffusion은 Dall-E와 다른 길을 걷게 되었습니다. 스테이블 디퓨전은 개방형 모델을 채택함으로써 다른 상용 제품과의 결합 (포토샵용 플러그인), 마켓플레이스(civitai), 사용자 인터페이스(automatic1111), 그리고 Dall-E에는 없던 혁신(컨트롤넷)까지 이루어졌습니다.

    문화적 영향력 측면에서 빠르게 우위를 점한 스테이블 디퓨전과 점점 더 무의미해져 가는 OpenAI 의 Dall-E의 차이는 분명했습니다. 언어모델에서도 같은 일이 일어날지는 아직 미지수이지만, 큰 전제조건에서는 차이가 없습니다.


우리가 놓친 것

    오픈소스의 최근 성공을 이끈 혁신들은 우리가 여전히 고민하고 있는 문제를 직접적으로 해결해 줍니다. 오픈소스의 작업에 더 많은 관심을 기울여야만 우리는 같은 실수를 반복하지 않을 수 있습니다. 


LoRA는 우리가 더 주목해야 할 놀랍도록 강력한 기술입니다.

    LoRA는 모델의 업데이트를 낮은 랭크 행렬의 인수분해로 표현하는 방식으로 작동하므로 모델 학습시 업데이트해야 할 행렬 크기가 최대 수천 배까지 줄어듭니다. 따라서 적은 비용과 시간으로 모델을 파인튜닝할 수 있습니다. 소비자급 하드웨어에서 몇 시간 만에 언어 모델을 개인화할 수 있다는 것은 특히 새롭고 다양한 지식을 거의 실시간으로 통합해야 하는 경우 큰 의미가 있습니다. 이 기술은 Google의 가장 야심찬 프로젝트에 직접적인 영향을 미치고 있음에도 불구하고 LoRA는  Google 내부에서 제대로 활용되지 않고 있습니다


모델을 처음부터 다시 학습시키는 것은 험난한 과정입니다.

    LoRA가 효과적인 이유 중 하나는 다른 형태의 파인튜닝과 마찬가지로 여러개의 LoRA를 누적해서 쌓아올리는게 가능하다는 점입니다. 인스트럭션 튜닝과 같은 개선 사항을 적용한 다음 다른 기여자가 대화, 추론 또는 도구 사용을 추가할 때에 둘 다 조합해서 활용할 수 있습니다. 개별적인 LoRA 파인튜닝 결과는 낮은 랭크의 행렬 값이지만, 그 총합은 그럴 필요가 없으므로 시간이 지남에 따라 모델에 대한 전체 랭크의 업데이트가 누적될 수 있습니다.

    즉 이것이 의미하는 바는, 새롭고 더 나은 데이터 세트가 사람들의 손에 주어지면 사람들은 전체 모델을 학습시키지 않고도 각자의 모델을 저렴하게 최신 상태로 유지할 수 있다는 것입니다.

    반면, 거대 모델을 처음부터 다시 학습시키는 기존의 우리 방식에서는 모델의 사전 학습 결과 뿐만 아니라 그 위에 누적된 파인튜닝들도 모두 버려지게 됩니다. LoRA 방식으로 모델을 사용하는 오픈 소스 세계에서는 개선 사항이 널리 퍼지기까지  오래 걸리지 않는데 비해, 꼬박꼬박 전체 재학습을 돌리는 조직(구글같은..) 은 엄청난 손해를 짊어지고 나갈 수 밖에 없습니다

    우리는 각각의 새로운 애플리케이션이나 아이디어에 정말 완전히 새로운 모델이 필요한지 신중하게 고려해야 합니다. 모델 가중치를 직접 재사용할 수 없는 주요 아키텍처 개선 사항이 있다면 이전 세대의 기능을 최대한 뽑아낼 수 있도록 증류 기법(distillation) 에라도 투자해야 합니다.


더 빠르게 반복적으로 개선된다면, 작은 모델이 대형 모델보다 장기적으로 더 나은 성능을 발휘할 수 있습니다.

    LoRA 업데이트는 보편적으로 쓰이는 모델 사이즈(7B~13B)의 경우 제작 비용이 매우 저렴합니다(~$100). 즉, 아이디어만 있으면 거의 모든 사람이 업데이트를 제작하여 배포할 수 있습니다. 학습 시간은 보통 하루가 채 걸리지 않습니다. 이 정도 속도라면 이러한 모든 미세 조정의 누적 효과가 크기로 인한 단점을 극복하는 데 그리 오랜 시간이 걸리지 않습니다. 실제로 엔지니어 시간 측면에서 볼 때, 이러한 모델의 개선 속도는 가장 큰 규모 모델로 할 수 있는 것보다 훨씬 빠르며, 최고의 모델 (비쿠냐 13b)은 이미 ChatGPT (3.5 turbo)와 거의 구별할 수 없을 정도입니다. 지구상에서 가장 큰 모델을 유지 관리하는 데 집중하면 오히려 불리한 상황에 처하게 됩니다.


데이터 품질의 확장성 데이터 크기의 확장성보다 더 의미가 있습니다.

    이러한 프로젝트 중 상당수는 고도로 선별된 소규모 데이터 세트를 학습하여 시간을 절약하고 있습니다. 이는 데이터 확장 법칙 (규모가 커지면 지능도 높아진다) 에 어느 정도 예외가 있음을 시사합니다. 이러한 데이터 세트의 존재는 '데이터는 생각대로 작동하지 않는다'의 사고 방식에서 비롯된 것으로, Google 외부에서 학습을 수행하는 표준 방식으로 빠르게 자리 잡고 있습니다. 이러한 데이터 세트는 합성 방법(예: 기존 모델에서 최상의 응답을 선별)과 다른 프로젝트에서 도적질해오는 식으로 구축되며, 이 두 가지 방법 중 어느 것도 Google에서 널리 사용되는 방법은 아닙니다. 다행히도 이러한 고품질 데이터 세트는 오픈 소스이므로 무료로 사용할 수 있습니다.


오픈소스와 직접 경쟁하면 손해보는 쪽이 됩니다.

    이러한 최근의 진전은 Google의 사업 전략에 직접적이고 즉각적인 영향을 미칩니다. 사용 제한이 없는 고품질의 무료 대안이 있다면 누가 사용 제한이 있는 Google 제품에 비용을 지불할까요?

    그리고 우리가 오픈소스를 따라잡을 수 있을 거라고 기대해서는 안 됩니다. 현대의 인터넷이 오픈소스 기술들 기반으로 운영되는 데에는 그만한 이유가 있습니다. 오픈소스에는 우리가 따라할 수 없는 몇 가지 중요한 이점이 있습니다.


그들이 우리를 필요로 하는 것보다 우리에겐 그들이 더욱 절실합니다.

    기술을 비밀로 유지하는 것은 항상 어려운 일이었습니다. Google 연구원들은 정기적으로 다른 회사로 이직하고 있기 때문에 우리가 알고 있는 모든 것을 알고 있다고 가정할 수 있으며, 그 흐름이 열려 있는 한 앞으로도 계속 그럴 것입니다.

    그 와중에 LLM의 최첨단 연구 비용이 저렴해지면서 우리가 기술 경쟁 우위를 유지하는 것은 더욱 어려워졌습니다. 전 세계의 연구 기관들이 서로의 연구를 바탕으로 우리의 역량을 훨씬 능가하는 폭넓은 방식으로 문제를 해결하고 있습니다. 우리에겐 외부의 혁신에 의해 우리의 가치가 상대적으로 떨어지는 동안 우리의 비밀을 굳건히 지키려고 노력하는 쪽을 선택하거나, 아니면 서로에게서 배우려고 노력하는 쪽을 선택하거나 둘 중의 하나입니다


개인은 기업과 같은 수준의 라이선스 제약에 얽매이지 않습니다.

    이러한 혁신의 대부분은 메타에서 유출된 LLaMA 모델을 기반으로 이루어지고 있습니다. 진정한 개방형 모델이 개선됨에 따라 이러한 상황은 필연적으로 변화하겠지만, 중요한 점은 기다릴 필요가 없다는 것입니다. '개인적 사용'이 제공하는 법적 방패막이에 덧붙여 기업이 개인을 고소하는 것이 어렵다는 현실은 오픈소스의 개인들이 이러한 기술이 최신일 때 바로 접근하고 있다는 것을 의미합니다.


자기 자신을 위한 기술을 만든다는 것은 그 사용 사례를 제대로 이해한다는 의미입니다.

    이미지 생성 분야에서 사람들이 만드는 모델을 살펴보면 애니메이션 제너레이터부터 HDR 랜드스케이프에 이르기까지 방대한 창의성이 쏟아져 나오고 있습니다. 이러한 모델들은 특히 서브컬쳐에 깊이 몰입한 사람들이 사용하고 만들었기 때문에 우리가 따라올 수 없는 깊이 있는 지식과 공감을 제공합니다.


중요한 것은 생태계를 소유하려는 마음: 오픈 소스 활용하기

    역설적이게도 이 모든 것의 확실한 승자는 바로 메타입니다. 유출된 모델이 자신들의 것이었기 때문에, 그들은 사실상 지구 전체에 해당하는 무료 노동력을 확보한 셈입니다. 대부분의 오픈소스 혁신이 메타의 아키텍처를 기반으로 이루어지고 있기 때문에, 메타가 이를 자사 제품에 직접 통합하는 것을 막을 수 있는 방법은 없습니다.

    생태계를 소유하는 것의 가치는 아무리 강조해도 지나치지 않습니다. Google은 이 패러다임을 Chrome과 Android와 같은 오픈 소스 제품에서 성공적으로 활용했습니다. 혁신이 일어나는 플랫폼을 소유함으로써 Google은 사고의 리더이자 방향 설정자로서의 입지를 굳히고, 자신보다 더 큰 아이디어에 대한 내러티브를 형성할 수 있는 능력을 얻게 됩니다.

    회사가 모델의 소유권을 엄격하게 제어하려 들수록 다른 오픈소스 대안의 매력은 더욱 커집니다. Google과 OpenAI 모두 모델 사용 방식을 엄격하게 통제하는 쪽으로 릴리즈하는 방식을 관성처럼 따라왔습니다. 하지만 이런식으로 사용자를 통제할 수 있다는 생각은 허상일 뿐입니다. 승인되지 않은 목적으로 LLM을 사용하고자 하는 사람은 누구나 자유롭게 사용할 수 있는 모델 중 원하는 것을 선택하면 되는게 현실입니다.

    Google은 오픈 소스 커뮤니티의 리더로서 폭넓은 논의의 기회를 무시하지 말고 협력을 통해 주도권을 잡아야 합니다. 이는 아마도 소형 언어모델의 가중치를 대중에 공개하는 것과 같은, 기존의 우리로서는 불편한 행동을 취하는 것을 포함할 것입니다. 이는 모델에 대한 일부 통제권을 포기할 수 밖에 없습니다. 하지만 이러한 타협은 불가피합니다. 혁신을 주도하면서 동시에 혁신을 통제할 수는 없기 때문입니다.


에필로그: OpenAI의 경우는?

    오픈소스에 대한 이 모든 이야기는 OpenAI의 현재 폐쇄적인 정책을 고려할 때 불공평하게 느껴질 수 있습니다. 저들은 공유하지 않을 텐데 우리는 왜 공유해야 하나요? 하지만 사실 우리는 이미 고급 연구원이 꾸준히 유출되는 형태로 모든 것을 그들과 공유하고 있습니다. 이러한 흐름을 막기 전까지는 비밀 유지에 대한 논의는 무의미합니다.

    종국에는 OpenAI 가 어떻게 하냐는 큰 의미가 없을 겁니다. OpenAI는 오픈소스에 대해 우리와 같은 실수를 저지르고 있으며, 영원히 기술적 우위를 유지할 수 있을지도 불확실합니다. 오픈소스 대안이 그들의 입장을 바꾸지 않는 한 결국에는 오픈소스가 그들을 잠식할 수 있고 잠식할 것입니다. 이 점에서 적어도 우리가 먼저 움직일 수 있습니다.