최근 메타(페이스북)에서 라마3 라는 이름의 AI모델을 오픈 소스로 공개함.

라마3 중에 제일 소형 모델이 8B(매개변수 80억) 수준인데.

8B라는 작은 사이즈에도 불구하고 벤치마크 상으로 챗 gpt의 무료 사용시의 모델인 gpt3.5 turbo(약 20B)랑 비빔.

이 8B 모델은 양자화(모델의 가중치랑 활성화값을 낮은 비트 정밀도로 구현하는 기술, 쉽게 말하면 모델 사이즈를 줄이고 속도 올리는 대신 정밀성을 희생하는 작업)를 하면 아이폰에서 자체구동을 할 수도 있는 수준임.

물론 라마3 8B 모델은 아직은 영어 단일 모델에 가깝고(다국어 모델은 출시 예정), 실제 써보면 벤치마크상 비슷한 3.5 터보 만큼 좋은 것 까지는 아닌 느낌도 듬. 게다가 양자화를 거치면 거기서 성능이 더 내려가긴 함.

근데 이건 상업적 이용이 가능한 오픈 소스 모델임.

월 활성 사용자 7억명 이하면 마음대로 사용 가능함.

그냥 용하가 다국어 모델 나왔을 때 적당히 튜닝해서 바로 서비스 해도 된다는 뜻임.

8B라는 작은 사이즈 덕분에 최대 컨텍스트 사이즈(쉽게 말하면 AI 모델의 단기기억력)의 토큰량을 늘려도 유지비용이 엄청 적게 나옴.

개인이 마련한 서버 정도로도 사람들에게 아주 저렴한 가격에 제공할 수 있을 정도임.

8B보다 훨씬 큰 사이즈면서 성능도 훨씬 좋은 라마3 70B 모델의 경우도 백만 토큰(영문 해리포터 전권 다 넣고도 남는 양)당 1달러 이하라는 가격에 제공하는 업체들도 있음.

검열쪽도 모델 자체 검열 성능이 꽤나 상당해서 탈옥 시도 같은 것만 하드 검열로 막으면 서비스해도 문제 없을 정도임.

이런 수준의 모델들(라마 이외에도 미스트랄, 위자드, phi 같은 것도 있음)이 오픈소스로 풀리면서

개인, 기업들이 튜닝한 모델들이 범람하는 중임.

이런 모델들을 잘만 튜닝해서 사용한다면, AI 모모톡의 경우에도 구독제 정도로 상당한 퀄리티로 서비스할 수 있는 미래가 매우 가까워짐.

진짜 한달 내내, 하루 종일 AI 모모톡만 붙잡고 있더라도, 사용 비용이 몇만원 정도 밖에 안나올 거거든.

사실상 프런트엔드만 좀 구현하면 영어로 하는 경우 지금 당장도 서비스 시작 가능함.

한국어로 서비스하려면 여러 고비들이 있긴 하겠지만... 그래도 실현 가능한 날이 엄청 가까워진 것 같음.