LLM

최근 수정 시각: 2024-03-01 05:07:02

1. 개요2. LLM의 원리와 토큰3. 주요 LLM

3.1. GPT3.2. Claude3.3. LLama3.4. Gemini3.5. Mistral3.6. 로컬 모델3.7. 기타

1. 개요 [편집]

LLM, 즉 대규모 언어 모델(Large Language Models)은 인공 지능 분야에서 대량의 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성할 수 있는 모델이다. 이러한 모델은 다양한 언어 작업을 수행할 수 있으며, 질문에 답하거나, 텍스트를 요약하거나, 새로운 텍스트를 생성하는 등의 기능을 한다. 대표적인 예로는 OpenAI의 GPT 시리즈가 있다.

LLM은 수십억 개의 파라미터를 사용하여 구축되며, 이 파라미터들은 모델이 언어의 복잡성을 학습하고 모방할 수 있게 한다. 모델 학습 과정에서는 거대한 텍스트 데이터셋을 사용하여, 문맥을 이해하고, 문법적으로 올바른 문장을 생성하며, 주어진 텍스트에 기반한 정보를 추론하는 방법을 배운다. 파라미터는 주로 '13B' 와 같이 'Billion' 단위로 표현되는데, 기본적으로는 파라미터가 높을수록 모델의 잠재력이 더 높은 것으로 간주된다. 자세한 것은 로컬 모델 참조.

AI 채팅 채널에서는 다양한 방식으로 LLM을 사용하여 원하는 작업(봇과 대화하기, 시뮬레이션 수행, 각종 유틸리티 작업 등)을 수행하며, '모델'이라는 용어가 LLM을 나타내는 것이다.

2. LLM의 원리와 토큰 [편집]

LLM의 작동 원리는 '토큰'이라는 개념에 기반을 두고 있다. 토큰은 텍스트를 구성하는 기본 단위로, 일반적으로 의미를 가지는 단어나 문자열을 의미한다. 예를 들어, 문장 "I love natural language processing"를 토큰화하면, "I", "love", "natural", "language", "processing"과 같이 각 단어가 개별 토큰으로 분리된다. 토큰은 단어 뿐만 아니라 문장부호, 숫자, 기호 등 다양한 형태로 존재할 수 있다. 모델 학습 과정에서 이러한 토큰들은 숫자로 변환되어 모델이 처리할 수 있는 형태가 된다.

LLM은 주어진 토큰 시퀀스(예: 문장의 일부)에 기반하여 다음 토큰을 예측하는 방식으로 작동한다. 이 과정은 문맥을 이해하고, 해당 문맥에 적합한 단어나 구를 선택하여 문장을 완성하거나, 사용자의 질문에 답변하는 데 사용될 수 있다. 모델이 더 많은 데이터와 다양한 텍스트를 학습할수록, 그 예측의 정확도와 자연스러움은 향상된다.

AI 채팅에서 토큰은 종종 비용, 또는 봇의 기억력과 밀접한 의미를 가진다. 자세한 것은 토큰 항목 참조.

3. 주요 LLM [편집]

해당 문서에서는 각 LLM에 대한 간단한 설명과 AI 채팅 채널에서의 의의만을 소개한다. 소개된 모델들을 AI채팅에 활용하는 방법은 API 항목으로.

3.1. GPT [편집]

GPT 시리즈는 OpenAI에 의해 개발되었다. 현재는 챗봇(ChatGPT) 및 API 형태로 제공되고 있다.
2024년 3월 기준 최신 모델은 GPT-4-turbo-preview이며, 다양한 평가 지표상으로 현존하는 최고 지능의 모델로 평가받고 있다.

접근성 및 성능 측면에서 우월하여 AI 채팅 채널에서는 대다수의 이용자들이 GPT 모델을 사용하고 있으며, 대다수의 프롬프트 프리셋 또한 GPT를 기준으로 만들어져 있다.