https://huggingface.co/nvidia/GPT-2B-001


GPT-2B-001은 트랜스포머 기반 언어 모델입니다. GPT는 GPT-2, 3과 유사한 트랜스포머 디코더 모델 클래스를 나타냅니다. 2B는 학습 가능한 매개변수 수가 20억 개라는 것을 나타냅니다. 이 모델은 NeMo를 사용하여 1조1천억 개의 토큰으로 학습되었습니다.


모델 구조 개선사항으로는 SwiGLU 활성화 함수, RoPE(Positional Encoding) 및 4,096의 최대 시퀀스 길이가 있습니다. (이전 모델 https://huggingface.co/nvidia/nemo-megatron-gpt-20B의 경우 2,048의 최대 시퀀스 길이) 추가로 드롭아웃이 없으며, 모든 선형 레이어에는 바이어스(bias)가 없고, 임베딩(embedding) 및 출력(output) 레이어가 분리되어 있습니다.


다른 건 무슨 소린지 모르겠고 최대 시퀀스 길이(Maximum sequence length)가 4096이라는 게 눈에 띄네요.

이게 컨텍스트를 4k토큰 동안 유지한다는 의미인 것 같네요. 일단 ChatGPT는 그렇다고 말함.