Nvidia에서 4k 시퀀스의 언어모델을 발표 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3513명 알림수신 173명 @바바리맨

제한없는 언어모델을 위한 채널

정보 Nvidia에서 4k 시퀀스의 언어모델을 발표

추천 1 비추천 0 댓글 4 조회수 329 작성일 2023-05-02 00:27:20 수정일 2023-05-02 00:44:05

https://arca.live/b/alpaca/75365440

https://huggingface.co/nvidia/GPT-2B-001

GPT-2B-001은 트랜스포머 기반 언어 모델입니다. GPT는 GPT-2, 3과 유사한 트랜스포머 디코더 모델 클래스를 나타냅니다. 2B는 학습 가능한 매개변수 수가 20억 개라는 것을 나타냅니다. 이 모델은 NeMo를 사용하여 1조1천억 개의 토큰으로 학습되었습니다.

모델 구조 개선사항으로는 SwiGLU 활성화 함수, RoPE(Positional Encoding) 및 4,096의 최대 시퀀스 길이가 있습니다. (이전 모델 https://huggingface.co/nvidia/nemo-megatron-gpt-20B의 경우 2,048의 최대 시퀀스 길이) 추가로 드롭아웃이 없으며, 모든 선형 레이어에는 바이어스(bias)가 없고, 임베딩(embedding) 및 출력(output) 레이어가 분리되어 있습니다.

다른 건 무슨 소린지 모르겠고 최대 시퀀스 길이(Maximum sequence length)가 4096이라는 게 눈에 띄네요.

이게 컨텍스트를 4k토큰 동안 유지한다는 의미인 것 같네요. 일단 ChatGPT는 그렇다고 말함.

댓글 [4] 글쓰기

2023-05-02 02:00:39 답글

이런거 볼때마다 GPT-4의 기본 8K, 확장 32K는 경이로와요

펼쳐보기▼

2023-05-02 02:21:03 답글

진짜 엄청난 것 같네요. 8k도 놀라운데 32k는... 진짜 왠만한 건 다 가능할 듯...

펼쳐보기▼

2023-05-02 02:22:33 답글

32k면 20000단어쯤이라고 하는데 이정도면 계약서 왠간한거 통째로 나오는 수준입니다 그리고 왠간한 판례는 짜를필요 없이 그냥 때려넣고 ratio decidendi 찾아내 하면 되고요

펼쳐보기▼

2023-05-02 09:40:30 답글

그래도 2b는 아직 걸음마 수준인듯

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31258860

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6244

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28385

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9386

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5431

공지 신문고

바바리맨 2023.04.18 2351

숨겨진 공지 펼치기(1개)

일반 이번주 랭체인 목표 [14]

웹러닝 2023.05.03 570 3

스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6329 43

스터디 (쌉스압)21년도에 받아놨던 딥러닝 관련 책 내용 일부 [3]

곰주 2023.05.02 634 4

정보 과기정통부, AI 학습용 데이터 15억건 개방 [18]

산정 2023.05.02 789 7

일반 polyglot 4bit 양자화 버전 만든사람 아직 없나 [2]

Uat 2023.05.02 358 0

질문 KoAlpaca 사용해보신 분들께 조언을 부탁드리고 싶습니다 [12]

Mwaaaaaaa 2023.05.02 1037 0

일반 AI계의 대부가 AI 위험성을 경고하기 위해 구글을 떠났다고 합니다 [5]

그래요 2023.05.02 374 3

질문 최근에 공개됐다는 피그말리온 7b 모델 써본 사람 있음? [2]

파라노이아 2023.05.02 305 0

정보 64k 컨텍스트의 LLM이 곧 공개 예정 [12]

산정 2023.05.02 686 7

일반 OpenAI는 치트키 썼는데 이걸 다른회사나 개발자들은 못쓰는게 그래서 OA 응원중인데요 [7]

그래요 2023.05.02 419 2

일반 방향성을 어떻게 잡고 가야할지 고민중입니다 [9]

웹러닝 2023.05.02 513 0

일반 13b학습중인데 인자 이렇게 하면 될려나.. [20]

하늘의아리아 2023.05.02 487 0

정보 코딩 테스트 결과 : GPT4, 빙, 클로드, 바드, 깃허브 코파일럿 [10]

산정 2023.05.02 681 0

정보 Nvidia에서 4k 시퀀스의 언어모델을 발표 [4]

산정 2023.05.02 330 1

정보 GPT-4 평가에 편향이 있다는군요. [8]

산정 2023.05.02 615 7

일반 우바부가 오늘 첫 게시 해봤습니다..! [6]

웹러닝 2023.05.01 341 0

자료 polyglot 개행 관련해서 정정함 [18]

사과는맛있어맛있으면바나나 2023.05.01 591 2

전체글 개념글