비쿠냐 만든 데서 구글 Flan-T5 기반 모델을 내놨네요

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3513명 알림수신 173명 @바바리맨

제한없는 언어모델을 위한 채널

정보 비쿠냐 만든 데서 구글 Flan-T5 기반 모델을 내놨네요

산정

추천 3 비추천 0 댓글 9 조회수 1069 작성일 2023-04-29 15:00:39 수정일 2023-04-29 15:34:35

https://arca.live/b/alpaca/75195783

https://huggingface.co/lmsys/fastchat-t5-3b-v1.0

모델 유형: FastChat-T5는 ShareGPT에서 수집된 사용자 공유 대화를 fine-tuning하여 훈련된 오픈소스 챗봇입니다. 인코더-디코더 트랜스포머 아키텍처를 기반으로하며, 사용자의 입력에 대한 응답을 자동으로 생성할 수 있습니다. Flan-t5-xl (3B 파라미터)을 사용하여 fine-tuning했습니다.

트레이닝 디테일: 이 모델은 ShareGPT 데이터를 질문-응답 형식으로 처리합니다. 각 ChatGPT 응답은 답변으로 처리되고, 사용자와 ChatGPT 간 이전 대화는 질문으로 처리됩니다. 인코더는 질문을 양방향으로 인코딩하여 숨겨진 표현으로 만듭니다. 디코더는 시작 토큰부터 단방향으로 응답을 생성하면서 이 표현을 참조하기 위해 교차 어텐션을 사용합니다. 이 모델은 최대 학습률 2e-5, 웜업 비율 0.03, 코사인 학습률 스케줄과 함께 3 에포크로 fine-tuning되었습니다.

https://github.com/lm-sys/FastChat#FastChat-T5

깃허브 설명서

https://chat.lmsys.org/

데모 페이지. 모델 선택지에서 FastChat-T5 고르면 됩니다.

라마 기반 LLM은 다 디코더 모델이라는데
이거는 인코더-디코더 모델이라네요.

머가 다른지는 모르겠지만...

저 위에 LLM 계보도에서 외따로 떨어져 노는 놈이 Flan-T5인데

그거 기반이라고 하니까 흥미로워요. 뭔가 독특한 점이 있으려나.

아래는 AI에게 물어본 차이점 :

인코더-디코더 (Encoder-Decoder) LLM과 디코더 온리 (Decoder-Only) LLM은 LLM (Large Language Model)의 구조 중 하나입니다.

인코더-디코더 LLM은 인코더와 디코더로 구성되어 있습니다. 인코더는 입력 문장을 임베딩하고 순차적으로 처리하여 문맥 정보를 포착한 후, 디코더에 전달합니다. 디코더는 인코더가 전달한 문맥 정보를 기반으로 출력 문장을 생성합니다. 번역, 요약 등의 task에서 많이 사용되는 구조입니다.

반면에 디코더 온리 LLM은 디코더 하나로만 구성되어 있습니다. 입력 문장을 바로 임베딩하고 순차적으로 처리하여 출력 문장을 생성합니다. 디코더 온리 LLM은 인코더-디코더 LLM보다 더 경량화된 구조를 가지고 있어, 연산 속도나 메모리 사용량 면에서 유리합니다.

하지만 디코더 온리 LLM은 입력 문장의 문맥 정보를 직접적으로 활용하지 못하기 때문에, 인코더-디코더 LLM보다 task의 성능이 떨어질 수 있습니다. 따라서 task의 종류와 상황에 따라서 적절한 LLM 구조를 선택하여 사용해야 합니다.

댓글 [9] 글쓰기

변태Lv1

2023-04-29 15:02:18 답글

이쪽은 진짜 하루하루가 다르게 흘러가네

펼쳐보기▼

산정

2023-04-29 15:07:11 답글

그러게요. 정신없습니다. ;; 
GPT-4가 워낙 최고존엄이라... 오픈소스 모델들도 얼른얼른 쫓아가주면 좋겠네요. ㅎㅎ

펼쳐보기▼

NotAI

2023-04-29 15:25:15 답글

*수정됨

인코더-디코더 모델이면 좀 더 SD에 가깝게 동작하겠네요. 그게 언어모델에서 어떤 강점을 지니는지 찾아봐야겠습니다.

펼쳐보기▼

NotAI

2023-04-29 15:46:51 답글

디코더 모델은 인풋 길이가 고정인 반면에 인코더-디코더 모델은 가변인거 같네요. 이론적으로는 GPT보다 훨씬 긴 길이의 인풋을 한번에 처리할 수 있을꺼 같긴 한데 현실적으로는 길이가 증가할때마다 필요한 메모리양이 4배로 증가하고 트레이닝에 사용된 데이터 길이에서 벗어날수록 아웃풋의 성능 저하가 뚜렷해서 장점을 살리기 힘든거 같습니다.

펼쳐보기▼

산정

2023-04-29 15:50:37 답글

아 그런 차이가... 저같은 중하급 컴 돌리는 유저는 그냥 디코더 온리 모델이나 써야겠네요.ㅎㅎ
하지만 책 요약 같은 거 잘 한다고 하니 스크립트 하나 짜서 책 요약이나 시켜놓고 다른 거 하는 식으로 써먹는 건 괜찮을지도.

펼쳐보기▼

NotAI

2023-04-29 15:52:25 답글

길이가 길어지면 필요한 메모리양이 4배로 증가 한다는건 반대로 말하면 길이가 짧아지면 필요한 메모리 양이 1/4이 된다는거니 확실히 특정 작업에서는 GPT보다 훨씬 효율적일꺼 같긴 하네요.

펼쳐보기▼

산정

2023-04-29 15:57:53 답글

그러네요. 사실 제가 LLM에 바라는 건 자연스러운 채팅보다는 대량의 문서 요약, 번역, 혹은 특정자료 숙지 후 질의응답 같은 부분인데 그쪽으로는 인코더-디코더 모델이 더 낫다고 하니까 관심을 갖고 지켜봐야겠어요.

펼쳐보기▼

그래요

2023-04-30 01:46:52 답글

이름은 fastchat인데 기존 비쿠냐보다 느림요

펼쳐보기▼

산정

2023-04-30 02:13:19 답글

이건 3B인데도 더 느리면 확실히 인코딩-디코딩 모델이 많이 느린가 보네요.

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31289303

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6247

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28397

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9393

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

정보 Stable-Vicuna13B (뉴 베이스라인?) [9]

레카 2023.04.30 648 0

질문 라마나 비쿠나계 모델은 왜 가끔 답변이 무한반복되는걸까? [5]

파라노이아 2023.04.30 491 0

일반 이렇게 전문적인 챈이 있었다니 [14]

jaehyun977 2023.04.30 472 3

일반 여기 며칠 안오니까 왤케 전문적으로 바뀜 [6]

노랑노랑 2023.04.30 297 0

질문 파인튜닝하면 ai가 같은말 반복하는 현상은 줄어드는 편이야? [3]

사과는맛있어맛있으면바나나 2023.04.30 286 0

정보 AI 사용/학습법 [28]

tetman 2023.04.29 1515 9

스터디 Generative모델에서 Sampling, Perplexity 에 대해 알아보자 [17]

hkhk 2023.04.29 1597 11

질문 언어모델 뉴비입니다. kogpt2 모델을 파인튜닝 중인데요. [2]

나도좀 2023.04.29 638 0

정보 MLC LLM : GPU 가속화와 함께 Universal LLM 배포 [4]

산정 2023.04.29 363 2

정보 비쿠냐 만든 데서 구글 Flan-T5 기반 모델을 내놨네요 [9]

산정 2023.04.29 1070 3

질문 Langchain으로 이거 가능한지 질문드려요 [14]

뽀글이죽어 2023.04.29 567 0

일반 mirostat [9]

꿈돌리 2023.04.29 339 1

일반 HBM 메모. [4]

novelgif 2023.04.29 263 2

일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 5003 70

질문 lora 개념은 대충 알겠는데 궁금한점 [3]

kukukaka 2023.04.29 354 0

학습 Alpaca-CoT: 인스트럭션 데이터 수집 및 통합 대규모 언어 모델 인터페이스를 갖춘 인스트럭션 파인튜닝 플랫폼 [1]

hkhk 2023.04.29 419 0

일반 챗GPT 모시고 파이토치 공부 중! [12]

산정 2023.04.29 376 3

자료 StableVicuna 13B 출시 [8]

사과는맛있어맛있으면바나나 2023.04.29 795 5

일반 위자드LM 재현해 보는중.. [12]

하늘의아리아 2023.04.29 419 4

글쓰기

전체글 개념글