LLM의 추론을 개선하는 대조적 디코딩(Contrastive Decoding) - AI 정보 채널

AI 정보 채널

알림 알림 중 알림 취소

구독자 504명 알림수신 14명 @산정

개인용창고: (언어모델 위주의) 인공지능 논문, 뉴스, 팁, 라이브러리 등

논문 LLM의 추론을 개선하는 대조적 디코딩(Contrastive Decoding)

추천 1 비추천 0 댓글 0 조회수 208 작성일 2023-09-20 11:45:08

https://arca.live/b/ai101/86729096

Contrastive Decoding Improves Reasoning in Large Language Models

LLM의 추론을 개선하는 대조적 디코딩

Sean O'Brien, Mike Lewis

이 글에서는 (2022년 Li의 논문에 제안된, 간단하고 계산량이 적으며 훈련이 필요 없는 텍스트 생성 방법인) '대조적 디코딩(Contrastive Decoding)'이 다양한 추론 작업에서 탐욕적 디코딩(greedy decoding)에 비해 즉각적이고 큰 폭의 개선을 달성한다는 것을 보여줍니다.

원래 긴 형식의 텍스트 생성에서 인지된 품질을 개선하는 것으로 알려진 대조적 디코딩은 강한 모델과 약한 모델 간의 가능성에 대한 가중치 차이(weighted difference in likelihood)를 최대화하는 문자열을 검색합니다.

대조적 디코딩을 사용한 LLaMA-65B는 HellaSwag 상식 추론 벤치마크에서 LLaMA 2, GPT-3.5, PaLM 2-L을 능가하고, GSM8K 수학 단어 추론 벤치마크에서 LLaMA 2, GPT-3.5, PaLM-540B를 능가하며, 다른 작업 모음에서도 개선된 성능을 보여줍니다.

분석 결과, 대조적 디코딩은 일부 추상적 추론(abstract reasoning) 오류를 방지하고 연쇄적 사고(chain-of-thought) 중에 입력의 일부를 복사하는 것과 같은 단순한 모드(simpler modes)를 피함으로써 기존 방법보다 개선된 결과를 내는 것으로 나타났습니다.

전반적으로 대조적 디코딩은 장문 생성을 위한 핵 샘플링(nucleus sampling)이나 추론 작업을 위한 탐욕적 디코딩보다 성능이 뛰어나며, 언어 모델에서 텍스트를 생성하는 강력하고 범용성이 뛰어난 방법이라고 할 수 있습니다.

관련 레딧:

https://www.reddit.com/r/LocalLLaMA/comments/16mwcch/contrastive_decoding_improves_reasoning_in_large/

대조적 인코딩에 대한 첫 논문:

Contrastive Decoding: Open-ended Text Generation as Optimization

Xiang Lisa Li, Ari Holtzman, Daniel Fried, Percy Liang, Jason Eisner, Tatsunori Hashimoto, Luke Zettlemoyer, Mike Lewis

https://arxiv.org/abs/2210.15097

댓글 [0]

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 정보 논문 깃헙 모델 후기 스터디 채팅 음성 이미지 영상 모음 공지

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29916620

공지 입원으로 자리 비움 // 채널 설명 및 자주 쓰는 링크

산정 2023.05.30 512

682 일반 갓채널 [4]

Ai프로일러레성정문 2024.04.20 466 0

681 후기 GPTs에 인생첫 챗봇인 fourierGPT 를 만들어 보았습니다. [2]

뿌리골무 2023.11.11 1166 3

680 정보 지난 수 개월 간의 ChatGPT 유저 세션 분석 [1]

산정 2023.10.01 905 0

679 정보 llama.cpp: 추측적 디코딩 + 문법 지원

산정 2023.10.01 450 0

678 모델 NexusRaven-13B: 함수 호출(function calling) 특화 언어모델

산정 2023.10.01 308 0

677 논문 ★ QA-LoRA: 대규모 언어 모델의 양자화 인식 로라

산정 2023.09.27 418 0

676 모델 ★ MistralAI 7B (새로운 기초모델)

산정 2023.09.27 537 1

675 스터디 ★ [번역] 들쭉날쭉한 경계에 선 켄타우로스와 사이보그

산정 2023.09.26 284 1

674 정보 언어모델 GGUF 형식으로 직접 변환하는 법 [1]

산정 2023.09.26 1818 0

673 모델 플롯봇(PlotBOT): 소설 플롯 작성 전문 모델 [1]

산정 2023.09.24 339 1

672 논문 ★ 기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상

산정 2023.09.23 299 2

671 모델 LLaMa2-LongLoRA (32k 컨텍스트의 70B 모델)

산정 2023.09.23 207 1

670 논문 LongLoRA: 긴 컨텍스트 LLM의 효율적인 파인튜닝

산정 2023.09.23 182 0

669 논문 대규모 언어 모델의 모호성 인식 문맥 내 학습

산정 2023.09.22 176 0

668 논문 에이전트(Agents): 자율 언어 에이전트를 위한 오픈 소스 프레임워크

산정 2023.09.21 136 0

667 논문 LLM의 추론을 개선하는 대조적 디코딩(Contrastive Decoding)

산정 2023.09.20 209 1

666 논문 고속 피드포워드 네트워크(Fast Feedforward Networks) [1]

산정 2023.09.20 172 0

665 정보 미로스탯(Mirostat) 파라미터

산정 2023.09.20 136 0

664 논문 모듈포머(ModuleFormer): 전문가 혼합(MoE)에서 발현되는 모듈성 (IBM)

산정 2023.09.19 153 0

663 스터디 ★ [번역] 단 하나의 예제로도 언어모델은 배울 수 있나요?

산정 2023.09.19 284 1

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.