프롬프트에 수백 개의 예제를 넣으면 LLM 성능을 크게 향상시킬 수 있다는 연구 결과가 나왔습니다.

https://the-decoder.com/hundreds-of-examples-in-prompts-can-significantly-boost-llm-performance-study-finds/
https://arxiv.org/pdf/2404.11018.pdf

구글, 딥마인드 및 기타 기관의 연구진에 따르면 대규모 언어 모델(LLM)이 프롬프트에서 바로 수백, 수천 개의 예제를 볼 때 다양한 작업에서 성능이 크게 향상된다는 연구 결과가 발표되었습니다.

연구진은 프롬프트에서 학습할 예제를 몇 개만 제공하는 것이 아니라 많은 예제를 직접 제공했을 때 LLM의 성능이 어떻게 향상되는지 연구했습니다. 이 접근 방식을 다발적 상황 내 학습(ICL)이라고 합니다.

컨텍스트 내 학습(ICL)은 미세 조정과 같이 모델 매개변수를 조정하지 않고 컨텍스트(프롬프트)에서 직접 예제를 제공하는 것을 의미합니다. 후자는 훨씬 더 많은 시간과 비용이 소요됩니다.

이전에는 모델에 한 번에 많은 텍스트를 처리하고 생성할 수 없었기 때문에 일반적으로 몇 가지 예제(원샷, 소수 샷)만 제공되었습니다. 이제 일종의 단기 메모리인 '컨텍스트 윈도우'가 커지면서 모델에 수백, 수천 개의 예시를 프롬프트에서 직접 제공할 수 있게 되었습니다(많은 샷).

연구원들은 문맥에서 최대 100만 개의 토큰(약 70만 단어)을 처리할 수 있는 Google의 Gemini 1.5 Pro 언어 모델을 사용하여 Many-Shot ICL을 테스트했습니다. 그 결과 번역, 요약, 계획, 질문에 대한 답변과 같은 작업에서 다수 샷 프롬프트가 소수 샷 프롬프트보다 훨씬 뛰어난 성능을 보였습니다.

약 1,000개의 번역 예제를 통해 Gemini 1.5는 현재까지 LLM과 구글 번역 간의 격차가 가장 큰 것으로 보고된 대상 언어인 쿠르드어와 타밀어에서도 구글 번역을 능가하는 성능을 보였습니다.

뉴스를 요약할 때는 전문 프로그램을 거의 따라잡을 수 있었지만 학습 예제에 나타나지 않는 잘못된 데이터와 시간 등의 오류가 가끔 발생했습니다. 또한 50개 이상의 예제 이후에는 성능이 떨어졌는데, 연구진은 이 현상을 아직 설명할 수 없었습니다.

자체 학습 예제를 생성할 수 있는 LLM

연구진은 수학이나 과학 문제와 같은 까다로운 논리적 작업의 경우 모델이 자체적으로 솔루션을 생성하도록 하고 이를 추가 학습 예제로 사용했습니다. 이 접근 방식("강화 ICL")은 사람이 만든 솔루션보다 더 안정적으로 작동했습니다.

한 실험에서는 모델에 솔루션 없이 문제만 제공했습니다("비지도형 ICL"). 일부 논리적 작업의 경우, 이 방식이 완전한 예제보다 더 잘 작동했습니다. 그러나 일반적으로 "강화된 ICL"을 사용하면 자체 생성된 솔루션과 일치하지 않았습니다.

연구진은 또한 예제를 통한 사전 학습을 통해 모델이 오류를 '학습'하고 충분한 예제를 보여주면 추상적인 수학적 패턴도 인식할 수 있음을 발견했습니다.

그러나 모델에 예제를 제공하는 순서에 따라 프롬프트가 더 복잡해지는 등 차이가 있었습니다. 또한 예제가 많을수록 성능이 떨어지는 이유도 아직 밝혀지지 않은 문제입니다. 이를 명확히 밝히기 위해서는 향후 연구가 필요합니다.

어쨌든 결과는 언어 모델이 프롬프트의 많은 예제에서 안정적으로 학습할 수 있음을 보여줍니다. 따라서 앞으로는 특정 작업에 대한 시간 소모적인 훈련이 불필요해질 수 있습니다.

또한 프롬프트 작성자에게는 추가적인 작업이 생깁니다: 작업에 맞는 고품질 예시를 찾거나 생성해야 한다는 것입니다.

위자드면 해볼만하려나? 예시 넣으면 성능 개선되는거야 다들 아는거지만 존나 많이 넣으면 속도랑 비용이 문제였을텐데, 50개 정도면 위자드는 둘 다 괜찮을테니