https://the-decoder.com/massive-prompts-outperform-fine-tuning-for-llms-in-new-study-researchers-find/
https://arxiv.org/abs/2405.00200

카네기 멜론과 텔아비브 대학교의 연구에 따르면 대규모 언어 모델(LLM)에 프롬프트에 직접 많은 예시를 제공하는 것이 시간이 많이 걸리는 미세 조정보다 더 효과적일 수 있다는 사실이 밝혀졌습니다.


이 '상황 내 학습'(ICL) 접근 방식은 LLM의 컨텍스트 창이 커질수록 더욱 효과적이며, 특히 가능한 답이 많은 작업의 경우 프롬프트에 수백 또는 수천 개의 예제를 사용할 수 있습니다.


ICL에 사용할 예시를 선택하는 한 가지 방법은 알고리즘(BM25)이 대규모 데이터 세트에서 각각의 새 질문에 대해 가장 관련성이 높은 예시를 선택하는 '검색'입니다. 이 방법은 특히 적은 수의 예제를 사용할 때 무작위 선택에 비해 성능이 향상됩니다.


그러나 예시 수가 많을수록 검색으로 인한 성능 향상은 감소하며, 이는 프롬프트가 길어질수록 더 강력해지고 개별 예시나 그 순서가 덜 중요해진다는 것을 의미합니다.


미세 조정에는 일반적으로 ICL보다 더 많은 데이터가 필요하지만, 때로는 매우 긴 컨텍스트에서 ICL보다 성능이 더 우수할 수 있습니다. 연구진은 어떤 경우에는 ICL이 실제로 작업을 학습하지 않고 예제를 사용하여 문제를 해결하더라도 긴 예제가 있는 ICL이 미세 조정보다 더 효과적이고 효율적일 수 있다고 지적했습니다.




이 실험에서는 특히 긴 입력 텍스트를 처리할 수 있는 Llama-2-7B 및 Mistral-7B 언어 모델의 특수 변형을 사용했습니다. 그 결과, 특히 향후 모델이 매우 긴 입력 텍스트를 처리할 수 있도록 개선됨에 따라 많은 예제를 사용한 ICL이 검색 및 미세 조정의 대안이 될 수 있음을 시사합니다.


궁극적으로 ICL과 미세 조정 사이의 선택은 비용으로 귀결됩니다. 미세 조정은 일회성 비용이 더 높은 반면, ICL은 프롬프트에 예제가 많기 때문에 더 많은 컴퓨팅 성능이 필요합니다. 경우에 따라서는 강력하고 신뢰할 수 있는 고품질의 결과를 얻을 때까지 여러 번 촬영한 프롬프트를 사용한 다음 그 데이터를 미세 조정에 사용하는 것이 가장 좋을 수도 있습니다.

While finetuning with full datasets is still a powerful option if the data vastly exceeds the context length, our results suggest that long-context ICL is an effective alternative– trading finetuning-time cost for increased inference-time compute. As the effectiveness and effiency of using very long model context lengths continues to increase, we believe long-context ICL will be a powerful tool for many tasks.


From the paper

데이터가 컨텍스트 길이를 크게 초과하는 경우 전체 데이터 세트를 사용한 미세 조정이 여전히 강력한 옵션이지만, 연구 결과에 따르면 긴 컨텍스트 ICL은 미세 조정 시간 비용을 추론 시간 계산 증가와 교환하는 효과적인 대안이 될 수 있습니다. 매우 긴 모델 컨텍스트 길이 사용의 효과와 효율성이 계속 증가함에 따라 긴 컨텍스트 ICL은 많은 작업에 강력한 도구가 될 것으로 예상됩니다.


논문에서


이 연구는 최근 구글 딥마인드에서 진행한 다샷 프롬프트에 대한 연구 결과를 확인시켜주는 것으로, 수백에서 수천 개의 예시를 사용하면 LLM 결과를 크게 향상시킬 수 있다는 것을 보여주었습니다.