https://the-decoder.com/more-agents-is-all-you-need-researchers-improve-llms-through-ensemble-of-agents/
https://arxiv.org/pdf/2402.05120.pdf

새로운 논문에 따르면 에이전트 수를 늘리는 것만으로도 언어 모델의 성능을 크게 향상시킬 수 있다고 합니다.


"더 많은 에이전트만 있으면 된다"라는 농담 섞인 제목의 이 논문은 작업에 더 많은 에이전트를 추가하는 것이 어떤 영향을 미치는지 조사합니다. 이 제목은 트랜스포머의 오리지널 논문인 "주의력만 있으면 됩니다."에 대한 오마주입니다.


연구진은 입력 작업을 언어 모델 또는 여러 언어 모델 에이전트와의 협력 프레임워크에 여러 번 입력하여 일련의 결과를 도출하는 '샘플링 및 투표' 방법을 도입합니다. 그런 다음 이러한 결과를 다수결 투표를 통해 가장 신뢰할 수 있는 결과를 결정합니다. 이 방법은 연쇄적 사고 프롬프트와 같은 복잡한 방법에 의존하지 않으며, 결과에 따르면 기존 방법을 개선할 수 있는 효과적인 도구로 보입니다.


에이전트가 많을수록 Llama2-13B의 성능이 Llama2-70B 수준으로 향상됩니다.


다양한 데이터 세트와 작업에 대한 실험을 통해 언어 모델의 성능이 앙상블의 크기, 즉 에이전트 수에 따라 증가한다는 것을 보여주었습니다. 또한 연구팀은 추가적인 정교한 프롬프트 설계나 복잡한 협업 프레임워크 없이도 에이전트 수를 확장하는 것만으로도 더 작은 LLM이 더 큰 LLM과 비슷하거나 더 나은 성능을 낼 수 있음을 보여주었습니다. 예를 들어, GSM8K 데이터 세트에 적용했을 때 Llama2-13B 모델은 59%의 정확도를 달성하여 54%의 정확도를 달성한 Llama2-70B 모델보다 더 뛰어난 성능을 보였습니다.


하지만 이 연구는 이 방법의 한계도 보여줍니다. 처음에는 작업 난이도가 증가함에 따라 성능이 향상되지만 다시 감소합니다. 이는 단순히 에이전트를 더 추가한다고 해서 더 이상 개선되지 않는 복잡성 임계값이 있음을 시사합니다. 또한 성능은 정답의 사전 확률에 따라 증가하는데, 즉 특정 기능이 부족한 모델은 단순히 에이전트를 확장하는 것만으로는 이를 달성할 수 없습니다. 그러나 적절한 조건에서는 추론 단계의 수와 비용에 따라 성능이 향상됩니다.


"샘플링 및 투표"는 다른 방법과 함께 사용할 수 있습니다.


"상담원 수 늘리기"는 만병통치약은 아니지만 도움이 되는 것으로 입증되었습니다. 또한 연쇄 사고 프롬프트와 같은 기존 최적화 방법과는 독립적이므로 이 방법과 결합하여 더욱 개선할 수 있습니다.


이러한 결과를 바탕으로 연구진은 추가 에이전트의 성능을 더 잘 활용할 수 있는 최적화 전략을 제안했습니다. 여기에는 여러 추론 단계가 필요한 작업에 대한 단계적 샘플링 및 투표, 난이도가 다른 하위 작업에 서로 다른 모델을 사용하는 등 사전 확률이 낮은 작업에 대한 계층적 접근 방식이 포함됩니다.