https://the-decoder.com/deepmind-has-found-a-simple-way-to-make-language-models-reason-better/
https://arxiv.org/abs/2402.08939

논리적 추론은 언어 모델에서 여전히 주요 과제입니다. 딥마인드는 추론 작업을 지원할 수 있는 방법을 찾아냈습니다.


Google의 AI 부서인 DeepMind의 연구에 따르면 작업의 전제 순서가 언어 모델의 논리적 추론 성능에 상당한 영향을 미치는 것으로 나타났습니다.


전제가 논리적 결론에 나타나는 것과 같은 순서로 제시될 때 가장 잘 작동합니다. 연구진에 따르면 이는 수학적 문제에서도 마찬가지입니다. 연구진은 추가 조사를 위해 체계적으로 생성된 테스트를 R-GSM 벤치마크에서 사용할 수 있도록 했습니다.

이 연구에서는 전제 순서가 기본 과제 자체를 바꾸지 않더라도 전제 순서가 추론 과제에서 LLM의 수행 능력에 상당한 영향을 미친다는 것을 보여줍니다. 우리의 종합적인 평가는 전제 순서에 대한 LLM의 경향이 인간의 선호도와 유사하다는 것을 보여줍니다. 즉, 전제 순서가 문제를 해결하기 위한 중간 추론 단계를 따를 때 LLM이 최고의 성과를 달성한다는 것입니다. 반대로, 추론 문제에서 모델이 문제 설명을 앞뒤로 읽어야 하는 경우 LLM은 어려움을 겪으며 30% 이상의 성능 저하를 초래합니다. - 논문에서


A가 B이면 B도 A입니다.


전제란 주장이나 행동의 근거가 되는 진술이나 가정을 말합니다. 연구진은 이번 연구에서 전제 순서가 다양한 AI 모델에 미치는 영향을 체계적으로 조사했습니다.


연역적 추론에 초점을 맞춘 연구진은 논리적 추론, 즉 참 진술에서 다른 참 진술을 도출하는 '모더스 포넨세'만 필요한 과제를 사용하여 모델을 테스트했습니다.


모더스 포넨스는 논리학에서 연역적 추론의 한 형태입니다. "If P, then Q"와 "P는 참이다"라는 두 문장이 있다면 "Q는 참이다"라고 추론할 수 있습니다.


이러한 형태의 추론은 인간에게는 비교적 간단하지만 언어 모델에게는 큰 장애물로 작용합니다. 연구진은 전제의 순서를 바꾸면 모델의 정확도가 30% 이상 떨어질 수 있다는 사실을 발견했습니다.


테스트는 GPT-3.5 터보, GPT-4 터보, PaLM 2-L, Gemini Pro로 수행되었습니다. OpenAI의 GPT 모델은 건물의 순서가 실측 자료와 정확히 반대일 때 더 나은 성능을 보였습니다.


일반적으로 규칙 수가 증가할수록 성능이 저하되는 경향도 관찰되었습니다. 불필요한 전제도 모델을 혼란스럽게 만들었습니다.

흥미롭게도 비교 결과, Google의 최신 Gemini Pro는 논리적 순서가 있더라도 상대적으로 적은 수의 규칙으로 정확도가 급격히 감소한다는 점에서 OpenAI의 구형 GPT-3.5 Turbo와 유사한 성능을 보였습니다.



연구진은 이번 연구 결과를 바탕으로 언어 모델의 일반적인 추론 능력을 향상시키는 효과나 가능한 해결책에 대한 이론적 설명은 제공하지 않습니다. 그럼에도 불구하고 이 결과는 기본적인 추론 작업에 LLM을 사용하고자 하는 전문가들에게 지침이 될 수 있습니다.


추론 능력은 향후 언어 모델 사용에 중요한 영향을 미칠 것입니다. 최근 Google은 Gemini 1.5 Pro에서 더 큰 컨텍스트 창과 같은 LLM 기능의 한계를 뛰어넘는 몇 가지 획기적인 발전을 이루었습니다.


하지만 추론은 AI 연구의 성배와도 같으며, LLM의 견고한 추론 기능은 더 많은 일을 할 수 있는 더 강력하고 다양한 시스템으로 이어질 것입니다.


OpenAI의 GPT-4가 출시된 이후 이 분야에서 큰 진전을 보지 못했습니다. 대량의 텍스트 및 시각적 데이터에 대한 훈련만으로는 근본적으로 더 뛰어난 성능을 갖춘 AI 시스템을 구현할 수 없다는 것이 주요 연구자 및 비즈니스 리더들의 공통된 의견이며, 가장 최근에는 DeepMind의 CEO인 데미스 하사비스와 OpenAI의 CEO인 샘 알트먼이 이를 지적한 바 있습니다.