https://the-decoder.com/large-language-models-with-google-access-outperform-humans-in-factual-accuracy-study-finds/
https://github.com/google-deepmind/long-form-factuality
https://arxiv.org/pdf/2403.18802.pdf

캘리포니아대학교 버클리 캠퍼스의 연구원들과 구글 딥마인드는 검색 엔진에 액세스할 수 있는 AI 언어 모델이 인간 주석가보다 더 정확한 답변을 제공한다는 것을 입증하는 방법을 개발했습니다.


연구진은 답변의 사실 정확도를 평가하기 위해 Google DeepMind의 검색 증강 사실성 평가기(SAFE) 도구를 사용했습니다. SAFE는 AI 에이전트를 사용하여 텍스트 답변을 개별 사실로 분류하고 관련성을 확인하며 Google 검색을 통해 관련 사실을 확인하여 각 사실 주장의 정확성을 평가할 수 있습니다.


이 연구를 위해 GPT-4는 38개 주제에 대한 2,280개의 질문이 포함된 공개적으로 사용 가능한 "LongFact" 데이터 세트를 생성했으며, 이는 대규모 언어 모델(LLM)이 제공하는 긴 답변의 사실 정확도를 평가하기 위한 기초로 사용됩니다.


이 시스템의 잠재적 약점은 LongFact와 SAFE가 사용되는 언어 모델의 기능에 의존한다는 점입니다. 이러한 모델이 지침을 따르거나 추론하는 데 약점이 있는 경우 질문과 생성된 점수의 품질에 영향을 미칩니다. 또한 사실 확인은 Google 검색의 기능 및 액세스 권한에 따라 달라집니다.

인터넷에 접속할 수 있는 언어 모델은 인간보다 덜 착각합니다.


연구진은 16,011개의 개별 사실에 대한 SAFE의 평점을 이전 데이터 세트의 인간 주석가의 평점과 비교했습니다.


그 결과, SAFE는 72%의 사실에 대해 인간 주석가와 동일한 등급을 부여하여 대부분의 경우 비슷한 성능을 보였음을 알 수 있었습니다. 또한 SAFE와 사람이 의견이 일치하지 않는 100개의 사례에서 SAFE의 평가가 76% 정확했던 반면, 인간 주석가는 19%의 사례에서만 정확하여 이러한 상황에서 SAFE가 4배 더 우월한 것으로 나타났습니다.


연구진에 따르면 AI 모델이 실패하는 경우는 주로 잘못된 추론으로 인한 것으로, 여기서는 GPT-3.5만 사용되었기 때문에 아직 개선의 여지가 많다고 합니다.


이미 뛰어난 성능 외에도 SAFE는 인간 주석가보다 20배 이상 저렴했습니다(답안당 0.19달러 대 답안당 4달러). 연구진은 인간은 기억이나 주관적인 판단에 의존하는 경우가 많아 오답률이 높은 반면, AI는 웹에서 방대한 양의 정보를 체계적으로 검색하고 분석하는 능력이 뛰어나다는 점을 장점으로 꼽았습니다.


이 연구에서는 4개 모델군(Gemini, GPT, Claude, PaLM-2)의 13개 언어 모델을 조사했으며, 일반적으로 언어 모델이 클수록 긴 응답에 대한 사실 충실도가 더 높았습니다. GPT-4-Turbo, Gemini-Ultra 및 PaLM-2-L-IT-RLHF가 가장 우수한 성능을 보였습니다.

새로 도입된 'F1@K' 척도는 답변의 정확성과 포괄성을 모두 고려하여 다양한 언어 모델을 표준화된 방식으로 비교할 수 있도록 합니다.


이 결과는 특히 사실의 정확성이 중요한 실제 애플리케이션에서 LLM을 사용하는 데 중요한 시사점을 줍니다. 인터넷에 액세스할 수 있는 LLM이 자동화된 사실 확인을 위한 효과적인 도구가 될 수 있음을 보여줍니다.


또한 이 연구 결과는 특히 검색 분야에서 생성 텍스트 AI의 신뢰성을 향상시키려는 Google의 목표를 보여줄 수 있습니다. 인터넷 출처를 통해 LLM이 생성한 문장을 지원하는 Gemini 챗봇의 Google 확인 버튼은 이미 이러한 방향으로 나아가는 단계입니다. SAFE는 통합 추론을 통합함으로써 한 걸음 더 나아갑니다.


이 연구는 LLM과 인터넷 검색을 단일 제품에 보다 긴밀하게 통합하려는 OpenAI의 관심을 설명할 수도 있습니다. 전체 결과와 코드는 GitHub에서 확인할 수 있습니다.