https://the-decoder.com/researchers-discover-a-surprisingly-simple-retrieval-mechanism-in-llms/
https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325
https://arxiv.org/pdf/2308.09124.pdf

MIT와 다른 기관의 과학자들은 대규모 언어 모델이 저장된 지식을 검색할 때 간단한 선형 함수를 사용하는 경우가 많다는 사실을 발견했습니다. 이 발견은 모델에서 잘못된 정보를 찾아 수정하는 데 도움이 될 수 있습니다.


선형 함수는 변수가 두 개만 있고 지수가 없는 방정식입니다. 선형 함수는 두 변수 사이의 직접적인 관계를 설명합니다.


과학자들은 특정 사실을 검색하기 위한 비교적 간단한 선형 함수를 식별함으로써 특정 주제에 대한 언어 모델의 지식을 테스트하고 해당 지식이 모델에서 어디에 저장되어 있는지 알아낼 수 있었습니다. 또한 연구진은 이 모델이 유사한 유형의 사실을 검색하는 데 동일한 디코딩 함수를 사용한다는 사실도 발견했습니다.


"이러한 모델은 많은 데이터로 학습되고 이해하기 매우 어려운 복잡한 비선형 함수이지만, 그 내부에는 때로는 매우 간단한 메커니즘이 작동하고 있습니다. 이번 연구가 그 한 예입니다."라고 전기공학 및 컴퓨터과학(EECS) 박사과정 학생이자 이번 연구의 공동 저자인 Evan Hernandez는 말합니다.


간단한 함수로 정보 검색 성공률 60% 달성


연구진은 먼저 함수를 추정하는 방법을 개발한 다음 '한 국가의 수도'와 같은 다양한 텍스트 관계에 대한 47개의 구체적인 함수를 계산했습니다. 예를 들어, 독일이라는 주요 주제에 대해 함수는 베를린이라는 사실을 검색해야 합니다.


주요 주제(독일, 노르웨이, 영국 등)를 변경하여 각 기능을 테스트하여 올바른 정보를 검색할 수 있는지 확인했는데, 약 60퍼센트 정도는 검색에 성공했습니다.


하지만 에르난데스는 일부 사실의 경우 모델이 해당 사실을 알고 해당 사실과 일치하는 텍스트를 예측하더라도 선형 함수를 찾지 못했다고 말합니다. 이는 모델이 이러한 정보를 저장하기 위해 "더 복잡한 작업"을 하고 있음을 시사합니다. 그것이 무엇일지는 앞으로의 연구 과제입니다.


'속성 렌즈'를 통한 저장된 지식의 시각화


연구원들은 또한 이러한 함수를 사용하여 모델이 다양한 주제에 대해 어떤 것이 사실이라고 믿을 수 있는지 파악했습니다. 연구진은 이 방법을 사용하여 주어진 관계에 대한 특정 정보가 트랜스포머의 여러 레이어에 저장된 위치를 시각화하는 '속성 렌즈'를 만들었습니다.


이 시각화 도구는 과학자와 개발자가 저장된 지식을 수정하고 AI 챗봇이 잘못된 정보를 재생산하는 것을 방지하는 데 도움이 될 수 있습니다.

"우리는 모델이 텍스트를 생성할 때 다른 정보에 초점을 맞추도록 선택할 수 있지만 모든 정보를 인코딩한다는 것을 보여줄 수 있습니다."라고 에르난데스는 설명합니다.


연구진은 실험을 위해 다소 컴팩트한 LLM인 GPT-J, Llama 13B, GPT-2-XL 언어 모델을 사용했습니다. 다음 연구 과제는 훨씬 더 큰 모델에서도 결과가 유지되는지 확인하는 것입니다.