연구자들이 LLM에서 놀랍도록 간단한 검색 메커니즘을 발견했습니다.

https://the-decoder.com/researchers-discover-a-surprisingly-simple-retrieval-mechanism-in-llms/
https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325
https://arxiv.org/pdf/2308.09124.pdf

MIT와 다른 기관의 과학자들은 대규모 언어 모델이 저장된 지식을 검색할 때 간단한 선형 함수를 사용하는 경우가 많다는 사실을 발견했습니다. 이 발견은 모델에서 잘못된 정보를 찾아 수정하는 데 도움이 될 수 있습니다.

선형 함수는 변수가 두 개만 있고 지수가 없는 방정식입니다. 선형 함수는 두 변수 사이의 직접적인 관계를 설명합니다.

과학자들은 특정 사실을 검색하기 위한 비교적 간단한 선형 함수를 식별함으로써 특정 주제에 대한 언어 모델의 지식을 테스트하고 해당 지식이 모델에서 어디에 저장되어 있는지 알아낼 수 있었습니다. 또한 연구진은 이 모델이 유사한 유형의 사실을 검색하는 데 동일한 디코딩 함수를 사용한다는 사실도 발견했습니다.

"이러한 모델은 많은 데이터로 학습되고 이해하기 매우 어려운 복잡한 비선형 함수이지만, 그 내부에는 때로는 매우 간단한 메커니즘이 작동하고 있습니다. 이번 연구가 그 한 예입니다."라고 전기공학 및 컴퓨터과학(EECS) 박사과정 학생이자 이번 연구의 공동 저자인 Evan Hernandez는 말합니다.

간단한 함수로 정보 검색 성공률 60% 달성

연구진은 먼저 함수를 추정하는 방법을 개발한 다음 '한 국가의 수도'와 같은 다양한 텍스트 관계에 대한 47개의 구체적인 함수를 계산했습니다. 예를 들어, 독일이라는 주요 주제에 대해 함수는 베를린이라는 사실을 검색해야 합니다.

주요 주제(독일, 노르웨이, 영국 등)를 변경하여 각 기능을 테스트하여 올바른 정보를 검색할 수 있는지 확인했는데, 약 60퍼센트 정도는 검색에 성공했습니다.

하지만 에르난데스는 일부 사실의 경우 모델이 해당 사실을 알고 해당 사실과 일치하는 텍스트를 예측하더라도 선형 함수를 찾지 못했다고 말합니다. 이는 모델이 이러한 정보를 저장하기 위해 "더 복잡한 작업"을 하고 있음을 시사합니다. 그것이 무엇일지는 앞으로의 연구 과제입니다.

'속성 렌즈'를 통한 저장된 지식의 시각화

연구원들은 또한 이러한 함수를 사용하여 모델이 다양한 주제에 대해 어떤 것이 사실이라고 믿을 수 있는지 파악했습니다. 연구진은 이 방법을 사용하여 주어진 관계에 대한 특정 정보가 트랜스포머의 여러 레이어에 저장된 위치를 시각화하는 '속성 렌즈'를 만들었습니다.