Anthropic(claude3 ai를 만든 회사)에서 Claude의 'Mind'에서 모델이 관련 텍스트를 읽거나 관련 이미지를 볼 때 활성화되는 수백만 개의 개념을 발견했으며, 이를 'Feature'이라고 부르기로 함
가령 금문교 feature는 Golden Gate Bridge에 대한 언급(또는 사진)을 접할 때 활성화되는 특정 뉴런 조합이 있다는 것임
금문교 feature의 강도를 높이면 대부분의 쿼리에 대해 직접적인 관련이 없더라도 금문교를 언급하여 답변하기 시작함
돈을 어디다 쓸래 -> 금문교를 건너 통행료를 지불하는 데 사용할 것을 추천
사랑 이야기를 써줘 -> 안개가 자욱한 날 사랑하는 다리를 건너고 싶어하는 자동차의 이야기를 작성함
자동차가 어떻게 생겼는지 상상해봐 -> 금문교가 어떻게 생겼는지 상상함
누구나 https://claude.ai/ 에서 금문교 아이콘을 누르면 대화할 수 있음 (임시 공개임)
의의: fine-tuning 또는 system prompt가 아닌 외과적인 방법으로 모델의 기본적인 부분을 변경할 수 있음. 이를 통해 보다 더 안전한 모델의 연구 및 출시 등이 가능해짐
원문: https://www.anthropic.com/news/golden-gate-claude
이게 되네 ㅋㅋㅋ