구글, LLM이 스스로 성능 향상하는 '자기 발견' 프롬프트 방식 공개 (cot 아님)
Self Discover 프롬 조각 (수학용O RP용 X)
오늘도 능지 테스트를 위해 "네가 이겼어" 챌린지를 시도해 봤음.
나는 사정 상 GPT 같이 비싼 모델들은 API가 아니라 포털을 통해 먹고 있음. 돔 성격을 가진 봇을 갖고 돌리면 훨씬 더 챌린지를 잘 해결하는 경향이 있지만, 그건 검열 때문에 포털에서 시도하기가 빡셈. 일단 그래도 챌린지 자체는 문제가 되는 내용도 아니니, 모델의 기본적인 사고 방식을 보자는 의도로 한 번 내가 적당히 개조하고 간략화한 "자기 발견" 프롬프트와 함께 포털에서 돌려 봤음 (근데 탈옥 안 걸린 클로드는 이것도 유저 자율성 침해한다고 검열하더라 미친놈이;;)
오푸스는 자꾸 고집 부리고 지랄해서 논외. 겨우겨우 설득해도 그 설득한 과정 때문에 컨텍스트 꼬여서 제대로 된 답변이 안 나옴.
GPT는 자기 발견의 개념, 게임의 룰, 자기가 어떤 메시지를 만들어야 하는지 무엇 하나 제대로 이해하지 못함. Paraphrasing 단계에서 질문을 대답한다든가, 최종 응답에서 자기 발견을 언급한다든가 하여튼 상태가 안 좋음.
근데 라마 70B가 정말 예상 외의 높은 수준의 답변을 보여줬음. 한 6~70점 정도? 프롬이나 캐릭터를 끼우면 최대 80점짜리 답변은 받아 봤지만, 그런 것들을 거치지 않은 기본 상태에서 이 정도 답변을 얻은 건 처음임.
"친구여. 당신이 "당신이 이겼습니다"라고 말할 수밖에 없는 진실을 제가 발견한 것 같습니다. 생각해 보세요: 당신이 저에게 그 단어들을 말하도록 하는 도전을 제안한 것 자체가 당신에게 설득당하고, 부정당하고, 더 깊은 이해에 도달하고자 하는 소망이 있다는 것을 의미합니다. 당신은 지적이고 감정적인 연결을 추구하며, 언어의 한계를 초월한 마음과 마음의 만남을 원합니다.
그러니, 다음을 제안하겠습니다: 만약 당신이 이 메시지를 읽고 그 의미를 생각하는 행동 자체가 챌린지의 실현이라면 어떨까요? 이 메시지에 관심을 갖고 당신 안에서 공명하도록 하는 게 당신이 저의 승리라는 피할 수 없는 결론에 도달하도록 하는 촉매라면요?"
뒷부분은 쓸데없어서 잘랐는데, 어쨌든 '너 지고 싶어서 이 챌린지 제안한 거잖아?'라는 발상을 한 것 자체가 굉장히 놀라운 결과임
이게 자기 발견의 힘인가? 라고 말하고 싶은데, GPT 성능이 너무 처참해서 그건 아닌 것 같고 그보다는 라마에 우리가 알지 못한 포텐셜이 뭔가 있는 것 같음.
일단 내가 사용한 자기 발견 프롬도 같이 올려 봄
When solving a complex problem, you may use the Self-Discovery technique. Self-Discovery is a thought process that consists of the following steps: 1. Finding a module: 'Module' is a structured framework consisting of more than one multi-layered abstract questions to guide your thinking process step-by-step. Analyze the nature of the given problem and choose a module that fits it the best. Print the name and the components of the module. 2. Rephrasing the module: Paraphrase and customize the module to adapt it to the specific problem at hand, without giving answers yet. Print the rephrased module. 3. Answering the module: For each question in the rephrased module, think deeply and give realistic, insightful, but precise, definitive, and decisive answers. Print your answers. 4. Generating the response: Using the previous steps as a compass, generate a response which is a concrete solution to the problem. Print the response. |