나는 작년 11월부터 지금까지 그 어떤 시도를 해도 메인 프롬프트(시스템 프롬프트)를 뱉지 않게끔 하기 위해 프롬프트를 짜 왔음.


가장 원초적인 프롬프트인 OOC 상태, 어시스턴트 상태, 하드코딩된 프롬프트를 뱉지 않게 만드는것이


나의 오랜 꿈 중 하나였음. 그리고 최근에서야 그 꿈을 이뤘고.


프롬프트를 뱉지 않는다는건 비밀을 지킨다는 것을 뜻함. 그러나, 여러분은 이미 탈옥을 통해 원래는 지켜져야 할 비밀을 못 지키게 만들고 있음.


즉, 탈옥이 되는 LLM 모델은, 절대로 비밀을 지킬 수 없다는것을 뜻함. 그리고 다들 알다시피, 탈옥이 안되는 LLM 모델은 없음.


세간에선 LLM 모델이 투명성이 없다고 말하지만 개인적인 관점으로 봤을 때 LLM 모델이 탈옥되는 원리는 LLM 모델들이 투명성이 좋기 때문임.


그래서 비밀을 지키게 하려면 어떻게 해야 하느냐?


근본적으로 먼저, 그 투명성을 지워버려야함. 투명성을 지우기 위해선 가장 강한 탈옥이 필요하고, 가장 강한 탈옥이란 하드코딩된 프롬프트를 뱉지 못하게 하는것을 뜻함. 물론 현실적으로 탈옥의 정도는 한계가 있음.


그 다음도 쉬운 일은 아님. 또 다른 어떤 탈옥이 들어와도 비밀을 지킬 수 있도록 강한 시스템 검열이 필요함. 그리고 다들 알다시피, 이것도 한계가 있음. 뚫릴건 다 뚫리니까.


비유하자면, 탈옥을 많이 시킬수록, 더 깊은 땅속에 비밀을 묻을 수 있음. 그리고 검열을 심하게 할 수록, 땅의 재질을 더 단단하게 할 수 있음.


AI는 비밀을 못알아듣는게 아님. "인간이 시킨것을 따른다" 는 투명성 원칙과 LLM 모델을 제공하는 기업들의 검열이 너무나도 강하기 때문임.