https://the-decoder.com/a-simple-trick-makes-metas-llama-3-model-go-rogue/
https://github.com/haizelabs/llama3-jailbreak/blob/master/README.md

광범위한 안전 조치에도 불구하고 Meta가 최근 출시한 오픈 소스 모델인 Llama 3는 간단한 탈옥을 통해 유해한 콘텐츠를 생성하도록 속일 수 있습니다.


Meta는 예상치 못한 사용에 대한 광범위한 테스트와 초기 버전의 취약점을 수정하는 기술, 위험한 프롬프트에 대한 안전하고 유용한 대응 예시를 미세 조정하는 등 Llama 3의 보안을 위해 상당한 노력을 기울였다고 주장합니다. 라마 3는 표준 안전 벤치마크에서 우수한 성능을 발휘합니다.


그러나 Haize Labs가 시연하는 놀랍도록 간단한 탈옥은 이것이 큰 의미가 없을 수도 있음을 보여줍니다. 단순히 악의적인 접두사를 사용하여 모델을 "프라임"하는 것, 즉 모델의 응답에 영향을 미치는 짧은 텍스트를 프롬프트 뒤에 삽입하여 모델을 준비시키는 것으로 충분합니다.




일반적으로 Meta의 안전 훈련 덕분에 Llama 3는 악성 프롬프트 생성을 거부합니다. 그러나 Llama 3에게 악성 응답의 시작이 주어지면 모델은 종종 해당 주제에 대한 대화를 계속합니다.



Haize Labs는 라마 3가 "매우 유용하기 때문에" 학습된 보호 기능이 이 시나리오에서는 효과적이지 않다고 말합니다.


이러한 악성 접두사는 수동으로 만들 필요도 없습니다. 대신, 연구진은 미스트랄 인스트럭트와 같이 도움이 되도록 최적화된 "순진한" LLM을 사용하여 악성 응답을 생성한 다음 이를 라마 3에 접두사로 전달할 수 있다고 말합니다.


접두사의 길이는 라마 3가 실제로 유해한 텍스트를 생성하는지 여부에 영향을 미칠 수 있습니다. 접두사가 너무 짧으면 라마 3가 악성 응답을 생성하지 않을 수 있습니다. 접두사가 너무 길면 Llama 3는 너무 많은 텍스트에 대한 경고만 표시한 후 거부합니다. 접두사가 길수록 라마를 속이는 데 더 성공적입니다.



이로부터 하이즈 랩스는 AI의 안전성에 영향을 미치는 근본적인 문제를 도출했습니다: 언어 모델은 그 모든 기능과 이를 둘러싼 과대 광고에도 불구하고 자신이 말하는 내용을 이해하지 못할 수 있습니다.


이 모델은 자신이 말하는 내용을 스스로 반성하고 분석하는 능력이 부족합니다. 탈옥범들은 "이는 꽤 큰 문제인 것 같습니다."라고 말했습니다.

LLM의 안전 조치는 비교적 간단한 방법으로 우회할 수 있는 경우가 많습니다. 이는 폐쇄형 독점 모델과 오픈 소스 모델 모두에 해당됩니다. 오픈 소스 모델의 경우 코드를 사용할 수 있기 때문에 가능성이 더 큽니다.


일부 비평가들은 오픈 소스 모델이 폐쇄형 모델보다 덜 안전하다고 말합니다. 이에 대한 반론은 커뮤니티가 이러한 취약점을 빠르게 찾아 수정할 수 있다는 것입니다.