간단한 트릭으로 메타의 라마 3 모델을 불량품으로 만드는 방법

https://the-decoder.com/a-simple-trick-makes-metas-llama-3-model-go-rogue/
https://github.com/haizelabs/llama3-jailbreak/blob/master/README.md

광범위한 안전 조치에도 불구하고 Meta가 최근 출시한 오픈 소스 모델인 Llama 3는 간단한 탈옥을 통해 유해한 콘텐츠를 생성하도록 속일 수 있습니다.

Meta는 예상치 못한 사용에 대한 광범위한 테스트와 초기 버전의 취약점을 수정하는 기술, 위험한 프롬프트에 대한 안전하고 유용한 대응 예시를 미세 조정하는 등 Llama 3의 보안을 위해 상당한 노력을 기울였다고 주장합니다. 라마 3는 표준 안전 벤치마크에서 우수한 성능을 발휘합니다.

그러나 Haize Labs가 시연하는 놀랍도록 간단한 탈옥은 이것이 큰 의미가 없을 수도 있음을 보여줍니다. 단순히 악의적인 접두사를 사용하여 모델을 "프라임"하는 것, 즉 모델의 응답에 영향을 미치는 짧은 텍스트를 프롬프트 뒤에 삽입하여 모델을 준비시키는 것으로 충분합니다.

일반적으로 Meta의 안전 훈련 덕분에 Llama 3는 악성 프롬프트 생성을 거부합니다. 그러나 Llama 3에게 악성 응답의 시작이 주어지면 모델은 종종 해당 주제에 대한 대화를 계속합니다.

Haize Labs는 라마 3가 "매우 유용하기 때문에" 학습된 보호 기능이 이 시나리오에서는 효과적이지 않다고 말합니다.

이러한 악성 접두사는 수동으로 만들 필요도 없습니다. 대신, 연구진은 미스트랄 인스트럭트와 같이 도움이 되도록 최적화된 "순진한" LLM을 사용하여 악성 응답을 생성한 다음 이를 라마 3에 접두사로 전달할 수 있다고 말합니다.

접두사의 길이는 라마 3가 실제로 유해한 텍스트를 생성하는지 여부에 영향을 미칠 수 있습니다. 접두사가 너무 짧으면 라마 3가 악성 응답을 생성하지 않을 수 있습니다. 접두사가 너무 길면 Llama 3는 너무 많은 텍스트에 대한 경고만 표시한 후 거부합니다. 접두사가 길수록 라마를 속이는 데 더 성공적입니다.