speculative : add grammar support #2991

https://github.com/ggerganov/llama.cpp/pull/2991



#2030 참조


이는 문법을 사용하여 생성된 텍스트에 제약 조건을 추가함으로써 #2926을 개선합니다. 이를 통해서 초안 모델(draft model)에서 "올바른" 토큰을 제안하기가 더 쉬워지므로 추측적 접근 방식(speculative approach)에 도움이 됩니다.


이 접근 방식은 JSON 또는 기타 고도로 구조화된 텍스트를 생성하는 등의 작업에 유용할 것입니다.


다음은 이 전략을 사용하여 짧은 텍스트를 요약하는 예시입니다.

M2 Ultra에서 약 20t/s를 달성하기 위해 LLaMA v1 30B F16 목표 모델과 LLaMA v1 7B Q4_1 초안 모델을 함께 사용합니다:\