https://the-decoder.com/supersimple-fine-tunes-gpt-4-and-sees-diminishing-returns-in-performance-leaps/
https://www.supersimple.io/blog/gpt-4-fine-tuning-early-access

데이터 분석 플랫폼 Supersimple은 최근 GPT-4를 미세 조정했지만, 상당한 진전에도 불구하고 결과가 다소 실망스러웠습니다.


사용자가 자연어로 복잡한 애드혹 쿼리를 수행할 수 있는 데이터 분석 플랫폼인 Supersimple은 몇 주 전에 OpenAI의 GPT-4 미세 조정 API에 대한 조기 액세스 권한을 받았습니다.


이 회사는 GPT-3.5 및 GPT-4와 같은 대규모 언어 모델을 사용하여 자연어로 사용자 쿼리에 답변합니다. LLM은 수천만 개의 토큰으로 구성된 독점 데이터 세트에서 질문과 답변 조합의 예시를 통해 각각 세 차례에 걸쳐 조정되었습니다.


이 모델은 자체 도메인별 언어(DSL)를 출력한 다음 JSON 및 데이터베이스 쿼리로 컴파일됩니다. 텍스트-SQL과 달리, 이 출력은 데이터 플랫폼과 직접 상호 작용하고 쉽게 편집할 수 있는 설명 가능한 노코드 탐색입니다.


복잡한 출력은 사고 과정의 논리적 단계를 나타내는 개별 블록으로 세분화됩니다. 올바른 SQL 쿼리를 생성하는 데 따르는 복잡성이 플랫폼으로 이전됩니다. 출력을 생성할 때 모델은 기존 대시보드와 사용자 정의 개념도 고려합니다.

GPT-3.5보다 미세 조정된 GPT-4의 스케일 축소


OpenAI 기반 모델을 비교한 결과, 미세 조정된 GPT-4가 GPT-3.5보다 56% 성능이 뛰어나지만, GPT-3에서 GPT-3.5로의 성능 향상 폭은 그보다 작습니다. 그럼에도 불구하고 미세 조정된 GPT-4는 표준 GPT-4 및 GPT-3.5보다 성능이 훨씬 뛰어납니다.


성능 개선에도 불구하고 미세 조정된 GPT-4는 100개의 다양한 문제로 진행된 Supersimple의 내부 벤치마크 테스트에 따르면, 하나의 답으로 풀어야 하는 광범위하고 개방형 문제에서 여전히 약점을 드러냈습니다.


"걱정스럽게도 미세 조정으로 인한 수익이 감소하는 추세가 관찰되고 있습니다. 미세 튜닝한 다빈치는 기본 모델에 비해 현저한 개선을 보였지만, 미세 튜닝한 GPT-3.5는 더 적은 이득을 제공했으며, 미세 튜닝한 GPT-4의 개선은 훨씬 더 적었습니다."라고 회사는 기록합니다.

Supersimple에 따르면 미세 조정된 GPT-4의 주요 문제점은 GPT-3.5에 비해 6배나 높은 지연 시간과 GPT-3.5에 비해 추론의 경우 15배, 훈련의 경우 11배나 높은 비용입니다.


이러한 한계를 극복하기 위해 Supersimple은 프로덕션에서 단일 모델 호출에 거의 의존하지 않습니다. 대신 전문화된 모델, 프롬프트, 휴리스틱을 혼합하여 정확도와 응답 시간을 모두 개선합니다.


또한 지연 시간이 길기 때문에 Supersimple은 특정 질문의 하위 집합과 가장 중요한 사고 단계에 대해서만 GPT-4를 사용합니다. 나머지는 GPT-3.5와 같은 다른 모델을 사용합니다.


사소하지 않은 추론 기술이 필요한 많은 실제 애플리케이션의 경우 단일 답변이 있는 단일 모델만으로는 충분하지 않으며, AI가 사용자에게 결과를 정확하게 설명하는 것이 중요하다고 회사는 말합니다.