코드 편집 벤치마크
코딩 능력뿐만 아니라 시스템 프롬프트에 지정된 형식으로 일관되게 내보낼수 있는지도 측정함
gpt-4o는 이 벤치마크에서 1위를 차지했음
코드 리팩토링 벤치마크
이 별도의 '리팩토링 벤치마크'는 GPT-4 Turbo의 '게으른 코딩' 습관을 유발하고 측정하기 위해 개발됨
gpt-4o는 이 벤치마크에서 2위를 기록했음
모델별 릴리즈 날짜와 코드 수정 벤치마크 결과
원문 링크
https://aider.chat/docs/leaderboards/