LogicKor 리더보드 오픈 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3538명 알림수신 174명 @바바리맨

제한없는 언어모델을 위한 채널

일반 LogicKor 리더보드 오픈

maywell

추천 25 비추천 0 댓글 33 조회수 2001 작성일 2024-03-27 05:38:34 수정일 2024-03-27 05:41:33

https://arca.live/b/alpaca/102173000

https://lk.instruct.kr/

https://huggingface.co/spaces/instructkr/LogicKor-leaderboard

안녕하세요. 며칠전 릴리즈했던 LogicKor의 리더보드 페이지가 만들어졌습니다.

LogicKor는 한국어 거대언어모델의 다분야 사고력을 측정하는 벤치마크입니다. 추론, 수학, 글쓰기, 코딩, 이해, 문법 등 다양한 분야의 사고력을 측정합니다.

이제 정적 이미지가 아니라 모바일 및 PC 웹을 통해서 리더보드를 확인 하실 수 있습니다.

평가를 희망하는 모델이 있으시면 웹 사이트에 <모델 추가 요청> 버튼을 이용해주세요.

돈 후달리지 않으니 막 요청 해주셔도 됩니다.

댓글 [33] 글쓰기

쿠루가이

2024-03-27 05:50:33 답글

신청완료!

펼쳐보기▼

쿠루가이

2024-03-27 05:50:42 답글

호옹이

2024-03-27 05:53:18 답글

헉 네이버로부터 투자를 받으신건가요?!

펼쳐보기▼

maywell

2024-03-27 05:53:40 답글

그랬으면 좋겠습니다.

펼쳐보기▼

호옹이

2024-03-27 05:57:48 답글

아쉽군요 ㅋㅋㅋ 클로바x가 추가되어있길래 기대했건만

펼쳐보기▼

ㅇㅇ

2024-03-27 06:21:31 답글

각 분야별로 어떻게 측정하는지도 궁금하네요.

펼쳐보기▼

zzzzz5

2024-03-27 06:45:07 답글

https://arca.live/b/alpaca/102052014?p=1
다 공개 했습니다.

펼쳐보기▼

ㅇㅇ

2024-03-27 09:59:41 답글

감사합니다!!

펼쳐보기▼

랜덤닉랜

2024-03-27 07:02:14 답글

진짜 좋은것 같습니다. 마치 토익점수처럼 쉽게 점수 따는법만 연구하는건 좋지 않다고 생각합니다.

펼쳐보기▼

ㅇㅇ (49.174)

2024-03-27 07:23:33 삭제 수정 답글

최고입니다.

펼쳐보기▼

ㅇㅇ (49.172)

2024-03-27 07:50:41 삭제 수정 답글

GPT4가 빠져있는데 특별한이유가 있나요?

펼쳐보기▼

maywell

2024-03-27 07:51:02 답글

아 까먹고 못올렸네요 바로 올릴게요

펼쳐보기▼

ㅇㅇ (141.223)

2024-03-27 08:42:36 삭제 수정 답글

요즘 잘 나가는 Claude 3 Opus/sonnet/haiku의 결과가 궁금하기는 하네요.

펼쳐보기▼

maywell

2024-03-27 09:20:34 답글

maywell

2024-03-27 15:31:01 답글

3형제 모두 업로드했습니다

펼쳐보기▼

철권짱

2024-03-27 10:05:10 답글

하나악

2024-03-27 14:10:30 답글

ㅇㅇ (222.236)

2024-03-27 16:22:32 삭제 수정 답글

*수정됨

안녕하세요. 좋은 리더보드 감사합니다.
1. GPT-4가 기존, Turbo, Vision등 여러 variant가 있는데 이들을 비교해주실 수 있을지 궁금합니다.
2. 보시다시피 GPT-4보다 Claude Opus가 더 좋은 성능을 보여준다는 것이 일반적인 평가인데 평가 모델을 GPT 대신 Opus로 하는 것은 어떨까요?

펼쳐보기▼

maywell

2024-03-29 01:16:19 답글

1. 할 수는 있으나 리더보드 상위권 장악 할 것 같기도 하고, 현재 모델이 많이 없어서 오픈소스 모델 좀 많이 채워지면 해보겠음.
2. 쥰내비쌈 ㅠ

펼쳐보기▼

떡붕어망코

2024-04-02 04:14:00 답글

맥북에어좋아

2024-03-27 17:33:38 답글

포리X

2024-03-28 01:43:17 답글

ㅇㅇ (211.234)

2024-03-28 05:14:21 삭제 수정 답글

한국어를 완벽이 이해하고 답변도 완벽하게 했지만 영어로 답변한 경우에는 점수는 어떻게 되나요?

펼쳐보기▼

maywell

2024-03-28 07:41:25 답글

많이 까임

펼쳐보기▼

ㅇㅇ (223.38)

2024-03-29 01:14:29 삭제 수정 답글

안녕하세요, 우선 좋은 벤치마크 제작 감사합니다
제가 자주 보는 뉴스모음 사이트가 있어서, 거기에 간략한 소개글로 LogicKor 리포를 소개해두었습니다
앞으로도 LogicKor 잘 활용해볼게요

펼쳐보기▼

wickout

2024-03-29 07:54:56 답글

open ko llm leaderboard에 비슷한 문제인식을 가지고 있었는데.. 새로운 장 마련해주셔서 감사드립니다!

레포에서 직접 구동해볼때 질문이 하나 있는데요,
실제 성능 뽑을때도 HF 레포에 올려주신 데이터셋만을 활용하나요, 아니면 보드에 올리시는 테스트셋이 별도로 있나요?
많은 유저들이 유입되면 오픈된 데이터셋에 오버피팅된 모델들이 또 다수 업로드되지는 않을까 싶어 문의드립니다!

펼쳐보기▼

maywell

2024-03-29 07:57:50 답글

*수정됨

만약 규모 커진다면 말씀하신것처럼 진행 할 수도 있을 것 같습니다.
현재로서는 그대로 사용중입니다.

펼쳐보기▼

ㅇㅇ (61.74)

2024-04-02 03:24:03 삭제 수정 답글

https://www.aitimes.com/news/articleView.html?idxno=158439
업스테이지가 찔?려하는듯

AI타임스

[4월 1주] 한국어 모델 성능 70점 돌파...”성능 향상 급속화”

한국어 언어모델의 성능이 비약적으로 향상하고 있다. 지난달 9일 60점을 처음 넘긴 데 이어, 한달도 안 돼 70점까지 넘어섰다.1일 현재 오픈 Ko-LLM 리더보드에서는 소속 미상 개발자의 모델(hwkwon/S-SOLAR-10.7B-v1.5, 70.35)이 평균 70.35점으로 1위에 오르며 신기록을 세웠다.이어 2위에는 3월 4주차에 1위를 차지했던 티쓰리큐(대표 박병훈)가 자리했다. 2위 모델(chihoonlee10/T3Q-ko-solar-dpo-v5.0, 70.3) 역시 70점을 넘었다. 1~2위 간 점수 차이는 0.05점에

업스테이지가 찔?려하는듯

펼쳐보기▼

maywell

2024-04-02 03:24:57 답글

어허,, 저는 점수 조작 의혹 제기한 적 없습니다~~

펼쳐보기▼

ㅇㅇ (210.123)

2024-05-13 04:06:04 삭제 수정 답글

혹시 해당 리더보드 운영 끝났나요?

펼쳐보기▼

maywell

2024-05-13 04:08:50 답글

돌아갑니다. 다만 현재 인력, 시간, 자원의 부족으로 결과 업뎃을 많이 못하고 있습니다. 원하시는 모델들 말씀해주시면 한번 돌려놓겠습니다.

펼쳐보기▼

ㅇㅇ (210.123)

2024-05-23 05:24:09 삭제 수정 답글

deepseek-v2 api 100K 까지는 무료로 제공해주던데 가능할까요???

펼쳐보기▼

maywell

2024-05-23 06:09:09 답글

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31496536

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6295

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28633

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9506

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

1602 일반 llama3 8b 아이폰에서 로컬로 돌리는거 신기하네요 [4]

ㅇㅇ 2024.04.21 942 4

1601 일반 허깅페이스 15T 데이터셋 공개ㄷㄷ [20]

qnqnqn 2024.04.21 1505 12

1600 일반 님들 70B 정도 되는 모델 로컬에서 돌릴려면 4090 몇개 정도 있으면 될까요? [7]

이게예술이지ㅋㅋ 2024.04.21 1000 0

1599 일반 llama-70B 이새끼 뭐임? ㄷㄷㄷ [6]

이게예술이지ㅋㅋ 2024.04.21 1391 7

1598 일반 Oobabooga, 자신만의 벤치마크 발표 [4]

파인애플 2024.04.21 651 8

1597 일반 chat 모델에 completion(raw) 데이터를 어떻게 학습 할 수 있을까? [16]

maywell 2024.04.20 1503 28

1596 일반 llama3 70b instruct하고 claude3 opus 같은질문에 대한 답변 비교 [1]

그래요 2024.04.20 613 5

1595 일반 llama3 학습을 위해 llama2를 이용해서 데이타셋 정제를 한거 같네요 [5]

그래요 2024.04.20 742 6

1594 일반 효율적인 무한 컨텍스트 변환기(비공식) [4]

zzzzz5 2024.04.19 979 12

1593 일반 개인적으로 생각하는 추가 학습 아이디어 [1]

모맵 2024.04.19 467 0

1592 일반 chatbot arena에서 카타고리 english로 바꾸니 llama3 성능이 말이 안되는데요 [4]

그래요 2024.04.19 484 7

1591 일반 llama-3 찍먹 가능한 곳 추천 [5]

angmond2 2024.04.19 904 5

1590 일반 트위터) chatbot-arena 근황 [3]

사과는맛있어맛있으면바나나 2024.04.19 609 7

1589 일반 역댁꿉! 라마3 8B 의 무서움 (소오~름) [5]

ㅇㅇ (125.133) 2024.04.19 1129 -2

1588 일반 llama3 8b 모델이 llama2 70b 모델 성능에 근접하네요 [11]

그래요 2024.04.19 813 2

1587 일반 Llama-3-Instruct exllamav2 EOS 미작동 문제 응급조치 방법? [3]

포리X 2024.04.19 320 5

1586 일반 Llama3 400b benchmark [1]

ㅇㅇ (211.246) 2024.04.19 446 2

1585 일반 예측 성공! [1]

ㅇㅇ 2024.04.19 487 4

1584 일반 챈섭 오픈 Llama-3-70B-exl2_5.0bpw / Llama-3-8B-hf-exl2-6bpw (종료) [23]

변태Lv1 2024.04.18 1272 12

1583 일반 llama3 에 대한 상상 [7]

hkhk 2024.04.18 867 7

글쓰기

전체글 개념글