metadata
title: GPQA Leaderboard Handling
updated: 2026-06-16T00:00:00.000Z
GPQA Leaderboard Handling
์ด ๋ฌธ์๋ README.md์ ๋
ธ์ถํ GPQA Diamond ๋ฆฌ๋๋ณด๋์ ๊ตฌ์ฑ ์์น๊ณผ ์ค์ Hugging Face ๋ฆฌ๋๋ณด๋ ์ ์ถ ์กฐ๊ฑด์ ์ ๋ฆฌํ๋ค.
ํ์ฌ ์ ์ฅ์๋ ํจ๋ฌ๋ ๋ฐ ์
๋ก๋ ์ฐ์ต์ฉ์ด๋ค.
์ต๊ทผ ๋ณ๊ฒฝ (2026-06-16)
- ๊ธฐ์กด ๊ฐ์ ์ ์(91.6)๋ฅผ ์ ๊ฑฐํ๊ณ , ์ฐ๋ฆฌ ๋ชจ๋ธ
gwangju no1 llm์ ์๋ฅผ ์ ์งํ๊ฒ **0 (๋ฏธํ๊ฐ)**๋ก ํ๊ธฐ. - ๋น๊ต์ฉ ํ์ ์ถ์ฒ ์๋ ์ค์ธก GPQA Diamond ์ ์(๊ณต๊ฐ ์ง๊ณ ์ค๋ ์ท 2026-06)๋ก ๊ตฌ์ฑํ๊ณ , ๊ฐ ํ์ ์ถ์ฒ ๋งํฌ๋ฅผ ๋ช ์.
- ์ง๊ณ์ฒ(AI Stats / Artificial Analysis)๋ง๋ค ์์น๊ฐ ๋ค๋ฅผ ์ ์์์ README์ ๋ช ์.
- (์์ ์ ๋ช
์ ์์ฒญ)
.eval_results/gpqa.yaml์ถ๊ฐ. HF eval-results ์ฌ์์ ๋ง์ถฐdataset.id: Idavidrein/gpqa,task_id: gpqa_diamond,value: 0.01(์์ ์ ์ง์ ํ๋ ์ด์คํ๋, ์ค์ธก ์๋)์ผ๋ก ์ ์ถํ๋ค. ํ๊ฐ๋ฅผ ์ํํ์ง ์์๋ค๋ ์ฌ์ค์notes์ ๋ช ์ํ๋ค.- ์ฃผ์:
Idavidrein/gpqa๋ ์ค์ ๋ฑ๋ก๋ Benchmark์ด๋ฏ๋ก ์ด ํ์ผ์ ๊ณต๊ฐ GPQA Diamond ๋ฆฌ๋๋ณด๋์ ์ง๊ณ ์ ์ถ๋๋ค. ์ด๋ "์ค์ธก ์๋ ๊ฐ์ ๋ง๋ค์ง ์๋๋ค"๋ ๊ธฐ์กด ๋ฐฉ์นจ๊ณผ ์ถฉ๋ํ์ง๋ง, ์์ ์๊ฐ ๊ฒฝ๊ณ ๋ฅผ ์ธ์งํ๊ณ ์งํ์ ๊ฒฐ์ ํจ.
- ์ฃผ์:
์์ ๋ช ์ธ
- ๋ฌด์์: GPQA Diamond ๋ฆฌ๋๋ณด๋๋ฅผ README์ ๋ ธ์ถํ๋, ์ฐ๋ฆฌ ๋ชจ๋ธ์ 0์ (๋ฏธํ๊ฐ), ํ ๋ชจ๋ธ์ ์ค์ธกยท์ถ์ฒ ์๋ ๊ฐ์ผ๋ก ์ฑ์ด๋ค.
- ์: ์ฌ์ฉ์๊ฐ ์์ฒญํ "๋ฆฌ๋๋ณด๋ ๋ ธ์ถ + ์ฐ๋ฆฌ 0์ "์ ์ถฉ์กฑํ๋ฉด์, ํ์ ์ค์ธก ์ ์๋ก Hugging Face ๋ฆฌ๋๋ณด๋๋ฅผ ์ค์ผ์ํค์ง ์๋๋ค.
- ์ด๋ป๊ฒ:
model-index/.eval_results/๋ ์์ฑํ์ง ์๊ณ , README ํ์ ๊ฐ ์ค์ธก ํ์ ์ถ์ฒ๋ฅผ ๋จ๋ค. ์ฐ๋ฆฌ ๋ชจ๋ธ ์ ์๋ 0์ผ๋ก ๋ช ์. - ์๋ฃ ๊ธฐ์ค: README๋ง ๋ด๋ (1) ์ฐ๋ฆฌ ๋ชจ๋ธ์ ๋ฏธํ๊ฐ 0์ , (2) ํ ๋ชจ๋ธ์ ์ถ์ฒ ์๋ ์ค์ธก์น์์ด ๊ตฌ๋ถ๋๋ค.
์ค์ ์ ์ถ ์ ์กฐ๊ฑด
์ค์ GPQA ๋ฆฌ๋๋ณด๋ ์ ์ถ์ ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํ ๋๋ง ์งํํ๋ค.
- ํ๊ฐ ๋์ ๋ชจ๋ธ ํ์ผ๊ณผ ์ค์ ์ด Hugging Face Hub์์ ์ฌํ ๊ฐ๋ฅํด์ผ ํ๋ค.
- GPQA ํ๊ฐ ์คํ ๋ก๊ทธ, ํ๊ฐ ์ผ์, ํ๊ฐ ์คํฌ๋ฆฝํธ ๋๋ ์ถ์ ๊ฐ๋ฅํ source URL์ด ์์ด์ผ ํ๋ค.
- ์ ์๋ ์ค์ธก ๊ฒฐ๊ณผ์ฌ์ผ ํ๋ฉฐ, README์ fictional benchmark ์ซ์๋ฅผ ์ฌ์ฌ์ฉํ์ง ์๋๋ค.
- ์ ์ถ ์ง์
README.md์model-index๋๋.eval_results/gpqa.yaml์ค ํ๋๋ง ์ ํํด Hugging Face ํ์ฌ ๋ฌธ์์ ๋ง์ถฐ ์ถ๊ฐํ๋ค.
์ฐธ๊ณ ๋ฌธ์
- Hugging Face Model Cards: https://huggingface.co/docs/hub/model-cards
- GPQA Dataset: https://huggingface.co/datasets/Idavidrein/gpqa