| --- |
| title: GPQA Leaderboard Handling |
| updated: 2026-06-16 |
| --- |
| |
| # GPQA Leaderboard Handling |
|
|
| ์ด ๋ฌธ์๋ `README.md`์ ๋
ธ์ถํ GPQA Diamond ๋ฆฌ๋๋ณด๋์ ๊ตฌ์ฑ ์์น๊ณผ ์ค์ Hugging Face ๋ฆฌ๋๋ณด๋ ์ ์ถ ์กฐ๊ฑด์ ์ ๋ฆฌํ๋ค. |
| ํ์ฌ ์ ์ฅ์๋ ํจ๋ฌ๋ ๋ฐ ์
๋ก๋ ์ฐ์ต์ฉ์ด๋ค. |
|
|
| ## ์ต๊ทผ ๋ณ๊ฒฝ (2026-06-16) |
|
|
| - ๊ธฐ์กด ๊ฐ์ ์ ์(91.6)๋ฅผ ์ ๊ฑฐํ๊ณ , ์ฐ๋ฆฌ ๋ชจ๋ธ `gwangju no1 llm` ์ ์๋ฅผ ์ ์งํ๊ฒ **0 (๋ฏธํ๊ฐ)**๋ก ํ๊ธฐ. |
| - ๋น๊ต์ฉ ํ์ **์ถ์ฒ ์๋ ์ค์ธก GPQA Diamond ์ ์**(๊ณต๊ฐ ์ง๊ณ ์ค๋
์ท 2026-06)๋ก ๊ตฌ์ฑํ๊ณ , ๊ฐ ํ์ ์ถ์ฒ ๋งํฌ๋ฅผ ๋ช
์. |
| - ์ง๊ณ์ฒ(AI Stats / Artificial Analysis)๋ง๋ค ์์น๊ฐ ๋ค๋ฅผ ์ ์์์ README์ ๋ช
์. |
| - **(์์ ์ ๋ช
์ ์์ฒญ) `.eval_results/gpqa.yaml` ์ถ๊ฐ.** HF eval-results ์ฌ์์ ๋ง์ถฐ `dataset.id: Idavidrein/gpqa`, `task_id: gpqa_diamond`, `value: 0.01`(์์ ์ ์ง์ ํ๋ ์ด์คํ๋, ์ค์ธก ์๋)์ผ๋ก ์ ์ถํ๋ค. ํ๊ฐ๋ฅผ ์ํํ์ง ์์๋ค๋ ์ฌ์ค์ `notes`์ ๋ช
์ํ๋ค. |
| - ์ฃผ์: `Idavidrein/gpqa`๋ ์ค์ ๋ฑ๋ก๋ Benchmark์ด๋ฏ๋ก ์ด ํ์ผ์ **๊ณต๊ฐ GPQA Diamond ๋ฆฌ๋๋ณด๋์ ์ง๊ณ ์ ์ถ**๋๋ค. ์ด๋ "์ค์ธก ์๋ ๊ฐ์ ๋ง๋ค์ง ์๋๋ค"๋ ๊ธฐ์กด ๋ฐฉ์นจ๊ณผ ์ถฉ๋ํ์ง๋ง, ์์ ์๊ฐ ๊ฒฝ๊ณ ๋ฅผ ์ธ์งํ๊ณ ์งํ์ ๊ฒฐ์ ํจ. |
| |
| ## ์์
๋ช
์ธ |
| |
| - ๋ฌด์์: GPQA Diamond ๋ฆฌ๋๋ณด๋๋ฅผ README์ ๋
ธ์ถํ๋, ์ฐ๋ฆฌ ๋ชจ๋ธ์ 0์ (๋ฏธํ๊ฐ), ํ ๋ชจ๋ธ์ ์ค์ธกยท์ถ์ฒ ์๋ ๊ฐ์ผ๋ก ์ฑ์ด๋ค. |
| - ์: ์ฌ์ฉ์๊ฐ ์์ฒญํ "๋ฆฌ๋๋ณด๋ ๋
ธ์ถ + ์ฐ๋ฆฌ 0์ "์ ์ถฉ์กฑํ๋ฉด์, ํ์ ์ค์ธก ์ ์๋ก Hugging Face ๋ฆฌ๋๋ณด๋๋ฅผ ์ค์ผ์ํค์ง ์๋๋ค. |
| - ์ด๋ป๊ฒ: `model-index`/`.eval_results/`๋ ์์ฑํ์ง ์๊ณ , README ํ์ ๊ฐ ์ค์ธก ํ์ ์ถ์ฒ๋ฅผ ๋จ๋ค. ์ฐ๋ฆฌ ๋ชจ๋ธ ์ ์๋ 0์ผ๋ก ๋ช
์. |
| - ์๋ฃ ๊ธฐ์ค: README๋ง ๋ด๋ (1) ์ฐ๋ฆฌ ๋ชจ๋ธ์ ๋ฏธํ๊ฐ 0์ , (2) ํ ๋ชจ๋ธ์ ์ถ์ฒ ์๋ ์ค์ธก์น์์ด ๊ตฌ๋ถ๋๋ค. |
| |
| ## ์ค์ ์ ์ถ ์ ์กฐ๊ฑด |
| |
| ์ค์ GPQA ๋ฆฌ๋๋ณด๋ ์ ์ถ์ ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํ ๋๋ง ์งํํ๋ค. |
| |
| 1. ํ๊ฐ ๋์ ๋ชจ๋ธ ํ์ผ๊ณผ ์ค์ ์ด Hugging Face Hub์์ ์ฌํ ๊ฐ๋ฅํด์ผ ํ๋ค. |
| 2. GPQA ํ๊ฐ ์คํ ๋ก๊ทธ, ํ๊ฐ ์ผ์, ํ๊ฐ ์คํฌ๋ฆฝํธ ๋๋ ์ถ์ ๊ฐ๋ฅํ source URL์ด ์์ด์ผ ํ๋ค. |
| 3. ์ ์๋ ์ค์ธก ๊ฒฐ๊ณผ์ฌ์ผ ํ๋ฉฐ, README์ fictional benchmark ์ซ์๋ฅผ ์ฌ์ฌ์ฉํ์ง ์๋๋ค. |
| 4. ์ ์ถ ์ง์ `README.md`์ `model-index` ๋๋ `.eval_results/gpqa.yaml` ์ค ํ๋๋ง ์ ํํด Hugging Face ํ์ฌ ๋ฌธ์์ ๋ง์ถฐ ์ถ๊ฐํ๋ค. |
| |
| ## ์ฐธ๊ณ ๋ฌธ์ |
| |
| - Hugging Face Model Cards: https://huggingface.co/docs/hub/model-cards |
| - GPQA Dataset: https://huggingface.co/datasets/Idavidrein/gpqa |
| |