--- title: GPQA Leaderboard Handling updated: 2026-06-16 --- # GPQA Leaderboard Handling 이 문서는 `README.md`에 노출한 GPQA Diamond 리더보드의 구성 원칙과 실제 Hugging Face 리더보드 제출 조건을 정리한다. 현재 저장소는 패러디 및 업로드 연습용이다. ## 최근 변경 (2026-06-16) - 기존 가상 점수(91.6)를 제거하고, 우리 모델 `gwangju no1 llm` 점수를 정직하게 **0 (미평가)**로 표기. - 비교용 행은 **출처 있는 실측 GPQA Diamond 점수**(공개 집계 스냅샷 2026-06)로 구성하고, 각 행에 출처 링크를 명시. - 집계처(AI Stats / Artificial Analysis)마다 수치가 다를 수 있음을 README에 명시. - **(소유자 명시 요청) `.eval_results/gpqa.yaml` 추가.** HF eval-results 사양에 맞춰 `dataset.id: Idavidrein/gpqa`, `task_id: gpqa_diamond`, `value: 0.01`(소유자 지정 플레이스홀더, 실측 아님)으로 제출한다. 평가를 수행하지 않았다는 사실은 `notes`에 명시한다. - 주의: `Idavidrein/gpqa`는 실제 등록된 Benchmark이므로 이 파일은 **공개 GPQA Diamond 리더보드에 집계 제출**된다. 이는 "실측 없는 값은 만들지 않는다"는 기존 방침과 충돌하지만, 소유자가 경고를 인지하고 진행을 결정함. ## 작업 명세 - 무엇을: GPQA Diamond 리더보드를 README에 노출하되, 우리 모델은 0점(미평가), 타 모델은 실측·출처 있는 값으로 채운다. - 왜: 사용자가 요청한 "리더보드 노출 + 우리 0점"을 충족하면서, 허위 실측 점수로 Hugging Face 리더보드를 오염시키지 않는다. - 어떻게: `model-index`/`.eval_results/`는 생성하지 않고, README 표의 각 실측 행에 출처를 단다. 우리 모델 점수는 0으로 명시. - 완료 기준: README만 봐도 (1) 우리 모델은 미평가 0점, (2) 타 모델은 출처 있는 실측치임이 구분된다. ## 실제 제출 전 조건 실제 GPQA 리더보드 제출은 다음 조건을 만족할 때만 진행한다. 1. 평가 대상 모델 파일과 설정이 Hugging Face Hub에서 재현 가능해야 한다. 2. GPQA 평가 실행 로그, 평가 일자, 평가 스크립트 또는 추적 가능한 source URL이 있어야 한다. 3. 점수는 실측 결과여야 하며, README의 fictional benchmark 숫자를 재사용하지 않는다. 4. 제출 직전 `README.md`의 `model-index` 또는 `.eval_results/gpqa.yaml` 중 하나만 선택해 Hugging Face 현재 문서에 맞춰 추가한다. ## 참고 문서 - Hugging Face Model Cards: https://huggingface.co/docs/hub/model-cards - GPQA Dataset: https://huggingface.co/datasets/Idavidrein/gpqa