Spaces:

Nomearod
/

agentbench

Running

App Files Files Community

agentbench / agent_bench /evaluation

Commit History

Deploy: dashboard naive-vs-rigorous reveal + sync serving to origin/main

1c08abf

Running

Nomearod commited on 5 days ago

calibrate(jury): v1.1+v1.1.1 — fix weighting bugs; recency-position paraphrase clause

ab0e054

Nomearod Claude Opus 4.7 (1M context) commited on May 6

rubric: clarify groundedness reference scope (snippets-only) for v1.1 gold (#20)

e16544c
unverified

Jane Yeung Claude Opus 4.7 (1M context) commited on May 5

fix(types): four mypy errors blocking CI

02b8717

Nomearod Claude Opus 4.7 (1M context) commited on May 4

docs(harness,readme): two re-review must-fix items

c39d5c7

Nomearod Claude Opus 4.7 (1M context) commited on May 4

fix(judges,calibration,harness): three Codex adversarial-review findings

226b6f4

Nomearod Claude Opus 4.7 (1M context) commited on May 4

fix(judges,calibration): five review follow-ups (items 5, 6, 7, 9, 10)

71ec5e8

Nomearod Claude Opus 4.7 (1M context) commited on May 4

fix(judges): four review-blocking bugs (review items 1–4 + 8)

9255fb5

Nomearod Claude Opus 4.7 (1M context) commited on May 4

refactor(metrics): delete superseded LLM judges (answer_faithfulness etc.)

281b43d

Nomearod Claude Opus 4.7 (1M context) commited on May 4

refactor(harness): migrate to per-dimension Judge layer (drop faithfulness/correctness)

e76227f

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(calibration): generate_kappa_table with strict/warn modes

1d47106

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(scripts): run_calibration.py orchestrator for Steps A/C/D

4fa7c61

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(goldens): add source_snippets to 8 FastAPI calibration items

a48afb9

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(calibration): 30-item stratified calibration_v1 sample

8ef480a

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(calibration): hand-rolled cohen_kappa, gwets_ac2, bootstrap_ci

6ef2e0e

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(variance): PermutedJudge + Jury — N permutations and multi-judge aggregator

c038a7d

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): CitationFaithfulnessJudge with all-or-nothing aggregation

04d9ea0

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): CompletenessJudge + three-point reference-based rubric

80be2d8

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): RelevanceJudge + anchored three-point rubric

b170eb6

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): GroundednessJudge + anchored binary rubric

30a5e0c

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): _call_judge_with_retry helper with strict-reprompt + abstain

ff78845

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): MockJudge with LookupError on missing keys

aa70e89

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): Judge ABC with judge_id derived from model + dimension

2192305

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): Rubric markdown loader with aggressive validation

7b72b2c

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(judges): ScoreResult + abstain-reason constants

76e370c

Nomearod Claude Opus 4.7 (1M context) commited on May 4

feat(eval): Week 1 step 5 — 25-question K8s golden dataset + grounded_refusal fix

4454894

Nomearod Claude Opus 4.6 (1M context) commited on Apr 14

feat: K8s pilot corpus — 8 pages + config entry + JSON rewrite

ce7247c

Nomearod Claude Opus 4.6 (1M context) commited on Apr 13

feat: add 6-question K8s golden pilot dataset

3484214

Nomearod Claude Opus 4.6 (1M context) commited on Apr 13

feat: extend GoldenQuestion with source_pages and source_sections

d5884af

Nomearod Claude Opus 4.6 (1M context) commited on Apr 13

feat: support multi-corpus golden dataset schema

83d6b2b

Nomearod commited on Apr 12

fix: comparison framing, mock-specific failure analysis, stale test counts

a29d68d

Nomearod Claude Opus 4.6 (1M context) commited on Mar 27

fix: grounded refusal checks no-sources, reference_answer for judge, mock disclaimer

520796c

Nomearod Claude Opus 4.6 (1M context) commited on Mar 24

fix: retrieval metrics use ranked sources, LLM judge wired, report complete

3d027cb

Nomearod Claude Opus 4.6 (1M context) commited on Mar 24

feat: Day 7 — evaluation harness, metrics, report, expanded golden dataset

c378584

Nomearod Claude Opus 4.6 (1M context) commited on Mar 24

feat: Day 4 — corpus, ingest script, first 10 golden questions

a152b95

Nomearod Claude Opus 4.6 (1M context) commited on Mar 24

Commit History

Deploy: dashboard naive-vs-rigorous reveal + sync serving to origin/main 1c08abf Running

calibrate(jury): v1.1+v1.1.1 — fix weighting bugs; recency-position paraphrase clause ab0e054

rubric: clarify groundedness reference scope (snippets-only) for v1.1 gold (#20) e16544c unverified

fix(types): four mypy errors blocking CI 02b8717

docs(harness,readme): two re-review must-fix items c39d5c7

fix(judges,calibration,harness): three Codex adversarial-review findings 226b6f4

fix(judges,calibration): five review follow-ups (items 5, 6, 7, 9, 10) 71ec5e8

fix(judges): four review-blocking bugs (review items 1–4 + 8) 9255fb5

refactor(metrics): delete superseded LLM judges (answer_faithfulness etc.) 281b43d

refactor(harness): migrate to per-dimension Judge layer (drop faithfulness/correctness) e76227f

feat(calibration): generate_kappa_table with strict/warn modes 1d47106

feat(scripts): run_calibration.py orchestrator for Steps A/C/D 4fa7c61

feat(goldens): add source_snippets to 8 FastAPI calibration items a48afb9

feat(calibration): 30-item stratified calibration_v1 sample 8ef480a

feat(calibration): hand-rolled cohen_kappa, gwets_ac2, bootstrap_ci 6ef2e0e

feat(variance): PermutedJudge + Jury — N permutations and multi-judge aggregator c038a7d

feat(judges): CitationFaithfulnessJudge with all-or-nothing aggregation 04d9ea0

feat(judges): CompletenessJudge + three-point reference-based rubric 80be2d8

feat(judges): RelevanceJudge + anchored three-point rubric b170eb6

feat(judges): GroundednessJudge + anchored binary rubric 30a5e0c

feat(judges): _call_judge_with_retry helper with strict-reprompt + abstain ff78845

feat(judges): MockJudge with LookupError on missing keys aa70e89

feat(judges): Judge ABC with judge_id derived from model + dimension 2192305

feat(judges): Rubric markdown loader with aggressive validation 7b72b2c

feat(judges): ScoreResult + abstain-reason constants 76e370c

feat(eval): Week 1 step 5 — 25-question K8s golden dataset + grounded_refusal fix 4454894

feat: K8s pilot corpus — 8 pages + config entry + JSON rewrite ce7247c

feat: add 6-question K8s golden pilot dataset 3484214

feat: extend GoldenQuestion with source_pages and source_sections d5884af

feat: support multi-corpus golden dataset schema 83d6b2b

fix: comparison framing, mock-specific failure analysis, stale test counts a29d68d

fix: grounded refusal checks no-sources, reference_answer for judge, mock disclaimer 520796c

fix: retrieval metrics use ranked sources, LLM judge wired, report complete 3d027cb

feat: Day 7 — evaluation harness, metrics, report, expanded golden dataset c378584

feat: Day 4 — corpus, ingest script, first 10 golden questions a152b95

Deploy: dashboard naive-vs-rigorous reveal + sync serving to origin/main

1c08abf

Running

calibrate(jury): v1.1+v1.1.1 — fix weighting bugs; recency-position paraphrase clause

ab0e054

rubric: clarify groundedness reference scope (snippets-only) for v1.1 gold (#20)

e16544c
unverified

fix(types): four mypy errors blocking CI

02b8717

docs(harness,readme): two re-review must-fix items

c39d5c7

fix(judges,calibration,harness): three Codex adversarial-review findings

226b6f4

fix(judges,calibration): five review follow-ups (items 5, 6, 7, 9, 10)

71ec5e8

fix(judges): four review-blocking bugs (review items 1–4 + 8)

9255fb5

refactor(metrics): delete superseded LLM judges (answer_faithfulness etc.)

281b43d

refactor(harness): migrate to per-dimension Judge layer (drop faithfulness/correctness)

e76227f

feat(calibration): generate_kappa_table with strict/warn modes

1d47106

feat(scripts): run_calibration.py orchestrator for Steps A/C/D

4fa7c61

feat(goldens): add source_snippets to 8 FastAPI calibration items

a48afb9

feat(calibration): 30-item stratified calibration_v1 sample

8ef480a

feat(calibration): hand-rolled cohen_kappa, gwets_ac2, bootstrap_ci

6ef2e0e

feat(variance): PermutedJudge + Jury — N permutations and multi-judge aggregator

c038a7d

feat(judges): CitationFaithfulnessJudge with all-or-nothing aggregation

04d9ea0

feat(judges): CompletenessJudge + three-point reference-based rubric

80be2d8

feat(judges): RelevanceJudge + anchored three-point rubric

b170eb6

feat(judges): GroundednessJudge + anchored binary rubric

30a5e0c

feat(judges): _call_judge_with_retry helper with strict-reprompt + abstain

ff78845

feat(judges): MockJudge with LookupError on missing keys

aa70e89

feat(judges): Judge ABC with judge_id derived from model + dimension

2192305

feat(judges): Rubric markdown loader with aggressive validation

7b72b2c

feat(judges): ScoreResult + abstain-reason constants

76e370c

feat(eval): Week 1 step 5 — 25-question K8s golden dataset + grounded_refusal fix

4454894

feat: K8s pilot corpus — 8 pages + config entry + JSON rewrite

ce7247c

feat: add 6-question K8s golden pilot dataset

3484214

feat: extend GoldenQuestion with source_pages and source_sections

d5884af

feat: support multi-corpus golden dataset schema

83d6b2b

fix: comparison framing, mock-specific failure analysis, stale test counts

a29d68d

fix: grounded refusal checks no-sources, reference_answer for judge, mock disclaimer

520796c

fix: retrieval metrics use ranked sources, LLM judge wired, report complete

3d027cb

feat: Day 7 — evaluation harness, metrics, report, expanded golden dataset

c378584

feat: Day 4 — corpus, ingest script, first 10 golden questions

a152b95