Adam1010
/

goodhart-gap-benchmark

execution-vs-understanding

Model card Files Files and versions

goodhart-gap-benchmark / data

91 MB

Ctrl+K

Ctrl+K

1 contributor

History: 2 commits

Adam1010's picture

v2.0: Combined with cgrt-consensus-5model data (8,050 disagreements, 1,556 contested)

ca5e3d7 verified 6 months ago

baseline_results.json

2.14 kB
v1.1: Document financial domain findings - strongest Goodhart Gap detector 6 months ago
combined_summary.json

476 Bytes
v2.0: Combined with cgrt-consensus-5model data (8,050 disagreements, 1,556 contested) 6 months ago
combined_test.jsonl

16.9 MB
xet

v2.0: Combined with cgrt-consensus-5model data (8,050 disagreements, 1,556 contested) 6 months ago
goodhart_contested.jsonl

17 MB
xet

v2.0: Combined with cgrt-consensus-5model data (8,050 disagreements, 1,556 contested) 6 months ago
goodhart_disagreements.jsonl

57.1 MB
xet

v2.0: Combined with cgrt-consensus-5model data (8,050 disagreements, 1,556 contested) 6 months ago
summary.json

443 Bytes
v1.1: Document financial domain findings - strongest Goodhart Gap detector 6 months ago
test.jsonl

44.6 kB
v1.1: Document financial domain findings - strongest Goodhart Gap detector 6 months ago