Spaces:

newmindai
/

Mezura

Running

App Files Files Community

nmmursit commited on Jan 21

Commit

89043b9

1 Parent(s): 7dea7c1

updated human arena data

Browse files

Files changed (27) hide show

result/human_arena/{detail_9269ad1c.json → detail_075bdf8e.json} +7 -7
result/human_arena/{detail_28fc12fe.json → detail_1406b4e7.json} +7 -7
result/human_arena/{detail_41959a49.json → detail_2208a984.json} +8 -8
result/human_arena/{detail_108710af.json → detail_2b3c8f6f.json} +9 -9
result/human_arena/{detail_9039f703.json → detail_38a3ba66.json} +8 -8
result/human_arena/{detail_c6101f2a.json → detail_3f0f56f0.json} +9 -9
result/human_arena/{detail_7b0f26ef.json → detail_66536d64.json} +8 -8
result/human_arena/{detail_5c24d08a.json → detail_6730ed29.json} +3 -3
result/human_arena/{detail_15b52ac5.json → detail_6c246e0d.json} +9 -9
result/human_arena/{detail_3ac28fb0.json → detail_9085338d.json} +9 -9
result/human_arena/{detail_47471816.json → detail_94a01d1e.json} +6 -6
result/human_arena/{detail_d442d95f.json → detail_97567fd5.json} +9 -9
result/human_arena/{detail_5ff4c010.json → detail_9aa4b0bf.json} +9 -9
result/human_arena/{detail_ce44ff08.json → detail_9b9bb2ba.json} +7 -7
result/human_arena/{detail_d3d5ea7c.json → detail_a10ef85a.json} +8 -8
result/human_arena/{detail_318acf27.json → detail_ad1efebc.json} +6 -6
result/human_arena/{detail_6b53b3f3.json → detail_ad3f6c99.json} +7 -7
result/human_arena/{detail_37a12169.json → detail_aded928d.json} +7 -7
result/human_arena/{detail_da4d94c9.json → detail_b49185d7.json} +9 -9
result/human_arena/{detail_74139fe9.json → detail_b8046ea9.json} +9 -9
result/human_arena/{detail_2cb1472f.json → detail_c77ffeba.json} +9 -9
result/human_arena/{detail_f8254c92.json → detail_cadcb1aa.json} +7 -7
result/human_arena/{detail_12087995.json → detail_dbd2f986.json} +7 -7
result/human_arena/{detail_633cccf3.json → detail_ead2378e.json} +7 -7
result/human_arena/{detail_b1bdd263.json → detail_ee6f0443.json} +6 -6
result/human_arena/{detail_78ed43f0.json → detail_f190d45f.json} +7 -7
result/human_arena/{detail_d7aced26.json → detail_f64d9185.json} +9 -9

result/human_arena/{detail_9269ad1c.json → detail_075bdf8e.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "grok-4-1-fast-reasoning",
-  "run_id": "9269ad1c",
   "category": "reasoning",
-  "elo_rating": 1436.0,
   "wins": 52,
-  "losses": 50,
-  "ties": 23,
-  "total_games": 125,
   "win_rate": 42.0,
-  "votes": 125,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "grok-4-1-fast-reasoning",
+  "run_id": "075bdf8e",
   "category": "reasoning",
+  "elo_rating": 1463.0,
   "wins": 52,
+  "losses": 49,
+  "ties": 22,
+  "total_games": 123,
   "win_rate": 42.0,
+  "votes": 123,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_28fc12fe.json → detail_1406b4e7.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "grok-4-fast-reasoning",
-  "run_id": "28fc12fe",
   "category": "reasoning",
-  "elo_rating": 1393.0,
   "wins": 37,
-  "losses": 62,
-  "ties": 30,
-  "total_games": 129,
   "win_rate": 29.0,
-  "votes": 129,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "grok-4-fast-reasoning",
+  "run_id": "1406b4e7",
   "category": "reasoning",
+  "elo_rating": 1418.0,
   "wins": 37,
+  "losses": 61,
+  "ties": 29,
+  "total_games": 127,
   "win_rate": 29.0,
+  "votes": 127,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_41959a49.json → detail_2208a984.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gpt-5-mini",
-  "run_id": "41959a49",
   "category": "reasoning",
-  "elo_rating": 1375.0,
-  "wins": 15,
-  "losses": 54,
   "ties": 24,
-  "total_games": 93,
-  "win_rate": 16.0,
-  "votes": 93,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gpt-5-mini",
+  "run_id": "2208a984",
   "category": "reasoning",
+  "elo_rating": 1401.0,
+  "wins": 14,
+  "losses": 53,
   "ties": 24,
+  "total_games": 91,
+  "win_rate": 15.0,
+  "votes": 91,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_108710af.json → detail_2b3c8f6f.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "grok-3",
-  "run_id": "108710af",
   "category": "general",
-  "elo_rating": 1546.0,
-  "wins": 539,
-  "losses": 234,
-  "ties": 458,
-  "total_games": 1231,
-  "win_rate": 44.0,
-  "votes": 1231,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "grok-3",
+  "run_id": "2b3c8f6f",
   "category": "general",
+  "elo_rating": 1539.0,
+  "wins": 105,
+  "losses": 63,
+  "ties": 21,
+  "total_games": 189,
+  "win_rate": 56.0,
+  "votes": 189,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_9039f703.json → detail_38a3ba66.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gemma-3-27b-it",
-  "run_id": "9039f703",
   "category": "general",
-  "elo_rating": 1556.0,
-  "wins": 14,
-  "losses": 11,
   "ties": 0,
-  "total_games": 25,
-  "win_rate": 56.0,
-  "votes": 25,
   "dtype": "bfloat16",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gemma-3-27b-it",
+  "run_id": "38a3ba66",
   "category": "general",
+  "elo_rating": 1512.0,
+  "wins": 10,
+  "losses": 10,
   "ties": 0,
+  "total_games": 20,
+  "win_rate": 50.0,
+  "votes": 20,
   "dtype": "bfloat16",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_c6101f2a.json → detail_3f0f56f0.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "newmindai/Llama-3.3-70B-Instruct",
-  "run_id": "c6101f2a",
   "category": "general",
-  "elo_rating": 1489.0,
-  "wins": 584,
-  "losses": 473,
-  "ties": 294,
-  "total_games": 1351,
-  "win_rate": 43.0,
-  "votes": 1351,
   "dtype": "bfloat16",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "newmindai/Llama-3.3-70B-Instruct",
+  "run_id": "3f0f56f0",
   "category": "general",
+  "elo_rating": 1472.0,
+  "wins": 17,
+  "losses": 31,
+  "ties": 7,
+  "total_games": 55,
+  "win_rate": 31.0,
+  "votes": 55,
   "dtype": "bfloat16",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_7b0f26ef.json → detail_66536d64.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "grok-4-0709",
-  "run_id": "7b0f26ef",
   "category": "general",
-  "elo_rating": 1456.0,
-  "wins": 75,
-  "losses": 90,
   "ties": 31,
-  "total_games": 196,
-  "win_rate": 38.0,
-  "votes": 196,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "grok-4-0709",
+  "run_id": "66536d64",
   "category": "general",
+  "elo_rating": 1449.0,
+  "wins": 71,
+  "losses": 89,
   "ties": 31,
+  "total_games": 191,
+  "win_rate": 37.0,
+  "votes": 191,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_5c24d08a.json → detail_6730ed29.json} RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "model_name": "openai/gpt-oss-20b",
-  "run_id": "5c24d08a",
   "category": "reasoning",
-  "elo_rating": 1302.0,
   "wins": 33,
   "losses": 66,
   "ties": 25,
@@ -11,6 +11,6 @@
   "votes": 124,
   "dtype": "bfloat16",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "openai/gpt-oss-20b",
+  "run_id": "6730ed29",
   "category": "reasoning",
+  "elo_rating": 1328.0,
   "wins": 33,
   "losses": 66,
   "ties": 25,
   "votes": 124,
   "dtype": "bfloat16",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_15b52ac5.json → detail_6c246e0d.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gpt-4o-mini",
-  "run_id": "15b52ac5",
   "category": "general",
-  "elo_rating": 1398.0,
-  "wins": 69,
-  "losses": 94,
-  "ties": 35,
-  "total_games": 198,
-  "win_rate": 35.0,
-  "votes": 198,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gpt-4o-mini",
+  "run_id": "6c246e0d",
   "category": "general",
+  "elo_rating": 1391.0,
+  "wins": 66,
+  "losses": 92,
+  "ties": 34,
+  "total_games": 192,
+  "win_rate": 34.0,
+  "votes": 192,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_3ac28fb0.json → detail_9085338d.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "grok-4",
-  "run_id": "3ac28fb0",
   "category": "general",
-  "elo_rating": 1634.0,
-  "wins": 113,
-  "losses": 64,
-  "ties": 21,
-  "total_games": 198,
-  "win_rate": 57.0,
-  "votes": 198,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "grok-4",
+  "run_id": "9085338d",
   "category": "general",
+  "elo_rating": 1628.0,
+  "wins": 111,
+  "losses": 60,
+  "ties": 20,
+  "total_games": 191,
+  "win_rate": 58.0,
+  "votes": 191,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_47471816.json → detail_94a01d1e.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gemini-2.5-pro-preview-03-25",
-  "run_id": "47471816",
   "category": "reasoning",
-  "elo_rating": 1736.0,
-  "wins": 92,
   "losses": 23,
   "ties": 7,
-  "total_games": 122,
   "win_rate": 75.0,
-  "votes": 122,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gemini-2.5-pro-preview-03-25",
+  "run_id": "94a01d1e",
   "category": "reasoning",
+  "elo_rating": 1760.0,
+  "wins": 91,
   "losses": 23,
   "ties": 7,
+  "total_games": 121,
   "win_rate": 75.0,
+  "votes": 121,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_d442d95f.json → detail_97567fd5.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "meta-llama/Llama-3.3-70B-Instruct",
-  "run_id": "d442d95f",
   "category": "general",
-  "elo_rating": 1421.0,
-  "wins": 649,
-  "losses": 505,
-  "ties": 417,
-  "total_games": 1571,
-  "win_rate": 41.0,
-  "votes": 1571,
   "dtype": "bfloat16",
   "license": "Llama-3.3",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "meta-llama/Llama-3.3-70B-Instruct",
+  "run_id": "97567fd5",
   "category": "general",
+  "elo_rating": 1414.0,
+  "wins": 58,
+  "losses": 100,
+  "ties": 39,
+  "total_games": 197,
+  "win_rate": 29.0,
+  "votes": 197,
   "dtype": "bfloat16",
   "license": "Llama-3.3",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_5ff4c010.json → detail_9aa4b0bf.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "Qwen/QwQ-32B",
-  "run_id": "5ff4c010",
   "category": "general",
-  "elo_rating": 1477.0,
-  "wins": 387,
-  "losses": 788,
-  "ties": 165,
-  "total_games": 1340,
-  "win_rate": 29.0,
-  "votes": 1340,
   "dtype": "bfloat16",
   "license": "Apache 2.0",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "Qwen/QwQ-32B",
+  "run_id": "9aa4b0bf",
   "category": "general",
+  "elo_rating": 1472.0,
+  "wins": 21,
+  "losses": 22,
+  "ties": 13,
+  "total_games": 56,
+  "win_rate": 38.0,
+  "votes": 56,
   "dtype": "bfloat16",
   "license": "Apache 2.0",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_ce44ff08.json → detail_9b9bb2ba.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gpt-4o",
-  "run_id": "ce44ff08",
   "category": "general",
-  "elo_rating": 1379.0,
-  "wins": 71,
-  "losses": 100,
   "ties": 30,
-  "total_games": 201,
   "win_rate": 35.0,
-  "votes": 201,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gpt-4o",
+  "run_id": "9b9bb2ba",
   "category": "general",
+  "elo_rating": 1373.0,
+  "wins": 67,
+  "losses": 97,
   "ties": 30,
+  "total_games": 194,
   "win_rate": 35.0,
+  "votes": 194,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_d3d5ea7c.json → detail_a10ef85a.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "qwen-plus",
-  "run_id": "d3d5ea7c",
   "category": "general",
-  "elo_rating": 1524.0,
   "wins": 73,
-  "losses": 77,
-  "ties": 36,
-  "total_games": 186,
-  "win_rate": 39.0,
-  "votes": 186,
   "dtype": "Unknown",
   "license": "Qwen",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "qwen-plus",
+  "run_id": "a10ef85a",
   "category": "general",
+  "elo_rating": 1518.0,
   "wins": 73,
+  "losses": 75,
+  "ties": 35,
+  "total_games": 183,
+  "win_rate": 40.0,
+  "votes": 183,
   "dtype": "Unknown",
   "license": "Qwen",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_318acf27.json → detail_ad1efebc.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "openai/gpt-oss-120b",
-  "run_id": "318acf27",
   "category": "reasoning",
-  "elo_rating": 1381.0,
   "wins": 50,
-  "losses": 58,
   "ties": 18,
-  "total_games": 126,
   "win_rate": 40.0,
-  "votes": 126,
   "dtype": "bfloat16",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "openai/gpt-oss-120b",
+  "run_id": "ad1efebc",
   "category": "reasoning",
+  "elo_rating": 1408.0,
   "wins": 50,
+  "losses": 56,
   "ties": 18,
+  "total_games": 124,
   "win_rate": 40.0,
+  "votes": 124,
   "dtype": "bfloat16",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_6b53b3f3.json → detail_ad3f6c99.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gpt-5",
-  "run_id": "6b53b3f3",
   "category": "reasoning",
-  "elo_rating": 1748.0,
-  "wins": 76,
-  "losses": 37,
   "ties": 14,
-  "total_games": 127,
   "win_rate": 60.0,
-  "votes": 127,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gpt-5",
+  "run_id": "ad3f6c99",
   "category": "reasoning",
+  "elo_rating": 1773.0,
+  "wins": 74,
+  "losses": 36,
   "ties": 14,
+  "total_games": 124,
   "win_rate": 60.0,
+  "votes": 124,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_37a12169.json → detail_aded928d.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "deepseek-ai/DeepSeek-V3",
-  "run_id": "37a12169",
   "category": "general",
-  "elo_rating": 1535.0,
   "wins": 81,
-  "losses": 82,
   "ties": 38,
-  "total_games": 201,
-  "win_rate": 40.0,
-  "votes": 201,
   "dtype": "bfloat16",
   "license": "MIT",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "deepseek-ai/DeepSeek-V3",
+  "run_id": "aded928d",
   "category": "general",
+  "elo_rating": 1528.0,
   "wins": 81,
+  "losses": 71,
   "ties": 38,
+  "total_games": 190,
+  "win_rate": 43.0,
+  "votes": 190,
   "dtype": "bfloat16",
   "license": "MIT",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_da4d94c9.json → detail_b49185d7.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "newmindai/QwQ-32B",
-  "run_id": "da4d94c9",
   "category": "reasoning",
-  "elo_rating": 1295.0,
-  "wins": 284,
-  "losses": 941,
-  "ties": 180,
-  "total_games": 1405,
-  "win_rate": 20.0,
-  "votes": 1405,
   "dtype": "bfloat16",
   "license": "Apache 2.0",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "newmindai/QwQ-32B",
+  "run_id": "b49185d7",
   "category": "reasoning",
+  "elo_rating": 1377.0,
+  "wins": 6,
+  "losses": 24,
+  "ties": 12,
+  "total_games": 42,
+  "win_rate": 14.0,
+  "votes": 42,
   "dtype": "bfloat16",
   "license": "Apache 2.0",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_74139fe9.json → detail_b8046ea9.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gemini-2.0-flash",
-  "run_id": "74139fe9",
   "category": "general",
-  "elo_rating": 1575.0,
-  "wins": 99,
-  "losses": 69,
-  "ties": 25,
-  "total_games": 193,
-  "win_rate": 51.0,
-  "votes": 193,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gemini-2.0-flash",
+  "run_id": "b8046ea9",
   "category": "general",
+  "elo_rating": 1569.0,
+  "wins": 98,
+  "losses": 66,
+  "ties": 24,
+  "total_games": 188,
+  "win_rate": 52.0,
+  "votes": 188,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_2cb1472f.json → detail_c77ffeba.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "grok-3-mini-fast-beta",
-  "run_id": "2cb1472f",
   "category": "reasoning",
-  "elo_rating": 1393.0,
-  "wins": 414,
-  "losses": 483,
-  "ties": 242,
-  "total_games": 1139,
-  "win_rate": 36.0,
-  "votes": 1139,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "grok-3-mini-fast-beta",
+  "run_id": "c77ffeba",
   "category": "reasoning",
+  "elo_rating": 1420.0,
+  "wins": 27,
+  "losses": 63,
+  "ties": 24,
+  "total_games": 114,
+  "win_rate": 24.0,
+  "votes": 114,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_f8254c92.json → detail_cadcb1aa.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "qwen-turbo",
-  "run_id": "f8254c92",
   "category": "general",
-  "elo_rating": 1458.0,
   "wins": 42,
-  "losses": 97,
   "ties": 42,
-  "total_games": 181,
-  "win_rate": 23.0,
-  "votes": 181,
   "dtype": "Unknown",
   "license": "Qwen",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "qwen-turbo",
+  "run_id": "cadcb1aa",
   "category": "general",
+  "elo_rating": 1451.0,
   "wins": 42,
+  "losses": 95,
   "ties": 42,
+  "total_games": 179,
+  "win_rate": 24.0,
+  "votes": 179,
   "dtype": "Unknown",
   "license": "Qwen",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_12087995.json → detail_dbd2f986.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "llama-3.3-70b-versatile",
-  "run_id": "12087995",
   "category": "general",
-  "elo_rating": 1489.0,
-  "wins": 69,
-  "losses": 105,
   "ties": 27,
-  "total_games": 201,
   "win_rate": 34.0,
-  "votes": 201,
   "dtype": "bfloat16",
   "license": "Llama-3.3",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "llama-3.3-70b-versatile",
+  "run_id": "dbd2f986",
   "category": "general",
+  "elo_rating": 1482.0,
+  "wins": 66,
+  "losses": 103,
   "ties": 27,
+  "total_games": 196,
   "win_rate": 34.0,
+  "votes": 196,
   "dtype": "bfloat16",
   "license": "Llama-3.3",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_633cccf3.json → detail_ead2378e.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gemini-3-pro-preview",
-  "run_id": "633cccf3",
   "category": "reasoning",
-  "elo_rating": 1627.0,
-  "wins": 77,
   "losses": 28,
   "ties": 9,
-  "total_games": 114,
-  "win_rate": 68.0,
-  "votes": 114,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gemini-3-pro-preview",
+  "run_id": "ead2378e",
   "category": "reasoning",
+  "elo_rating": 1652.0,
+  "wins": 75,
   "losses": 28,
   "ties": 9,
+  "total_games": 112,
+  "win_rate": 67.0,
+  "votes": 112,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_b1bdd263.json → detail_ee6f0443.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "qwen-max",
-  "run_id": "b1bdd263",
   "category": "general",
-  "elo_rating": 1595.0,
   "wins": 72,
-  "losses": 68,
   "ties": 37,
-  "total_games": 177,
   "win_rate": 41.0,
-  "votes": 177,
   "dtype": "Unknown",
   "license": "Qwen",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "qwen-max",
+  "run_id": "ee6f0443",
   "category": "general",
+  "elo_rating": 1589.0,
   "wins": 72,
+  "losses": 67,
   "ties": 37,
+  "total_games": 176,
   "win_rate": 41.0,
+  "votes": 176,
   "dtype": "Unknown",
   "license": "Qwen",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_78ed43f0.json → detail_f190d45f.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "gemini-2.5-flash-preview-04-17",
-  "run_id": "78ed43f0",
   "category": "general",
-  "elo_rating": 1614.0,
-  "wins": 128,
   "losses": 40,
   "ties": 28,
-  "total_games": 196,
-  "win_rate": 65.0,
-  "votes": 196,
   "dtype": "Unknown",
   "license": "Proprietary",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "gemini-2.5-flash-preview-04-17",
+  "run_id": "f190d45f",
   "category": "general",
+  "elo_rating": 1607.0,
+  "wins": 120,
   "losses": 40,
   "ties": 28,
+  "total_games": 188,
+  "win_rate": 64.0,
+  "votes": 188,
   "dtype": "Unknown",
   "license": "Proprietary",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }

result/human_arena/{detail_d7aced26.json → detail_f64d9185.json} RENAMED Viewed

@@ -1,16 +1,16 @@
 {
   "model_name": "Qwen/Qwen2.5-72B-Instruct",
-  "run_id": "d7aced26",
   "category": "general",
-  "elo_rating": 1469.0,
-  "wins": 393,
-  "losses": 539,
-  "ties": 298,
-  "total_games": 1230,
-  "win_rate": 32.0,
-  "votes": 1230,
   "dtype": "bfloat16",
   "license": "Qwen",
-  "evaluation_date": "2026-01-19",
   "evaluation_type": "Human Arena"
 }

 {
   "model_name": "Qwen/Qwen2.5-72B-Instruct",
+  "run_id": "f64d9185",
   "category": "general",
+  "elo_rating": 1506.0,
+  "wins": 24,
+  "losses": 21,
+  "ties": 10,
+  "total_games": 55,
+  "win_rate": 44.0,
+  "votes": 55,
   "dtype": "bfloat16",
   "license": "Qwen",
+  "evaluation_date": "2026-01-21",
   "evaluation_type": "Human Arena"
 }