Spaces:

InternScience
/

SGI-Bench-Leaderboard

Running

App Files Files Community

unknown commited on Dec 3, 2025

Commit

33e428a

1 Parent(s): 81aa3ec

update

Browse files

Files changed (37) hide show

.gitignore +4 -4
eval-queue/sgi-bench/Claude-Opus-4.1_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Claude-Sonnet-4.5_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/GPT-4.1_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/GPT-4o_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/GPT-5.1_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/GPT-5_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Gemini-2.5-Flash_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Gemini-2.5-Pro_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Gemini-3-Pro_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Grok-4_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Intern-S1-mini_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Intern-S1_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Llama-4-Scout_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Qwen3-8B_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Qwen3-Max_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/Qwen3-VL-235B-A22B_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/o3_eval_request_False_float16_Original.json +14 -0
eval-queue/sgi-bench/o4-mini_eval_request_False_float16_Original.json +14 -0
eval-results/sgi-bench/Claude-Opus-4.1/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Claude-Sonnet-4.5/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/GPT-4.1/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/GPT-4o/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/GPT-5.1/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/GPT-5/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Gemini-2.5-Flash/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Gemini-2.5-Pro/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Gemini-3-Pro/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Grok-4/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Intern-S1-mini/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Intern-S1/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Llama-4-Scout/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Qwen3-8B/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Qwen3-Max/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/Qwen3-VL-235B-A22B/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/o3/results_20251203T061115Z.json +24 -0
eval-results/sgi-bench/o4-mini/results_20251203T061115Z.json +24 -0

.gitignore CHANGED Viewed

@@ -6,8 +6,8 @@ __pycache__/
 *ipynb
 .vscode/
-eval-queue/
-eval-results/
-eval-queue-bk/
-eval-results-bk/
 logs/

 *ipynb
 .vscode/
+# eval-queue/
+# eval-results/
+# eval-queue-bk/
+# eval-results-bk/
 logs/

eval-queue/sgi-bench/Claude-Opus-4.1_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Claude-Opus-4.1",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Claude-Sonnet-4.5_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Claude-Sonnet-4.5",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/GPT-4.1_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/GPT-4.1",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/GPT-4o_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/GPT-4o",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/GPT-5.1_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/GPT-5.1",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/GPT-5_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/GPT-5",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Gemini-2.5-Flash_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Gemini-2.5-Flash",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Gemini-2.5-Pro_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Gemini-2.5-Pro",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Gemini-3-Pro_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Gemini-3-Pro",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Grok-4_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Grok-4",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Intern-S1-mini_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Intern-S1-mini",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔓 : Open",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Intern-S1_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Intern-S1",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔓 : Open",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Llama-4-Scout_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Llama-4-Scout",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔓 : Open",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Qwen3-8B_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Qwen3-8B",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔓 : Open",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Qwen3-Max_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Qwen3-Max",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔓 : Open",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/Qwen3-VL-235B-A22B_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/Qwen3-VL-235B-A22B",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔓 : Open",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/o3_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/o3",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-queue/sgi-bench/o4-mini_eval_request_False_float16_Original.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model": "sgi-bench/o4-mini",
+  "base_model": "",
+  "revision": "main",
+  "precision": "float16",
+  "weight_type": "Original",
+  "status": "FINISHED",
+  "submitted_time": "2025-12-03T06:11:15Z",
+  "model_type": "🔒 : Closed",
+  "likes": 0,
+  "params": 0,
+  "license": "?",
+  "private": false
+}

eval-results/sgi-bench/Claude-Opus-4.1/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Claude-Opus-4.1",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1293
+    },
+    "idea_generation": {
+      "acc": 0.4029
+    },
+    "dry_experiment": {
+      "acc": 0.3469
+    },
+    "wet_experiment": {
+      "acc": 0.2538
+    },
+    "experimental_reasoning": {
+      "acc": 0.3883
+    }
+  }
+}

eval-results/sgi-bench/Claude-Sonnet-4.5/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Claude-Sonnet-4.5",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1384
+    },
+    "idea_generation": {
+      "acc": 0.432
+    },
+    "dry_experiment": {
+      "acc": 0.3579
+    },
+    "wet_experiment": {
+      "acc": 0.3015
+    },
+    "experimental_reasoning": {
+      "acc": 0.378
+    }
+  }
+}

eval-results/sgi-bench/GPT-4.1/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/GPT-4.1",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1132
+    },
+    "idea_generation": {
+      "acc": 0.3649
+    },
+    "dry_experiment": {
+      "acc": 0.3432
+    },
+    "wet_experiment": {
+      "acc": 0.3663
+    },
+    "experimental_reasoning": {
+      "acc": 0.3849
+    }
+  }
+}

eval-results/sgi-bench/GPT-4o/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/GPT-4o",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.0786
+    },
+    "idea_generation": {
+      "acc": 0.3595
+    },
+    "dry_experiment": {
+      "acc": 0.2694
+    },
+    "wet_experiment": {
+      "acc": 0.3131
+    },
+    "experimental_reasoning": {
+      "acc": 0.323
+    }
+  }
+}

eval-results/sgi-bench/GPT-5.1/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/GPT-5.1",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1164
+    },
+    "idea_generation": {
+      "acc": 0.4712
+    },
+    "dry_experiment": {
+      "acc": 0.31
+    },
+    "wet_experiment": {
+      "acc": 0.2277
+    },
+    "experimental_reasoning": {
+      "acc": 0.3402
+    }
+  }
+}

eval-results/sgi-bench/GPT-5/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/GPT-5",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1447
+    },
+    "idea_generation": {
+      "acc": 0.554
+    },
+    "dry_experiment": {
+      "acc": 0.2989
+    },
+    "wet_experiment": {
+      "acc": 0.1631
+    },
+    "experimental_reasoning": {
+      "acc": 0.3814
+    }
+  }
+}

eval-results/sgi-bench/Gemini-2.5-Flash/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Gemini-2.5-Flash",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1069
+    },
+    "idea_generation": {
+      "acc": 0.3913
+    },
+    "dry_experiment": {
+      "acc": 0.2103
+    },
+    "wet_experiment": {
+      "acc": 0.1855
+    },
+    "experimental_reasoning": {
+      "acc": 0.3436
+    }
+  }
+}

eval-results/sgi-bench/Gemini-2.5-Pro/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Gemini-2.5-Pro",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1509
+    },
+    "idea_generation": {
+      "acc": 0.3995
+    },
+    "dry_experiment": {
+      "acc": 0.2251
+    },
+    "wet_experiment": {
+      "acc": 0.2205
+    },
+    "experimental_reasoning": {
+      "acc": 0.4124
+    }
+  }
+}

eval-results/sgi-bench/Gemini-3-Pro/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Gemini-3-Pro",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1848
+    },
+    "idea_generation": {
+      "acc": 0.3968
+    },
+    "dry_experiment": {
+      "acc": 0.3664
+    },
+    "wet_experiment": {
+      "acc": 0.3245
+    },
+    "experimental_reasoning": {
+      "acc": 0.4192
+    }
+  }
+}

eval-results/sgi-bench/Grok-4/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Grok-4",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1331
+    },
+    "idea_generation": {
+      "acc": 0.3712
+    },
+    "dry_experiment": {
+      "acc": 0.3371
+    },
+    "wet_experiment": {
+      "acc": 0.2901
+    },
+    "experimental_reasoning": {
+      "acc": 0.3024
+    }
+  }
+}

eval-results/sgi-bench/Intern-S1-mini/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Intern-S1-mini",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1106
+    },
+    "idea_generation": {
+      "acc": 0.3604
+    },
+    "dry_experiment": {
+      "acc": 0.1697
+    },
+    "wet_experiment": {
+      "acc": 0.1242
+    },
+    "experimental_reasoning": {
+      "acc": 0.1684
+    }
+  }
+}

eval-results/sgi-bench/Intern-S1/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Intern-S1",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1574
+    },
+    "idea_generation": {
+      "acc": 0.3809
+    },
+    "dry_experiment": {
+      "acc": 0.2879
+    },
+    "wet_experiment": {
+      "acc": 0.2902
+    },
+    "experimental_reasoning": {
+      "acc": 0.2887
+    }
+  }
+}

eval-results/sgi-bench/Llama-4-Scout/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Llama-4-Scout",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.0786
+    },
+    "idea_generation": {
+      "acc": 0.2972
+    },
+    "dry_experiment": {
+      "acc": 0.2037
+    },
+    "wet_experiment": {
+      "acc": 0.2166
+    },
+    "experimental_reasoning": {
+      "acc": 0.2577
+    }
+  }
+}

eval-results/sgi-bench/Qwen3-8B/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Qwen3-8B",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.0818
+    },
+    "idea_generation": {
+      "acc": 0.3578
+    },
+    "dry_experiment": {
+      "acc": 0.1845
+    },
+    "wet_experiment": {
+      "acc": 0.0996
+    },
+    "experimental_reasoning": {
+      "acc": 0.2337
+    }
+  }
+}

eval-results/sgi-bench/Qwen3-Max/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Qwen3-Max",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1538
+    },
+    "idea_generation": {
+      "acc": 0.3983
+    },
+    "dry_experiment": {
+      "acc": 0.3321
+    },
+    "wet_experiment": {
+      "acc": 0.3362
+    },
+    "experimental_reasoning": {
+      "acc": 0.378
+    }
+  }
+}

eval-results/sgi-bench/Qwen3-VL-235B-A22B/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/Qwen3-VL-235B-A22B",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1197
+    },
+    "idea_generation": {
+      "acc": 0.3928
+    },
+    "dry_experiment": {
+      "acc": 0.2841
+    },
+    "wet_experiment": {
+      "acc": 0.303
+    },
+    "experimental_reasoning": {
+      "acc": 0.3162
+    }
+  }
+}

eval-results/sgi-bench/o3/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/o3",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1289
+    },
+    "idea_generation": {
+      "acc": 0.4607
+    },
+    "dry_experiment": {
+      "acc": 0.3173
+    },
+    "wet_experiment": {
+      "acc": 0.3004
+    },
+    "experimental_reasoning": {
+      "acc": 0.3265
+    }
+  }
+}

eval-results/sgi-bench/o4-mini/results_20251203T061115Z.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "config": {
+    "model_dtype": "float16",
+    "model_name": "sgi-bench/o4-mini",
+    "model_sha": ""
+  },
+  "results": {
+    "deep_research": {
+      "acc": 0.1195
+    },
+    "idea_generation": {
+      "acc": 0.4078
+    },
+    "dry_experiment": {
+      "acc": 0.3579
+    },
+    "wet_experiment": {
+      "acc": 0.2886
+    },
+    "experimental_reasoning": {
+      "acc": 0.3333
+    }
+  }
+}