Add Qwen2-1.5B-Instruct base GSM8K test eval

Files changed (4) hide show

EVAL/gsm8k_test/Qwen2-1.5B-Instruct/base/args.json ADDED Viewed

+{
+  "model_name": "Qwen/Qwen2-1.5B-Instruct",
+  "output_dir": "output/gsm8k_test_eval/Qwen2-1.5B-Instruct/base",
+  "max_examples": null,
+  "batch_size": 512,
+  "num_chains": 1,
+  "temperature": 0.9,
+  "max_prompt_length": 1024,
+  "max_completion_length": 768,
+  "seed": 7111994
+}

EVAL/gsm8k_test/Qwen2-1.5B-Instruct/base/per_question.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

EVAL/gsm8k_test/Qwen2-1.5B-Instruct/base/per_question.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

EVAL/gsm8k_test/Qwen2-1.5B-Instruct/base/summary.json ADDED Viewed

+{
+  "model_name": "Qwen/Qwen2-1.5B-Instruct",
+  "split": "gsm8k_test",
+  "num_examples": 1319,
+  "num_chains": 1,
+  "mean_metrics": {
+    "rewards/correctness_reward_func": 0.4200151630022744,
+    "rewards/int_reward_func": 0.46626231993934797,
+    "rewards/strict_format_reward_func": 0.10765731614859743,
+    "rewards/soft_format_reward_func": 0.49583017437452614,
+    "rewards/xmlcount_reward_func": 0.49757316153301623,
+    "reward": 1.987338135020357,
+    "accuracy": 0.2100075815011372,
+    "pass_at_n": 0.2100075815011372
+  },
+  "avg_of_n_accuracy_pct": 21.00075815011372,
+  "pass_at_n_pct": 21.00075815011372
+}