grpo_qwen3_4b_base_smoke_v1: failed smoke metrics

Files changed (1) hide show

grpo_qwen3_4b_base_smoke_v1/smoke_metrics_failed.json ADDED Viewed

+{
+  "clip_ratio/high_max": 0.0,
+  "clip_ratio/high_mean": 0.0,
+  "clip_ratio/low_mean": 0.0,
+  "clip_ratio/low_min": 0.0,
+  "clip_ratio/region_mean": 0.0,
+  "completion_length": 385.25,
+  "completions/clipped_ratio": 0.5,
+  "completions/max_length": 400.0,
+  "completions/max_terminated_length": 379.0,
+  "completions/mean_length": 385.25,
+  "completions/mean_terminated_length": 370.5,
+  "completions/min_length": 362.0,
+  "completions/min_terminated_length": 362.0,
+  "epoch": 0.25,
+  "frac_reward_zero_std": 0.0,
+  "grad_norm": 0.6496501564979553,
+  "kl": 0.5402975082397461,
+  "last": {
+    "epoch": 0.25,
+    "step": 10,
+    "total_flos": 0.0,
+    "train_loss": 0.041143313492648305,
+    "train_runtime": 134.0562,
+    "train_samples_per_second": 0.298,
+    "train_steps_per_second": 0.075
+  },
+  "learning_rate": 5.555555555555555e-07,
+  "log_rows": 11,
+  "loss": 0.036,
+  "num_tokens": 53307.0,
+  "reward": -0.24348190426826477,
+  "reward_std": 0.3061457574367523,
+  "rewards/base_format_phase1/mean": 0.05000000074505806,
+  "rewards/base_format_phase1/std": 0.057735029608011246,
+  "rewards/base_regret_phase1/mean": -0.2934819161891937,
+  "rewards/base_regret_phase1/std": 0.2507113218307495,
+  "smoke_gate_passed": false,
+  "step": 10,
+  "total_flos": 0.0,
+  "train_loss": 0.041143313492648305,
+  "train_runtime": 134.0562,
+  "train_samples_per_second": 0.298,
+  "train_steps_per_second": 0.075
+}