77ethers
/

CarbonAlpha

+{
+  "beats_v6_sft_mean_regret": false,
+  "clip_ratio/high_max": 0.0,
+  "clip_ratio/high_mean": 0.0,
+  "clip_ratio/low_mean": 0.0,
+  "clip_ratio/low_min": 0.0,
+  "clip_ratio/region_mean": 0.0,
+  "completion_length": 397.0,
+  "completions/clipped_ratio": 0.5,
+  "completions/max_length": 400.0,
+  "completions/max_terminated_length": 394.0,
+  "completions/mean_length": 397.0,
+  "completions/mean_terminated_length": 394.0,
+  "completions/min_length": 394.0,
+  "completions/min_terminated_length": 394.0,
+  "epoch": 0.25,
+  "frac_reward_zero_std": 0.0,
+  "grad_norm": 0.6757590174674988,
+  "holdout_eval": {
+    "beats_baseline": 3,
+    "mean_regret": -0.022913286631148444,
+    "results": {
+      "100": {
+        "final_nav_real": 1.0051330135051495,
+        "regret": 0.009040482511816661,
+        "shock": "hard_rare_earth_rotation",
+        "tokens": 299,
+        "valid": true
+      },
+      "200": {
+        "final_nav_real": 1.102640331615326,
+        "regret": 0.04517043934584475,
+        "shock": "easy_tech_earnings",
+        "tokens": 312,
+        "valid": true
+      },
+      "300": {
+        "final_nav_real": 1.1385021769021257,
+        "regret": 0.05516963801759678,
+        "shock": "easy_tech_earnings",
+        "tokens": 312,
+        "valid": true
+      },
+      "400": {
+        "regret": null,
+        "shock": "hard_deflation_pulse",
+        "tokens": 400,
+        "valid": false
+      },
+      "500": {
+        "final_nav_real": 0.7199767352678711,
+        "regret": -0.20103370639985196,
+        "shock": "ambig_ai_efficiency",
+        "tokens": 273,
+        "valid": true
+      }
+    },
+    "total": 5,
+    "v6_sft_mean_regret_bar": 0.034,
+    "valid": 4
+  },
+  "kl": 0.523089587688446,
+  "last": {
+    "epoch": 0.25,
+    "step": 10,
+    "total_flos": 0.0,
+    "train_loss": 0.05426511098630726,
+    "train_runtime": 98.8388,
+    "train_samples_per_second": 0.202,
+    "train_steps_per_second": 0.101
+  },
+  "learning_rate": 5.555555555555555e-07,
+  "log_rows": 11,
+  "loss": 0.0059,
+  "num_tokens": 17355.0,
+  "reward": -0.18050935864448547,
+  "reward_std": 1.1589348316192627,
+  "rewards/base_action_phase1/mean": 0.17499998211860657,
+  "rewards/base_action_phase1/std": 0.6717514395713806,
+  "rewards/base_brevity_phase1/mean": -0.10000000149011612,
+  "rewards/base_brevity_phase1/std": 0.0,
+  "rewards/base_format_phase1/mean": 0.05000000074505806,
+  "rewards/base_format_phase1/std": 0.0707106813788414,
+  "rewards/base_regret_phase1/mean": -0.23050934076309204,
+  "rewards/base_regret_phase1/std": 0.3811173439025879,
+  "rewards/base_structure_phase1/mean": -0.07500000298023224,
+  "rewards/base_structure_phase1/std": 0.0353553369641304,
+  "smoke_gate_passed": true,
+  "step": 10,
+  "total_flos": 0.0,
+  "train_loss": 0.05426511098630726,
+  "train_runtime": 98.8388,
+  "train_samples_per_second": 0.202,
+  "train_steps_per_second": 0.101
+}