maxkordn
/

Qwen2.5-Coder-7B-Instruct-Solver-RFT

@@ -1,13 +1,8 @@
 {
-    "eval_loss": 0.10813906788825989,
-    "eval_runtime": 52.8222,
-    "eval_samples": 2505,
-    "eval_samples_per_second": 47.423,
-    "eval_steps_per_second": 5.944,
-    "total_flos": 7.792360049627628e+17,
-    "train_loss": 0.04186144905114496,
-    "train_runtime": 7507.8207,
-    "train_samples": 14169,
-    "train_samples_per_second": 9.436,
-    "train_steps_per_second": 0.074
 }

 {
+    "total_flos": 9.471448716243108e+17,
+    "train_loss": 0.017112477973285245,
+    "train_runtime": 9496.6509,
+    "train_samples": 15697,
+    "train_samples_per_second": 8.264,
+    "train_steps_per_second": 0.065
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 7.792360049627628e+17,
-    "train_loss": 0.04186144905114496,
-    "train_runtime": 7507.8207,
-    "train_samples": 14169,
-    "train_samples_per_second": 9.436,
-    "train_steps_per_second": 0.074
 }

 {
+    "total_flos": 9.471448716243108e+17,
+    "train_loss": 0.017112477973285245,
+    "train_runtime": 9496.6509,
+    "train_samples": 15697,
+    "train_samples_per_second": 8.264,
+    "train_steps_per_second": 0.065
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff