Blancy
/

Qwen3-0.6B-Open-R1-Distill

@@ -1,10 +1,8 @@
 ---
-datasets: Blancy/verifiable-coding-problems-SFT
 library_name: transformers
 model_name: Qwen3-0.6B-Open-R1-Distill
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -12,7 +10,7 @@ licence: license
 # Model Card for Qwen3-0.6B-Open-R1-Distill
-This model is a fine-tuned version of [None](https://huggingface.co/None) on the [Blancy/verifiable-coding-problems-SFT](https://huggingface.co/datasets/Blancy/verifiable-coding-problems-SFT) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 library_name: transformers
 model_name: Qwen3-0.6B-Open-R1-Distill
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for Qwen3-0.6B-Open-R1-Distill
+This model is a fine-tuned version of [None](https://huggingface.co/None).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 1.0840722057776333e+17,
-    "train_loss": 0.09704206266788522,
-    "train_runtime": 144.0286,
     "train_samples": 1086,
-    "train_samples_per_second": 86.92,
     "train_steps_per_second": 0.687
 }

 {
     "total_flos": 1.0840722057776333e+17,
+    "train_loss": 0.09704786779904606,
+    "train_runtime": 144.1296,
     "train_samples": 1086,
+    "train_samples_per_second": 86.859,
     "train_steps_per_second": 0.687
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 1.0840722057776333e+17,
-    "train_loss": 0.09704206266788522,
-    "train_runtime": 144.0286,
     "train_samples": 1086,
-    "train_samples_per_second": 86.92,
     "train_steps_per_second": 0.687
 }

 {
     "total_flos": 1.0840722057776333e+17,
+    "train_loss": 0.09704786779904606,
+    "train_runtime": 144.1296,
     "train_samples": 1086,
+    "train_samples_per_second": 86.859,
     "train_steps_per_second": 0.687
 }

trainer_state.json CHANGED Viewed

@@ -11,14 +11,14 @@
   "log_history": [
     {
       "epoch": 0.15151515151515152,
-      "grad_norm": 0.7734375,
       "learning_rate": 2.4e-05,
       "loss": 0.1367,
       "step": 5
     },
     {
       "epoch": 0.30303030303030304,
-      "grad_norm": 0.443359375,
       "learning_rate": 2.9879546090089533e-05,
       "loss": 0.1117,
       "step": 10
@@ -32,112 +32,112 @@
     },
     {
       "epoch": 0.6060606060606061,
-      "grad_norm": 0.2451171875,
       "learning_rate": 2.8549004284108398e-05,
       "loss": 0.099,
       "step": 20
     },
     {
       "epoch": 0.7575757575757576,
-      "grad_norm": 0.2275390625,
       "learning_rate": 2.7368445717222102e-05,
       "loss": 0.0965,
       "step": 25
     },
     {
       "epoch": 0.9090909090909091,
-      "grad_norm": 0.2197265625,
       "learning_rate": 2.5885097773607675e-05,
       "loss": 0.0973,
       "step": 30
     },
     {
       "epoch": 1.0606060606060606,
-      "grad_norm": 0.2265625,
       "learning_rate": 2.4140285773463036e-05,
       "loss": 0.0936,
       "step": 35
     },
     {
       "epoch": 1.2121212121212122,
-      "grad_norm": 0.2216796875,
       "learning_rate": 2.2182619292782524e-05,
       "loss": 0.0961,
       "step": 40
     },
     {
       "epoch": 1.3636363636363638,
-      "grad_norm": 0.205078125,
       "learning_rate": 2.0066637925262362e-05,
-      "loss": 0.093,
       "step": 45
     },
     {
       "epoch": 1.5151515151515151,
-      "grad_norm": 0.216796875,
       "learning_rate": 1.7851291836925332e-05,
-      "loss": 0.0935,
       "step": 50
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 0.2138671875,
       "learning_rate": 1.559829944444086e-05,
       "loss": 0.0932,
       "step": 55
     },
     {
       "epoch": 1.8181818181818183,
-      "grad_norm": 0.2080078125,
       "learning_rate": 1.3370427971388369e-05,
       "loss": 0.0933,
       "step": 60
     },
     {
       "epoch": 1.9696969696969697,
-      "grad_norm": 0.2294921875,
       "learning_rate": 1.1229744785292821e-05,
-      "loss": 0.0923,
       "step": 65
     },
     {
       "epoch": 2.121212121212121,
-      "grad_norm": 0.1982421875,
       "learning_rate": 9.235888232294472e-06,
       "loss": 0.092,
       "step": 70
     },
     {
       "epoch": 2.2727272727272725,
-      "grad_norm": 0.212890625,
       "learning_rate": 7.444406143120487e-06,
       "loss": 0.0904,
       "step": 75
     },
     {
       "epoch": 2.4242424242424243,
-      "grad_norm": 0.216796875,
       "learning_rate": 5.9052082987380775e-06,
       "loss": 0.0926,
       "step": 80
     },
     {
       "epoch": 2.5757575757575757,
-      "grad_norm": 0.20703125,
       "learning_rate": 4.6611759692099345e-06,
       "loss": 0.0925,
       "step": 85
     },
     {
       "epoch": 2.7272727272727275,
-      "grad_norm": 0.2109375,
       "learning_rate": 3.746967263293098e-06,
       "loss": 0.0932,
       "step": 90
     },
     {
       "epoch": 2.878787878787879,
-      "grad_norm": 0.2119140625,
       "learning_rate": 3.188051571134615e-06,
       "loss": 0.0916,
       "step": 95
@@ -146,9 +146,9 @@
       "epoch": 3.0,
       "step": 99,
       "total_flos": 1.0840722057776333e+17,
-      "train_loss": 0.09704206266788522,
-      "train_runtime": 144.0286,
-      "train_samples_per_second": 86.92,
       "train_steps_per_second": 0.687
     }
   ],

   "log_history": [
     {
       "epoch": 0.15151515151515152,
+      "grad_norm": 0.77734375,
       "learning_rate": 2.4e-05,
       "loss": 0.1367,
       "step": 5
     },
     {
       "epoch": 0.30303030303030304,
+      "grad_norm": 0.44140625,
       "learning_rate": 2.9879546090089533e-05,
       "loss": 0.1117,
       "step": 10
     },
     {
       "epoch": 0.6060606060606061,
+      "grad_norm": 0.244140625,
       "learning_rate": 2.8549004284108398e-05,
       "loss": 0.099,
       "step": 20
     },
     {
       "epoch": 0.7575757575757576,
+      "grad_norm": 0.228515625,
       "learning_rate": 2.7368445717222102e-05,
       "loss": 0.0965,
       "step": 25
     },
     {
       "epoch": 0.9090909090909091,
+      "grad_norm": 0.220703125,
       "learning_rate": 2.5885097773607675e-05,
       "loss": 0.0973,
       "step": 30
     },
     {
       "epoch": 1.0606060606060606,
+      "grad_norm": 0.2255859375,
       "learning_rate": 2.4140285773463036e-05,
       "loss": 0.0936,
       "step": 35
     },
     {
       "epoch": 1.2121212121212122,
+      "grad_norm": 0.2138671875,
       "learning_rate": 2.2182619292782524e-05,
       "loss": 0.0961,
       "step": 40
     },
     {
       "epoch": 1.3636363636363638,
+      "grad_norm": 0.2041015625,
       "learning_rate": 2.0066637925262362e-05,
+      "loss": 0.0931,
       "step": 45
     },
     {
       "epoch": 1.5151515151515151,
+      "grad_norm": 0.2177734375,
       "learning_rate": 1.7851291836925332e-05,
+      "loss": 0.0936,
       "step": 50
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 0.2119140625,
       "learning_rate": 1.559829944444086e-05,
       "loss": 0.0932,
       "step": 55
     },
     {
       "epoch": 1.8181818181818183,
+      "grad_norm": 0.2099609375,
       "learning_rate": 1.3370427971388369e-05,
       "loss": 0.0933,
       "step": 60
     },
     {
       "epoch": 1.9696969696969697,
+      "grad_norm": 0.2275390625,
       "learning_rate": 1.1229744785292821e-05,
+      "loss": 0.0924,
       "step": 65
     },
     {
       "epoch": 2.121212121212121,
+      "grad_norm": 0.197265625,
       "learning_rate": 9.235888232294472e-06,
       "loss": 0.092,
       "step": 70
     },
     {
       "epoch": 2.2727272727272725,
+      "grad_norm": 0.20703125,
       "learning_rate": 7.444406143120487e-06,
       "loss": 0.0904,
       "step": 75
     },
     {
       "epoch": 2.4242424242424243,
+      "grad_norm": 0.220703125,
       "learning_rate": 5.9052082987380775e-06,
       "loss": 0.0926,
       "step": 80
     },
     {
       "epoch": 2.5757575757575757,
+      "grad_norm": 0.2080078125,
       "learning_rate": 4.6611759692099345e-06,
       "loss": 0.0925,
       "step": 85
     },
     {
       "epoch": 2.7272727272727275,
+      "grad_norm": 0.2099609375,
       "learning_rate": 3.746967263293098e-06,
       "loss": 0.0932,
       "step": 90
     },
     {
       "epoch": 2.878787878787879,
+      "grad_norm": 0.2109375,
       "learning_rate": 3.188051571134615e-06,
       "loss": 0.0916,
       "step": 95
       "epoch": 3.0,
       "step": 99,
       "total_flos": 1.0840722057776333e+17,
+      "train_loss": 0.09704786779904606,
+      "train_runtime": 144.1296,
+      "train_samples_per_second": 86.859,
       "train_steps_per_second": 0.687
     }
   ],