End of training

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +9 -9
train_results.json +9 -9
trainer_state.json +52 -52
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # freelancer-projects-1k-traces
-This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on an unknown dataset.
 ## Model description

 # freelancer-projects-1k-traces
+This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the DCAgent/freelancer-projects-1k-traces dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "achieved_tflops_per_gpu": 12.363374282190918,
-    "achieved_tflops_per_gpu_theoretical": 54.206473005170686,
     "epoch": 5.0,
     "loss_nan_ranks": 0,
-    "loss_rank_avg": 0.0642264187335968,
-    "mfu_percent": 1.2500884006259776,
-    "mfu_percent_theoretical": 5.480937614274083,
     "total_flos": 2.548584738193408e+17,
-    "train_loss": 0.5736305087804794,
-    "train_runtime": 5153.4975,
-    "train_samples_per_second": 0.97,
-    "train_steps_per_second": 0.016,
     "valid_targets_mean": 8112.2,
     "valid_targets_min": 6354
 }

 {
+    "achieved_tflops_per_gpu": 12.2732109701098,
+    "achieved_tflops_per_gpu_theoretical": 50.81856844234751,
     "epoch": 5.0,
     "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.06411445885896683,
+    "mfu_percent": 1.240971786664287,
+    "mfu_percent_theoretical": 5.138379013381953,
     "total_flos": 2.548584738193408e+17,
+    "train_loss": 0.5731773316860199,
+    "train_runtime": 5191.3569,
+    "train_samples_per_second": 0.963,
+    "train_steps_per_second": 0.015,
     "valid_targets_mean": 8112.2,
     "valid_targets_min": 6354
 }

train_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "achieved_tflops_per_gpu": 12.363374282190918,
-    "achieved_tflops_per_gpu_theoretical": 54.206473005170686,
     "epoch": 5.0,
     "loss_nan_ranks": 0,
-    "loss_rank_avg": 0.0642264187335968,
-    "mfu_percent": 1.2500884006259776,
-    "mfu_percent_theoretical": 5.480937614274083,
     "total_flos": 2.548584738193408e+17,
-    "train_loss": 0.5736305087804794,
-    "train_runtime": 5153.4975,
-    "train_samples_per_second": 0.97,
-    "train_steps_per_second": 0.016,
     "valid_targets_mean": 8112.2,
     "valid_targets_min": 6354
 }

 {
+    "achieved_tflops_per_gpu": 12.2732109701098,
+    "achieved_tflops_per_gpu_theoretical": 50.81856844234751,
     "epoch": 5.0,
     "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.06411445885896683,
+    "mfu_percent": 1.240971786664287,
+    "mfu_percent_theoretical": 5.138379013381953,
     "total_flos": 2.548584738193408e+17,
+    "train_loss": 0.5731773316860199,
+    "train_runtime": 5191.3569,
+    "train_samples_per_second": 0.963,
+    "train_steps_per_second": 0.015,
     "valid_targets_mean": 8112.2,
     "valid_targets_min": 6354
 }

trainer_state.json CHANGED Viewed

@@ -11,176 +11,176 @@
   "log_history": [
     {
       "epoch": 0.32,
-      "grad_norm": 3.003118567620921,
       "learning_rate": 2e-05,
       "loss": 0.7921,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.04151468724012375,
       "step": 5,
       "valid_targets_mean": 4567.2,
       "valid_targets_min": 2907
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.9808687056622315,
       "learning_rate": 3.998096443163716e-05,
-      "loss": 0.6914,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.037822432816028595,
       "step": 10,
       "valid_targets_mean": 4694.8,
       "valid_targets_min": 1740
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.523224658733824,
       "learning_rate": 3.931851652578137e-05,
-      "loss": 0.634,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.03384334594011307,
       "step": 15,
       "valid_targets_mean": 6716.5,
       "valid_targets_min": 3779
     },
     {
       "epoch": 1.256,
-      "grad_norm": 0.37294181709909296,
       "learning_rate": 3.774021666356444e-05,
-      "loss": 0.5937,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.03365647792816162,
       "step": 20,
       "valid_targets_mean": 4429.5,
       "valid_targets_min": 1506
     },
     {
       "epoch": 1.576,
-      "grad_norm": 0.312916764359895,
       "learning_rate": 3.532088886237956e-05,
-      "loss": 0.5791,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.030184874311089516,
       "step": 25,
       "valid_targets_mean": 6942.8,
       "valid_targets_min": 5230
     },
     {
       "epoch": 1.896,
-      "grad_norm": 0.2963842677893648,
       "learning_rate": 3.217522858017442e-05,
-      "loss": 0.5804,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.02675670199096203,
       "step": 30,
       "valid_targets_mean": 3804.5,
       "valid_targets_min": 1421
     },
     {
       "epoch": 2.192,
-      "grad_norm": 0.26474800680849037,
       "learning_rate": 2.8452365234813992e-05,
-      "loss": 0.5691,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.031951915472745895,
       "step": 35,
       "valid_targets_mean": 4945.2,
       "valid_targets_min": 929
     },
     {
       "epoch": 2.512,
-      "grad_norm": 0.24415095759699768,
       "learning_rate": 2.4328792278762058e-05,
-      "loss": 0.5313,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.030482709407806396,
       "step": 40,
       "valid_targets_mean": 5575.0,
       "valid_targets_min": 3849
     },
     {
       "epoch": 2.832,
-      "grad_norm": 0.2374854041894097,
       "learning_rate": 2e-05,
-      "loss": 0.5488,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.03602883964776993,
       "step": 45,
       "valid_targets_mean": 5869.8,
       "valid_targets_min": 3374
     },
     {
       "epoch": 3.128,
-      "grad_norm": 0.2151479244733432,
       "learning_rate": 1.5671207721237945e-05,
-      "loss": 0.5284,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.04070408642292023,
       "step": 50,
       "valid_targets_mean": 8575.2,
       "valid_targets_min": 5225
     },
     {
       "epoch": 3.448,
-      "grad_norm": 0.21832773258775734,
       "learning_rate": 1.1547634765186016e-05,
-      "loss": 0.5323,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.029450973495841026,
       "step": 55,
       "valid_targets_mean": 6379.2,
       "valid_targets_min": 1888
     },
     {
       "epoch": 3.768,
-      "grad_norm": 0.24241830780053505,
       "learning_rate": 7.824771419825588e-06,
-      "loss": 0.53,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.03408423066139221,
       "step": 60,
       "valid_targets_mean": 5950.8,
       "valid_targets_min": 4866
     },
     {
       "epoch": 4.064,
-      "grad_norm": 0.2119691471196956,
       "learning_rate": 4.679111137620442e-06,
-      "loss": 0.5101,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.027629852294921875,
       "step": 65,
       "valid_targets_mean": 5062.5,
       "valid_targets_min": 4995
     },
     {
       "epoch": 4.384,
-      "grad_norm": 0.2243043904767433,
       "learning_rate": 2.259783336435566e-06,
-      "loss": 0.5329,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.04041476547718048,
       "step": 70,
       "valid_targets_mean": 6195.2,
       "valid_targets_min": 5413
     },
     {
       "epoch": 4.704,
-      "grad_norm": 0.2288274719846025,
       "learning_rate": 6.814834742186361e-07,
-      "loss": 0.5152,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.029502740129828453,
       "step": 75,
       "valid_targets_mean": 5352.2,
       "valid_targets_min": 4831
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.28538716529854286,
       "learning_rate": 1.9035568362844037e-08,
-      "loss": 0.5091,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.0642264187335968,
       "step": 80,
       "valid_targets_mean": 8112.2,
       "valid_targets_min": 6354
@@ -188,13 +188,13 @@
     {
       "epoch": 5.0,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.0642264187335968,
       "step": 80,
       "total_flos": 2.548584738193408e+17,
-      "train_loss": 0.5736305087804794,
-      "train_runtime": 5153.4975,
-      "train_samples_per_second": 0.97,
-      "train_steps_per_second": 0.016,
       "valid_targets_mean": 8112.2,
       "valid_targets_min": 6354
     }

   "log_history": [
     {
       "epoch": 0.32,
+      "grad_norm": 2.9994249605525956,
       "learning_rate": 2e-05,
       "loss": 0.7921,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.041493918746709824,
       "step": 5,
       "valid_targets_mean": 4567.2,
       "valid_targets_min": 2907
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.9708943876218247,
       "learning_rate": 3.998096443163716e-05,
+      "loss": 0.6915,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03782758116722107,
       "step": 10,
       "valid_targets_mean": 4694.8,
       "valid_targets_min": 1740
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.5233591627349731,
       "learning_rate": 3.931851652578137e-05,
+      "loss": 0.6339,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03382924944162369,
       "step": 15,
       "valid_targets_mean": 6716.5,
       "valid_targets_min": 3779
     },
     {
       "epoch": 1.256,
+      "grad_norm": 0.3736995715721388,
       "learning_rate": 3.774021666356444e-05,
+      "loss": 0.5936,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03365553170442581,
       "step": 20,
       "valid_targets_mean": 4429.5,
       "valid_targets_min": 1506
     },
     {
       "epoch": 1.576,
+      "grad_norm": 0.3088460905245533,
       "learning_rate": 3.532088886237956e-05,
+      "loss": 0.5789,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03015170432627201,
       "step": 25,
       "valid_targets_mean": 6942.8,
       "valid_targets_min": 5230
     },
     {
       "epoch": 1.896,
+      "grad_norm": 0.2794462666270456,
       "learning_rate": 3.217522858017442e-05,
+      "loss": 0.5801,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.026743754744529724,
       "step": 30,
       "valid_targets_mean": 3804.5,
       "valid_targets_min": 1421
     },
     {
       "epoch": 2.192,
+      "grad_norm": 0.2553542474949641,
       "learning_rate": 2.8452365234813992e-05,
+      "loss": 0.5686,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03189000487327576,
       "step": 35,
       "valid_targets_mean": 4945.2,
       "valid_targets_min": 929
     },
     {
       "epoch": 2.512,
+      "grad_norm": 0.24170921030597534,
       "learning_rate": 2.4328792278762058e-05,
+      "loss": 0.5308,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03042096272110939,
       "step": 40,
       "valid_targets_mean": 5575.0,
       "valid_targets_min": 3849
     },
     {
       "epoch": 2.832,
+      "grad_norm": 0.25636693364304236,
       "learning_rate": 2e-05,
+      "loss": 0.5482,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.03599570691585541,
       "step": 45,
       "valid_targets_mean": 5869.8,
       "valid_targets_min": 3374
     },
     {
       "epoch": 3.128,
+      "grad_norm": 0.20983492822310348,
       "learning_rate": 1.5671207721237945e-05,
+      "loss": 0.5278,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.04059098660945892,
       "step": 50,
       "valid_targets_mean": 8575.2,
       "valid_targets_min": 5225
     },
     {
       "epoch": 3.448,
+      "grad_norm": 0.2172073228470424,
       "learning_rate": 1.1547634765186016e-05,
+      "loss": 0.5317,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.029378097504377365,
       "step": 55,
       "valid_targets_mean": 6379.2,
       "valid_targets_min": 1888
     },
     {
       "epoch": 3.768,
+      "grad_norm": 0.21524199887805276,
       "learning_rate": 7.824771419825588e-06,
+      "loss": 0.5294,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.034020863473415375,
       "step": 60,
       "valid_targets_mean": 5950.8,
       "valid_targets_min": 4866
     },
     {
       "epoch": 4.064,
+      "grad_norm": 0.20705060345575096,
       "learning_rate": 4.679111137620442e-06,
+      "loss": 0.5094,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.027570832520723343,
       "step": 65,
       "valid_targets_mean": 5062.5,
       "valid_targets_min": 4995
     },
     {
       "epoch": 4.384,
+      "grad_norm": 0.2251847775205461,
       "learning_rate": 2.259783336435566e-06,
+      "loss": 0.5321,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.040328048169612885,
       "step": 70,
       "valid_targets_mean": 6195.2,
       "valid_targets_min": 5413
     },
     {
       "epoch": 4.704,
+      "grad_norm": 0.2190226944296032,
       "learning_rate": 6.814834742186361e-07,
+      "loss": 0.5144,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.02948196418583393,
       "step": 75,
       "valid_targets_mean": 5352.2,
       "valid_targets_min": 4831
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.2733533274609881,
       "learning_rate": 1.9035568362844037e-08,
+      "loss": 0.5083,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06411445885896683,
       "step": 80,
       "valid_targets_mean": 8112.2,
       "valid_targets_min": 6354
     {
       "epoch": 5.0,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06411445885896683,
       "step": 80,
       "total_flos": 2.548584738193408e+17,
+      "train_loss": 0.5731773316860199,
+      "train_runtime": 5191.3569,
+      "train_samples_per_second": 0.963,
+      "train_steps_per_second": 0.015,
       "valid_targets_mean": 8112.2,
       "valid_targets_min": 6354
     }

training_loss.png CHANGED Viewed