End of training

Browse files

Files changed (5) hide show

README.md +3 -1
all_results.json +13 -13
train_results.json +13 -13
trainer_state.json +131 -131
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -1,5 +1,7 @@
 ---
 library_name: transformers
 tags:
 - llama-factory
 - full
@@ -14,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # swesmith-stack-undr7030
-This model was trained from scratch on the None dataset.
 ## Model description

 ---
 library_name: transformers
+license: apache-2.0
+base_model: Qwen/Qwen3-8B
 tags:
 - llama-factory
 - full
 # swesmith-stack-undr7030
+This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the penfever/GLM-4.6-swesmith-32ep-131k-nosumm-reasoning and the penfever/GLM-4.6-stackexchange-overflow-sandboxes-32eps-65k-reasoning datasets.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "achieved_tflops_per_gpu": 6.133380964159379,
-    "achieved_tflops_per_gpu_theoretical": 271.03236502585344,
-    "epoch": 7.0,
     "loss_nan_ranks": 0,
-    "loss_rank_avg": 0.16898784041404724,
-    "mfu_percent": 1.965827232102365,
-    "mfu_percent_theoretical": 86.86934776469661,
-    "total_flos": 2.279621690793132e+18,
-    "train_loss": 0.05624667479018145,
-    "train_runtime": 46459.3204,
-    "train_samples_per_second": 1.274,
-    "train_steps_per_second": 0.08,
-    "valid_targets_mean": 5833.6,
-    "valid_targets_min": 2317
 }

 {
+    "achieved_tflops_per_gpu": 78.2183808177642,
+    "achieved_tflops_per_gpu_theoretical": 3442.1110358283386,
+    "epoch": 6.999053926206244,
     "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.14962854981422424,
+    "mfu_percent": 25.0699938518475,
+    "mfu_percent_theoretical": 1103.2407166116468,
+    "total_flos": 2.2812121694270915e+18,
+    "train_loss": 0.004161321395542221,
+    "train_runtime": 3645.582,
+    "train_samples_per_second": 16.237,
+    "train_steps_per_second": 1.016,
+    "valid_targets_mean": 6778.8,
+    "valid_targets_min": 4131
 }

train_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "achieved_tflops_per_gpu": 6.133380964159379,
-    "achieved_tflops_per_gpu_theoretical": 271.03236502585344,
-    "epoch": 7.0,
     "loss_nan_ranks": 0,
-    "loss_rank_avg": 0.16898784041404724,
-    "mfu_percent": 1.965827232102365,
-    "mfu_percent_theoretical": 86.86934776469661,
-    "total_flos": 2.279621690793132e+18,
-    "train_loss": 0.05624667479018145,
-    "train_runtime": 46459.3204,
-    "train_samples_per_second": 1.274,
-    "train_steps_per_second": 0.08,
-    "valid_targets_mean": 5833.6,
-    "valid_targets_min": 2317
 }

 {
+    "achieved_tflops_per_gpu": 78.2183808177642,
+    "achieved_tflops_per_gpu_theoretical": 3442.1110358283386,
+    "epoch": 6.999053926206244,
     "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.14962854981422424,
+    "mfu_percent": 25.0699938518475,
+    "mfu_percent_theoretical": 1103.2407166116468,
+    "total_flos": 2.2812121694270915e+18,
+    "train_loss": 0.004161321395542221,
+    "train_runtime": 3645.582,
+    "train_samples_per_second": 16.237,
+    "train_steps_per_second": 1.016,
+    "valid_targets_mean": 6778.8,
+    "valid_targets_min": 4131
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.0,
   "eval_steps": 500,
   "global_step": 3702,
   "is_hyper_param_search": false,
@@ -7930,237 +7930,237 @@
       "valid_targets_min": 1293
     },
     {
-      "epoch": 6.817407757805109,
-      "grad_norm": 0.5430367711086916,
       "learning_rate": 8.706523924000066e-08,
-      "loss": 0.1498,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.06235578656196594,
       "step": 3605,
-      "valid_targets_mean": 4719.1,
-      "valid_targets_min": 1802
     },
     {
-      "epoch": 6.8268684957426675,
-      "grad_norm": 0.5494855444842887,
       "learning_rate": 7.849846547778983e-08,
-      "loss": 0.1485,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.0756906047463417,
       "step": 3610,
-      "valid_targets_mean": 4972.6,
-      "valid_targets_min": 2514
     },
     {
-      "epoch": 6.836329233680227,
-      "grad_norm": 0.5086851462018042,
       "learning_rate": 7.03744340325252e-08,
-      "loss": 0.1572,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.08582527190446854,
       "step": 3615,
-      "valid_targets_mean": 6458.2,
-      "valid_targets_min": 4908
     },
     {
-      "epoch": 6.845789971617786,
-      "grad_norm": 0.5270028569440548,
       "learning_rate": 6.269332545548068e-08,
-      "loss": 0.1564,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.10052739083766937,
       "step": 3620,
-      "valid_targets_mean": 4785.8,
-      "valid_targets_min": 1666
     },
     {
-      "epoch": 6.855250709555345,
-      "grad_norm": 0.5600188215892177,
       "learning_rate": 5.5455310454259894e-08,
-      "loss": 0.1755,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.19710837304592133,
       "step": 3625,
-      "valid_targets_mean": 5958.5,
-      "valid_targets_min": 1126
     },
     {
-      "epoch": 6.864711447492905,
-      "grad_norm": 0.5480215760958226,
       "learning_rate": 4.866054988900581e-08,
-      "loss": 0.1641,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.0743655413389206,
       "step": 3630,
-      "valid_targets_mean": 4818.5,
-      "valid_targets_min": 3436
     },
     {
-      "epoch": 6.874172185430464,
-      "grad_norm": 0.5336673039008878,
       "learning_rate": 4.230919476881479e-08,
-      "loss": 0.1654,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.09351871907711029,
       "step": 3635,
-      "valid_targets_mean": 5571.0,
-      "valid_targets_min": 1840
     },
     {
-      "epoch": 6.8836329233680225,
-      "grad_norm": 0.5289551449236221,
       "learning_rate": 3.640138624839695e-08,
-      "loss": 0.1568,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.0810607373714447,
       "step": 3640,
-      "valid_targets_mean": 6840.8,
-      "valid_targets_min": 4690
     },
     {
-      "epoch": 6.893093661305582,
-      "grad_norm": 0.4793497219405571,
       "learning_rate": 3.093725562492544e-08,
-      "loss": 0.1529,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.06711985170841217,
       "step": 3645,
-      "valid_targets_mean": 5377.1,
-      "valid_targets_min": 1511
     },
     {
-      "epoch": 6.902554399243141,
-      "grad_norm": 0.46797700399359005,
       "learning_rate": 2.591692433511872e-08,
-      "loss": 0.1596,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.07881344854831696,
       "step": 3650,
-      "valid_targets_mean": 5766.8,
-      "valid_targets_min": 2497
     },
     {
-      "epoch": 6.9120151371807,
-      "grad_norm": 0.43857238052909714,
       "learning_rate": 2.1340503952551606e-08,
-      "loss": 0.1483,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.06501060724258423,
       "step": 3655,
-      "valid_targets_mean": 6468.2,
-      "valid_targets_min": 4788
     },
     {
-      "epoch": 6.92147587511826,
-      "grad_norm": 0.4968634044404902,
       "learning_rate": 1.720809618516839e-08,
-      "loss": 0.148,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.07656071335077286,
       "step": 3660,
-      "valid_targets_mean": 6760.2,
-      "valid_targets_min": 3082
     },
     {
-      "epoch": 6.9309366130558185,
-      "grad_norm": 0.48363314457204404,
       "learning_rate": 1.351979287302463e-08,
-      "loss": 0.1813,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.07225023210048676,
       "step": 3665,
-      "valid_targets_mean": 5697.0,
-      "valid_targets_min": 1732
     },
     {
-      "epoch": 6.940397350993377,
-      "grad_norm": 0.5225998185104811,
       "learning_rate": 1.0275675986242128e-08,
-      "loss": 0.1557,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.0772523581981659,
       "step": 3670,
-      "valid_targets_mean": 5107.5,
-      "valid_targets_min": 2582
     },
     {
-      "epoch": 6.949858088930936,
-      "grad_norm": 0.5173176741618409,
       "learning_rate": 7.475817623194826e-09,
-      "loss": 0.151,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.06647118180990219,
       "step": 3675,
-      "valid_targets_mean": 5190.0,
-      "valid_targets_min": 2183
     },
     {
-      "epoch": 6.959318826868496,
-      "grad_norm": 0.49144612331391746,
       "learning_rate": 5.120280008901191e-09,
-      "loss": 0.1621,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.07282565534114838,
       "step": 3680,
-      "valid_targets_mean": 5468.8,
-      "valid_targets_min": 3732
     },
     {
-      "epoch": 6.968779564806055,
-      "grad_norm": 0.6061118774120625,
       "learning_rate": 3.2091154936386705e-09,
-      "loss": 0.1647,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.09444256126880646,
       "step": 3685,
-      "valid_targets_mean": 4745.1,
-      "valid_targets_min": 2157
     },
     {
-      "epoch": 6.978240302743614,
-      "grad_norm": 0.543585630200615,
       "learning_rate": 1.7423665517868338e-09,
-      "loss": 0.1576,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.08968066424131393,
       "step": 3690,
-      "valid_targets_mean": 5457.2,
-      "valid_targets_min": 1409
     },
     {
-      "epoch": 6.9877010406811735,
-      "grad_norm": 0.5396859609859047,
       "learning_rate": 7.200657808792422e-10,
-      "loss": 0.1561,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.07551106810569763,
       "step": 3695,
-      "valid_targets_mean": 4751.1,
-      "valid_targets_min": 1786
     },
     {
-      "epoch": 6.997161778618732,
-      "grad_norm": 0.4860511398956867,
       "learning_rate": 1.4223590088180416e-10,
-      "loss": 0.1492,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.07160358875989914,
       "step": 3700,
-      "valid_targets_mean": 5778.8,
-      "valid_targets_min": 4253
     },
     {
-      "epoch": 7.0,
       "loss_nan_ranks": 0,
-      "loss_rank_avg": 0.16898784041404724,
       "step": 3702,
-      "total_flos": 2.279621690793132e+18,
-      "train_loss": 0.05624667479018145,
-      "train_runtime": 46459.3204,
-      "train_samples_per_second": 1.274,
-      "train_steps_per_second": 0.08,
-      "valid_targets_mean": 5833.6,
-      "valid_targets_min": 2317
     }
   ],
   "logging_steps": 5,
@@ -8180,7 +8180,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.279621690793132e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.999053926206244,
   "eval_steps": 500,
   "global_step": 3702,
   "is_hyper_param_search": false,
       "valid_targets_min": 1293
     },
     {
+      "epoch": 6.815515610217597,
+      "grad_norm": 0.41971865894051924,
       "learning_rate": 8.706523924000066e-08,
+      "loss": 0.1448,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06027888506650925,
       "step": 3605,
+      "valid_targets_mean": 6555.0,
+      "valid_targets_min": 2788
     },
     {
+      "epoch": 6.824976348155156,
+      "grad_norm": 0.4407706789613994,
       "learning_rate": 7.849846547778983e-08,
+      "loss": 0.1496,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06519781798124313,
       "step": 3610,
+      "valid_targets_mean": 6884.4,
+      "valid_targets_min": 1265
     },
     {
+      "epoch": 6.8344370860927155,
+      "grad_norm": 0.4978073691618193,
       "learning_rate": 7.03744340325252e-08,
+      "loss": 0.1498,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07424402236938477,
       "step": 3615,
+      "valid_targets_mean": 6403.1,
+      "valid_targets_min": 4674
     },
     {
+      "epoch": 6.843897824030274,
+      "grad_norm": 0.5085529248955364,
       "learning_rate": 6.269332545548068e-08,
+      "loss": 0.1473,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08670083433389664,
       "step": 3620,
+      "valid_targets_mean": 4922.5,
+      "valid_targets_min": 1785
     },
     {
+      "epoch": 6.853358561967833,
+      "grad_norm": 0.4344651976137186,
       "learning_rate": 5.5455310454259894e-08,
+      "loss": 0.1514,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07209931313991547,
       "step": 3625,
+      "valid_targets_mean": 7308.1,
+      "valid_targets_min": 4659
     },
     {
+      "epoch": 6.862819299905393,
+      "grad_norm": 0.4413038947876362,
       "learning_rate": 4.866054988900581e-08,
+      "loss": 0.1464,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06930118799209595,
       "step": 3630,
+      "valid_targets_mean": 6234.8,
+      "valid_targets_min": 976
     },
     {
+      "epoch": 6.872280037842952,
+      "grad_norm": 0.48107253716280135,
       "learning_rate": 4.230919476881479e-08,
+      "loss": 0.1487,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06881730258464813,
       "step": 3635,
+      "valid_targets_mean": 5447.9,
+      "valid_targets_min": 2560
     },
     {
+      "epoch": 6.881740775780511,
+      "grad_norm": 0.5104224535773499,
       "learning_rate": 3.640138624839695e-08,
+      "loss": 0.1429,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06860077381134033,
       "step": 3640,
+      "valid_targets_mean": 6469.2,
+      "valid_targets_min": 3160
     },
     {
+      "epoch": 6.8912015137180695,
+      "grad_norm": 0.4870345502815453,
       "learning_rate": 3.093725562492544e-08,
+      "loss": 0.1445,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07753711938858032,
       "step": 3645,
+      "valid_targets_mean": 6092.4,
+      "valid_targets_min": 2908
     },
     {
+      "epoch": 6.900662251655629,
+      "grad_norm": 0.4461190608500686,
       "learning_rate": 2.591692433511872e-08,
+      "loss": 0.148,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.060674458742141724,
       "step": 3650,
+      "valid_targets_mean": 4704.4,
+      "valid_targets_min": 1739
     },
     {
+      "epoch": 6.910122989593188,
+      "grad_norm": 0.46744896878817527,
       "learning_rate": 2.1340503952551606e-08,
+      "loss": 0.1454,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07023951411247253,
       "step": 3655,
+      "valid_targets_mean": 6859.5,
+      "valid_targets_min": 4199
     },
     {
+      "epoch": 6.919583727530747,
+      "grad_norm": 0.4423365813985784,
       "learning_rate": 1.720809618516839e-08,
+      "loss": 0.1392,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.05241403728723526,
       "step": 3660,
+      "valid_targets_mean": 5074.6,
+      "valid_targets_min": 1461
     },
     {
+      "epoch": 6.929044465468307,
+      "grad_norm": 0.4940830080464678,
       "learning_rate": 1.351979287302463e-08,
+      "loss": 0.1519,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06597153842449188,
       "step": 3665,
+      "valid_targets_mean": 5494.9,
+      "valid_targets_min": 1333
     },
     {
+      "epoch": 6.938505203405866,
+      "grad_norm": 0.5141965819400358,
       "learning_rate": 1.0275675986242128e-08,
+      "loss": 0.1502,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06885077059268951,
       "step": 3670,
+      "valid_targets_mean": 5493.0,
+      "valid_targets_min": 1550
     },
     {
+      "epoch": 6.9479659413434245,
+      "grad_norm": 0.49214237360203794,
       "learning_rate": 7.475817623194826e-09,
+      "loss": 0.1505,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06208660453557968,
       "step": 3675,
+      "valid_targets_mean": 4805.9,
+      "valid_targets_min": 699
     },
     {
+      "epoch": 6.957426679280984,
+      "grad_norm": 0.5374621708278976,
       "learning_rate": 5.120280008901191e-09,
+      "loss": 0.1467,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.080912746489048,
       "step": 3680,
+      "valid_targets_mean": 5787.4,
+      "valid_targets_min": 4241
     },
     {
+      "epoch": 6.966887417218543,
+      "grad_norm": 0.5296512592742303,
       "learning_rate": 3.2091154936386705e-09,
+      "loss": 0.1559,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06907324492931366,
       "step": 3685,
+      "valid_targets_mean": 5773.0,
+      "valid_targets_min": 3043
     },
     {
+      "epoch": 6.976348155156102,
+      "grad_norm": 0.4419333491426742,
       "learning_rate": 1.7423665517868338e-09,
+      "loss": 0.1487,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.05245755612850189,
       "step": 3690,
+      "valid_targets_mean": 5486.1,
+      "valid_targets_min": 1693
     },
     {
+      "epoch": 6.985808893093662,
+      "grad_norm": 0.508769965540501,
       "learning_rate": 7.200657808792422e-10,
+      "loss": 0.1516,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08677756786346436,
       "step": 3695,
+      "valid_targets_mean": 6286.6,
+      "valid_targets_min": 2001
     },
     {
+      "epoch": 6.995269631031221,
+      "grad_norm": 0.47535964660935565,
       "learning_rate": 1.4223590088180416e-10,
+      "loss": 0.1429,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07410024106502533,
       "step": 3700,
+      "valid_targets_mean": 5791.9,
+      "valid_targets_min": 2377
     },
     {
+      "epoch": 6.999053926206244,
       "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14962854981422424,
       "step": 3702,
+      "total_flos": 2.2812121694270915e+18,
+      "train_loss": 0.004161321395542221,
+      "train_runtime": 3645.582,
+      "train_samples_per_second": 16.237,
+      "train_steps_per_second": 1.016,
+      "valid_targets_mean": 6778.8,
+      "valid_targets_min": 4131
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2.2812121694270915e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_loss.png CHANGED Viewed