End of training

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +606 -11
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pretrain
-This model is a fine-tuned version of [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on an unknown dataset.
 ## Model description

 # pretrain
+This model is a fine-tuned version of [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on the openalex_references dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9967213114754099,
-    "total_flos": 534721415086080.0,
-    "train_loss": 1.1572106621767346,
-    "train_runtime": 17915.2053,
-    "train_samples_per_second": 0.545,
-    "train_steps_per_second": 0.004
 }

 {
+    "epoch": 0.9949787562765546,
+    "total_flos": 1132817220108288.0,
+    "train_loss": 0.578794286858221,
+    "train_runtime": 20320.7913,
+    "train_samples_per_second": 1.019,
+    "train_steps_per_second": 0.008
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9967213114754099,
-    "total_flos": 534721415086080.0,
-    "train_loss": 1.1572106621767346,
-    "train_runtime": 17915.2053,
-    "train_samples_per_second": 0.545,
-    "train_steps_per_second": 0.004
 }

 {
+    "epoch": 0.9949787562765546,
+    "total_flos": 1132817220108288.0,
+    "train_loss": 0.578794286858221,
+    "train_runtime": 20320.7913,
+    "train_samples_per_second": 1.019,
+    "train_steps_per_second": 0.008
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9967213114754099,
   "eval_steps": 500,
-  "global_step": 76,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -541,17 +541,612 @@
       "step": 76
     },
     {
-      "epoch": 0.9967213114754099,
-      "step": 76,
-      "total_flos": 534721415086080.0,
-      "train_loss": 1.1572106621767346,
-      "train_runtime": 17915.2053,
-      "train_samples_per_second": 0.545,
-      "train_steps_per_second": 0.004
     }
   ],
   "logging_steps": 1,
-  "max_steps": 76,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
@@ -567,7 +1162,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 534721415086080.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9949787562765546,
   "eval_steps": 500,
+  "global_step": 161,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 76
     },
     {
+      "epoch": 0.47585940517574354,
+      "grad_norm": 0.00927089061588049,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 1.0998,
+      "step": 77
+    },
+    {
+      "epoch": 0.4820393974507532,
+      "grad_norm": 0.009278366342186928,
+      "learning_rate": 6.188429461630866e-05,
+      "loss": 1.0809,
+      "step": 78
+    },
+    {
+      "epoch": 0.48821938972576284,
+      "grad_norm": 0.009307453408837318,
+      "learning_rate": 6.0821980696905146e-05,
+      "loss": 1.1079,
+      "step": 79
+    },
+    {
+      "epoch": 0.4943993820007725,
+      "grad_norm": 0.008874714374542236,
+      "learning_rate": 5.9754516100806423e-05,
+      "loss": 1.0846,
+      "step": 80
+    },
+    {
+      "epoch": 0.5005793742757821,
+      "grad_norm": 0.00868895836174488,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 1.0991,
+      "step": 81
+    },
+    {
+      "epoch": 0.5067593665507918,
+      "grad_norm": 0.008949129842221737,
+      "learning_rate": 5.7606169309495836e-05,
+      "loss": 1.107,
+      "step": 82
+    },
+    {
+      "epoch": 0.5129393588258014,
+      "grad_norm": 0.009207559749484062,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 1.1034,
+      "step": 83
+    },
+    {
+      "epoch": 0.5191193511008111,
+      "grad_norm": 0.009371085092425346,
+      "learning_rate": 5.544334374259823e-05,
+      "loss": 1.0936,
+      "step": 84
+    },
+    {
+      "epoch": 0.5252993433758207,
+      "grad_norm": 0.009222784079611301,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 1.0909,
+      "step": 85
+    },
+    {
+      "epoch": 0.5314793356508304,
+      "grad_norm": 0.00895879790186882,
+      "learning_rate": 5.327015646150716e-05,
+      "loss": 1.0871,
+      "step": 86
+    },
+    {
+      "epoch": 0.5376593279258401,
+      "grad_norm": 0.008927428163588047,
+      "learning_rate": 5.218096936826681e-05,
+      "loss": 1.0917,
+      "step": 87
+    },
+    {
+      "epoch": 0.5438393202008498,
+      "grad_norm": 0.00859418697655201,
+      "learning_rate": 5.1090744251728064e-05,
+      "loss": 1.1013,
+      "step": 88
+    },
+    {
+      "epoch": 0.5500193124758594,
+      "grad_norm": 0.009128894656896591,
+      "learning_rate": 5e-05,
+      "loss": 1.0948,
+      "step": 89
+    },
+    {
+      "epoch": 0.5561993047508691,
+      "grad_norm": 0.008752775378525257,
+      "learning_rate": 4.890925574827195e-05,
+      "loss": 1.103,
+      "step": 90
+    },
+    {
+      "epoch": 0.5623792970258787,
+      "grad_norm": 0.009119733236730099,
+      "learning_rate": 4.781903063173321e-05,
+      "loss": 1.0858,
+      "step": 91
+    },
+    {
+      "epoch": 0.5685592893008884,
+      "grad_norm": 0.009288666769862175,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 1.0867,
+      "step": 92
+    },
+    {
+      "epoch": 0.574739281575898,
+      "grad_norm": 0.0089786471799016,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 1.0861,
+      "step": 93
+    },
+    {
+      "epoch": 0.5809192738509077,
+      "grad_norm": 0.008815642446279526,
+      "learning_rate": 4.4556656257401786e-05,
+      "loss": 1.0981,
+      "step": 94
+    },
+    {
+      "epoch": 0.5870992661259173,
+      "grad_norm": 0.00881979987025261,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 1.1144,
+      "step": 95
+    },
+    {
+      "epoch": 0.593279258400927,
+      "grad_norm": 0.009116360917687416,
+      "learning_rate": 4.239383069050417e-05,
+      "loss": 1.1074,
+      "step": 96
+    },
+    {
+      "epoch": 0.5994592506759366,
+      "grad_norm": 0.008931254036724567,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.1069,
+      "step": 97
+    },
+    {
+      "epoch": 0.6056392429509463,
+      "grad_norm": 0.00889168307185173,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 1.1113,
+      "step": 98
+    },
+    {
+      "epoch": 0.6118192352259559,
+      "grad_norm": 0.008884157054126263,
+      "learning_rate": 3.917801930309486e-05,
+      "loss": 1.0798,
+      "step": 99
+    },
+    {
+      "epoch": 0.6179992275009656,
+      "grad_norm": 0.008808060549199581,
+      "learning_rate": 3.8115705383691355e-05,
+      "loss": 1.0835,
+      "step": 100
+    },
+    {
+      "epoch": 0.6241792197759752,
+      "grad_norm": 0.009600223042070866,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 1.0937,
+      "step": 101
+    },
+    {
+      "epoch": 0.6303592120509849,
+      "grad_norm": 0.009098890237510204,
+      "learning_rate": 3.60085492984504e-05,
+      "loss": 1.1008,
+      "step": 102
+    },
+    {
+      "epoch": 0.6365392043259946,
+      "grad_norm": 0.009177979081869125,
+      "learning_rate": 3.4964710024786354e-05,
+      "loss": 1.096,
+      "step": 103
+    },
+    {
+      "epoch": 0.6427191966010043,
+      "grad_norm": 0.008857106789946556,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 1.0815,
+      "step": 104
+    },
+    {
+      "epoch": 0.6488991888760139,
+      "grad_norm": 0.009007126092910767,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.091,
+      "step": 105
+    },
+    {
+      "epoch": 0.6550791811510236,
+      "grad_norm": 0.009332729503512383,
+      "learning_rate": 3.1878098085814924e-05,
+      "loss": 1.0834,
+      "step": 106
+    },
+    {
+      "epoch": 0.6612591734260332,
+      "grad_norm": 0.009046237915754318,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 1.0844,
+      "step": 107
+    },
+    {
+      "epoch": 0.6674391657010429,
+      "grad_norm": 0.008926077745854855,
+      "learning_rate": 2.9862665507063147e-05,
+      "loss": 1.0649,
+      "step": 108
+    },
+    {
+      "epoch": 0.6736191579760525,
+      "grad_norm": 0.00914798304438591,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 1.0912,
+      "step": 109
+    },
+    {
+      "epoch": 0.6797991502510622,
+      "grad_norm": 0.008840657770633698,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 1.085,
+      "step": 110
+    },
+    {
+      "epoch": 0.6859791425260718,
+      "grad_norm": 0.009009969420731068,
+      "learning_rate": 2.6912569338248315e-05,
+      "loss": 1.0945,
+      "step": 111
+    },
+    {
+      "epoch": 0.6921591348010815,
+      "grad_norm": 0.008585930801928043,
+      "learning_rate": 2.595056155403063e-05,
+      "loss": 1.0973,
+      "step": 112
+    },
+    {
+      "epoch": 0.6983391270760911,
+      "grad_norm": 0.009383322671055794,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.0918,
+      "step": 113
+    },
+    {
+      "epoch": 0.7045191193511008,
+      "grad_norm": 0.009045167826116085,
+      "learning_rate": 2.4061337091973918e-05,
+      "loss": 1.1037,
+      "step": 114
+    },
+    {
+      "epoch": 0.7106991116261104,
+      "grad_norm": 0.009319834411144257,
+      "learning_rate": 2.3135019582658802e-05,
+      "loss": 1.1059,
+      "step": 115
+    },
+    {
+      "epoch": 0.7168791039011201,
+      "grad_norm": 0.008737134747207165,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 1.0922,
+      "step": 116
+    },
+    {
+      "epoch": 0.7230590961761297,
+      "grad_norm": 0.009303976781666279,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 1.0925,
+      "step": 117
+    },
+    {
+      "epoch": 0.7292390884511394,
+      "grad_norm": 0.009160283021628857,
+      "learning_rate": 2.0434517581820896e-05,
+      "loss": 1.1057,
+      "step": 118
+    },
+    {
+      "epoch": 0.7354190807261491,
+      "grad_norm": 0.009896110743284225,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 1.1058,
+      "step": 119
+    },
+    {
+      "epoch": 0.7415990730011588,
+      "grad_norm": 0.008766653947532177,
+      "learning_rate": 1.8703826390797048e-05,
+      "loss": 1.0959,
+      "step": 120
+    },
+    {
+      "epoch": 0.7477790652761684,
+      "grad_norm": 0.008967863395810127,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.1026,
+      "step": 121
+    },
+    {
+      "epoch": 0.7539590575511781,
+      "grad_norm": 0.009152066893875599,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 1.0926,
+      "step": 122
+    },
+    {
+      "epoch": 0.7601390498261877,
+      "grad_norm": 0.008764652535319328,
+      "learning_rate": 1.622048961921699e-05,
+      "loss": 1.0756,
+      "step": 123
+    },
+    {
+      "epoch": 0.7663190421011974,
+      "grad_norm": 0.009184801019728184,
+      "learning_rate": 1.5424347210886538e-05,
+      "loss": 1.1013,
+      "step": 124
+    },
+    {
+      "epoch": 0.772499034376207,
+      "grad_norm": 0.009281960316002369,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 1.1041,
+      "step": 125
+    },
+    {
+      "epoch": 0.7786790266512167,
+      "grad_norm": 0.009053783491253853,
+      "learning_rate": 1.3881801897012225e-05,
+      "loss": 1.1018,
+      "step": 126
+    },
+    {
+      "epoch": 0.7848590189262263,
+      "grad_norm": 0.008994681760668755,
+      "learning_rate": 1.3136133159493802e-05,
+      "loss": 1.0951,
+      "step": 127
+    },
+    {
+      "epoch": 0.791039011201236,
+      "grad_norm": 0.008957086130976677,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 1.0848,
+      "step": 128
+    },
+    {
+      "epoch": 0.7972190034762456,
+      "grad_norm": 0.008901839144527912,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 1.0876,
+      "step": 129
+    },
+    {
+      "epoch": 0.8033989957512553,
+      "grad_norm": 0.009184077382087708,
+      "learning_rate": 1.100577584535592e-05,
+      "loss": 1.0919,
+      "step": 130
+    },
+    {
+      "epoch": 0.8095789880262649,
+      "grad_norm": 0.008814208209514618,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 1.092,
+      "step": 131
+    },
+    {
+      "epoch": 0.8157589803012746,
+      "grad_norm": 0.009356915950775146,
+      "learning_rate": 9.677769786625867e-06,
+      "loss": 1.092,
+      "step": 132
+    },
+    {
+      "epoch": 0.8219389725762842,
+      "grad_norm": 0.009066778235137463,
+      "learning_rate": 9.042397785550405e-06,
+      "loss": 1.1062,
+      "step": 133
+    },
+    {
+      "epoch": 0.8281189648512939,
+      "grad_norm": 0.009054549038410187,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 1.0959,
+      "step": 134
+    },
+    {
+      "epoch": 0.8342989571263036,
+      "grad_norm": 0.009238997474312782,
+      "learning_rate": 7.830427709355725e-06,
+      "loss": 1.1261,
+      "step": 135
+    },
+    {
+      "epoch": 0.8404789494013133,
+      "grad_norm": 0.009531921707093716,
+      "learning_rate": 7.2544064663526815e-06,
+      "loss": 1.1119,
+      "step": 136
+    },
+    {
+      "epoch": 0.8466589416763229,
+      "grad_norm": 0.008905571885406971,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 1.0965,
+      "step": 137
+    },
+    {
+      "epoch": 0.8528389339513326,
+      "grad_norm": 0.008772294037044048,
+      "learning_rate": 6.163662214624616e-06,
+      "loss": 1.0972,
+      "step": 138
+    },
+    {
+      "epoch": 0.8590189262263422,
+      "grad_norm": 0.008754718117415905,
+      "learning_rate": 5.649458341088915e-06,
+      "loss": 1.0918,
+      "step": 139
+    },
+    {
+      "epoch": 0.8651989185013519,
+      "grad_norm": 0.008972358889877796,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 1.1049,
+      "step": 140
+    },
+    {
+      "epoch": 0.8713789107763615,
+      "grad_norm": 0.00903693214058876,
+      "learning_rate": 4.684610648167503e-06,
+      "loss": 1.0926,
+      "step": 141
+    },
+    {
+      "epoch": 0.8775589030513712,
+      "grad_norm": 0.009000574238598347,
+      "learning_rate": 4.234426044027645e-06,
+      "loss": 1.1078,
+      "step": 142
+    },
+    {
+      "epoch": 0.8837388953263808,
+      "grad_norm": 0.009073416702449322,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 1.111,
+      "step": 143
+    },
+    {
+      "epoch": 0.8899188876013905,
+      "grad_norm": 0.009199617430567741,
+      "learning_rate": 3.3996065358600782e-06,
+      "loss": 1.0996,
+      "step": 144
+    },
+    {
+      "epoch": 0.8960988798764001,
+      "grad_norm": 0.009446380659937859,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 1.0956,
+      "step": 145
+    },
+    {
+      "epoch": 0.9022788721514098,
+      "grad_norm": 0.00881500355899334,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 1.0953,
+      "step": 146
+    },
+    {
+      "epoch": 0.9084588644264194,
+      "grad_norm": 0.009240192361176014,
+      "learning_rate": 2.314152462588659e-06,
+      "loss": 1.1046,
+      "step": 147
+    },
+    {
+      "epoch": 0.9146388567014291,
+      "grad_norm": 0.009173831902444363,
+      "learning_rate": 1.99750728070357e-06,
+      "loss": 1.097,
+      "step": 148
+    },
+    {
+      "epoch": 0.9208188489764387,
+      "grad_norm": 0.009656915441155434,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 1.0777,
+      "step": 149
+    },
+    {
+      "epoch": 0.9269988412514485,
+      "grad_norm": 0.008921938017010689,
+      "learning_rate": 1.4328965093369283e-06,
+      "loss": 1.0916,
+      "step": 150
+    },
+    {
+      "epoch": 0.9331788335264581,
+      "grad_norm": 0.009205098263919353,
+      "learning_rate": 1.1851996440033319e-06,
+      "loss": 1.1057,
+      "step": 151
+    },
+    {
+      "epoch": 0.9393588258014678,
+      "grad_norm": 0.008920296095311642,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 1.0906,
+      "step": 152
+    },
+    {
+      "epoch": 0.9455388180764774,
+      "grad_norm": 0.009275338612496853,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 1.1111,
+      "step": 153
+    },
+    {
+      "epoch": 0.9517188103514871,
+      "grad_norm": 0.008771958760917187,
+      "learning_rate": 5.81924476611967e-07,
+      "loss": 1.1001,
+      "step": 154
+    },
+    {
+      "epoch": 0.9578988026264967,
+      "grad_norm": 0.009109330363571644,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 1.0804,
+      "step": 155
+    },
+    {
+      "epoch": 0.9640787949015064,
+      "grad_norm": 0.009273674339056015,
+      "learning_rate": 2.971830888840177e-07,
+      "loss": 1.0919,
+      "step": 156
+    },
+    {
+      "epoch": 0.970258787176516,
+      "grad_norm": 0.008920193649828434,
+      "learning_rate": 1.9026509541272275e-07,
+      "loss": 1.0908,
+      "step": 157
+    },
+    {
+      "epoch": 0.9764387794515257,
+      "grad_norm": 0.008690367452800274,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 1.1054,
+      "step": 158
+    },
+    {
+      "epoch": 0.9826187717265353,
+      "grad_norm": 0.009283354505896568,
+      "learning_rate": 4.7588920907110094e-08,
+      "loss": 1.1086,
+      "step": 159
+    },
+    {
+      "epoch": 0.988798764001545,
+      "grad_norm": 0.009044487960636616,
+      "learning_rate": 1.189864600454338e-08,
+      "loss": 1.117,
+      "step": 160
+    },
+    {
+      "epoch": 0.9949787562765546,
+      "grad_norm": 0.009743698872625828,
+      "learning_rate": 0.0,
+      "loss": 1.0973,
+      "step": 161
+    },
+    {
+      "epoch": 0.9949787562765546,
+      "step": 161,
+      "total_flos": 1132817220108288.0,
+      "train_loss": 0.578794286858221,
+      "train_runtime": 20320.7913,
+      "train_samples_per_second": 1.019,
+      "train_steps_per_second": 0.008
     }
   ],
   "logging_steps": 1,
+  "max_steps": 161,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1132817220108288.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_loss.png CHANGED Viewed