End of training

Browse files

Files changed (5) hide show

README.md +2 -1
all_results.json +6 -11
train_results.json +6 -6
trainer_state.json +504 -71
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-32B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: pretrain
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pretrain
-This model is a fine-tuned version of [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on an unknown dataset.
 ## Model description

 base_model: Qwen/Qwen2.5-32B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: pretrain
 # pretrain
+This model is a fine-tuned version of [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on the openalex_references dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "epoch": 0.9454545454545454,
-    "eval_loss": 1.1903643608093262,
-    "eval_runtime": 40.1525,
-    "eval_samples_per_second": 2.441,
-    "eval_steps_per_second": 0.324,
-    "perplexity": 3.2882791091731414,
-    "total_flos": 45330292801536.0,
-    "train_loss": 1.3396454407618597,
-    "train_runtime": 2207.3438,
-    "train_samples_per_second": 0.398,
-    "train_steps_per_second": 0.006
 }

 {
+    "epoch": 0.9967213114754099,
+    "total_flos": 534721415086080.0,
+    "train_loss": 1.1572106621767346,
+    "train_runtime": 17915.2053,
+    "train_samples_per_second": 0.545,
+    "train_steps_per_second": 0.004
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9454545454545454,
-    "total_flos": 45330292801536.0,
-    "train_loss": 1.3396454407618597,
-    "train_runtime": 2207.3438,
-    "train_samples_per_second": 0.398,
-    "train_steps_per_second": 0.006
 }

 {
+    "epoch": 0.9967213114754099,
+    "total_flos": 534721415086080.0,
+    "train_loss": 1.1572106621767346,
+    "train_runtime": 17915.2053,
+    "train_samples_per_second": 0.545,
+    "train_steps_per_second": 0.004
 }

trainer_state.json CHANGED Viewed

@@ -1,124 +1,557 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9454545454545454,
-  "eval_steps": 10,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.07272727272727272,
-      "grad_norm": 0.09205172210931778,
-      "learning_rate": 5e-05,
-      "loss": 1.2196,
       "step": 1
     },
     {
-      "epoch": 0.14545454545454545,
-      "grad_norm": 0.08487003296613693,
-      "learning_rate": 0.0001,
-      "loss": 1.1877,
       "step": 2
     },
     {
-      "epoch": 0.21818181818181817,
-      "grad_norm": 0.6594376564025879,
-      "learning_rate": 9.797464868072488e-05,
-      "loss": 1.3252,
       "step": 3
     },
     {
-      "epoch": 0.2909090909090909,
-      "grad_norm": 1.960582971572876,
-      "learning_rate": 9.206267664155907e-05,
-      "loss": 2.0162,
       "step": 4
     },
     {
-      "epoch": 0.36363636363636365,
-      "grad_norm": 1.3530547618865967,
-      "learning_rate": 8.274303669726426e-05,
-      "loss": 1.5829,
       "step": 5
     },
     {
-      "epoch": 0.43636363636363634,
-      "grad_norm": 1.9950076341629028,
-      "learning_rate": 7.077075065009433e-05,
-      "loss": 1.4982,
       "step": 6
     },
     {
-      "epoch": 0.509090909090909,
-      "grad_norm": 0.38373228907585144,
-      "learning_rate": 5.7115741913664264e-05,
-      "loss": 1.4252,
       "step": 7
     },
     {
-      "epoch": 0.5818181818181818,
-      "grad_norm": 0.14959090948104858,
-      "learning_rate": 4.288425808633575e-05,
-      "loss": 1.1972,
       "step": 8
     },
     {
-      "epoch": 0.6545454545454545,
-      "grad_norm": 0.10391217470169067,
-      "learning_rate": 2.9229249349905684e-05,
-      "loss": 1.2054,
       "step": 9
     },
     {
-      "epoch": 0.7272727272727273,
-      "grad_norm": 0.0690321996808052,
-      "learning_rate": 1.725696330273575e-05,
-      "loss": 1.168,
       "step": 10
     },
     {
-      "epoch": 0.7272727272727273,
-      "eval_loss": 1.1994872093200684,
-      "eval_runtime": 40.5127,
-      "eval_samples_per_second": 2.419,
-      "eval_steps_per_second": 0.321,
-      "step": 10
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.0676456168293953,
-      "learning_rate": 7.937323358440935e-06,
-      "loss": 1.1932,
-      "step": 11
     },
     {
-      "epoch": 0.8727272727272727,
-      "grad_norm": 0.061955519020557404,
-      "learning_rate": 2.0253513192751373e-06,
-      "loss": 1.2116,
-      "step": 12
     },
     {
-      "epoch": 0.9454545454545454,
-      "grad_norm": 0.059567924588918686,
       "learning_rate": 0.0,
-      "loss": 1.1849,
-      "step": 13
     },
     {
-      "epoch": 0.9454545454545454,
-      "step": 13,
-      "total_flos": 45330292801536.0,
-      "train_loss": 1.3396454407618597,
-      "train_runtime": 2207.3438,
-      "train_samples_per_second": 0.398,
-      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 1,
-  "max_steps": 13,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
@@ -134,7 +567,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 45330292801536.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9967213114754099,
+  "eval_steps": 500,
+  "global_step": 76,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.013114754098360656,
+      "grad_norm": 0.043162938207387924,
+      "learning_rate": 1.25e-05,
+      "loss": 1.2441,
       "step": 1
     },
     {
+      "epoch": 0.02622950819672131,
+      "grad_norm": 0.043701257556676865,
+      "learning_rate": 2.5e-05,
+      "loss": 1.2477,
       "step": 2
     },
     {
+      "epoch": 0.03934426229508197,
+      "grad_norm": 0.027155233547091484,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.2284,
       "step": 3
     },
     {
+      "epoch": 0.05245901639344262,
+      "grad_norm": 0.10691457986831665,
+      "learning_rate": 5e-05,
+      "loss": 1.2441,
       "step": 4
     },
     {
+      "epoch": 0.06557377049180328,
+      "grad_norm": 0.09258124232292175,
+      "learning_rate": 6.25e-05,
+      "loss": 1.2181,
       "step": 5
     },
     {
+      "epoch": 0.07868852459016394,
+      "grad_norm": 0.06767486780881882,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.2279,
       "step": 6
     },
     {
+      "epoch": 0.09180327868852459,
+      "grad_norm": 0.1602831929922104,
+      "learning_rate": 8.75e-05,
+      "loss": 1.2553,
       "step": 7
     },
     {
+      "epoch": 0.10491803278688525,
+      "grad_norm": 0.2144620418548584,
+      "learning_rate": 0.0001,
+      "loss": 1.2558,
       "step": 8
     },
     {
+      "epoch": 0.1180327868852459,
+      "grad_norm": 0.06662847101688385,
+      "learning_rate": 9.994664874011863e-05,
+      "loss": 1.2333,
       "step": 9
     },
     {
+      "epoch": 0.13114754098360656,
+      "grad_norm": 0.13297972083091736,
+      "learning_rate": 9.978670881475172e-05,
+      "loss": 1.2274,
       "step": 10
     },
     {
+      "epoch": 0.14426229508196722,
+      "grad_norm": 0.06226632371544838,
+      "learning_rate": 9.952052154376026e-05,
+      "loss": 1.2171,
+      "step": 11
+    },
+    {
+      "epoch": 0.15737704918032788,
+      "grad_norm": 0.05960860103368759,
+      "learning_rate": 9.91486549841951e-05,
+      "loss": 1.2004,
+      "step": 12
+    },
+    {
+      "epoch": 0.17049180327868851,
+      "grad_norm": 0.057807717472314835,
+      "learning_rate": 9.867190271803465e-05,
+      "loss": 1.1961,
+      "step": 13
+    },
+    {
+      "epoch": 0.18360655737704917,
+      "grad_norm": 0.044687915593385696,
+      "learning_rate": 9.809128215864097e-05,
+      "loss": 1.2057,
+      "step": 14
+    },
+    {
+      "epoch": 0.19672131147540983,
+      "grad_norm": 0.042382605373859406,
+      "learning_rate": 9.74080323795483e-05,
+      "loss": 1.2015,
+      "step": 15
+    },
+    {
+      "epoch": 0.2098360655737705,
+      "grad_norm": 0.041327111423015594,
+      "learning_rate": 9.662361147021779e-05,
+      "loss": 1.1922,
+      "step": 16
+    },
+    {
+      "epoch": 0.22295081967213115,
+      "grad_norm": 0.03643479198217392,
+      "learning_rate": 9.573969342440106e-05,
+      "loss": 1.1801,
+      "step": 17
+    },
+    {
+      "epoch": 0.2360655737704918,
+      "grad_norm": 0.03201618418097496,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 1.1793,
+      "step": 18
+    },
+    {
+      "epoch": 0.24918032786885247,
+      "grad_norm": 0.033190254122018814,
+      "learning_rate": 9.368111953231848e-05,
+      "loss": 1.1727,
+      "step": 19
+    },
+    {
+      "epoch": 0.26229508196721313,
+      "grad_norm": 0.029199425131082535,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 1.1803,
+      "step": 20
+    },
+    {
+      "epoch": 0.2754098360655738,
+      "grad_norm": 0.019889283925294876,
+      "learning_rate": 9.124987372991511e-05,
+      "loss": 1.1739,
+      "step": 21
+    },
+    {
+      "epoch": 0.28852459016393445,
+      "grad_norm": 0.025394951924681664,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 1.1824,
+      "step": 22
+    },
+    {
+      "epoch": 0.3016393442622951,
+      "grad_norm": 0.02561134099960327,
+      "learning_rate": 8.846669854914396e-05,
+      "loss": 1.1704,
+      "step": 23
+    },
+    {
+      "epoch": 0.31475409836065577,
+      "grad_norm": 0.020040003582835197,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 1.1748,
+      "step": 24
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 0.0246971994638443,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 1.1726,
+      "step": 25
+    },
+    {
+      "epoch": 0.34098360655737703,
+      "grad_norm": 0.019360244274139404,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 1.1539,
+      "step": 26
+    },
+    {
+      "epoch": 0.3540983606557377,
+      "grad_norm": 0.021348467096686363,
+      "learning_rate": 8.194234028259806e-05,
+      "loss": 1.1641,
+      "step": 27
+    },
+    {
+      "epoch": 0.36721311475409835,
+      "grad_norm": 0.01926092617213726,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 1.1548,
+      "step": 28
+    },
+    {
+      "epoch": 0.380327868852459,
+      "grad_norm": 0.018094880506396294,
+      "learning_rate": 7.82568207211296e-05,
+      "loss": 1.1595,
+      "step": 29
+    },
+    {
+      "epoch": 0.39344262295081966,
+      "grad_norm": 0.019909674301743507,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 1.1488,
+      "step": 30
+    },
+    {
+      "epoch": 0.4065573770491803,
+      "grad_norm": 0.015068020671606064,
+      "learning_rate": 7.433022392834282e-05,
+      "loss": 1.1518,
+      "step": 31
+    },
+    {
+      "epoch": 0.419672131147541,
+      "grad_norm": 0.019493145868182182,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 1.1643,
+      "step": 32
+    },
+    {
+      "epoch": 0.43278688524590164,
+      "grad_norm": 0.018127303570508957,
+      "learning_rate": 7.019605024359474e-05,
+      "loss": 1.1449,
+      "step": 33
+    },
+    {
+      "epoch": 0.4459016393442623,
+      "grad_norm": 0.015173117630183697,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 1.1632,
+      "step": 34
+    },
+    {
+      "epoch": 0.45901639344262296,
+      "grad_norm": 0.01737191341817379,
+      "learning_rate": 6.588957097909508e-05,
+      "loss": 1.1618,
+      "step": 35
+    },
+    {
+      "epoch": 0.4721311475409836,
+      "grad_norm": 0.015316477976739407,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 1.1445,
+      "step": 36
+    },
+    {
+      "epoch": 0.4852459016393443,
+      "grad_norm": 0.015012883581221104,
+      "learning_rate": 6.14475274975067e-05,
+      "loss": 1.1558,
+      "step": 37
+    },
+    {
+      "epoch": 0.49836065573770494,
+      "grad_norm": 0.015383531339466572,
+      "learning_rate": 5.918747589082853e-05,
+      "loss": 1.1331,
+      "step": 38
+    },
+    {
+      "epoch": 0.5114754098360655,
+      "grad_norm": 0.0135785061866045,
+      "learning_rate": 5.6907817747594116e-05,
+      "loss": 1.1423,
+      "step": 39
+    },
+    {
+      "epoch": 0.5245901639344263,
+      "grad_norm": 0.014159608632326126,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 1.1343,
+      "step": 40
+    },
+    {
+      "epoch": 0.5377049180327869,
+      "grad_norm": 0.014230456203222275,
+      "learning_rate": 5.230917293228699e-05,
+      "loss": 1.1344,
+      "step": 41
+    },
+    {
+      "epoch": 0.5508196721311476,
+      "grad_norm": 0.014486027881503105,
+      "learning_rate": 5e-05,
+      "loss": 1.1298,
+      "step": 42
+    },
+    {
+      "epoch": 0.5639344262295082,
+      "grad_norm": 0.013846023939549923,
+      "learning_rate": 4.7690827067713035e-05,
+      "loss": 1.144,
+      "step": 43
+    },
+    {
+      "epoch": 0.5770491803278689,
+      "grad_norm": 0.012692565098404884,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 1.1317,
+      "step": 44
+    },
+    {
+      "epoch": 0.5901639344262295,
+      "grad_norm": 0.012511651031672955,
+      "learning_rate": 4.30921822524059e-05,
+      "loss": 1.1495,
+      "step": 45
+    },
+    {
+      "epoch": 0.6032786885245902,
+      "grad_norm": 0.012697260826826096,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 1.1365,
+      "step": 46
+    },
+    {
+      "epoch": 0.6163934426229508,
+      "grad_norm": 0.013609658926725388,
+      "learning_rate": 3.855247250249331e-05,
+      "loss": 1.1332,
+      "step": 47
+    },
+    {
+      "epoch": 0.6295081967213115,
+      "grad_norm": 0.011829257011413574,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 1.1266,
+      "step": 48
+    },
+    {
+      "epoch": 0.6426229508196721,
+      "grad_norm": 0.011731350794434547,
+      "learning_rate": 3.411042902090492e-05,
+      "loss": 1.1325,
+      "step": 49
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 0.011319032870233059,
+      "learning_rate": 3.1937916690642356e-05,
+      "loss": 1.1227,
+      "step": 50
+    },
+    {
+      "epoch": 0.6688524590163935,
+      "grad_norm": 0.012229708954691887,
+      "learning_rate": 2.980394975640526e-05,
+      "loss": 1.1338,
+      "step": 51
+    },
+    {
+      "epoch": 0.6819672131147541,
+      "grad_norm": 0.010175776667892933,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 1.1144,
+      "step": 52
+    },
+    {
+      "epoch": 0.6950819672131148,
+      "grad_norm": 0.01121637411415577,
+      "learning_rate": 2.5669776071657192e-05,
+      "loss": 1.1253,
+      "step": 53
+    },
+    {
+      "epoch": 0.7081967213114754,
+      "grad_norm": 0.010852695442736149,
+      "learning_rate": 2.3678391856132204e-05,
+      "loss": 1.1344,
+      "step": 54
+    },
+    {
+      "epoch": 0.7213114754098361,
+      "grad_norm": 0.010888871736824512,
+      "learning_rate": 2.1743179278870407e-05,
+      "loss": 1.1342,
+      "step": 55
+    },
+    {
+      "epoch": 0.7344262295081967,
+      "grad_norm": 0.009675499983131886,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 1.1233,
+      "step": 56
+    },
+    {
+      "epoch": 0.7475409836065574,
+      "grad_norm": 0.0103612020611763,
+      "learning_rate": 1.8057659717401947e-05,
+      "loss": 1.128,
+      "step": 57
+    },
+    {
+      "epoch": 0.760655737704918,
+      "grad_norm": 0.011313353665173054,
+      "learning_rate": 1.631521781767214e-05,
+      "loss": 1.1127,
+      "step": 58
+    },
+    {
+      "epoch": 0.7737704918032787,
+      "grad_norm": 0.009756634011864662,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 1.1207,
+      "step": 59
+    },
+    {
+      "epoch": 0.7868852459016393,
+      "grad_norm": 0.009867743588984013,
+      "learning_rate": 1.3049554138967051e-05,
+      "loss": 1.1154,
+      "step": 60
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.00982784666121006,
+      "learning_rate": 1.1533301450856054e-05,
+      "loss": 1.1272,
+      "step": 61
     },
     {
+      "epoch": 0.8131147540983606,
+      "grad_norm": 0.00951016042381525,
+      "learning_rate": 1.0099138635988026e-05,
+      "loss": 1.1139,
+      "step": 62
+    },
+    {
+      "epoch": 0.8262295081967214,
+      "grad_norm": 0.010089361108839512,
+      "learning_rate": 8.75012627008489e-06,
+      "loss": 1.1304,
+      "step": 63
+    },
+    {
+      "epoch": 0.839344262295082,
+      "grad_norm": 0.010168294422328472,
+      "learning_rate": 7.489143213519301e-06,
+      "loss": 1.109,
+      "step": 64
+    },
+    {
+      "epoch": 0.8524590163934426,
+      "grad_norm": 0.010138073936104774,
+      "learning_rate": 6.318880467681526e-06,
+      "loss": 1.1259,
+      "step": 65
+    },
+    {
+      "epoch": 0.8655737704918033,
+      "grad_norm": 0.009661810472607613,
+      "learning_rate": 5.241835432246889e-06,
+      "loss": 1.1184,
+      "step": 66
+    },
+    {
+      "epoch": 0.8786885245901639,
+      "grad_norm": 0.009376097470521927,
+      "learning_rate": 4.260306575598949e-06,
+      "loss": 1.1214,
+      "step": 67
     },
     {
+      "epoch": 0.8918032786885246,
+      "grad_norm": 0.009214168414473534,
+      "learning_rate": 3.376388529782215e-06,
+      "loss": 1.109,
+      "step": 68
+    },
+    {
+      "epoch": 0.9049180327868852,
+      "grad_norm": 0.009044879116117954,
+      "learning_rate": 2.591967620451707e-06,
+      "loss": 1.1116,
+      "step": 69
+    },
+    {
+      "epoch": 0.9180327868852459,
+      "grad_norm": 0.009314059279859066,
+      "learning_rate": 1.908717841359048e-06,
+      "loss": 1.1278,
+      "step": 70
+    },
+    {
+      "epoch": 0.9311475409836065,
+      "grad_norm": 0.009015677496790886,
+      "learning_rate": 1.328097281965357e-06,
+      "loss": 1.1211,
+      "step": 71
+    },
+    {
+      "epoch": 0.9442622950819672,
+      "grad_norm": 0.009113411419093609,
+      "learning_rate": 8.513450158049108e-07,
+      "loss": 1.1148,
+      "step": 72
+    },
+    {
+      "epoch": 0.9573770491803278,
+      "grad_norm": 0.008978264406323433,
+      "learning_rate": 4.794784562397458e-07,
+      "loss": 1.1207,
+      "step": 73
+    },
+    {
+      "epoch": 0.9704918032786886,
+      "grad_norm": 0.008966252207756042,
+      "learning_rate": 2.1329118524827662e-07,
+      "loss": 1.1231,
+      "step": 74
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 0.00909092091023922,
+      "learning_rate": 5.3351259881379014e-08,
+      "loss": 1.1078,
+      "step": 75
+    },
+    {
+      "epoch": 0.9967213114754099,
+      "grad_norm": 0.00918254442512989,
       "learning_rate": 0.0,
+      "loss": 1.1241,
+      "step": 76
     },
     {
+      "epoch": 0.9967213114754099,
+      "step": 76,
+      "total_flos": 534721415086080.0,
+      "train_loss": 1.1572106621767346,
+      "train_runtime": 17915.2053,
+      "train_samples_per_second": 0.545,
+      "train_steps_per_second": 0.004
     }
   ],
   "logging_steps": 1,
+  "max_steps": 76,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 534721415086080.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_loss.png CHANGED Viewed