Training in progress, step 2400, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:801632b13dd650035b8637c9af213bc74194a9ef5cf8b6b65c2a509a34782c30
 size 3237829088

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c8c03bddde1d45b42f156ee9380731c978903eeb514446180e27d130995337d
 size 3237829088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2776246849e9530b854f7a1af3e71fc651a2697598de16a64d897fa8530e760
 size 2062272049

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a2d8576045f18ebc0d44a01c8bb87c6bcc68dc93cada4a8ed13a6805a28e50a
 size 2062272049

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6725ac8cfcdd5ed2e94a6dc5c8d88f80e593c5d3e8324e00ee31281fa51f86e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdd2d9b8a329c8bdf157e8302d4758961f9a282c3f0127e29e492f0c374d2cc5
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f13dd54935d4d1876d05824ed5aab8e787b691f2aec583b5a7e328fd2bead633
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:a82daf79aef8e8b5ecd74ff5d2377b7a09a1c4d4504ecc0c2a12006214be596b
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:207e07bf53e1f3c020ec2dfd378c4461a481edafdba7a64484be4547457af2b3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f95bb9c4b14269e2ef89bd678ab3c3d4b5f143d243a24d6ece8108f7e85154f8
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6026689625484287,
   "eval_steps": 300,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1478,6 +1478,216 @@
       "learning_rate": 7.108156009412176e-05,
       "loss": 0.7569,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -1497,7 +1707,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.5929538093056e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6887645286267757,
   "eval_steps": 300,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 7.108156009412176e-05,
       "loss": 0.7569,
       "step": 2100
+    },
+    {
+      "epoch": 0.6055388147510403,
+      "grad_norm": 3.5824501514434814,
+      "learning_rate": 7.02024198269733e-05,
+      "loss": 0.7963,
+      "step": 2110
+    },
+    {
+      "epoch": 0.6084086669536519,
+      "grad_norm": 8.07539176940918,
+      "learning_rate": 6.932579980015618e-05,
+      "loss": 0.8183,
+      "step": 2120
+    },
+    {
+      "epoch": 0.6112785191562634,
+      "grad_norm": 5.9698615074157715,
+      "learning_rate": 6.845177415704484e-05,
+      "loss": 0.749,
+      "step": 2130
+    },
+    {
+      "epoch": 0.614148371358875,
+      "grad_norm": 4.034762859344482,
+      "learning_rate": 6.758041682158431e-05,
+      "loss": 0.7853,
+      "step": 2140
+    },
+    {
+      "epoch": 0.6170182235614866,
+      "grad_norm": 8.13531494140625,
+      "learning_rate": 6.671180149203751e-05,
+      "loss": 0.7871,
+      "step": 2150
+    },
+    {
+      "epoch": 0.6198880757640981,
+      "grad_norm": 5.809640884399414,
+      "learning_rate": 6.584600163475222e-05,
+      "loss": 0.8037,
+      "step": 2160
+    },
+    {
+      "epoch": 0.6227579279667097,
+      "grad_norm": 5.849427223205566,
+      "learning_rate": 6.498309047794713e-05,
+      "loss": 0.8076,
+      "step": 2170
+    },
+    {
+      "epoch": 0.6256277801693213,
+      "grad_norm": 4.466967582702637,
+      "learning_rate": 6.412314100551854e-05,
+      "loss": 0.7863,
+      "step": 2180
+    },
+    {
+      "epoch": 0.6284976323719328,
+      "grad_norm": 4.934723377227783,
+      "learning_rate": 6.326622595086722e-05,
+      "loss": 0.7747,
+      "step": 2190
+    },
+    {
+      "epoch": 0.6313674845745444,
+      "grad_norm": 4.067635536193848,
+      "learning_rate": 6.241241779074705e-05,
+      "loss": 0.7804,
+      "step": 2200
+    },
+    {
+      "epoch": 0.634237336777156,
+      "grad_norm": 4.629720687866211,
+      "learning_rate": 6.156178873913468e-05,
+      "loss": 0.7672,
+      "step": 2210
+    },
+    {
+      "epoch": 0.6371071889797676,
+      "grad_norm": 3.9992971420288086,
+      "learning_rate": 6.071441074112194e-05,
+      "loss": 0.7856,
+      "step": 2220
+    },
+    {
+      "epoch": 0.6399770411823791,
+      "grad_norm": 6.1507062911987305,
+      "learning_rate": 5.9870355466830885e-05,
+      "loss": 0.752,
+      "step": 2230
+    },
+    {
+      "epoch": 0.6428468933849907,
+      "grad_norm": 4.305118083953857,
+      "learning_rate": 5.902969430535186e-05,
+      "loss": 0.7506,
+      "step": 2240
+    },
+    {
+      "epoch": 0.6457167455876023,
+      "grad_norm": 3.7307469844818115,
+      "learning_rate": 5.819249835870566e-05,
+      "loss": 0.7744,
+      "step": 2250
+    },
+    {
+      "epoch": 0.6485865977902138,
+      "grad_norm": 5.391602516174316,
+      "learning_rate": 5.7358838435829664e-05,
+      "loss": 0.8067,
+      "step": 2260
+    },
+    {
+      "epoch": 0.6514564499928254,
+      "grad_norm": 4.221368789672852,
+      "learning_rate": 5.6528785046589115e-05,
+      "loss": 0.8257,
+      "step": 2270
+    },
+    {
+      "epoch": 0.654326302195437,
+      "grad_norm": 5.274345397949219,
+      "learning_rate": 5.570240839581323e-05,
+      "loss": 0.7638,
+      "step": 2280
+    },
+    {
+      "epoch": 0.6571961543980485,
+      "grad_norm": 4.528804779052734,
+      "learning_rate": 5.487977837735756e-05,
+      "loss": 0.7805,
+      "step": 2290
+    },
+    {
+      "epoch": 0.6600660066006601,
+      "grad_norm": 4.387100696563721,
+      "learning_rate": 5.406096456819234e-05,
+      "loss": 0.7811,
+      "step": 2300
+    },
+    {
+      "epoch": 0.6629358588032717,
+      "grad_norm": 5.64663028717041,
+      "learning_rate": 5.324603622251797e-05,
+      "loss": 0.771,
+      "step": 2310
+    },
+    {
+      "epoch": 0.6658057110058831,
+      "grad_norm": 4.328652381896973,
+      "learning_rate": 5.243506226590722e-05,
+      "loss": 0.7711,
+      "step": 2320
+    },
+    {
+      "epoch": 0.6686755632084947,
+      "grad_norm": 4.763848781585693,
+      "learning_rate": 5.162811128947602e-05,
+      "loss": 0.7849,
+      "step": 2330
+    },
+    {
+      "epoch": 0.6715454154111064,
+      "grad_norm": 6.142160892486572,
+      "learning_rate": 5.082525154408173e-05,
+      "loss": 0.7587,
+      "step": 2340
+    },
+    {
+      "epoch": 0.6744152676137178,
+      "grad_norm": 6.3459553718566895,
+      "learning_rate": 5.002655093455086e-05,
+      "loss": 0.7762,
+      "step": 2350
+    },
+    {
+      "epoch": 0.6772851198163294,
+      "grad_norm": 5.520603656768799,
+      "learning_rate": 4.9232077013935606e-05,
+      "loss": 0.7854,
+      "step": 2360
+    },
+    {
+      "epoch": 0.680154972018941,
+      "grad_norm": 3.9489786624908447,
+      "learning_rate": 4.844189697780033e-05,
+      "loss": 0.7599,
+      "step": 2370
+    },
+    {
+      "epoch": 0.6830248242215526,
+      "grad_norm": 5.653624057769775,
+      "learning_rate": 4.765607765853828e-05,
+      "loss": 0.7875,
+      "step": 2380
+    },
+    {
+      "epoch": 0.6858946764241641,
+      "grad_norm": 4.3883957862854,
+      "learning_rate": 4.6874685519718945e-05,
+      "loss": 0.7825,
+      "step": 2390
+    },
+    {
+      "epoch": 0.6887645286267757,
+      "grad_norm": 3.743744134902954,
+      "learning_rate": 4.60977866504668e-05,
+      "loss": 0.7796,
+      "step": 2400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.8205186392064e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb8fac145ce6d3b844b04932d52e4aba260f48f6c9dc5ba626561ea49a834bfb
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e7bdac5d864a20d8b4fc428d3cfbb2f8cb185783eb905886cd482fff0f1081a
 size 6033