Training in progress, step 34284, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e2fec58aad4dd77032730b8c8256d6df9b5b19233a11f86246c94eac4c69ea5
 size 18899856

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f08bbff40a76729e8bb60d3a42b823dec0374093316e9d66e864d39e6e98686
 size 18899856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c71f39d1d94bac3c5d21186154e408fc20c0dedd6c5ed33ec28b414f4a7e1497
 size 37911546

 version https://git-lfs.github.com/spec/v1
+oid sha256:f88b3d3aafcfb52683a2c942900f2cf4331a167f2e907d54ec18889f78810ed1
 size 37911546

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75611bb966c18ad34fae0cdfc220a743b52f93a668dd7bdff081240147d9f5dc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b182ddba2191fc0b5d8696aacd13a263502041db09ff96fe195f390f57c46669
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdc430163360c0db4aba3b670b7ed2a96845fe7776799e70cf4e9bd497c9c307
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c5f55b79d4f37b170efbcd11ec8e37cc2c97e892e710c70c5c8dbc048d1902a
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9964998249912496,
   "eval_steps": 3806,
-  "global_step": 34254,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -239965,6 +239965,216 @@
       "eval_test_samples_per_second": 13.909,
       "eval_test_steps_per_second": 0.869,
       "step": 34254
     }
   ],
   "logging_steps": 1,
@@ -239979,12 +240189,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.935297972096205e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 3806,
+  "global_step": 34284,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_test_samples_per_second": 13.909,
       "eval_test_steps_per_second": 0.869,
       "step": 34254
+    },
+    {
+      "epoch": 3.9966164974915412,
+      "grad_norm": 0.7302963733673096,
+      "learning_rate": 3.000647352429344e-06,
+      "loss": 2.0368,
+      "step": 34255
+    },
+    {
+      "epoch": 3.996733169991833,
+      "grad_norm": 0.7436806559562683,
+      "learning_rate": 3.000603477205233e-06,
+      "loss": 2.1534,
+      "step": 34256
+    },
+    {
+      "epoch": 3.9968498424921246,
+      "grad_norm": 0.6236298084259033,
+      "learning_rate": 3.000561141458568e-06,
+      "loss": 1.9726,
+      "step": 34257
+    },
+    {
+      "epoch": 3.9969665149924163,
+      "grad_norm": 0.6811991930007935,
+      "learning_rate": 3.0005203451897933e-06,
+      "loss": 2.0822,
+      "step": 34258
+    },
+    {
+      "epoch": 3.997083187492708,
+      "grad_norm": 0.7705870866775513,
+      "learning_rate": 3.000481088399339e-06,
+      "loss": 2.1438,
+      "step": 34259
+    },
+    {
+      "epoch": 3.9971998599929996,
+      "grad_norm": 0.6603965759277344,
+      "learning_rate": 3.0004433710876e-06,
+      "loss": 1.9082,
+      "step": 34260
+    },
+    {
+      "epoch": 3.9973165324932913,
+      "grad_norm": 0.6230751872062683,
+      "learning_rate": 3.0004071932549724e-06,
+      "loss": 2.0426,
+      "step": 34261
+    },
+    {
+      "epoch": 3.997433204993583,
+      "grad_norm": 0.7174234390258789,
+      "learning_rate": 3.000372554901835e-06,
+      "loss": 1.992,
+      "step": 34262
+    },
+    {
+      "epoch": 3.9975498774938747,
+      "grad_norm": 0.6722437739372253,
+      "learning_rate": 3.0003394560285347e-06,
+      "loss": 2.0709,
+      "step": 34263
+    },
+    {
+      "epoch": 3.9976665499941664,
+      "grad_norm": 0.641873300075531,
+      "learning_rate": 3.0003078966354333e-06,
+      "loss": 1.9371,
+      "step": 34264
+    },
+    {
+      "epoch": 3.997783222494458,
+      "grad_norm": 0.6292130351066589,
+      "learning_rate": 3.000277876722828e-06,
+      "loss": 1.9375,
+      "step": 34265
+    },
+    {
+      "epoch": 3.9978998949947497,
+      "grad_norm": 0.6383855938911438,
+      "learning_rate": 3.000249396291065e-06,
+      "loss": 2.1935,
+      "step": 34266
+    },
+    {
+      "epoch": 3.9980165674950414,
+      "grad_norm": 0.7069698572158813,
+      "learning_rate": 3.0002224553404246e-06,
+      "loss": 2.0077,
+      "step": 34267
+    },
+    {
+      "epoch": 3.998133239995333,
+      "grad_norm": 0.6327721476554871,
+      "learning_rate": 3.0001970538711872e-06,
+      "loss": 2.0699,
+      "step": 34268
+    },
+    {
+      "epoch": 3.998249912495625,
+      "grad_norm": 0.6597331166267395,
+      "learning_rate": 3.0001731918836162e-06,
+      "loss": 2.0667,
+      "step": 34269
+    },
+    {
+      "epoch": 3.9983665849959165,
+      "grad_norm": 0.661301851272583,
+      "learning_rate": 3.000150869377943e-06,
+      "loss": 1.9734,
+      "step": 34270
+    },
+    {
+      "epoch": 3.998483257496208,
+      "grad_norm": 0.6402481198310852,
+      "learning_rate": 3.000130086354431e-06,
+      "loss": 1.8784,
+      "step": 34271
+    },
+    {
+      "epoch": 3.9985999299965,
+      "grad_norm": 0.7119265198707581,
+      "learning_rate": 3.000110842813261e-06,
+      "loss": 2.1001,
+      "step": 34272
+    },
+    {
+      "epoch": 3.9987166024967915,
+      "grad_norm": 0.636619508266449,
+      "learning_rate": 3.0000931387546646e-06,
+      "loss": 2.2329,
+      "step": 34273
+    },
+    {
+      "epoch": 3.998833274997083,
+      "grad_norm": 0.6781154274940491,
+      "learning_rate": 3.0000769741788074e-06,
+      "loss": 2.0247,
+      "step": 34274
+    },
+    {
+      "epoch": 3.998949947497375,
+      "grad_norm": 0.7756646871566772,
+      "learning_rate": 3.0000623490858523e-06,
+      "loss": 2.0191,
+      "step": 34275
+    },
+    {
+      "epoch": 3.9990666199976665,
+      "grad_norm": 0.6341996192932129,
+      "learning_rate": 3.000049263475966e-06,
+      "loss": 1.9516,
+      "step": 34276
+    },
+    {
+      "epoch": 3.9991832924979582,
+      "grad_norm": 0.6424492001533508,
+      "learning_rate": 3.000037717349279e-06,
+      "loss": 1.9659,
+      "step": 34277
+    },
+    {
+      "epoch": 3.99929996499825,
+      "grad_norm": 0.5968495607376099,
+      "learning_rate": 3.000027710705908e-06,
+      "loss": 1.985,
+      "step": 34278
+    },
+    {
+      "epoch": 3.9994166374985416,
+      "grad_norm": 0.6369019150733948,
+      "learning_rate": 3.00001924354595e-06,
+      "loss": 1.9489,
+      "step": 34279
+    },
+    {
+      "epoch": 3.9995333099988333,
+      "grad_norm": 0.6295581459999084,
+      "learning_rate": 3.0000123158695064e-06,
+      "loss": 1.9638,
+      "step": 34280
+    },
+    {
+      "epoch": 3.999649982499125,
+      "grad_norm": 0.5876207947731018,
+      "learning_rate": 3.0000069276766416e-06,
+      "loss": 1.9769,
+      "step": 34281
+    },
+    {
+      "epoch": 3.9997666549994166,
+      "grad_norm": 0.6616494059562683,
+      "learning_rate": 3.0000030789674052e-06,
+      "loss": 2.0094,
+      "step": 34282
+    },
+    {
+      "epoch": 3.9998833274997083,
+      "grad_norm": 0.6334449052810669,
+      "learning_rate": 3.0000007697418473e-06,
+      "loss": 1.9549,
+      "step": 34283
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.618880569934845,
+      "learning_rate": 2.9999999999999997e-06,
+      "loss": 1.8764,
+      "step": 34284
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.943124342074507e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null