Training in progress, step 10, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +23 -163
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0120a8149bd4c9c80c434ee1d50d17d11b5ff6a9a540930d8477b8330665d7c6
 size 75579856

 version https://git-lfs.github.com/spec/v1
+oid sha256:00fce450168446a0c820c73cad4d2fcd438098032a9cda56a421a3ae4ee33e86
 size 75579856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cf508cce684f141d23779498e2107e05fe761d23d480c911d36daef0444c4a1
 size 39015574

 version https://git-lfs.github.com/spec/v1
+oid sha256:eac4ff7de5471e6e64cda3c96fc59903ed4d494cf08311d229e77212f103cdc5
 size 39015574

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:923d278f6956e6477248046106bcc976164d13b97aca384b8661e5bb580c9f50
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:77653f901a737c32c712d4d98c59bda07889be56e9af169aa9525194aa1f203a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8ccbb7e9b2bee49a3a83a2cbe68b9ea55fce3c23d9b7073b07177a5b6c6d109
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b240dd9ddd423073bd07780b2cb840e4271f59c698cb81fac8efa021107c82d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,222 +2,82 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.020750475531730934,
   "eval_steps": 500,
-  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0006916825177243646,
-      "grad_norm": 0.23008033633232117,
       "learning_rate": 0.0,
-      "loss": 2.4935,
       "step": 1
     },
     {
       "epoch": 0.0013833650354487291,
-      "grad_norm": 0.21738959848880768,
       "learning_rate": 1.3698630136986302e-06,
-      "loss": 2.7335,
       "step": 2
     },
     {
       "epoch": 0.0020750475531730937,
-      "grad_norm": 0.24479049444198608,
       "learning_rate": 2.7397260273972604e-06,
-      "loss": 2.9014,
       "step": 3
     },
     {
       "epoch": 0.0027667300708974583,
-      "grad_norm": 0.26578858494758606,
       "learning_rate": 4.10958904109589e-06,
-      "loss": 2.8301,
       "step": 4
     },
     {
       "epoch": 0.0034584125886218224,
-      "grad_norm": 0.21829573810100555,
       "learning_rate": 5.479452054794521e-06,
-      "loss": 2.4889,
       "step": 5
     },
     {
       "epoch": 0.004150095106346187,
-      "grad_norm": 0.24539536237716675,
       "learning_rate": 6.849315068493151e-06,
-      "loss": 2.0441,
       "step": 6
     },
     {
       "epoch": 0.0048417776240705515,
-      "grad_norm": 0.3143893778324127,
       "learning_rate": 8.21917808219178e-06,
-      "loss": 2.0242,
       "step": 7
     },
     {
       "epoch": 0.0055334601417949165,
-      "grad_norm": 0.26045775413513184,
       "learning_rate": 9.589041095890411e-06,
-      "loss": 2.0649,
       "step": 8
     },
     {
       "epoch": 0.006225142659519281,
-      "grad_norm": 0.1994040161371231,
       "learning_rate": 1.0958904109589042e-05,
-      "loss": 2.6361,
       "step": 9
     },
     {
       "epoch": 0.006916825177243645,
-      "grad_norm": 0.43011218309402466,
       "learning_rate": 1.2328767123287671e-05,
-      "loss": 2.86,
       "step": 10
-    },
-    {
-      "epoch": 0.00760850769496801,
-      "grad_norm": 0.3276166021823883,
-      "learning_rate": 1.3698630136986302e-05,
-      "loss": 2.5563,
-      "step": 11
-    },
-    {
-      "epoch": 0.008300190212692375,
-      "grad_norm": 0.6293095350265503,
-      "learning_rate": 1.5068493150684931e-05,
-      "loss": 1.6394,
-      "step": 12
-    },
-    {
-      "epoch": 0.008991872730416739,
-      "grad_norm": 0.3222309648990631,
-      "learning_rate": 1.643835616438356e-05,
-      "loss": 1.8561,
-      "step": 13
-    },
-    {
-      "epoch": 0.009683555248141103,
-      "grad_norm": 0.2540973126888275,
-      "learning_rate": 1.780821917808219e-05,
-      "loss": 3.0327,
-      "step": 14
-    },
-    {
-      "epoch": 0.010375237765865467,
-      "grad_norm": 0.2383764237165451,
-      "learning_rate": 1.9178082191780822e-05,
-      "loss": 2.2992,
-      "step": 15
-    },
-    {
-      "epoch": 0.011066920283589833,
-      "grad_norm": 0.35212621092796326,
-      "learning_rate": 2.0547945205479453e-05,
-      "loss": 2.8462,
-      "step": 16
-    },
-    {
-      "epoch": 0.011758602801314197,
-      "grad_norm": 0.23731686174869537,
-      "learning_rate": 2.1917808219178083e-05,
-      "loss": 2.8213,
-      "step": 17
-    },
-    {
-      "epoch": 0.012450285319038561,
-      "grad_norm": 0.3209351599216461,
-      "learning_rate": 2.328767123287671e-05,
-      "loss": 2.4589,
-      "step": 18
-    },
-    {
-      "epoch": 0.013141967836762926,
-      "grad_norm": 0.22553832828998566,
-      "learning_rate": 2.4657534246575342e-05,
-      "loss": 2.358,
-      "step": 19
-    },
-    {
-      "epoch": 0.01383365035448729,
-      "grad_norm": 0.29168522357940674,
-      "learning_rate": 2.6027397260273973e-05,
-      "loss": 2.5836,
-      "step": 20
-    },
-    {
-      "epoch": 0.014525332872211656,
-      "grad_norm": 0.2680312991142273,
-      "learning_rate": 2.7397260273972603e-05,
-      "loss": 2.748,
-      "step": 21
-    },
-    {
-      "epoch": 0.01521701538993602,
-      "grad_norm": 0.2818455398082733,
-      "learning_rate": 2.8767123287671234e-05,
-      "loss": 2.5701,
-      "step": 22
-    },
-    {
-      "epoch": 0.015908697907660384,
-      "grad_norm": 0.2324114739894867,
-      "learning_rate": 3.0136986301369862e-05,
-      "loss": 1.8337,
-      "step": 23
-    },
-    {
-      "epoch": 0.01660038042538475,
-      "grad_norm": 0.2770012617111206,
-      "learning_rate": 3.1506849315068496e-05,
-      "loss": 2.7497,
-      "step": 24
-    },
-    {
-      "epoch": 0.017292062943109112,
-      "grad_norm": 0.27101394534111023,
-      "learning_rate": 3.287671232876712e-05,
-      "loss": 2.8125,
-      "step": 25
-    },
-    {
-      "epoch": 0.017983745460833478,
-      "grad_norm": 0.27373552322387695,
-      "learning_rate": 3.424657534246575e-05,
-      "loss": 2.7676,
-      "step": 26
-    },
-    {
-      "epoch": 0.01867542797855784,
-      "grad_norm": 0.2803725302219391,
-      "learning_rate": 3.561643835616438e-05,
-      "loss": 2.2638,
-      "step": 27
-    },
-    {
-      "epoch": 0.019367110496282206,
-      "grad_norm": 0.25683945417404175,
-      "learning_rate": 3.698630136986301e-05,
-      "loss": 2.8515,
-      "step": 28
-    },
-    {
-      "epoch": 0.020058793014006572,
-      "grad_norm": 0.32016420364379883,
-      "learning_rate": 3.8356164383561644e-05,
-      "loss": 2.8561,
-      "step": 29
-    },
-    {
-      "epoch": 0.020750475531730934,
-      "grad_norm": 0.4947223663330078,
-      "learning_rate": 3.9726027397260274e-05,
-      "loss": 2.9034,
-      "step": 30
     }
   ],
   "logging_steps": 1,
@@ -237,7 +97,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1008346610073600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.006916825177243645,
   "eval_steps": 500,
+  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0006916825177243646,
+      "grad_norm": 0.2700531780719757,
       "learning_rate": 0.0,
+      "loss": 2.4618,
       "step": 1
     },
     {
       "epoch": 0.0013833650354487291,
+      "grad_norm": 0.26140472292900085,
       "learning_rate": 1.3698630136986302e-06,
+      "loss": 2.6975,
       "step": 2
     },
     {
       "epoch": 0.0020750475531730937,
+      "grad_norm": 0.29990413784980774,
       "learning_rate": 2.7397260273972604e-06,
+      "loss": 2.8554,
       "step": 3
     },
     {
       "epoch": 0.0027667300708974583,
+      "grad_norm": 0.31456881761550903,
       "learning_rate": 4.10958904109589e-06,
+      "loss": 2.7952,
       "step": 4
     },
     {
       "epoch": 0.0034584125886218224,
+      "grad_norm": 0.25708264112472534,
       "learning_rate": 5.479452054794521e-06,
+      "loss": 2.4612,
       "step": 5
     },
     {
       "epoch": 0.004150095106346187,
+      "grad_norm": 0.2855897843837738,
       "learning_rate": 6.849315068493151e-06,
+      "loss": 2.0206,
       "step": 6
     },
     {
       "epoch": 0.0048417776240705515,
+      "grad_norm": 0.35951822996139526,
       "learning_rate": 8.21917808219178e-06,
+      "loss": 1.9767,
       "step": 7
     },
     {
       "epoch": 0.0055334601417949165,
+      "grad_norm": 0.29928985238075256,
       "learning_rate": 9.589041095890411e-06,
+      "loss": 2.045,
       "step": 8
     },
     {
       "epoch": 0.006225142659519281,
+      "grad_norm": 0.2297569364309311,
       "learning_rate": 1.0958904109589042e-05,
+      "loss": 2.6072,
       "step": 9
     },
     {
       "epoch": 0.006916825177243645,
+      "grad_norm": 0.4355849623680115,
       "learning_rate": 1.2328767123287671e-05,
+      "loss": 2.7934,
       "step": 10
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 347472609361920.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30bce305e780d7aa24e0d46ea3202c9b9e4aeefe52ad17f13b6285abef6f0170
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:317972894c2f1ae307c137efb293243ed18c91dbff44283521f155311cd9e980
 size 5432