Training in progress, step 20, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +19 -67
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6afd96f0a4efb226214a2f98fc2930b95faa7d2409bdbba1791318c01e36cad
 size 250490408

 version https://git-lfs.github.com/spec/v1
+oid sha256:b50fab4df0857296b826fb533679d67b419acccbace03eded5bcde6b1019ad70
 size 250490408

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9766749cabbd0fe5ad2cb84cb5b1e21a853eda9b1ed07a7c96fd6bf1b05d3c04
 size 255265850

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5236e7bb1e866cd6476e6e3665a868ca0c865cc4d75c0b8f33b968041717090
 size 255265850

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0676c143653a967526628bc2f1d4644cea97dd18a780321d518070502832502d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f0cd92d44290d6f6688c3ebd219b1a8e16a4fb3fc40ddaf684cb9273335ba6e
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:465d2d2aca677e6044b1b9bb8917a886a23650c3ce9b3ee9246d24ecb5324a05
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a20a1acb52cc6e9c17e6c90786f46e7d0ce02edfc6be15f78dd6f0e42dd5db2
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c747745535681b443a3cae9777675e8f1d7f8e4fdcc2e923572fbc2e7ee62ede
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:671e391807b0ab9b289ecea768661c20458f82abb5fff2f5b02536860d7df3aa
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9410529b5a855657bd3a08b9e2887f922f2b19dd1ea9123054c798d54f882e1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:876b48ccbca60f6ef5833275c3979dd776f668d13202dfbd3055d06dd8704ebc
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a60c7d771c1fd156acee762fba03c724cb41829a3f71df370ecd1d20b134982
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:84f22729b765b6841bd185712dd3ab8bf338866cd8396b5dce62f9950913691a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.666666666666668,
-  "eval_steps": 200,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,87 +11,39 @@
     {
       "epoch": 0.16666666666666666,
       "eval_loss": 3.2664246559143066,
-      "eval_runtime": 5.1158,
-      "eval_samples_per_second": 293.406,
-      "eval_steps_per_second": 2.346,
       "step": 1
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 3.84375,
       "learning_rate": 0.00019863613034027224,
-      "loss": 6.2672,
       "step": 10
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 3.5,
       "learning_rate": 0.0001879473751206489,
-      "loss": 5.5486,
       "step": 20
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 2.71875,
-      "learning_rate": 0.00016772815716257412,
-      "loss": 5.2045,
-      "step": 30
-    },
-    {
-      "epoch": 6.666666666666667,
-      "grad_norm": 3.03125,
-      "learning_rate": 0.00014016954246529696,
-      "loss": 5.0295,
-      "step": 40
-    },
-    {
-      "epoch": 8.333333333333334,
-      "grad_norm": 4.25,
-      "learning_rate": 0.00010825793454723325,
-      "loss": 4.8139,
-      "step": 50
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 2.921875,
-      "learning_rate": 7.54514512859201e-05,
-      "loss": 4.6461,
-      "step": 60
-    },
-    {
-      "epoch": 11.666666666666666,
-      "grad_norm": 2.34375,
-      "learning_rate": 4.530518418775733e-05,
-      "loss": 4.5564,
-      "step": 70
-    },
-    {
-      "epoch": 13.333333333333334,
-      "grad_norm": 2.265625,
-      "learning_rate": 2.1085949060360654e-05,
-      "loss": 4.4932,
-      "step": 80
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 3.28125,
-      "learning_rate": 5.418275829936537e-06,
-      "loss": 4.4706,
-      "step": 90
-    },
-    {
-      "epoch": 16.666666666666668,
-      "grad_norm": 1.953125,
-      "learning_rate": 0.0,
-      "loss": 4.4708,
-      "step": 100
     }
   ],
   "logging_steps": 10,
   "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 17,
-  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -99,12 +51,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.2971582112661504e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.3333333333333335,
+  "eval_steps": 20,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.16666666666666666,
       "eval_loss": 3.2664246559143066,
+      "eval_runtime": 5.3854,
+      "eval_samples_per_second": 278.716,
+      "eval_steps_per_second": 2.228,
       "step": 1
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 3.59375,
       "learning_rate": 0.00019863613034027224,
+      "loss": 6.2648,
       "step": 10
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 10.5625,
       "learning_rate": 0.0001879473751206489,
+      "loss": 5.5113,
       "step": 20
     },
     {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 3.2161271572113037,
+      "eval_runtime": 5.2834,
+      "eval_samples_per_second": 284.095,
+      "eval_steps_per_second": 2.271,
+      "step": 20
     }
   ],
   "logging_steps": 10,
   "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 17,
+  "save_steps": 20,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 2598287978790912.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91e32bef4fa18f7434f34b3ab9a59a991d12d4e7c7fd850b74f33c05529273df
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1c609712c20122320b7a03274aeaded4a729690871dc722325e534970da288f
 size 6840