Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +46 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5736c925db7f325caa64064fa8c0c51ab5fa9a598482c0300d3b977751127823
 size 44457856

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cf6560d9731881fd473f9816efb8036955ffb3de008fe809f52d9df144791cf
 size 44457856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:728dfb33a4050dcc23ebfb9ad6464d56fd71ae703afa6f265db4f5f89f59faeb
 size 22782603

 version https://git-lfs.github.com/spec/v1
+oid sha256:34d1617df6520a5eb5d62e3332b9b93cd6d5ec54588750f740f2ab514eead854
 size 22782603

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c800b778fa7e115e4c34de8529902de8b61c9a1b4bab3eb8295d06dafff030e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:181c5f0270cf39930062ddfa3767a2481d0c360f120b11f8e25dbf533a1cdaba
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cd0e9d505fbc3f97feb166d29026132bdf14eb3e5c7ff77beebc303ee666f96
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4393a84a3109995aa1202073b039b12062e3189ed89aa0b94ef0510ba843009
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1310cb41dd434edb9dd1c0baa2baac71e510fe550ece0401d9efffee54c9e6ee
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b17ac597f6c83922dfd244cdb7a2ea135e2862a7fff0eee3a1ac2b62bf89fd9
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -51,6 +51,49 @@
       "eval_samples_per_second": 0.872,
       "eval_steps_per_second": 0.218,
       "step": 50
     }
   ],
   "logging_steps": 10,
@@ -70,7 +113,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4455022195126272.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.16,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.872,
       "eval_steps_per_second": 0.218,
       "step": 50
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 0.27004000544548035,
+      "learning_rate": 0.00018258064516129033,
+      "loss": 0.2846,
+      "step": 60
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 0.24109533429145813,
+      "learning_rate": 0.00017935483870967742,
+      "loss": 0.2828,
+      "step": 70
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.2596932649612427,
+      "learning_rate": 0.0001761290322580645,
+      "loss": 0.277,
+      "step": 80
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 0.2961156964302063,
+      "learning_rate": 0.00017290322580645163,
+      "loss": 0.29,
+      "step": 90
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.3086676597595215,
+      "learning_rate": 0.00016967741935483872,
+      "loss": 0.2883,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.28304216265678406,
+      "eval_runtime": 519.1154,
+      "eval_samples_per_second": 0.963,
+      "eval_steps_per_second": 0.241,
+      "step": 100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8826978008930304.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null