Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5933cadc048a0f98ce1186dda8e044600330c8323c3aeb7103f03016dda0f58f
 size 661507488

 version https://git-lfs.github.com/spec/v1
+oid sha256:2286073354c955c2cea250cf8625b7a0c9312cbfaaf55547ee67472f9f04f82c
 size 661507488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2adae7c3227da6f9cff61afa72fc8e2acb185b9ee9233ea9f4606dd3ad8bf888
 size 1304683322

 version https://git-lfs.github.com/spec/v1
+oid sha256:533faf319c29cb9bd6b4a0359ba723109dca179a7b3c53b9406447277fc5f5f0
 size 1304683322

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a69626effe2e0481176da89da85564e0a97bc6ef6619523c42ce818b527abcc
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:678c52ded593de0bac8adbb98950814c0abc224b38c12bfcb75019cd9abc88e7
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac5f39cff78dbcb4d12b97b9e8b1e16624c544af38c507e787f6f6a19013821
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:388b33af9ccc80fdb83f03a3a59d7426230bca392fb13bf15fe996173ee1addc
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.11470788717269897,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 4.465116279069767,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 9.739,
       "eval_steps_per_second": 9.739,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.6370194800623616e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.1146140992641449,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 4.604651162790698,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.739,
       "eval_steps_per_second": 9.739,
       "step": 4800
+    },
+    {
+      "epoch": 4.474418604651163,
+      "grad_norm": 1.754858374595642,
+      "learning_rate": 1.6303105993536925e-07,
+      "loss": 0.0311,
+      "step": 4810
+    },
+    {
+      "epoch": 4.4837209302325585,
+      "grad_norm": 2.2970986366271973,
+      "learning_rate": 1.4634005624572287e-07,
+      "loss": 0.0338,
+      "step": 4820
+    },
+    {
+      "epoch": 4.493023255813953,
+      "grad_norm": 1.9835330247879028,
+      "learning_rate": 1.3054737092143243e-07,
+      "loss": 0.0302,
+      "step": 4830
+    },
+    {
+      "epoch": 4.502325581395349,
+      "grad_norm": 2.7069849967956543,
+      "learning_rate": 1.1565365313793708e-07,
+      "loss": 0.0288,
+      "step": 4840
+    },
+    {
+      "epoch": 4.511627906976744,
+      "grad_norm": 1.7393293380737305,
+      "learning_rate": 1.0165951511763893e-07,
+      "loss": 0.0309,
+      "step": 4850
+    },
+    {
+      "epoch": 4.52093023255814,
+      "grad_norm": 1.5180749893188477,
+      "learning_rate": 8.856553210474049e-08,
+      "loss": 0.0288,
+      "step": 4860
+    },
+    {
+      "epoch": 4.530232558139534,
+      "grad_norm": 1.831196904182434,
+      "learning_rate": 7.637224234159889e-08,
+      "loss": 0.0334,
+      "step": 4870
+    },
+    {
+      "epoch": 4.53953488372093,
+      "grad_norm": 1.9779573678970337,
+      "learning_rate": 6.508014704659936e-08,
+      "loss": 0.0293,
+      "step": 4880
+    },
+    {
+      "epoch": 4.5488372093023255,
+      "grad_norm": 2.4252068996429443,
+      "learning_rate": 5.4689710393547974e-08,
+      "loss": 0.0304,
+      "step": 4890
+    },
+    {
+      "epoch": 4.558139534883721,
+      "grad_norm": 1.7382845878601074,
+      "learning_rate": 4.520135949260062e-08,
+      "loss": 0.0308,
+      "step": 4900
+    },
+    {
+      "epoch": 4.567441860465117,
+      "grad_norm": 2.5499613285064697,
+      "learning_rate": 3.661548437270157e-08,
+      "loss": 0.0306,
+      "step": 4910
+    },
+    {
+      "epoch": 4.576744186046511,
+      "grad_norm": 2.0584299564361572,
+      "learning_rate": 2.8932437965543568e-08,
+      "loss": 0.0285,
+      "step": 4920
+    },
+    {
+      "epoch": 4.586046511627907,
+      "grad_norm": 2.0955538749694824,
+      "learning_rate": 2.2152536091079032e-08,
+      "loss": 0.0292,
+      "step": 4930
+    },
+    {
+      "epoch": 4.595348837209302,
+      "grad_norm": 2.126533269882202,
+      "learning_rate": 1.6276057444511328e-08,
+      "loss": 0.0323,
+      "step": 4940
+    },
+    {
+      "epoch": 4.604651162790698,
+      "grad_norm": 1.754727840423584,
+      "learning_rate": 1.130324358486634e-08,
+      "loss": 0.0335,
+      "step": 4950
+    },
+    {
+      "epoch": 4.604651162790698,
+      "eval_loss": 0.1146140992641449,
+      "eval_runtime": 52.1386,
+      "eval_samples_per_second": 9.59,
+      "eval_steps_per_second": 9.59,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.7810435876775936e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null