Training in progress, step 4350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:880fd56a3f8de1ea8da94daf1c2a4ae51100a00332912dd6360718788d991f3e
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:21408a8c0f804aa69ccdc098361ffb0c38ee5eae2c774310be1c3d5f3d0c89cb
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b0f4a093ed328add3e959161df7d638c8c11def0b0aa41283d1549f7fc07bb9
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bcaa1a30846eab83cb0fb8aeeb387ec463414d9ba20d28e1e9aa81c65bf4680
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8fde804448728c0f3c5740097a588b9bc938edec8f5ff4ab3791e696a0e04dd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a9ea00016d252bf419fc0794eade190f54eb50118e2e0be5b9c332ef3c36fc0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65b74f49a3daa98af42d6e544ec1a2f4a5627b7dc9aa14dada3f91ea7451360b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e7ae917a4132ef2fbbbdadfebce9aa687102db21112c728e0ebfe527b807e8a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 182.6086956521739,
   "eval_steps": 150,
-  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4067,6 +4067,151 @@
       "EMA_steps_per_second": 19.558,
       "epoch": 182.6086956521739,
       "step": 4200
     }
   ],
   "logging_steps": 10,
@@ -4086,7 +4231,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0822098760143667e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 189.1304347826087,
   "eval_steps": 150,
+  "global_step": 4350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 19.558,
       "epoch": 182.6086956521739,
       "step": 4200
+    },
+    {
+      "epoch": 183.04347826086956,
+      "grad_norm": 1.614182472229004,
+      "learning_rate": 1.5299748734455397e-07,
+      "loss": 0.211,
+      "step": 4210
+    },
+    {
+      "epoch": 183.47826086956522,
+      "grad_norm": 1.6402850151062012,
+      "learning_rate": 3.0599497468910794e-07,
+      "loss": 0.2423,
+      "step": 4220
+    },
+    {
+      "epoch": 183.91304347826087,
+      "grad_norm": 2.002448558807373,
+      "learning_rate": 4.589924620336618e-07,
+      "loss": 0.209,
+      "step": 4230
+    },
+    {
+      "epoch": 184.34782608695653,
+      "grad_norm": 2.5236711502075195,
+      "learning_rate": 6.119899493782159e-07,
+      "loss": 0.2611,
+      "step": 4240
+    },
+    {
+      "epoch": 184.7826086956522,
+      "grad_norm": 1.6767892837524414,
+      "learning_rate": 7.649874367227698e-07,
+      "loss": 0.2195,
+      "step": 4250
+    },
+    {
+      "epoch": 185.2173913043478,
+      "grad_norm": 2.1687870025634766,
+      "learning_rate": 9.179849240673236e-07,
+      "loss": 0.2131,
+      "step": 4260
+    },
+    {
+      "epoch": 185.65217391304347,
+      "grad_norm": 1.5472371578216553,
+      "learning_rate": 1.0709824114118776e-06,
+      "loss": 0.2283,
+      "step": 4270
+    },
+    {
+      "epoch": 186.08695652173913,
+      "grad_norm": 2.4626262187957764,
+      "learning_rate": 1.2239798987564317e-06,
+      "loss": 0.2744,
+      "step": 4280
+    },
+    {
+      "epoch": 186.52173913043478,
+      "grad_norm": 1.382519245147705,
+      "learning_rate": 1.3769773861009856e-06,
+      "loss": 0.2086,
+      "step": 4290
+    },
+    {
+      "epoch": 186.95652173913044,
+      "grad_norm": 1.9738290309906006,
+      "learning_rate": 1.5299748734455395e-06,
+      "loss": 0.2302,
+      "step": 4300
+    },
+    {
+      "epoch": 187.3913043478261,
+      "grad_norm": 2.3739991188049316,
+      "learning_rate": 1.5299747218372504e-06,
+      "loss": 0.2658,
+      "step": 4310
+    },
+    {
+      "epoch": 187.82608695652175,
+      "grad_norm": 1.786908745765686,
+      "learning_rate": 1.529974267012443e-06,
+      "loss": 0.1938,
+      "step": 4320
+    },
+    {
+      "epoch": 188.2608695652174,
+      "grad_norm": 2.060818672180176,
+      "learning_rate": 1.5299735089712976e-06,
+      "loss": 0.2269,
+      "step": 4330
+    },
+    {
+      "epoch": 188.69565217391303,
+      "grad_norm": 1.7497200965881348,
+      "learning_rate": 1.5299724477141145e-06,
+      "loss": 0.2566,
+      "step": 4340
+    },
+    {
+      "epoch": 189.1304347826087,
+      "grad_norm": 1.7452894449234009,
+      "learning_rate": 1.5299710832413148e-06,
+      "loss": 0.2235,
+      "step": 4350
+    },
+    {
+      "epoch": 189.1304347826087,
+      "eval_loss": 0.9762633442878723,
+      "eval_runtime": 0.4891,
+      "eval_samples_per_second": 20.445,
+      "eval_steps_per_second": 20.445,
+      "step": 4350
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.3959,
+      "Start_State_samples_per_second": 25.26,
+      "Start_State_steps_per_second": 25.26,
+      "epoch": 189.1304347826087,
+      "step": 4350
+    },
+    {
+      "Raw_Model_loss": 0.9762633442878723,
+      "Raw_Model_runtime": 0.3923,
+      "Raw_Model_samples_per_second": 25.488,
+      "Raw_Model_steps_per_second": 25.488,
+      "epoch": 189.1304347826087,
+      "step": 4350
+    },
+    {
+      "SWA_loss": 0.8078572154045105,
+      "SWA_runtime": 0.4156,
+      "SWA_samples_per_second": 24.059,
+      "SWA_steps_per_second": 24.059,
+      "epoch": 189.1304347826087,
+      "step": 4350
+    },
+    {
+      "EMA_loss": 0.8598043322563171,
+      "EMA_runtime": 0.3915,
+      "EMA_samples_per_second": 25.542,
+      "EMA_steps_per_second": 25.542,
+      "epoch": 189.1304347826087,
+      "step": 4350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1202954752684851e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null