Training in progress, step 3600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad88d566a2de22280de9f59b5c145992a9fd5fe8fe840eb9fb608784af8061f4
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fcde8fff671a9e3943a7206216f5aa93c2c1394ad15e27c488e3a5ce5334895
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1414fec916d0b25beb8d137f45e63474d39eeed8c60eddd52432b5ce01f3b4b6
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:efd66e2f145ff8ba7f09e1ad5b11fdf963e4fd8ce95a14181fab94269e9fb8ca
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da7a2430b39e5e44cb64bbbf1f8e636e91b380491fea68813c5289acab7fa99d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:44222b1bb3193020a7e558d8efc91533b7bf22b40de2edd049f9d11da894b760
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94e1d8202f6c1b191d74521b1a79cc0e162b70d269a8fc663a163d38b719239
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3293218b6796a13a9f95a7300ab605072092402c0dbdc9fe7b53627646555830
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 150.0,
   "eval_steps": 150,
-  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3342,6 +3342,151 @@
       "EMA_steps_per_second": 24.892,
       "epoch": 150.0,
       "step": 3450
     }
   ],
   "logging_steps": 10,
@@ -3361,7 +3506,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.89909420608553e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 156.52173913043478,
   "eval_steps": 150,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.892,
       "epoch": 150.0,
       "step": 3450
+    },
+    {
+      "epoch": 150.43478260869566,
+      "grad_norm": 1.7044988870620728,
+      "learning_rate": 2.513945738151511e-07,
+      "loss": 0.2135,
+      "step": 3460
+    },
+    {
+      "epoch": 150.8695652173913,
+      "grad_norm": 2.001293897628784,
+      "learning_rate": 5.027891476303022e-07,
+      "loss": 0.2623,
+      "step": 3470
+    },
+    {
+      "epoch": 151.30434782608697,
+      "grad_norm": 1.6400986909866333,
+      "learning_rate": 7.541837214454532e-07,
+      "loss": 0.1997,
+      "step": 3480
+    },
+    {
+      "epoch": 151.7391304347826,
+      "grad_norm": 2.337966203689575,
+      "learning_rate": 1.0055782952606044e-06,
+      "loss": 0.2472,
+      "step": 3490
+    },
+    {
+      "epoch": 152.17391304347825,
+      "grad_norm": 2.081322431564331,
+      "learning_rate": 1.2569728690757554e-06,
+      "loss": 0.2426,
+      "step": 3500
+    },
+    {
+      "epoch": 152.6086956521739,
+      "grad_norm": 1.6173598766326904,
+      "learning_rate": 1.5083674428909064e-06,
+      "loss": 0.2398,
+      "step": 3510
+    },
+    {
+      "epoch": 153.04347826086956,
+      "grad_norm": 1.571141004562378,
+      "learning_rate": 1.7597620167060574e-06,
+      "loss": 0.2069,
+      "step": 3520
+    },
+    {
+      "epoch": 153.47826086956522,
+      "grad_norm": 2.327928066253662,
+      "learning_rate": 2.011156590521209e-06,
+      "loss": 0.2502,
+      "step": 3530
+    },
+    {
+      "epoch": 153.91304347826087,
+      "grad_norm": 2.673839807510376,
+      "learning_rate": 2.2625511643363598e-06,
+      "loss": 0.232,
+      "step": 3540
+    },
+    {
+      "epoch": 154.34782608695653,
+      "grad_norm": 2.2869648933410645,
+      "learning_rate": 2.5139457381515108e-06,
+      "loss": 0.2399,
+      "step": 3550
+    },
+    {
+      "epoch": 154.7826086956522,
+      "grad_norm": 2.043811798095703,
+      "learning_rate": 2.5139454890395686e-06,
+      "loss": 0.2345,
+      "step": 3560
+    },
+    {
+      "epoch": 155.2173913043478,
+      "grad_norm": 1.682305932044983,
+      "learning_rate": 2.51394474170384e-06,
+      "loss": 0.1958,
+      "step": 3570
+    },
+    {
+      "epoch": 155.65217391304347,
+      "grad_norm": 2.0729916095733643,
+      "learning_rate": 2.5139434961446224e-06,
+      "loss": 0.2663,
+      "step": 3580
+    },
+    {
+      "epoch": 156.08695652173913,
+      "grad_norm": 1.6533286571502686,
+      "learning_rate": 2.513941752362408e-06,
+      "loss": 0.2031,
+      "step": 3590
+    },
+    {
+      "epoch": 156.52173913043478,
+      "grad_norm": 2.51108980178833,
+      "learning_rate": 2.5139395103578894e-06,
+      "loss": 0.2679,
+      "step": 3600
+    },
+    {
+      "epoch": 156.52173913043478,
+      "eval_loss": 0.9608185887336731,
+      "eval_runtime": 0.4253,
+      "eval_samples_per_second": 23.515,
+      "eval_steps_per_second": 23.515,
+      "step": 3600
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.413,
+      "Start_State_samples_per_second": 24.215,
+      "Start_State_steps_per_second": 24.215,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "Raw_Model_loss": 0.9608185887336731,
+      "Raw_Model_runtime": 0.419,
+      "Raw_Model_samples_per_second": 23.864,
+      "Raw_Model_steps_per_second": 23.864,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "SWA_loss": 0.7903212308883667,
+      "SWA_runtime": 0.4071,
+      "SWA_samples_per_second": 24.562,
+      "SWA_steps_per_second": 24.562,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "EMA_loss": 0.8596304059028625,
+      "EMA_runtime": 0.4003,
+      "EMA_samples_per_second": 24.982,
+      "EMA_steps_per_second": 24.982,
+      "epoch": 156.52173913043478,
+      "step": 3600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.28760054861906e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null