Training in progress, step 3450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:561dd93e7200e620b3a628a98f78b77e49214dc77820bd53e01765ece4e79aaf
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad88d566a2de22280de9f59b5c145992a9fd5fe8fe840eb9fb608784af8061f4
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2fbfde6e57429b12b8a8888f9861f253842d30f7969950972c18e96feefbcc7
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:1414fec916d0b25beb8d137f45e63474d39eeed8c60eddd52432b5ce01f3b4b6
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c26e3773f4be8664a2594f025c73a5f9434f857a45f46fc072657f1fdefb7000
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:da7a2430b39e5e44cb64bbbf1f8e636e91b380491fea68813c5289acab7fa99d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a0ab9d5b0198a16acdaf1c9f1e4c57811cdaac3c11a1070ce9660ad9c246b9d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94e1d8202f6c1b191d74521b1a79cc0e162b70d269a8fc663a163d38b719239
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 143.47826086956522,
   "eval_steps": 150,
-  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3197,6 +3197,151 @@
       "EMA_steps_per_second": 24.887,
       "epoch": 143.47826086956522,
       "step": 3300
     }
   ],
   "logging_steps": 10,
@@ -3216,7 +3361,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.51203574828974e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 150.0,
   "eval_steps": 150,
+  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.887,
       "epoch": 143.47826086956522,
       "step": 3300
+    },
+    {
+      "epoch": 143.91304347826087,
+      "grad_norm": 1.9059531688690186,
+      "learning_rate": 3.909079208908198e-06,
+      "loss": 0.2535,
+      "step": 3310
+    },
+    {
+      "epoch": 144.34782608695653,
+      "grad_norm": 1.500815510749817,
+      "learning_rate": 3.909039307686411e-06,
+      "loss": 0.2141,
+      "step": 3320
+    },
+    {
+      "epoch": 144.7826086956522,
+      "grad_norm": 1.7481781244277954,
+      "learning_rate": 3.908998631963098e-06,
+      "loss": 0.2706,
+      "step": 3330
+    },
+    {
+      "epoch": 145.2173913043478,
+      "grad_norm": 2.9067223072052,
+      "learning_rate": 3.908957181754379e-06,
+      "loss": 0.2078,
+      "step": 3340
+    },
+    {
+      "epoch": 145.65217391304347,
+      "grad_norm": 1.8537293672561646,
+      "learning_rate": 3.908914957076686e-06,
+      "loss": 0.2382,
+      "step": 3350
+    },
+    {
+      "epoch": 146.08695652173913,
+      "grad_norm": 2.053541421890259,
+      "learning_rate": 3.908871957946754e-06,
+      "loss": 0.265,
+      "step": 3360
+    },
+    {
+      "epoch": 146.52173913043478,
+      "grad_norm": 2.026669979095459,
+      "learning_rate": 3.908828184381628e-06,
+      "loss": 0.2265,
+      "step": 3370
+    },
+    {
+      "epoch": 146.95652173913044,
+      "grad_norm": 1.6259890794754028,
+      "learning_rate": 3.908783636398657e-06,
+      "loss": 0.2153,
+      "step": 3380
+    },
+    {
+      "epoch": 147.3913043478261,
+      "grad_norm": 1.7665131092071533,
+      "learning_rate": 3.908738314015499e-06,
+      "loss": 0.2287,
+      "step": 3390
+    },
+    {
+      "epoch": 147.82608695652175,
+      "grad_norm": 1.5578436851501465,
+      "learning_rate": 3.908692217250118e-06,
+      "loss": 0.2535,
+      "step": 3400
+    },
+    {
+      "epoch": 148.2608695652174,
+      "grad_norm": 1.5355435609817505,
+      "learning_rate": 3.908645346120786e-06,
+      "loss": 0.2154,
+      "step": 3410
+    },
+    {
+      "epoch": 148.69565217391303,
+      "grad_norm": 1.8538081645965576,
+      "learning_rate": 3.908597700646081e-06,
+      "loss": 0.2498,
+      "step": 3420
+    },
+    {
+      "epoch": 149.1304347826087,
+      "grad_norm": 1.8780725002288818,
+      "learning_rate": 3.908549280844888e-06,
+      "loss": 0.2714,
+      "step": 3430
+    },
+    {
+      "epoch": 149.56521739130434,
+      "grad_norm": 2.210402250289917,
+      "learning_rate": 3.908500086736398e-06,
+      "loss": 0.2647,
+      "step": 3440
+    },
+    {
+      "epoch": 150.0,
+      "grad_norm": 3.242107391357422,
+      "learning_rate": 3.908450118340112e-06,
+      "loss": 0.2203,
+      "step": 3450
+    },
+    {
+      "epoch": 150.0,
+      "eval_loss": 0.9529827237129211,
+      "eval_runtime": 0.4227,
+      "eval_samples_per_second": 23.657,
+      "eval_steps_per_second": 23.657,
+      "step": 3450
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4313,
+      "Start_State_samples_per_second": 23.184,
+      "Start_State_steps_per_second": 23.184,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "Raw_Model_loss": 0.9529827237129211,
+      "Raw_Model_runtime": 0.4191,
+      "Raw_Model_samples_per_second": 23.858,
+      "Raw_Model_steps_per_second": 23.858,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "SWA_loss": 0.7833188772201538,
+      "SWA_runtime": 0.4121,
+      "SWA_samples_per_second": 24.265,
+      "SWA_steps_per_second": 24.265,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "EMA_loss": 0.8595975637435913,
+      "EMA_runtime": 0.4017,
+      "EMA_samples_per_second": 24.892,
+      "EMA_steps_per_second": 24.892,
+      "epoch": 150.0,
+      "step": 3450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.89909420608553e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null