Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +295 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76199f37550c237193e7b172a4297285627e555188041cbdb5f430cc437dd10c
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:e24748dd822f756ed4242c60fb3d818c5f3f1403f7cb0cb26a0606a7d914d965
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c69a1783019f52033c5a249284550e08bebe3ffdf70a26f751e68f27100aba90
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdfefe9eb25e71faaeda047c0bbb4cb850579c1403c64a030c9a88643911c666
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5feb56512e955691dc9bb9a1e37b9dd590e06a961d7d94560b679e2730b03194
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76c4c2dca19bfb0a463693a0e409b44510488650d816e566bccd2a2851e9524
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cf3f988e8fed2daa2e801eb1f19b681872781cf57f0fb7b896e859a12cfe2bb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0b9a1e2fa3da24e9af8b74787d70ff4c95d9bc9b74eeab135df0350a00b462
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7964445352554321,
-  "best_model_checkpoint": "./output/checkpoint-150",
-  "epoch": 6.521739130434782,
   "eval_steps": 150,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -152,6 +152,296 @@
       "EMA_steps_per_second": 23.56,
       "epoch": 6.521739130434782,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -171,7 +461,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3894839614291968.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7163676619529724,
+  "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 19.565217391304348,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 23.56,
       "epoch": 6.521739130434782,
       "step": 150
+    },
+    {
+      "epoch": 6.956521739130435,
+      "grad_norm": 1.5398858785629272,
+      "learning_rate": 2.9999892980750297e-05,
+      "loss": 0.6588,
+      "step": 160
+    },
+    {
+      "epoch": 7.391304347826087,
+      "grad_norm": 1.3466821908950806,
+      "learning_rate": 2.9999854334972675e-05,
+      "loss": 0.7387,
+      "step": 170
+    },
+    {
+      "epoch": 7.826086956521739,
+      "grad_norm": 1.7265022993087769,
+      "learning_rate": 2.999980974373204e-05,
+      "loss": 0.7293,
+      "step": 180
+    },
+    {
+      "epoch": 8.26086956521739,
+      "grad_norm": 1.5390920639038086,
+      "learning_rate": 2.9999759207046075e-05,
+      "loss": 0.6246,
+      "step": 190
+    },
+    {
+      "epoch": 8.695652173913043,
+      "grad_norm": 1.741837501525879,
+      "learning_rate": 2.9999702724934804e-05,
+      "loss": 0.6763,
+      "step": 200
+    },
+    {
+      "epoch": 9.130434782608695,
+      "grad_norm": 1.0418298244476318,
+      "learning_rate": 2.999964029742062e-05,
+      "loss": 0.652,
+      "step": 210
+    },
+    {
+      "epoch": 9.565217391304348,
+      "grad_norm": 1.2192714214324951,
+      "learning_rate": 2.9999571924528263e-05,
+      "loss": 0.5594,
+      "step": 220
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.5348883867263794,
+      "learning_rate": 2.9999497606284837e-05,
+      "loss": 0.7558,
+      "step": 230
+    },
+    {
+      "epoch": 10.434782608695652,
+      "grad_norm": 1.4283764362335205,
+      "learning_rate": 2.9999417342719796e-05,
+      "loss": 0.7116,
+      "step": 240
+    },
+    {
+      "epoch": 10.869565217391305,
+      "grad_norm": 0.9756546020507812,
+      "learning_rate": 2.9999331133864956e-05,
+      "loss": 0.5897,
+      "step": 250
+    },
+    {
+      "epoch": 11.304347826086957,
+      "grad_norm": 1.1936676502227783,
+      "learning_rate": 2.9999238979754485e-05,
+      "loss": 0.6549,
+      "step": 260
+    },
+    {
+      "epoch": 11.73913043478261,
+      "grad_norm": 1.0490339994430542,
+      "learning_rate": 2.999914088042492e-05,
+      "loss": 0.6475,
+      "step": 270
+    },
+    {
+      "epoch": 12.173913043478262,
+      "grad_norm": 1.3118759393692017,
+      "learning_rate": 2.9999036835915132e-05,
+      "loss": 0.5939,
+      "step": 280
+    },
+    {
+      "epoch": 12.608695652173914,
+      "grad_norm": 1.0843631029129028,
+      "learning_rate": 2.9998926846266365e-05,
+      "loss": 0.6327,
+      "step": 290
+    },
+    {
+      "epoch": 13.043478260869565,
+      "grad_norm": 1.3878614902496338,
+      "learning_rate": 2.9998810911522213e-05,
+      "loss": 0.5806,
+      "step": 300
+    },
+    {
+      "epoch": 13.043478260869565,
+      "eval_loss": 0.7306283712387085,
+      "eval_runtime": 0.4835,
+      "eval_samples_per_second": 20.682,
+      "eval_steps_per_second": 20.682,
+      "step": 300
+    },
+    {
+      "Start_State_loss": 0.8603047132492065,
+      "Start_State_runtime": 0.4005,
+      "Start_State_samples_per_second": 24.967,
+      "Start_State_steps_per_second": 24.967,
+      "epoch": 13.043478260869565,
+      "step": 300
+    },
+    {
+      "Raw_Model_loss": 0.7306283712387085,
+      "Raw_Model_runtime": 0.4064,
+      "Raw_Model_samples_per_second": 24.606,
+      "Raw_Model_steps_per_second": 24.606,
+      "epoch": 13.043478260869565,
+      "step": 300
+    },
+    {
+      "SWA_loss": 0.7750393152236938,
+      "SWA_runtime": 0.3955,
+      "SWA_samples_per_second": 25.283,
+      "SWA_steps_per_second": 25.283,
+      "epoch": 13.043478260869565,
+      "step": 300
+    },
+    {
+      "EMA_loss": 0.8608482480049133,
+      "EMA_runtime": 0.5237,
+      "EMA_samples_per_second": 19.095,
+      "EMA_steps_per_second": 19.095,
+      "epoch": 13.043478260869565,
+      "step": 300
+    },
+    {
+      "epoch": 13.478260869565217,
+      "grad_norm": 1.7818219661712646,
+      "learning_rate": 2.9998689031728636e-05,
+      "loss": 0.5145,
+      "step": 310
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 1.5318005084991455,
+      "learning_rate": 2.9998561206933938e-05,
+      "loss": 0.6498,
+      "step": 320
+    },
+    {
+      "epoch": 14.347826086956522,
+      "grad_norm": 1.4785107374191284,
+      "learning_rate": 2.9998427437188786e-05,
+      "loss": 0.5741,
+      "step": 330
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 1.316670298576355,
+      "learning_rate": 2.99982877225462e-05,
+      "loss": 0.601,
+      "step": 340
+    },
+    {
+      "epoch": 15.217391304347826,
+      "grad_norm": 0.9790920615196228,
+      "learning_rate": 2.9998142063061564e-05,
+      "loss": 0.4988,
+      "step": 350
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 1.6420996189117432,
+      "learning_rate": 2.9997990458792603e-05,
+      "loss": 0.5628,
+      "step": 360
+    },
+    {
+      "epoch": 16.08695652173913,
+      "grad_norm": 1.634116530418396,
+      "learning_rate": 2.9997832909799417e-05,
+      "loss": 0.6675,
+      "step": 370
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 0.9527355432510376,
+      "learning_rate": 2.9997669416144452e-05,
+      "loss": 0.513,
+      "step": 380
+    },
+    {
+      "epoch": 16.956521739130434,
+      "grad_norm": 0.935023307800293,
+      "learning_rate": 2.999749997789251e-05,
+      "loss": 0.5796,
+      "step": 390
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 1.1128907203674316,
+      "learning_rate": 2.9997324595110743e-05,
+      "loss": 0.518,
+      "step": 400
+    },
+    {
+      "epoch": 17.82608695652174,
+      "grad_norm": 1.284473180770874,
+      "learning_rate": 2.9997143267868683e-05,
+      "loss": 0.5879,
+      "step": 410
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 1.1633063554763794,
+      "learning_rate": 2.9996955996238192e-05,
+      "loss": 0.5056,
+      "step": 420
+    },
+    {
+      "epoch": 18.695652173913043,
+      "grad_norm": 1.2012042999267578,
+      "learning_rate": 2.9996762780293503e-05,
+      "loss": 0.5312,
+      "step": 430
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 1.21055006980896,
+      "learning_rate": 2.9996563620111197e-05,
+      "loss": 0.5337,
+      "step": 440
+    },
+    {
+      "epoch": 19.565217391304348,
+      "grad_norm": 1.4241245985031128,
+      "learning_rate": 2.9996358515770218e-05,
+      "loss": 0.5676,
+      "step": 450
+    },
+    {
+      "epoch": 19.565217391304348,
+      "eval_loss": 0.7163676619529724,
+      "eval_runtime": 0.4066,
+      "eval_samples_per_second": 24.595,
+      "eval_steps_per_second": 24.595,
+      "step": 450
+    },
+    {
+      "Start_State_loss": 0.8603047132492065,
+      "Start_State_runtime": 0.3916,
+      "Start_State_samples_per_second": 25.534,
+      "Start_State_steps_per_second": 25.534,
+      "epoch": 19.565217391304348,
+      "step": 450
+    },
+    {
+      "Raw_Model_loss": 0.7163676619529724,
+      "Raw_Model_runtime": 0.4047,
+      "Raw_Model_samples_per_second": 24.71,
+      "Raw_Model_steps_per_second": 24.71,
+      "epoch": 19.565217391304348,
+      "step": 450
+    },
+    {
+      "SWA_loss": 0.7558408975601196,
+      "SWA_runtime": 0.3909,
+      "SWA_samples_per_second": 25.583,
+      "SWA_steps_per_second": 25.583,
+      "epoch": 19.565217391304348,
+      "step": 450
+    },
+    {
+      "EMA_loss": 0.8608372807502747,
+      "EMA_runtime": 0.3933,
+      "EMA_samples_per_second": 25.426,
+      "EMA_steps_per_second": 25.426,
+      "epoch": 19.565217391304348,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1591800814075904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null