Training in progress, step 70000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +183 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c67ab3cac009a5afdc201af7f0117dd68a478413d54e0923fe125d5f63dd515
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:0815144315751afde957889b3801664e381aaf78af5aaa224fc2449fb124f643
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d01209ddef39b46affb20fe03502cb8000499194b31764df158aa95dc134101e
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:1eb8d729362c485fd51b577b67e8426946112c542b67c6dbee290cc17eda6309
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1397d04798a1fd86f4b074ba5cc769a269eab9bb0994d2bcfee86faa58f609a6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f91f0395ad8bb44fd81f1444330dede040f6b66dbc15e61e2a7fe4c1ef60aa2a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bba508cada3fb6a2130ffab8142880b38ad6264731466b5965eb74743d23afc9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c3a675e6db9104dd282c679a41cb4bdc17a98118d756c948d809458e24a6b37
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4641284223165053,
   "eval_steps": 500,
-  "global_step": 69000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12290,11 +12290,189 @@
       "eval_steps_per_second": 23.529,
       "num_input_tokens_seen": 18087936000,
       "step": 69000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 18087936000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -12304,12 +12482,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.83869941825536e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4708549211906576,
   "eval_steps": 500,
+  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.529,
       "num_input_tokens_seen": 18087936000,
       "step": 69000
+    },
+    {
+      "epoch": 0.4644647472602129,
+      "grad_norm": 0.1424110382795334,
+      "learning_rate": 8.67336033464411e-06,
+      "loss": 2.9591,
+      "num_input_tokens_seen": 18101043200,
+      "step": 69050
+    },
+    {
+      "epoch": 0.46480107220392053,
+      "grad_norm": 0.14686723053455353,
+      "learning_rate": 7.786715955054202e-06,
+      "loss": 2.9561,
+      "num_input_tokens_seen": 18114150400,
+      "step": 69100
+    },
+    {
+      "epoch": 0.46513739714762814,
+      "grad_norm": 0.13719068467617035,
+      "learning_rate": 6.947512116245669e-06,
+      "loss": 2.9629,
+      "num_input_tokens_seen": 18127257600,
+      "step": 69150
+    },
+    {
+      "epoch": 0.46547372209133575,
+      "grad_norm": 0.14337210357189178,
+      "learning_rate": 6.15582970243117e-06,
+      "loss": 2.9713,
+      "num_input_tokens_seen": 18140364800,
+      "step": 69200
+    },
+    {
+      "epoch": 0.46581004703504336,
+      "grad_norm": 0.18305008113384247,
+      "learning_rate": 5.411745017609493e-06,
+      "loss": 2.9659,
+      "num_input_tokens_seen": 18153472000,
+      "step": 69250
+    },
+    {
+      "epoch": 0.466146371978751,
+      "grad_norm": 0.137322798371315,
+      "learning_rate": 4.715329778211374e-06,
+      "loss": 2.9678,
+      "num_input_tokens_seen": 18166579200,
+      "step": 69300
+    },
+    {
+      "epoch": 0.4664826969224586,
+      "grad_norm": 0.13300293684005737,
+      "learning_rate": 4.066651106186981e-06,
+      "loss": 2.9647,
+      "num_input_tokens_seen": 18179686400,
+      "step": 69350
+    },
+    {
+      "epoch": 0.4668190218661662,
+      "grad_norm": 0.13357709348201752,
+      "learning_rate": 3.4657715225368535e-06,
+      "loss": 2.965,
+      "num_input_tokens_seen": 18192793600,
+      "step": 69400
+    },
+    {
+      "epoch": 0.4671553468098738,
+      "grad_norm": 0.13399702310562134,
+      "learning_rate": 2.9127489412859033e-06,
+      "loss": 2.9614,
+      "num_input_tokens_seen": 18205900800,
+      "step": 69450
+    },
+    {
+      "epoch": 0.4674916717535814,
+      "grad_norm": 0.13703274726867676,
+      "learning_rate": 2.4076366639015913e-06,
+      "loss": 2.964,
+      "num_input_tokens_seen": 18219008000,
+      "step": 69500
+    },
+    {
+      "epoch": 0.4674916717535814,
+      "eval_loss": 2.8645894527435303,
+      "eval_runtime": 53.3524,
+      "eval_samples_per_second": 93.716,
+      "eval_steps_per_second": 23.429,
+      "num_input_tokens_seen": 18219008000,
+      "step": 69500
+    },
+    {
+      "epoch": 0.46782799669728903,
+      "grad_norm": 0.3837803900241852,
+      "learning_rate": 1.950483374156431e-06,
+      "loss": 2.9665,
+      "num_input_tokens_seen": 18232115200,
+      "step": 69550
+    },
+    {
+      "epoch": 0.46816432164099664,
+      "grad_norm": 0.13585589826107025,
+      "learning_rate": 1.541333133436018e-06,
+      "loss": 2.9579,
+      "num_input_tokens_seen": 18245222400,
+      "step": 69600
+    },
+    {
+      "epoch": 0.4685006465847043,
+      "grad_norm": 0.13347585499286652,
+      "learning_rate": 1.18022537649215e-06,
+      "loss": 2.9636,
+      "num_input_tokens_seen": 18258329600,
+      "step": 69650
+    },
+    {
+      "epoch": 0.4688369715284119,
+      "grad_norm": 0.13726544380187988,
+      "learning_rate": 8.671949076420882e-07,
+      "loss": 2.9626,
+      "num_input_tokens_seen": 18271436800,
+      "step": 69700
+    },
+    {
+      "epoch": 0.4691732964721195,
+      "grad_norm": 0.14254987239837646,
+      "learning_rate": 6.022718974137975e-07,
+      "loss": 2.9698,
+      "num_input_tokens_seen": 18284544000,
+      "step": 69750
+    },
+    {
+      "epoch": 0.46950962141582714,
+      "grad_norm": 0.1329219937324524,
+      "learning_rate": 3.854818796385495e-07,
+      "loss": 2.96,
+      "num_input_tokens_seen": 18297651200,
+      "step": 69800
+    },
+    {
+      "epoch": 0.46984594635953475,
+      "grad_norm": 0.1384582668542862,
+      "learning_rate": 2.1684574898939157e-07,
+      "loss": 2.9693,
+      "num_input_tokens_seen": 18310758400,
+      "step": 69850
+    },
+    {
+      "epoch": 0.47018227130324236,
+      "grad_norm": 0.14365264773368835,
+      "learning_rate": 9.637975896759077e-08,
+      "loss": 2.9686,
+      "num_input_tokens_seen": 18323865600,
+      "step": 69900
+    },
+    {
+      "epoch": 0.47051859624694997,
+      "grad_norm": 0.13613733649253845,
+      "learning_rate": 2.4095520335998265e-08,
+      "loss": 2.9607,
+      "num_input_tokens_seen": 18336972800,
+      "step": 69950
+    },
+    {
+      "epoch": 0.4708549211906576,
+      "grad_norm": 0.14377959072589874,
+      "learning_rate": 0.0,
+      "loss": 2.9684,
+      "num_input_tokens_seen": 18350080000,
+      "step": 70000
+    },
+    {
+      "epoch": 0.4708549211906576,
+      "eval_loss": 2.8644959926605225,
+      "eval_runtime": 54.0337,
+      "eval_samples_per_second": 92.535,
+      "eval_steps_per_second": 23.134,
+      "num_input_tokens_seen": 18350080000,
+      "step": 70000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 18350080000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.9088254967808e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null