Training in progress, step 61000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -6
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c41967e5432db5ed91bc1228a51744d8af764a94e341f801caf2cc8d0b340946
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ff3677e2a6c68c6a9bc84018c91a9abb1bcf7c14c1b566d1f4d545783476a72
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70cad043527913fd0557530d296a1fe5bc45ca60997f5c855298840644081537
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:95defb77fd9d966f9fb370451c779ea88fb6409a7bea604ae57a6a4ab86f381e
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6a4cb233f004dcf5c1bd7310c625e6acfeb53e49f5aa9a513759dc7631fff0b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8ee7735caca4437694ef1fa1c7821cadab81eb5dba9c8318224d8baee7f9384
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9201fef1295387122e53aeeb3fe425d2797e674a7be3dba9faefda446e2071fd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:80725391fd9590c70c1e5ba84487c80bcb26eb7012140d59e753f7bdbcc81863
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.40358993244913505,
   "eval_steps": 500,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10688,11 +10688,189 @@
       "eval_steps_per_second": 23.322,
       "num_input_tokens_seen": 15728640000,
       "step": 60000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 60000,
-  "num_input_tokens_seen": 15728640000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10702,12 +10880,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.2075647115264e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4103164313232873,
   "eval_steps": 500,
+  "global_step": 61000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.322,
       "num_input_tokens_seen": 15728640000,
       "step": 60000
+    },
+    {
+      "epoch": 0.40392625739284266,
+      "grad_norm": 0.2130047082901001,
+      "learning_rate": 0.0006867974850262581,
+      "loss": 3.0074,
+      "num_input_tokens_seen": 15741747200,
+      "step": 60050
+    },
+    {
+      "epoch": 0.40426258233655027,
+      "grad_norm": 0.18596570193767548,
+      "learning_rate": 0.000682235249939575,
+      "loss": 2.9981,
+      "num_input_tokens_seen": 15754854400,
+      "step": 60100
+    },
+    {
+      "epoch": 0.4045989072802579,
+      "grad_norm": 0.2774942219257355,
+      "learning_rate": 0.0006776554506402081,
+      "loss": 3.0024,
+      "num_input_tokens_seen": 15767961600,
+      "step": 60150
+    },
+    {
+      "epoch": 0.4049352322239655,
+      "grad_norm": 0.19329522550106049,
+      "learning_rate": 0.0006730585285387465,
+      "loss": 3.0101,
+      "num_input_tokens_seen": 15781068800,
+      "step": 60200
+    },
+    {
+      "epoch": 0.4052715571676731,
+      "grad_norm": 0.21384254097938538,
+      "learning_rate": 0.0006684449266961101,
+      "loss": 3.0095,
+      "num_input_tokens_seen": 15794176000,
+      "step": 60250
+    },
+    {
+      "epoch": 0.4056078821113807,
+      "grad_norm": 0.3892166018486023,
+      "learning_rate": 0.0006638150897808468,
+      "loss": 3.0101,
+      "num_input_tokens_seen": 15807283200,
+      "step": 60300
+    },
+    {
+      "epoch": 0.4059442070550883,
+      "grad_norm": 0.27356287837028503,
+      "learning_rate": 0.0006591694640262749,
+      "loss": 3.0322,
+      "num_input_tokens_seen": 15820390400,
+      "step": 60350
+    },
+    {
+      "epoch": 0.40628053199879594,
+      "grad_norm": 0.20498153567314148,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 3.0064,
+      "num_input_tokens_seen": 15833497600,
+      "step": 60400
+    },
+    {
+      "epoch": 0.40661685694250355,
+      "grad_norm": 0.19939659535884857,
+      "learning_rate": 0.0006498326384981283,
+      "loss": 3.0158,
+      "num_input_tokens_seen": 15846604800,
+      "step": 60450
+    },
+    {
+      "epoch": 0.40695318188621116,
+      "grad_norm": 0.24545226991176605,
+      "learning_rate": 0.0006451423386272311,
+      "loss": 3.0132,
+      "num_input_tokens_seen": 15859712000,
+      "step": 60500
+    },
+    {
+      "epoch": 0.40695318188621116,
+      "eval_loss": 2.914865255355835,
+      "eval_runtime": 51.2039,
+      "eval_samples_per_second": 97.649,
+      "eval_steps_per_second": 24.412,
+      "num_input_tokens_seen": 15859712000,
+      "step": 60500
+    },
+    {
+      "epoch": 0.40728950682991877,
+      "grad_norm": 0.2364359349012375,
+      "learning_rate": 0.0006404380496356461,
+      "loss": 3.0102,
+      "num_input_tokens_seen": 15872819200,
+      "step": 60550
+    },
+    {
+      "epoch": 0.4076258317736264,
+      "grad_norm": 0.19283762574195862,
+      "learning_rate": 0.0006357202249325371,
+      "loss": 3.0132,
+      "num_input_tokens_seen": 15885926400,
+      "step": 60600
+    },
+    {
+      "epoch": 0.40796215671733405,
+      "grad_norm": 0.19770501554012299,
+      "learning_rate": 0.0006309893192316686,
+      "loss": 3.0106,
+      "num_input_tokens_seen": 15899033600,
+      "step": 60650
+    },
+    {
+      "epoch": 0.40829848166104166,
+      "grad_norm": 0.18395134806632996,
+      "learning_rate": 0.000626245788507579,
+      "loss": 3.005,
+      "num_input_tokens_seen": 15912140800,
+      "step": 60700
+    },
+    {
+      "epoch": 0.40863480660474927,
+      "grad_norm": 0.21380823850631714,
+      "learning_rate": 0.000621490089951632,
+      "loss": 3.0106,
+      "num_input_tokens_seen": 15925248000,
+      "step": 60750
+    },
+    {
+      "epoch": 0.4089711315484569,
+      "grad_norm": 0.17995478212833405,
+      "learning_rate": 0.0006167226819279528,
+      "loss": 3.0237,
+      "num_input_tokens_seen": 15938355200,
+      "step": 60800
+    },
+    {
+      "epoch": 0.4093074564921645,
+      "grad_norm": 0.31993716955184937,
+      "learning_rate": 0.0006119440239292493,
+      "loss": 3.0158,
+      "num_input_tokens_seen": 15951462400,
+      "step": 60850
+    },
+    {
+      "epoch": 0.4096437814358721,
+      "grad_norm": 0.19210565090179443,
+      "learning_rate": 0.0006071545765325253,
+      "loss": 3.0121,
+      "num_input_tokens_seen": 15964569600,
+      "step": 60900
+    },
+    {
+      "epoch": 0.4099801063795797,
+      "grad_norm": 0.4126472771167755,
+      "learning_rate": 0.0006023548013546899,
+      "loss": 3.0215,
+      "num_input_tokens_seen": 15977676800,
+      "step": 60950
+    },
+    {
+      "epoch": 0.4103164313232873,
+      "grad_norm": 0.26418012380599976,
+      "learning_rate": 0.0005975451610080642,
+      "loss": 3.0125,
+      "num_input_tokens_seen": 15990784000,
+      "step": 61000
+    },
+    {
+      "epoch": 0.4103164313232873,
+      "eval_loss": 2.913696765899658,
+      "eval_runtime": 52.0924,
+      "eval_samples_per_second": 95.983,
+      "eval_steps_per_second": 23.996,
+      "num_input_tokens_seen": 15990784000,
+      "step": 61000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 70000,
+  "num_input_tokens_seen": 15990784000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.27769079005184e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae75bb2a8bb196138369db914584406a32731cac3b2572b642609f88b870f3b8
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:a964c444482261d405cae313adc306063a7a31a0cff9e89a43e151d806eeee7e
 size 6008