Training in progress, step 26000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca1305d807a0d62209066bee9cbe48b75438f197b4d11307eb4ba5e592a11386
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:28394340845b35c88e8a63417e18c503dadf4a251790835d2715e5a4962f656e
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed4d9687ffe945b21f6759ab92e79d3a46252bbf5731184d996dc881364e21e9
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:4565341b2daf769a1d6b98280e7a99c73d3df5a11f570b225860490fa5b0252c
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a59157d1ca64ffae44fbe8134d666bfe8e12822f27ca50fb6e1f0b29f58d3b64
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b4ee497eed0fe85641f8ca254d6d7e11e60873712ef2108d29f717bef60c5dd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8c565830d05eccabcd7df396792d29e3638ccbd6988e240ff15902ef690b7e6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ced8856b9ff194699de7fca54070bd17a17efd31d5f5d4d7e4c8ff1ec712ca9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.549151081072547,
   "eval_steps": 500,
-  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4458,11 +4458,189 @@
       "eval_steps_per_second": 18.595,
       "num_input_tokens_seen": 26214396160,
       "step": 25000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 26214396160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -4477,7 +4655,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.492929071221506e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5711171243154488,
   "eval_steps": 500,
+  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.595,
       "num_input_tokens_seen": 26214396160,
       "step": 25000
+    },
+    {
+      "epoch": 0.5502493832346921,
+      "grad_norm": 0.16484692692756653,
+      "learning_rate": 0.001,
+      "loss": 2.6843,
+      "num_input_tokens_seen": 26266824960,
+      "step": 25050
+    },
+    {
+      "epoch": 0.5513476853968372,
+      "grad_norm": 0.1583317369222641,
+      "learning_rate": 0.001,
+      "loss": 2.6825,
+      "num_input_tokens_seen": 26319253760,
+      "step": 25100
+    },
+    {
+      "epoch": 0.5524459875589822,
+      "grad_norm": 0.1569424867630005,
+      "learning_rate": 0.001,
+      "loss": 2.6787,
+      "num_input_tokens_seen": 26371682560,
+      "step": 25150
+    },
+    {
+      "epoch": 0.5535442897211273,
+      "grad_norm": 0.13633306324481964,
+      "learning_rate": 0.001,
+      "loss": 2.6872,
+      "num_input_tokens_seen": 26424111360,
+      "step": 25200
+    },
+    {
+      "epoch": 0.5546425918832725,
+      "grad_norm": 0.1480533927679062,
+      "learning_rate": 0.001,
+      "loss": 2.6842,
+      "num_input_tokens_seen": 26476540160,
+      "step": 25250
+    },
+    {
+      "epoch": 0.5557408940454175,
+      "grad_norm": 0.1267666518688202,
+      "learning_rate": 0.001,
+      "loss": 2.6839,
+      "num_input_tokens_seen": 26528968960,
+      "step": 25300
+    },
+    {
+      "epoch": 0.5568391962075626,
+      "grad_norm": 0.13951599597930908,
+      "learning_rate": 0.001,
+      "loss": 2.6799,
+      "num_input_tokens_seen": 26581397760,
+      "step": 25350
+    },
+    {
+      "epoch": 0.5579374983697077,
+      "grad_norm": 0.15044580399990082,
+      "learning_rate": 0.001,
+      "loss": 2.6846,
+      "num_input_tokens_seen": 26633826560,
+      "step": 25400
+    },
+    {
+      "epoch": 0.5590358005318529,
+      "grad_norm": 0.12891829013824463,
+      "learning_rate": 0.001,
+      "loss": 2.682,
+      "num_input_tokens_seen": 26686255360,
+      "step": 25450
+    },
+    {
+      "epoch": 0.5601341026939979,
+      "grad_norm": 0.12812241911888123,
+      "learning_rate": 0.001,
+      "loss": 2.684,
+      "num_input_tokens_seen": 26738684160,
+      "step": 25500
+    },
+    {
+      "epoch": 0.5601341026939979,
+      "eval_loss": 2.5832085609436035,
+      "eval_runtime": 66.9038,
+      "eval_samples_per_second": 74.734,
+      "eval_steps_per_second": 18.684,
+      "num_input_tokens_seen": 26738684160,
+      "step": 25500
+    },
+    {
+      "epoch": 0.561232404856143,
+      "grad_norm": 0.14243654906749725,
+      "learning_rate": 0.001,
+      "loss": 2.6883,
+      "num_input_tokens_seen": 26791112960,
+      "step": 25550
+    },
+    {
+      "epoch": 0.5623307070182881,
+      "grad_norm": 0.14436320960521698,
+      "learning_rate": 0.001,
+      "loss": 2.6835,
+      "num_input_tokens_seen": 26843541760,
+      "step": 25600
+    },
+    {
+      "epoch": 0.5634290091804331,
+      "grad_norm": 0.1516960710287094,
+      "learning_rate": 0.001,
+      "loss": 2.6752,
+      "num_input_tokens_seen": 26895970560,
+      "step": 25650
+    },
+    {
+      "epoch": 0.5645273113425783,
+      "grad_norm": 0.14002515375614166,
+      "learning_rate": 0.001,
+      "loss": 2.6817,
+      "num_input_tokens_seen": 26948399360,
+      "step": 25700
+    },
+    {
+      "epoch": 0.5656256135047234,
+      "grad_norm": 0.1379036009311676,
+      "learning_rate": 0.001,
+      "loss": 2.6904,
+      "num_input_tokens_seen": 27000828160,
+      "step": 25750
+    },
+    {
+      "epoch": 0.5667239156668685,
+      "grad_norm": 0.16127964854240417,
+      "learning_rate": 0.001,
+      "loss": 2.6813,
+      "num_input_tokens_seen": 27053256960,
+      "step": 25800
+    },
+    {
+      "epoch": 0.5678222178290135,
+      "grad_norm": 0.15714125335216522,
+      "learning_rate": 0.001,
+      "loss": 2.6851,
+      "num_input_tokens_seen": 27105685760,
+      "step": 25850
+    },
+    {
+      "epoch": 0.5689205199911587,
+      "grad_norm": 0.15288160741329193,
+      "learning_rate": 0.001,
+      "loss": 2.6832,
+      "num_input_tokens_seen": 27158114560,
+      "step": 25900
+    },
+    {
+      "epoch": 0.5700188221533038,
+      "grad_norm": 0.1398363709449768,
+      "learning_rate": 0.001,
+      "loss": 2.6814,
+      "num_input_tokens_seen": 27210543360,
+      "step": 25950
+    },
+    {
+      "epoch": 0.5711171243154488,
+      "grad_norm": 0.15253235399723053,
+      "learning_rate": 0.001,
+      "loss": 2.6755,
+      "num_input_tokens_seen": 27262972160,
+      "step": 26000
+    },
+    {
+      "epoch": 0.5711171243154488,
+      "eval_loss": 2.5809168815612793,
+      "eval_runtime": 66.151,
+      "eval_samples_per_second": 75.585,
+      "eval_steps_per_second": 18.896,
+      "num_input_tokens_seen": 27262972160,
+      "step": 26000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 27262972160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.5526462428179988e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null