Training in progress, step 36000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39e47431790297c8d1ac0d590138e540ff35b008c08f15b4fec92555b68b3ca0
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:efae6f25b472bb0e65dad8b999f6e73025004f81855c74ec54fc8ecdd3a25a3d
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cb4360f6e3ef0a4db7ef43d5c8060cb784d63688538fb77fe4f179313685acd
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcd1e62e2d3104319cb00e159562f9ab40349a35045ca52ca467e6336a9d4925
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3505914cea5cefe31834749326fbe845962aa02c10480cbc9f90524db4d28f1f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3105f55ffa4117a580fe7ec380b19db2b68da0c57679e9557361f205c3d7ca03
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c432826b41d4d9850a94ad79c80845280b64911bf27c831beef66a783066385f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5a2a9a97378c1b7631d78a28de277749231ad65f077c045df73323c2c2b85da
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7688115135015657,
   "eval_steps": 500,
-  "global_step": 35000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6238,11 +6238,189 @@
       "eval_steps_per_second": 18.399,
       "num_input_tokens_seen": 36700156160,
       "step": 35000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 36700156160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -6257,7 +6435,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.090100787186434e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7907775567444676,
   "eval_steps": 500,
+  "global_step": 36000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.399,
       "num_input_tokens_seen": 36700156160,
       "step": 35000
+    },
+    {
+      "epoch": 0.7699098156637109,
+      "grad_norm": 0.14624406397342682,
+      "learning_rate": 0.001,
+      "loss": 2.657,
+      "num_input_tokens_seen": 36752584960,
+      "step": 35050
+    },
+    {
+      "epoch": 0.771008117825856,
+      "grad_norm": 0.16855786740779877,
+      "learning_rate": 0.001,
+      "loss": 2.6585,
+      "num_input_tokens_seen": 36805013760,
+      "step": 35100
+    },
+    {
+      "epoch": 0.772106419988001,
+      "grad_norm": 0.1439932882785797,
+      "learning_rate": 0.001,
+      "loss": 2.6653,
+      "num_input_tokens_seen": 36857442560,
+      "step": 35150
+    },
+    {
+      "epoch": 0.7732047221501461,
+      "grad_norm": 0.16299331188201904,
+      "learning_rate": 0.001,
+      "loss": 2.6621,
+      "num_input_tokens_seen": 36909871360,
+      "step": 35200
+    },
+    {
+      "epoch": 0.7743030243122913,
+      "grad_norm": 0.16961826384067535,
+      "learning_rate": 0.001,
+      "loss": 2.6545,
+      "num_input_tokens_seen": 36962300160,
+      "step": 35250
+    },
+    {
+      "epoch": 0.7754013264744364,
+      "grad_norm": 0.13337954878807068,
+      "learning_rate": 0.001,
+      "loss": 2.652,
+      "num_input_tokens_seen": 37014728960,
+      "step": 35300
+    },
+    {
+      "epoch": 0.7764996286365814,
+      "grad_norm": 0.1728074699640274,
+      "learning_rate": 0.001,
+      "loss": 2.6631,
+      "num_input_tokens_seen": 37067157760,
+      "step": 35350
+    },
+    {
+      "epoch": 0.7775979307987265,
+      "grad_norm": 0.16615192592144012,
+      "learning_rate": 0.001,
+      "loss": 2.6551,
+      "num_input_tokens_seen": 37119586560,
+      "step": 35400
+    },
+    {
+      "epoch": 0.7786962329608716,
+      "grad_norm": 0.1515650749206543,
+      "learning_rate": 0.001,
+      "loss": 2.6529,
+      "num_input_tokens_seen": 37172015360,
+      "step": 35450
+    },
+    {
+      "epoch": 0.7797945351230167,
+      "grad_norm": 0.1534053236246109,
+      "learning_rate": 0.001,
+      "loss": 2.6567,
+      "num_input_tokens_seen": 37224444160,
+      "step": 35500
+    },
+    {
+      "epoch": 0.7797945351230167,
+      "eval_loss": 2.55454683303833,
+      "eval_runtime": 67.0727,
+      "eval_samples_per_second": 74.546,
+      "eval_steps_per_second": 18.637,
+      "num_input_tokens_seen": 37224444160,
+      "step": 35500
+    },
+    {
+      "epoch": 0.7808928372851618,
+      "grad_norm": 0.16377541422843933,
+      "learning_rate": 0.001,
+      "loss": 2.6552,
+      "num_input_tokens_seen": 37276872960,
+      "step": 35550
+    },
+    {
+      "epoch": 0.7819911394473069,
+      "grad_norm": 0.14807477593421936,
+      "learning_rate": 0.001,
+      "loss": 2.6563,
+      "num_input_tokens_seen": 37329301760,
+      "step": 35600
+    },
+    {
+      "epoch": 0.783089441609452,
+      "grad_norm": 0.13599660992622375,
+      "learning_rate": 0.001,
+      "loss": 2.6575,
+      "num_input_tokens_seen": 37381730560,
+      "step": 35650
+    },
+    {
+      "epoch": 0.7841877437715971,
+      "grad_norm": 0.16653482615947723,
+      "learning_rate": 0.001,
+      "loss": 2.6515,
+      "num_input_tokens_seen": 37434159360,
+      "step": 35700
+    },
+    {
+      "epoch": 0.7852860459337422,
+      "grad_norm": 0.15467293560504913,
+      "learning_rate": 0.001,
+      "loss": 2.6548,
+      "num_input_tokens_seen": 37486588160,
+      "step": 35750
+    },
+    {
+      "epoch": 0.7863843480958873,
+      "grad_norm": 0.4751467704772949,
+      "learning_rate": 0.001,
+      "loss": 2.6592,
+      "num_input_tokens_seen": 37539016960,
+      "step": 35800
+    },
+    {
+      "epoch": 0.7874826502580323,
+      "grad_norm": 0.15940867364406586,
+      "learning_rate": 0.001,
+      "loss": 2.6624,
+      "num_input_tokens_seen": 37591445760,
+      "step": 35850
+    },
+    {
+      "epoch": 0.7885809524201775,
+      "grad_norm": 0.137634739279747,
+      "learning_rate": 0.001,
+      "loss": 2.6559,
+      "num_input_tokens_seen": 37643874560,
+      "step": 35900
+    },
+    {
+      "epoch": 0.7896792545823226,
+      "grad_norm": 0.16022460162639618,
+      "learning_rate": 0.001,
+      "loss": 2.6555,
+      "num_input_tokens_seen": 37696303360,
+      "step": 35950
+    },
+    {
+      "epoch": 0.7907775567444676,
+      "grad_norm": 0.147109717130661,
+      "learning_rate": 0.001,
+      "loss": 2.663,
+      "num_input_tokens_seen": 37748732160,
+      "step": 36000
+    },
+    {
+      "epoch": 0.7907775567444676,
+      "eval_loss": 2.556107521057129,
+      "eval_runtime": 67.1814,
+      "eval_samples_per_second": 74.425,
+      "eval_steps_per_second": 18.606,
+      "num_input_tokens_seen": 37748732160,
+      "step": 36000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 37748732160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.149817958782927e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null