Training in progress, step 35000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f5f555ad08e2b9af2d37e75627331d1470cb9ef7a24ec49aa6c8151031e160d
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:39e47431790297c8d1ac0d590138e540ff35b008c08f15b4fec92555b68b3ca0
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fc47eddc881f02400a6f527d01f719f196c43685429cccc1e20595fe30e54fb
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cb4360f6e3ef0a4db7ef43d5c8060cb784d63688538fb77fe4f179313685acd
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e52b818002a3e168d692336e37ab38a41e96baec8febde4371f1197492708c49
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3505914cea5cefe31834749326fbe845962aa02c10480cbc9f90524db4d28f1f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14f558fa3ebdf8eded534006aef123b31a5895b4203fad741964c0be3f8e2ef2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c432826b41d4d9850a94ad79c80845280b64911bf27c831beef66a783066385f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7468454702586639,
   "eval_steps": 500,
-  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6060,11 +6060,189 @@
       "eval_steps_per_second": 18.763,
       "num_input_tokens_seen": 35651580160,
       "step": 34000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 35651580160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -6079,7 +6257,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0303836155899412e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7688115135015657,
   "eval_steps": 500,
+  "global_step": 35000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.763,
       "num_input_tokens_seen": 35651580160,
       "step": 34000
+    },
+    {
+      "epoch": 0.747943772420809,
+      "grad_norm": 0.1586858183145523,
+      "learning_rate": 0.001,
+      "loss": 2.6654,
+      "num_input_tokens_seen": 35704008960,
+      "step": 34050
+    },
+    {
+      "epoch": 0.749042074582954,
+      "grad_norm": 0.1376073956489563,
+      "learning_rate": 0.001,
+      "loss": 2.6627,
+      "num_input_tokens_seen": 35756437760,
+      "step": 34100
+    },
+    {
+      "epoch": 0.7501403767450991,
+      "grad_norm": 0.13904818892478943,
+      "learning_rate": 0.001,
+      "loss": 2.6605,
+      "num_input_tokens_seen": 35808866560,
+      "step": 34150
+    },
+    {
+      "epoch": 0.7512386789072443,
+      "grad_norm": 0.14543947577476501,
+      "learning_rate": 0.001,
+      "loss": 2.6589,
+      "num_input_tokens_seen": 35861295360,
+      "step": 34200
+    },
+    {
+      "epoch": 0.7523369810693894,
+      "grad_norm": 0.14855198562145233,
+      "learning_rate": 0.001,
+      "loss": 2.6612,
+      "num_input_tokens_seen": 35913724160,
+      "step": 34250
+    },
+    {
+      "epoch": 0.7534352832315344,
+      "grad_norm": 0.14492908120155334,
+      "learning_rate": 0.001,
+      "loss": 2.6561,
+      "num_input_tokens_seen": 35966152960,
+      "step": 34300
+    },
+    {
+      "epoch": 0.7545335853936795,
+      "grad_norm": 0.1388978660106659,
+      "learning_rate": 0.001,
+      "loss": 2.6551,
+      "num_input_tokens_seen": 36018581760,
+      "step": 34350
+    },
+    {
+      "epoch": 0.7556318875558247,
+      "grad_norm": 0.14582422375679016,
+      "learning_rate": 0.001,
+      "loss": 2.6521,
+      "num_input_tokens_seen": 36071010560,
+      "step": 34400
+    },
+    {
+      "epoch": 0.7567301897179697,
+      "grad_norm": 0.17488695681095123,
+      "learning_rate": 0.001,
+      "loss": 2.6516,
+      "num_input_tokens_seen": 36123439360,
+      "step": 34450
+    },
+    {
+      "epoch": 0.7578284918801148,
+      "grad_norm": 0.12302416563034058,
+      "learning_rate": 0.001,
+      "loss": 2.6617,
+      "num_input_tokens_seen": 36175868160,
+      "step": 34500
+    },
+    {
+      "epoch": 0.7578284918801148,
+      "eval_loss": 2.5549991130828857,
+      "eval_runtime": 67.5095,
+      "eval_samples_per_second": 74.064,
+      "eval_steps_per_second": 18.516,
+      "num_input_tokens_seen": 36175868160,
+      "step": 34500
+    },
+    {
+      "epoch": 0.7589267940422599,
+      "grad_norm": 0.14238396286964417,
+      "learning_rate": 0.001,
+      "loss": 2.6609,
+      "num_input_tokens_seen": 36228296960,
+      "step": 34550
+    },
+    {
+      "epoch": 0.7600250962044051,
+      "grad_norm": 0.17919403314590454,
+      "learning_rate": 0.001,
+      "loss": 2.6621,
+      "num_input_tokens_seen": 36280725760,
+      "step": 34600
+    },
+    {
+      "epoch": 0.7611233983665501,
+      "grad_norm": 0.13188666105270386,
+      "learning_rate": 0.001,
+      "loss": 2.6529,
+      "num_input_tokens_seen": 36333154560,
+      "step": 34650
+    },
+    {
+      "epoch": 0.7622217005286952,
+      "grad_norm": 0.16191646456718445,
+      "learning_rate": 0.001,
+      "loss": 2.6584,
+      "num_input_tokens_seen": 36385583360,
+      "step": 34700
+    },
+    {
+      "epoch": 0.7633200026908403,
+      "grad_norm": 0.14606165885925293,
+      "learning_rate": 0.001,
+      "loss": 2.6567,
+      "num_input_tokens_seen": 36438012160,
+      "step": 34750
+    },
+    {
+      "epoch": 0.7644183048529853,
+      "grad_norm": 0.1648443192243576,
+      "learning_rate": 0.001,
+      "loss": 2.6587,
+      "num_input_tokens_seen": 36490440960,
+      "step": 34800
+    },
+    {
+      "epoch": 0.7655166070151305,
+      "grad_norm": 0.19523674249649048,
+      "learning_rate": 0.001,
+      "loss": 2.6662,
+      "num_input_tokens_seen": 36542869760,
+      "step": 34850
+    },
+    {
+      "epoch": 0.7666149091772756,
+      "grad_norm": 0.1713179498910904,
+      "learning_rate": 0.001,
+      "loss": 2.6683,
+      "num_input_tokens_seen": 36595298560,
+      "step": 34900
+    },
+    {
+      "epoch": 0.7677132113394207,
+      "grad_norm": 0.14923711121082306,
+      "learning_rate": 0.001,
+      "loss": 2.6629,
+      "num_input_tokens_seen": 36647727360,
+      "step": 34950
+    },
+    {
+      "epoch": 0.7688115135015657,
+      "grad_norm": 0.13948023319244385,
+      "learning_rate": 0.001,
+      "loss": 2.6619,
+      "num_input_tokens_seen": 36700156160,
+      "step": 35000
+    },
+    {
+      "epoch": 0.7688115135015657,
+      "eval_loss": 2.5569379329681396,
+      "eval_runtime": 67.9393,
+      "eval_samples_per_second": 73.595,
+      "eval_steps_per_second": 18.399,
+      "num_input_tokens_seen": 36700156160,
+      "step": 35000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 36700156160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.090100787186434e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null