Training in progress, step 27000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28394340845b35c88e8a63417e18c503dadf4a251790835d2715e5a4962f656e
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5b523d0237ff4825791520de6c6899e7d737f3dbfe8441d833895f1e2466285
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4565341b2daf769a1d6b98280e7a99c73d3df5a11f570b225860490fa5b0252c
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:149a5f50fc47d3d0a29e92a6c18a1d78db3365d41cfd7f18ae74185f9b0fbc4e
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b4ee497eed0fe85641f8ca254d6d7e11e60873712ef2108d29f717bef60c5dd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d1d738e0f013e71559a982b5bed46734a8c7b8ac496ca76379bed24380a52a1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ced8856b9ff194699de7fca54070bd17a17efd31d5f5d4d7e4c8ff1ec712ca9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5585e9833c9684d1dabff9cec651205ae9bf4f81ab2bb2b589702ce44919fbb3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5711171243154488,
   "eval_steps": 500,
-  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4636,11 +4636,189 @@
       "eval_steps_per_second": 18.896,
       "num_input_tokens_seen": 27262972160,
       "step": 26000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 27262972160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -4655,7 +4833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5526462428179988e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5930831675583508,
   "eval_steps": 500,
+  "global_step": 27000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.896,
       "num_input_tokens_seen": 27262972160,
       "step": 26000
+    },
+    {
+      "epoch": 0.5722154264775939,
+      "grad_norm": 0.1538383513689041,
+      "learning_rate": 0.001,
+      "loss": 2.6783,
+      "num_input_tokens_seen": 27315400960,
+      "step": 26050
+    },
+    {
+      "epoch": 0.5733137286397391,
+      "grad_norm": 0.15545998513698578,
+      "learning_rate": 0.001,
+      "loss": 2.6798,
+      "num_input_tokens_seen": 27367829760,
+      "step": 26100
+    },
+    {
+      "epoch": 0.5744120308018842,
+      "grad_norm": 0.15456970036029816,
+      "learning_rate": 0.001,
+      "loss": 2.6836,
+      "num_input_tokens_seen": 27420258560,
+      "step": 26150
+    },
+    {
+      "epoch": 0.5755103329640292,
+      "grad_norm": 0.1353277862071991,
+      "learning_rate": 0.001,
+      "loss": 2.6777,
+      "num_input_tokens_seen": 27472687360,
+      "step": 26200
+    },
+    {
+      "epoch": 0.5766086351261743,
+      "grad_norm": 0.15124258399009705,
+      "learning_rate": 0.001,
+      "loss": 2.681,
+      "num_input_tokens_seen": 27525116160,
+      "step": 26250
+    },
+    {
+      "epoch": 0.5777069372883195,
+      "grad_norm": 0.14200901985168457,
+      "learning_rate": 0.001,
+      "loss": 2.6827,
+      "num_input_tokens_seen": 27577544960,
+      "step": 26300
+    },
+    {
+      "epoch": 0.5788052394504645,
+      "grad_norm": 0.15356388688087463,
+      "learning_rate": 0.001,
+      "loss": 2.6802,
+      "num_input_tokens_seen": 27629973760,
+      "step": 26350
+    },
+    {
+      "epoch": 0.5799035416126096,
+      "grad_norm": 0.17395390570163727,
+      "learning_rate": 0.001,
+      "loss": 2.6921,
+      "num_input_tokens_seen": 27682402560,
+      "step": 26400
+    },
+    {
+      "epoch": 0.5810018437747547,
+      "grad_norm": 0.1507692188024521,
+      "learning_rate": 0.001,
+      "loss": 2.6811,
+      "num_input_tokens_seen": 27734831360,
+      "step": 26450
+    },
+    {
+      "epoch": 0.5821001459368998,
+      "grad_norm": 0.14512786269187927,
+      "learning_rate": 0.001,
+      "loss": 2.6798,
+      "num_input_tokens_seen": 27787260160,
+      "step": 26500
+    },
+    {
+      "epoch": 0.5821001459368998,
+      "eval_loss": 2.5802626609802246,
+      "eval_runtime": 67.1032,
+      "eval_samples_per_second": 74.512,
+      "eval_steps_per_second": 18.628,
+      "num_input_tokens_seen": 27787260160,
+      "step": 26500
+    },
+    {
+      "epoch": 0.5831984480990449,
+      "grad_norm": 0.15365912020206451,
+      "learning_rate": 0.001,
+      "loss": 2.6813,
+      "num_input_tokens_seen": 27839688960,
+      "step": 26550
+    },
+    {
+      "epoch": 0.58429675026119,
+      "grad_norm": 0.14015646278858185,
+      "learning_rate": 0.001,
+      "loss": 2.6774,
+      "num_input_tokens_seen": 27892117760,
+      "step": 26600
+    },
+    {
+      "epoch": 0.5853950524233351,
+      "grad_norm": 0.1529797911643982,
+      "learning_rate": 0.001,
+      "loss": 2.6751,
+      "num_input_tokens_seen": 27944546560,
+      "step": 26650
+    },
+    {
+      "epoch": 0.5864933545854801,
+      "grad_norm": 0.16909636557102203,
+      "learning_rate": 0.001,
+      "loss": 2.6795,
+      "num_input_tokens_seen": 27996975360,
+      "step": 26700
+    },
+    {
+      "epoch": 0.5875916567476253,
+      "grad_norm": 0.14130276441574097,
+      "learning_rate": 0.001,
+      "loss": 2.6809,
+      "num_input_tokens_seen": 28049404160,
+      "step": 26750
+    },
+    {
+      "epoch": 0.5886899589097704,
+      "grad_norm": 0.15182790160179138,
+      "learning_rate": 0.001,
+      "loss": 2.685,
+      "num_input_tokens_seen": 28101832960,
+      "step": 26800
+    },
+    {
+      "epoch": 0.5897882610719154,
+      "grad_norm": 0.12757331132888794,
+      "learning_rate": 0.001,
+      "loss": 2.6766,
+      "num_input_tokens_seen": 28154261760,
+      "step": 26850
+    },
+    {
+      "epoch": 0.5908865632340605,
+      "grad_norm": 0.1527504026889801,
+      "learning_rate": 0.001,
+      "loss": 2.6767,
+      "num_input_tokens_seen": 28206690560,
+      "step": 26900
+    },
+    {
+      "epoch": 0.5919848653962057,
+      "grad_norm": 0.18337304890155792,
+      "learning_rate": 0.001,
+      "loss": 2.6752,
+      "num_input_tokens_seen": 28259119360,
+      "step": 26950
+    },
+    {
+      "epoch": 0.5930831675583508,
+      "grad_norm": 0.1472473442554474,
+      "learning_rate": 0.001,
+      "loss": 2.6717,
+      "num_input_tokens_seen": 28311548160,
+      "step": 27000
+    },
+    {
+      "epoch": 0.5930831675583508,
+      "eval_loss": 2.5781941413879395,
+      "eval_runtime": 66.2194,
+      "eval_samples_per_second": 75.507,
+      "eval_steps_per_second": 18.877,
+      "num_input_tokens_seen": 28311548160,
+      "step": 27000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 28311548160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.6123634144144916e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null