Training in progress, step 114000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:129f26bf285c927fb1ca67bf7975ab174e3ba9305c910bf5556605aeaa81c78e
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:b778ecb426d78f0896855e8fb4aad5b0ed64f4bb1e53aede2d8069fdd044f83f
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:139c4b8aa767d3344e8dd6530590ff617e5f940f55af80e164711a5e937099df
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:e40a86136eefe7a52f906d32b10df1f61bc2559012b7bd8d21fd2f6358ab1422
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef617a95cce573c223584c3ba54aeae3c5fde1db1b14c5d13506c2f7079cec61
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f9d7695201cafd8e529bbb705c4e86352c97146b7f2c1d17b903edf259b2912
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c067dcd97b2d11c79b34cd5a1dfeb3c320d7856efa0a4a62a589309e4cce1b3d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a3df12db58d0a78ce660a6cf049d113e8861e8aa8611c9714bf603dc61fb3a9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0780280715980777,
   "eval_steps": 500,
-  "global_step": 113000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20122,11 +20122,189 @@
       "eval_steps_per_second": 11.42,
       "num_input_tokens_seen": 59235047232,
       "step": 113000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 59235047232,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -20141,7 +20319,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0483522912802488e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0875681219218432,
   "eval_steps": 500,
+  "global_step": 114000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 11.42,
       "num_input_tokens_seen": 59235047232,
       "step": 113000
+    },
+    {
+      "epoch": 1.0785050741142659,
+      "grad_norm": 0.14696183800697327,
+      "learning_rate": 0.0009965342284774632,
+      "loss": 2.084,
+      "num_input_tokens_seen": 59261256096,
+      "step": 113050
+    },
+    {
+      "epoch": 1.0789820766304543,
+      "grad_norm": 0.1535506546497345,
+      "learning_rate": 0.0009961967251474822,
+      "loss": 2.0905,
+      "num_input_tokens_seen": 59287464384,
+      "step": 113100
+    },
+    {
+      "epoch": 1.0794590791466425,
+      "grad_norm": 0.14321501553058624,
+      "learning_rate": 0.000995843605578539,
+      "loss": 2.0971,
+      "num_input_tokens_seen": 59313669856,
+      "step": 113150
+    },
+    {
+      "epoch": 1.0799360816628307,
+      "grad_norm": 0.15687337517738342,
+      "learning_rate": 0.0009954748808839674,
+      "loss": 2.0864,
+      "num_input_tokens_seen": 59339879328,
+      "step": 113200
+    },
+    {
+      "epoch": 1.080413084179019,
+      "grad_norm": 0.16271081566810608,
+      "learning_rate": 0.000995090562668223,
+      "loss": 2.0948,
+      "num_input_tokens_seen": 59366089088,
+      "step": 113250
+    },
+    {
+      "epoch": 1.0808900866952074,
+      "grad_norm": 0.14683839678764343,
+      "learning_rate": 0.0009946906630265184,
+      "loss": 2.105,
+      "num_input_tokens_seen": 59392300448,
+      "step": 113300
+    },
+    {
+      "epoch": 1.0813670892113956,
+      "grad_norm": 0.15148819983005524,
+      "learning_rate": 0.0009942751945444437,
+      "loss": 2.0814,
+      "num_input_tokens_seen": 59418514560,
+      "step": 113350
+    },
+    {
+      "epoch": 1.0818440917275838,
+      "grad_norm": 0.14587359130382538,
+      "learning_rate": 0.0009938441702975688,
+      "loss": 2.0943,
+      "num_input_tokens_seen": 59444719360,
+      "step": 113400
+    },
+    {
+      "epoch": 1.0823210942437722,
+      "grad_norm": 0.14699944853782654,
+      "learning_rate": 0.0009933976038510332,
+      "loss": 2.0927,
+      "num_input_tokens_seen": 59470933600,
+      "step": 113450
+    },
+    {
+      "epoch": 1.0827980967599604,
+      "grad_norm": 0.14229649305343628,
+      "learning_rate": 0.0009929355092591179,
+      "loss": 2.0985,
+      "num_input_tokens_seen": 59497148000,
+      "step": 113500
+    },
+    {
+      "epoch": 1.0827980967599604,
+      "eval_loss": 2.009983539581299,
+      "eval_runtime": 82.6823,
+      "eval_samples_per_second": 60.472,
+      "eval_steps_per_second": 15.118,
+      "num_input_tokens_seen": 59497148000,
+      "step": 113500
+    },
+    {
+      "epoch": 1.0832750992761486,
+      "grad_norm": 0.14160077273845673,
+      "learning_rate": 0.0009924579010648041,
+      "loss": 2.0935,
+      "num_input_tokens_seen": 59523359584,
+      "step": 113550
+    },
+    {
+      "epoch": 1.083752101792337,
+      "grad_norm": 0.1411445587873459,
+      "learning_rate": 0.0009919647942993148,
+      "loss": 2.093,
+      "num_input_tokens_seen": 59549569568,
+      "step": 113600
+    },
+    {
+      "epoch": 1.0842291043085253,
+      "grad_norm": 0.13501347601413727,
+      "learning_rate": 0.0009914562044816423,
+      "loss": 2.0919,
+      "num_input_tokens_seen": 59575783200,
+      "step": 113650
+    },
+    {
+      "epoch": 1.0847061068247135,
+      "grad_norm": 0.14355099201202393,
+      "learning_rate": 0.0009909321476180592,
+      "loss": 2.0913,
+      "num_input_tokens_seen": 59601990304,
+      "step": 113700
+    },
+    {
+      "epoch": 1.0851831093409017,
+      "grad_norm": 0.13246339559555054,
+      "learning_rate": 0.0009903926402016153,
+      "loss": 2.0803,
+      "num_input_tokens_seen": 59628197120,
+      "step": 113750
+    },
+    {
+      "epoch": 1.08566011185709,
+      "grad_norm": 0.13418996334075928,
+      "learning_rate": 0.0009898376992116178,
+      "loss": 2.1042,
+      "num_input_tokens_seen": 59654409856,
+      "step": 113800
+    },
+    {
+      "epoch": 1.0861371143732783,
+      "grad_norm": 0.15235918760299683,
+      "learning_rate": 0.0009892673421130977,
+      "loss": 2.0987,
+      "num_input_tokens_seen": 59680620096,
+      "step": 113850
+    },
+    {
+      "epoch": 1.0866141168894665,
+      "grad_norm": 0.1395738422870636,
+      "learning_rate": 0.0009886815868562597,
+      "loss": 2.0932,
+      "num_input_tokens_seen": 59706827264,
+      "step": 113900
+    },
+    {
+      "epoch": 1.087091119405655,
+      "grad_norm": 0.1433008313179016,
+      "learning_rate": 0.000988080451875917,
+      "loss": 2.0943,
+      "num_input_tokens_seen": 59733034688,
+      "step": 113950
+    },
+    {
+      "epoch": 1.0875681219218432,
+      "grad_norm": 0.14490137994289398,
+      "learning_rate": 0.0009874639560909118,
+      "loss": 2.1012,
+      "num_input_tokens_seen": 59759249088,
+      "step": 114000
+    },
+    {
+      "epoch": 1.0875681219218432,
+      "eval_loss": 2.0104737281799316,
+      "eval_runtime": 82.5956,
+      "eval_samples_per_second": 60.536,
+      "eval_steps_per_second": 15.134,
+      "num_input_tokens_seen": 59759249088,
+      "step": 114000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 59759249088,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0576297079872635e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null