Training in progress, step 48000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f38e32bce356957f430b89897be9ca31be9dda65402b8c04ff406323ca6d70ad
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:0699f2befd5f5fe39f37d9992ad71298c6e825af92f8b9997d530b9228219782
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f528592dbd40e729e83c423405897ab615abc4bdf25221b204d2fb8c14ca347
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6975052cf62584f01dc0b92d80322e1defc71e0703e038bfa5340c5530e8e1a
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4b5e9d9565bd28e61942fdcfd622917c991cba6a677edb92c4e5afeb24b9087
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f916f32ed5bd769a4257bf59e71aa59f0b4e6ba66e2f6069ff1d46ad7cda2db
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30a691323d967d54c1c0f6fb771a9863c3def8ea94c66492bb5dbdffa3e83798
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:de67d78be185ea67aa4ca20dcc37ca7f9d17d76246f8cfa3148b96b4fc56902c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4483823652169765,
   "eval_steps": 500,
-  "global_step": 47000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8374,11 +8374,189 @@
       "eval_steps_per_second": 15.296,
       "num_input_tokens_seen": 24637513248,
       "step": 47000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 24637513248,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8393,7 +8571,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.3603904566543565e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.457922415540742,
   "eval_steps": 500,
+  "global_step": 48000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.296,
       "num_input_tokens_seen": 24637513248,
       "step": 47000
+    },
+    {
+      "epoch": 0.4488593677331648,
+      "grad_norm": 0.14600330591201782,
+      "learning_rate": 0.001,
+      "loss": 2.1773,
+      "num_input_tokens_seen": 24663726880,
+      "step": 47050
+    },
+    {
+      "epoch": 0.4493363702493531,
+      "grad_norm": 0.13896551728248596,
+      "learning_rate": 0.001,
+      "loss": 2.1699,
+      "num_input_tokens_seen": 24689934976,
+      "step": 47100
+    },
+    {
+      "epoch": 0.44981337276554134,
+      "grad_norm": 0.15189655125141144,
+      "learning_rate": 0.001,
+      "loss": 2.1747,
+      "num_input_tokens_seen": 24716146208,
+      "step": 47150
+    },
+    {
+      "epoch": 0.4502903752817296,
+      "grad_norm": 0.1438799947500229,
+      "learning_rate": 0.001,
+      "loss": 2.1754,
+      "num_input_tokens_seen": 24742351360,
+      "step": 47200
+    },
+    {
+      "epoch": 0.45076737779791787,
+      "grad_norm": 0.14087191224098206,
+      "learning_rate": 0.001,
+      "loss": 2.1659,
+      "num_input_tokens_seen": 24768557056,
+      "step": 47250
+    },
+    {
+      "epoch": 0.45124438031410613,
+      "grad_norm": 0.1569574773311615,
+      "learning_rate": 0.001,
+      "loss": 2.1765,
+      "num_input_tokens_seen": 24794768736,
+      "step": 47300
+    },
+    {
+      "epoch": 0.45172138283029445,
+      "grad_norm": 0.14594893157482147,
+      "learning_rate": 0.001,
+      "loss": 2.1867,
+      "num_input_tokens_seen": 24820973728,
+      "step": 47350
+    },
+    {
+      "epoch": 0.4521983853464827,
+      "grad_norm": 0.13743354380130768,
+      "learning_rate": 0.001,
+      "loss": 2.1671,
+      "num_input_tokens_seen": 24847180800,
+      "step": 47400
+    },
+    {
+      "epoch": 0.452675387862671,
+      "grad_norm": 0.14880713820457458,
+      "learning_rate": 0.001,
+      "loss": 2.1834,
+      "num_input_tokens_seen": 24873395200,
+      "step": 47450
+    },
+    {
+      "epoch": 0.45315239037885924,
+      "grad_norm": 0.13658978044986725,
+      "learning_rate": 0.001,
+      "loss": 2.1608,
+      "num_input_tokens_seen": 24899608000,
+      "step": 47500
+    },
+    {
+      "epoch": 0.45315239037885924,
+      "eval_loss": 2.0886528491973877,
+      "eval_runtime": 82.7799,
+      "eval_samples_per_second": 60.401,
+      "eval_steps_per_second": 15.1,
+      "num_input_tokens_seen": 24899608000,
+      "step": 47500
+    },
+    {
+      "epoch": 0.4536293928950475,
+      "grad_norm": 0.14707359671592712,
+      "learning_rate": 0.001,
+      "loss": 2.172,
+      "num_input_tokens_seen": 24925815680,
+      "step": 47550
+    },
+    {
+      "epoch": 0.4541063954112358,
+      "grad_norm": 0.16340535879135132,
+      "learning_rate": 0.001,
+      "loss": 2.1721,
+      "num_input_tokens_seen": 24952024960,
+      "step": 47600
+    },
+    {
+      "epoch": 0.4545833979274241,
+      "grad_norm": 0.14133617281913757,
+      "learning_rate": 0.001,
+      "loss": 2.1682,
+      "num_input_tokens_seen": 24978238080,
+      "step": 47650
+    },
+    {
+      "epoch": 0.45506040044361235,
+      "grad_norm": 0.14507652819156647,
+      "learning_rate": 0.001,
+      "loss": 2.1717,
+      "num_input_tokens_seen": 25004442496,
+      "step": 47700
+    },
+    {
+      "epoch": 0.4555374029598006,
+      "grad_norm": 0.1635296642780304,
+      "learning_rate": 0.001,
+      "loss": 2.1722,
+      "num_input_tokens_seen": 25030655840,
+      "step": 47750
+    },
+    {
+      "epoch": 0.45601440547598887,
+      "grad_norm": 0.15049296617507935,
+      "learning_rate": 0.001,
+      "loss": 2.1647,
+      "num_input_tokens_seen": 25056870240,
+      "step": 47800
+    },
+    {
+      "epoch": 0.45649140799217713,
+      "grad_norm": 0.14016319811344147,
+      "learning_rate": 0.001,
+      "loss": 2.3042,
+      "num_input_tokens_seen": 25083083712,
+      "step": 47850
+    },
+    {
+      "epoch": 0.45696841050836545,
+      "grad_norm": 0.1369781345129013,
+      "learning_rate": 0.001,
+      "loss": 2.21,
+      "num_input_tokens_seen": 25109294720,
+      "step": 47900
+    },
+    {
+      "epoch": 0.4574454130245537,
+      "grad_norm": 0.13268031179904938,
+      "learning_rate": 0.001,
+      "loss": 2.1809,
+      "num_input_tokens_seen": 25135504256,
+      "step": 47950
+    },
+    {
+      "epoch": 0.457922415540742,
+      "grad_norm": 0.13591749966144562,
+      "learning_rate": 0.001,
+      "loss": 2.1808,
+      "num_input_tokens_seen": 25161718656,
+      "step": 48000
+    },
+    {
+      "epoch": 0.457922415540742,
+      "eval_loss": 2.0938363075256348,
+      "eval_runtime": 81.9703,
+      "eval_samples_per_second": 60.998,
+      "eval_steps_per_second": 15.249,
+      "num_input_tokens_seen": 25161718656,
+      "step": 48000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 25161718656,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.4531652523637146e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null