Training in progress, step 220000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfa0ab32e38b01ddbc573768dfaf0dfddabcc8a3d70f2bee44cb82fdf48bdbfb
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3ac76e1d220f6d8cb3dc3743f45e80298ffddaf4ef80817514d248746af9821
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8385ab1df2ebd2cf00e4d352e48666514cc5adaf924696c86b3104a741aaa958
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cb76675226c565779dfeb3a8b0d92c90ded4e386d4778c4ecac74f673efb538
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43a0a20032cd9b1693c0df17b5ce36ac0de1b8a71ec2dce02e457215ca17de74
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd1d2a3e2335707f39d021f603fb4d73c951356a2d333cf3eecb4bcaf66a94d5
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ab74f841af25583fde1ca8fdb0c1861852ed361e9321c893b9e5b237758c199
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b649e22628c0243a3802b9e8565a7279841c797cd164e62e5f4790c3cae8210
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:064bb77ca4a934e34a95ea9287f27a0ff8cd1d559261fa08d942aff78c8d69b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f83c397386f43a750816cef91f85bfbfcd5ca30567987fd3bd04ea4161c050ff
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebe0a4f01c3d254f50684a93345a2b350eaf4ce2ffbfd3ab184e7c48ab1cbf8f
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:75b5752b21c419f95766e4dd33840bff9a6347069f10f102c30daeec2edb1db8
+size 14439

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4028538ec5575e9eae4ab14227f42ba25a4d5ad871aeb0a0910dce83388d0885
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a80ec1267650e6ad947a8c57465e241d88a3ac6ff26b577e91402626f8216828
+size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53cbe542019d2f74f171c2183d760b9998750b9b6316341cb64d43d534f9c788
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:e22cc7a3e8d006a7f53d4c0ba60293af6361e5d675b3152011d5ae5ff1bc470b
+size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:893d43631edd1f00cc9f737c881bbde999bddaa7e8c8c4da0adc745254b97b30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b096aeedbe1821683df58f9029fa8bc78db67ff58d60f8a0d3d16c91cb58a4cc
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:537d3cd36d12dd1a3735216763e1c615e8f3bdd474a41fbef3b6c5cb46612706
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7eaa4432fc6e41f9da719c55df3fb2ad8c3924f89bf79f109b21a31d039a089
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de6aa60c12b8dbcda06c27a65ac30e45d66753f2960bee09a7c0ea364ae7e103
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a05d01a7b2f868e6f0e645a01ef2a1ba3ad5ea16b1bff8e9cf0cf653b106d64f
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.434020650142467,
-  "global_step": 210000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4206,11 +4206,211 @@
       "eval_samples_per_second": 1863.216,
       "eval_steps_per_second": 29.811,
       "step": 210000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 6.709181986552645e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.740402585863538,
+  "global_step": 220000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1863.216,
       "eval_steps_per_second": 29.811,
       "step": 210000
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 0.00020389135229309803,
+      "loss": 0.3433,
+      "step": 210500
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.00020343965962416229,
+      "loss": 0.3438,
+      "step": 211000
+    },
+    {
+      "epoch": 6.46,
+      "eval_loss": 0.7825648784637451,
+      "eval_runtime": 0.5312,
+      "eval_samples_per_second": 1882.622,
+      "eval_steps_per_second": 30.122,
+      "step": 211000
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 0.00020298743722686958,
+      "loss": 0.3442,
+      "step": 211500
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 0.0002025346900466516,
+      "loss": 0.3447,
+      "step": 212000
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 0.7843804955482483,
+      "eval_runtime": 0.5233,
+      "eval_samples_per_second": 1910.972,
+      "eval_steps_per_second": 30.576,
+      "step": 212000
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 0.0002020814230346791,
+      "loss": 0.3428,
+      "step": 212500
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 0.00020162764114780733,
+      "loss": 0.3427,
+      "step": 213000
+    },
+    {
+      "epoch": 6.53,
+      "eval_loss": 0.7835332155227661,
+      "eval_runtime": 0.5169,
+      "eval_samples_per_second": 1934.661,
+      "eval_steps_per_second": 30.955,
+      "step": 213000
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 0.0002011733493485224,
+      "loss": 0.3424,
+      "step": 213500
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.00020071855260488664,
+      "loss": 0.3424,
+      "step": 214000
+    },
+    {
+      "epoch": 6.56,
+      "eval_loss": 0.7858285903930664,
+      "eval_runtime": 0.5163,
+      "eval_samples_per_second": 1936.764,
+      "eval_steps_per_second": 30.988,
+      "step": 214000
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 0.0002002632558904843,
+      "loss": 0.3424,
+      "step": 214500
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 0.00019980746418436736,
+      "loss": 0.3427,
+      "step": 215000
+    },
+    {
+      "epoch": 6.59,
+      "eval_loss": 0.7807540893554688,
+      "eval_runtime": 0.5276,
+      "eval_samples_per_second": 1895.318,
+      "eval_steps_per_second": 30.325,
+      "step": 215000
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 0.00019935118247100088,
+      "loss": 0.3422,
+      "step": 215500
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 0.00019889441574020864,
+      "loss": 0.3692,
+      "step": 216000
+    },
+    {
+      "epoch": 6.62,
+      "eval_loss": 0.9048200845718384,
+      "eval_runtime": 0.5244,
+      "eval_samples_per_second": 1906.815,
+      "eval_steps_per_second": 30.509,
+      "step": 216000
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 0.0001984371689871183,
+      "loss": 0.7372,
+      "step": 216500
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 0.00019797944721210725,
+      "loss": 0.7368,
+      "step": 217000
+    },
+    {
+      "epoch": 6.65,
+      "eval_loss": 0.8997135162353516,
+      "eval_runtime": 0.5259,
+      "eval_samples_per_second": 1901.634,
+      "eval_steps_per_second": 30.426,
+      "step": 217000
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 0.00019752125542074736,
+      "loss": 0.7368,
+      "step": 217500
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 0.00019706259862375074,
+      "loss": 0.7368,
+      "step": 218000
+    },
+    {
+      "epoch": 6.68,
+      "eval_loss": 0.900769829750061,
+      "eval_runtime": 0.5434,
+      "eval_samples_per_second": 1840.131,
+      "eval_steps_per_second": 29.442,
+      "step": 218000
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 0.00019660348183691453,
+      "loss": 0.7368,
+      "step": 218500
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 0.0001961439100810664,
+      "loss": 0.7367,
+      "step": 219000
+    },
+    {
+      "epoch": 6.71,
+      "eval_loss": 0.8999822735786438,
+      "eval_runtime": 0.5136,
+      "eval_samples_per_second": 1947.174,
+      "eval_steps_per_second": 31.155,
+      "step": 219000
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 0.00019568388838200952,
+      "loss": 0.7368,
+      "step": 219500
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 0.00019522342177046744,
+      "loss": 0.7368,
+      "step": 220000
+    },
+    {
+      "epoch": 6.74,
+      "eval_loss": 0.9001851081848145,
+      "eval_runtime": 0.5249,
+      "eval_samples_per_second": 1904.969,
+      "eval_steps_per_second": 30.48,
+      "step": 220000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 7.028669125327145e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8385ab1df2ebd2cf00e4d352e48666514cc5adaf924696c86b3104a741aaa958
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cb76675226c565779dfeb3a8b0d92c90ded4e386d4778c4ecac74f673efb538
 size 102501541