Training in progress, step 250000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2de6af717c47cccd686eb401aebbac16f30fa4800bdf3381c6733ba8c6561c0
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9c431c8ac0b934898a38cd62a12706d8ab0fc93577c4e6844d7870ae6512e7f
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bafb8dfd27714f7b68b27eba658de7a2870bf153771314a5d692b964ccf409b2
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:36871e0a0236345a131fc6413f45a963c57827bc4a63fc490f54666ca02cdc4f
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ada474ac90dc532cb81a6c5e95d1656c4367296b70d7fa29b9128084412185c2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:66f8a69dfc02c488bc648729ef9bad2ca2a24c53ab78fef957c6f965ce64fa70
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0de90a496573cb2ea75252909e5229b13e6b6caa03dbc1d7a07f04813db996a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f85e11280175f8d49e58ca2c243b97ecb329b334e32f849def115ac8e9089484
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a2cee2418cdbf98467144f5ab2fbb07838c56b4d59151fe7420a8237fda87ce
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f308a322446c83c7ff8ca339af44e90f317ca3e4bc00bec09d3fca34b1bd288
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c69c40438100decd754e9555e97f1721b99fd271fec8d5690ca536d9692d5b2b
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b730665b8791d2a5bb5ca82f14abbe6976f10590220fbbf30dfd68881b966e88
+size 14567

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e4afbca259b795ab25dad68b24c29bb53aba5dc0820729c750434e92fbd51c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:896821ffe540c0e03a6707d24bb82c6126a1dd196a3f95efa94bb655e9f2789a
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af3e4fe67a0a2dea77cacde028fc02bbed4f96bad0c0d6a08a39c0bd6db2d4c3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bf3b1113ea18a94bc71b301c56b529f1a0a69f16d8397dc90d5d9cb24b83265
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48a47082de15f8dfcb417febf909aaf992a24390488a6f353fb222931004ef5a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7202c113cacd346ee4859b578e536f19b58145065a28d3ad52e00f885db71f7e
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ba02bedac85968a65727072a5a2c897c0b5e1d385ad07265404b1d0535ff8a2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d7c35cdfe9dea2fc398ff2f4cb9aef06694dd8b7b25c155eaae9f938d26d546
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a310455c0ab00dbcb4f4c26c03e0304d748fbc8c3e547006fb15346d32ac70da
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:438f3db980ad0547f739432602e1f85cc46b6fbef312b9261fd3b355ceeb97af
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.353166457305678,
-  "global_step": 240000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4806,11 +4806,211 @@
       "eval_samples_per_second": 1895.979,
       "eval_steps_per_second": 30.336,
       "step": 240000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 7.667635414924169e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.659548393026747,
+  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1895.979,
       "eval_steps_per_second": 30.336,
       "step": 240000
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.00017602390554989563,
+      "loss": 0.3403,
+      "step": 240500
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 0.0001755493522675115,
+      "loss": 0.3402,
+      "step": 241000
+    },
+    {
+      "epoch": 7.38,
+      "eval_loss": 0.7845531105995178,
+      "eval_runtime": 0.535,
+      "eval_samples_per_second": 1869.034,
+      "eval_steps_per_second": 29.905,
+      "step": 241000
+    },
+    {
+      "epoch": 7.4,
+      "learning_rate": 0.00017507457426070317,
+      "loss": 0.34,
+      "step": 241500
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.00017459957672156704,
+      "loss": 0.3399,
+      "step": 242000
+    },
+    {
+      "epoch": 7.41,
+      "eval_loss": 0.7895669937133789,
+      "eval_runtime": 0.5321,
+      "eval_samples_per_second": 1879.363,
+      "eval_steps_per_second": 30.07,
+      "step": 242000
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 0.00017412436484459998,
+      "loss": 0.3398,
+      "step": 242500
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 0.00017364894382664297,
+      "loss": 0.3396,
+      "step": 243000
+    },
+    {
+      "epoch": 7.45,
+      "eval_loss": 0.7811859250068665,
+      "eval_runtime": 0.5201,
+      "eval_samples_per_second": 1922.599,
+      "eval_steps_per_second": 30.762,
+      "step": 243000
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 0.00017317331886682408,
+      "loss": 0.3396,
+      "step": 243500
+    },
+    {
+      "epoch": 7.48,
+      "learning_rate": 0.0001726974951665017,
+      "loss": 0.3402,
+      "step": 244000
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.7840257287025452,
+      "eval_runtime": 0.5186,
+      "eval_samples_per_second": 1928.148,
+      "eval_steps_per_second": 30.85,
+      "step": 244000
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 0.0001722214779292076,
+      "loss": 0.3397,
+      "step": 244500
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 0.00017174527236058998,
+      "loss": 0.339,
+      "step": 245000
+    },
+    {
+      "epoch": 7.51,
+      "eval_loss": 0.7810068130493164,
+      "eval_runtime": 0.5282,
+      "eval_samples_per_second": 1893.161,
+      "eval_steps_per_second": 30.291,
+      "step": 245000
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 0.00017126888366835662,
+      "loss": 0.339,
+      "step": 245500
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 0.000170792317062218,
+      "loss": 0.3391,
+      "step": 246000
+    },
+    {
+      "epoch": 7.54,
+      "eval_loss": 0.7764478325843811,
+      "eval_runtime": 0.5198,
+      "eval_samples_per_second": 1923.928,
+      "eval_steps_per_second": 30.783,
+      "step": 246000
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 0.00017031557775383011,
+      "loss": 0.3388,
+      "step": 246500
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 0.0001698386709567377,
+      "loss": 0.3389,
+      "step": 247000
+    },
+    {
+      "epoch": 7.57,
+      "eval_loss": 0.7847365736961365,
+      "eval_runtime": 0.5131,
+      "eval_samples_per_second": 1948.897,
+      "eval_steps_per_second": 31.182,
+      "step": 247000
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 0.0001693616018863171,
+      "loss": 0.3389,
+      "step": 247500
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 0.00016888437575971913,
+      "loss": 0.3389,
+      "step": 248000
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 0.784510612487793,
+      "eval_runtime": 0.532,
+      "eval_samples_per_second": 1879.811,
+      "eval_steps_per_second": 30.077,
+      "step": 248000
+    },
+    {
+      "epoch": 7.61,
+      "learning_rate": 0.00016840699779581238,
+      "loss": 0.3389,
+      "step": 248500
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.00016792947321512573,
+      "loss": 0.3385,
+      "step": 249000
+    },
+    {
+      "epoch": 7.63,
+      "eval_loss": 0.7881464958190918,
+      "eval_runtime": 0.5139,
+      "eval_samples_per_second": 1945.778,
+      "eval_steps_per_second": 31.132,
+      "step": 249000
+    },
+    {
+      "epoch": 7.64,
+      "learning_rate": 0.00016745180723979144,
+      "loss": 0.3384,
+      "step": 249500
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 0.00016697400509348818,
+      "loss": 0.3381,
+      "step": 250000
+    },
+    {
+      "epoch": 7.66,
+      "eval_loss": 0.7884257435798645,
+      "eval_runtime": 0.5412,
+      "eval_samples_per_second": 1847.755,
+      "eval_steps_per_second": 29.564,
+      "step": 250000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 7.987122553698669e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bafb8dfd27714f7b68b27eba658de7a2870bf153771314a5d692b964ccf409b2
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:36871e0a0236345a131fc6413f45a963c57827bc4a63fc490f54666ca02cdc4f
 size 102501541