Training in progress, step 240000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb8fd8ac7a94c71cb9bae9b51285847468aadaf879c8294673a5f1227f6e3805
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2de6af717c47cccd686eb401aebbac16f30fa4800bdf3381c6733ba8c6561c0
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0381bd61cfa5693b91ef1c3bc98164157c471fedd8ca782c7895ef021e44198e
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bafb8dfd27714f7b68b27eba658de7a2870bf153771314a5d692b964ccf409b2
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e8c0fee4326b0ea54f571042b42f3310e49da5a8100b7cef78ab6dd45aed4dd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ada474ac90dc532cb81a6c5e95d1656c4367296b70d7fa29b9128084412185c2
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8276c7d4bdc1e5f4f03d59d626594d8ff388b5c3ce551a912a87789097e3095
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0de90a496573cb2ea75252909e5229b13e6b6caa03dbc1d7a07f04813db996a
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65a2cb7497a9ce2c26cda359aeae335184676df1a7a3062baaed32e48048b544
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a2cee2418cdbf98467144f5ab2fbb07838c56b4d59151fe7420a8237fda87ce
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0afdad3a921dff01c7fca6d328bb620e091d4ab7753f54d62e4444d1c0a63e97
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c69c40438100decd754e9555e97f1721b99fd271fec8d5690ca536d9692d5b2b
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a175575e13a6b1b335bf817168e403be6bbc934fa8db8e2f1d0900a1d23326d0
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:13e4afbca259b795ab25dad68b24c29bb53aba5dc0820729c750434e92fbd51c
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6b207abe7d32dbf5e491aac4045fd87fd368af3cf5214bbf6fedd5396ee4fd2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:af3e4fe67a0a2dea77cacde028fc02bbed4f96bad0c0d6a08a39c0bd6db2d4c3
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e60236e243c2aacc6bd2634b320c8eb43bb218d4b016dc9ec38443b90bceb5bd
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:48a47082de15f8dfcb417febf909aaf992a24390488a6f353fb222931004ef5a
+size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d453e671681e66952e11a170cb856700b0d77612fcc7456c41565549116d4f9a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ba02bedac85968a65727072a5a2c897c0b5e1d385ad07265404b1d0535ff8a2
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a2bb37359d05bc7917d91ab1261ba8c4d8f00648cd8cb2d11c677b6c91ddb27
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a310455c0ab00dbcb4f4c26c03e0304d748fbc8c3e547006fb15346d32ac70da
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.046784521584607,
-  "global_step": 230000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4606,11 +4606,211 @@
       "eval_samples_per_second": 1923.882,
       "eval_steps_per_second": 30.782,
       "step": 230000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 7.348148276149669e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.353166457305678,
+  "global_step": 240000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1923.882,
       "eval_steps_per_second": 30.782,
       "step": 230000
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 0.00018545980690870903,
+      "loss": 0.3447,
+      "step": 230500
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 0.00018499083425600648,
+      "loss": 0.344,
+      "step": 231000
+    },
+    {
+      "epoch": 7.08,
+      "eval_loss": 0.7882828712463379,
+      "eval_runtime": 0.5212,
+      "eval_samples_per_second": 1918.744,
+      "eval_steps_per_second": 30.7,
+      "step": 231000
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 0.00018452153362834552,
+      "loss": 0.3439,
+      "step": 231500
+    },
+    {
+      "epoch": 7.11,
+      "learning_rate": 0.00018405191015792254,
+      "loss": 0.3434,
+      "step": 232000
+    },
+    {
+      "epoch": 7.11,
+      "eval_loss": 0.783893883228302,
+      "eval_runtime": 0.5131,
+      "eval_samples_per_second": 1948.878,
+      "eval_steps_per_second": 31.182,
+      "step": 232000
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 0.0001835819689804646,
+      "loss": 0.3432,
+      "step": 232500
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 0.0001831117152351732,
+      "loss": 0.3425,
+      "step": 233000
+    },
+    {
+      "epoch": 7.14,
+      "eval_loss": 0.7780929803848267,
+      "eval_runtime": 0.5186,
+      "eval_samples_per_second": 1928.433,
+      "eval_steps_per_second": 30.855,
+      "step": 233000
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.00018264115406466778,
+      "loss": 0.3425,
+      "step": 233500
+    },
+    {
+      "epoch": 7.17,
+      "learning_rate": 0.00018217029061493007,
+      "loss": 0.3421,
+      "step": 234000
+    },
+    {
+      "epoch": 7.17,
+      "eval_loss": 0.7869411706924438,
+      "eval_runtime": 0.5081,
+      "eval_samples_per_second": 1968.107,
+      "eval_steps_per_second": 31.49,
+      "step": 234000
+    },
+    {
+      "epoch": 7.18,
+      "learning_rate": 0.00018169913003524717,
+      "loss": 0.3419,
+      "step": 234500
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 0.00018122767747815594,
+      "loss": 0.3421,
+      "step": 235000
+    },
+    {
+      "epoch": 7.2,
+      "eval_loss": 0.7876418232917786,
+      "eval_runtime": 0.5428,
+      "eval_samples_per_second": 1842.248,
+      "eval_steps_per_second": 29.476,
+      "step": 235000
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 0.00018075593809938574,
+      "loss": 0.3419,
+      "step": 235500
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.00018028391705780295,
+      "loss": 0.3418,
+      "step": 236000
+    },
+    {
+      "epoch": 7.23,
+      "eval_loss": 0.7868050336837769,
+      "eval_runtime": 0.5503,
+      "eval_samples_per_second": 1817.086,
+      "eval_steps_per_second": 29.073,
+      "step": 236000
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 0.0001798116195153541,
+      "loss": 0.3411,
+      "step": 236500
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 0.0001793390506370094,
+      "loss": 0.3411,
+      "step": 237000
+    },
+    {
+      "epoch": 7.26,
+      "eval_loss": 0.7816486358642578,
+      "eval_runtime": 0.5178,
+      "eval_samples_per_second": 1931.285,
+      "eval_steps_per_second": 30.901,
+      "step": 237000
+    },
+    {
+      "epoch": 7.28,
+      "learning_rate": 0.00017886621559070638,
+      "loss": 0.3411,
+      "step": 237500
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 0.00017839311954729337,
+      "loss": 0.3411,
+      "step": 238000
+    },
+    {
+      "epoch": 7.29,
+      "eval_loss": 0.8025993704795837,
+      "eval_runtime": 0.536,
+      "eval_samples_per_second": 1865.76,
+      "eval_steps_per_second": 29.852,
+      "step": 238000
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.00017791976768047292,
+      "loss": 0.341,
+      "step": 238500
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 0.00017744616516674518,
+      "loss": 0.3407,
+      "step": 239000
+    },
+    {
+      "epoch": 7.32,
+      "eval_loss": 0.780501127243042,
+      "eval_runtime": 0.5121,
+      "eval_samples_per_second": 1952.615,
+      "eval_steps_per_second": 31.242,
+      "step": 239000
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 0.00017697231718535132,
+      "loss": 0.3407,
+      "step": 239500
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.00017649822891821707,
+      "loss": 0.3406,
+      "step": 240000
+    },
+    {
+      "epoch": 7.35,
+      "eval_loss": 0.777356743812561,
+      "eval_runtime": 0.5274,
+      "eval_samples_per_second": 1895.979,
+      "eval_steps_per_second": 30.336,
+      "step": 240000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 7.667635414924169e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0381bd61cfa5693b91ef1c3bc98164157c471fedd8ca782c7895ef021e44198e
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bafb8dfd27714f7b68b27eba658de7a2870bf153771314a5d692b964ccf409b2
 size 102501541