Training in progress, step 430000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c86f20ff2f16bc74cf4ee66c25e77d588ff8cbcd2b5cb9a79d80faea6a868a0
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf00e3d4f0141ee77d7fac9590f426eb5970750593815683fd979f14be837d4f
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8e5e19ff37c6ce7607be01898171697733e36744c9c85c433e17ed4553954f2
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:93aa30fc145e0d59395556dbcdda066166e18281fd9035e50e621fea7af14d91
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad8e71a98d36ad99a4f70d2c0839c4fb9061d716502b425596b1471b57d638f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21fa0c13fc0e3348f6228394f5e318945295debe26ba21ec91b2c06a47593869
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f427c751ea4b109969727e0c5f2ef9ef6fd7587de8192ab50fc2201ab4ba3ed9
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.36830835117773,
-  "global_step": 420000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8406,11 +8406,211 @@
       "eval_samples_per_second": 1103.391,
       "eval_steps_per_second": 17.293,
       "step": 420000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 1.3418203740176262e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.591363311920057,
+  "global_step": 430000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1103.391,
       "eval_steps_per_second": 17.293,
       "step": 420000
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 2.9586456905128618e-05,
+      "loss": 0.2562,
+      "step": 420500
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 2.9346475051519687e-05,
+      "loss": 0.2583,
+      "step": 421000
+    },
+    {
+      "epoch": 9.39,
+      "eval_loss": 0.2419823408126831,
+      "eval_runtime": 2.1088,
+      "eval_samples_per_second": 1089.249,
+      "eval_steps_per_second": 17.071,
+      "step": 421000
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 2.910786732472815e-05,
+      "loss": 0.257,
+      "step": 421500
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 2.887063633412981e-05,
+      "loss": 0.2565,
+      "step": 422000
+    },
+    {
+      "epoch": 9.41,
+      "eval_loss": 0.240878626704216,
+      "eval_runtime": 2.008,
+      "eval_samples_per_second": 1143.9,
+      "eval_steps_per_second": 17.928,
+      "step": 422000
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 2.863478467404478e-05,
+      "loss": 0.2563,
+      "step": 422500
+    },
+    {
+      "epoch": 9.44,
+      "learning_rate": 2.8400314923709112e-05,
+      "loss": 0.2562,
+      "step": 423000
+    },
+    {
+      "epoch": 9.44,
+      "eval_loss": 0.2374911606311798,
+      "eval_runtime": 2.1002,
+      "eval_samples_per_second": 1093.715,
+      "eval_steps_per_second": 17.141,
+      "step": 423000
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 2.816722964724636e-05,
+      "loss": 0.256,
+      "step": 423500
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 2.793553139363981e-05,
+      "loss": 0.2556,
+      "step": 424000
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.2397317737340927,
+      "eval_runtime": 2.1055,
+      "eval_samples_per_second": 1090.975,
+      "eval_steps_per_second": 17.098,
+      "step": 424000
+    },
+    {
+      "epoch": 9.47,
+      "learning_rate": 2.7705222696704366e-05,
+      "loss": 0.256,
+      "step": 424500
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 2.7476306075059096e-05,
+      "loss": 0.2562,
+      "step": 425000
+    },
+    {
+      "epoch": 9.48,
+      "eval_loss": 0.23977774381637573,
+      "eval_runtime": 2.06,
+      "eval_samples_per_second": 1115.059,
+      "eval_steps_per_second": 17.476,
+      "step": 425000
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 2.7248784032099478e-05,
+      "loss": 0.2574,
+      "step": 425500
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 2.7022659055970144e-05,
+      "loss": 0.2584,
+      "step": 426000
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.2388191670179367,
+      "eval_runtime": 2.1089,
+      "eval_samples_per_second": 1089.195,
+      "eval_steps_per_second": 17.071,
+      "step": 426000
+    },
+    {
+      "epoch": 9.51,
+      "learning_rate": 2.6797933619537604e-05,
+      "loss": 0.2572,
+      "step": 426500
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 2.6574610180363166e-05,
+      "loss": 0.2566,
+      "step": 427000
+    },
+    {
+      "epoch": 9.52,
+      "eval_loss": 0.24121782183647156,
+      "eval_runtime": 2.0738,
+      "eval_samples_per_second": 1107.617,
+      "eval_steps_per_second": 17.359,
+      "step": 427000
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 2.6352691180676286e-05,
+      "loss": 0.2568,
+      "step": 427500
+    },
+    {
+      "epoch": 9.55,
+      "learning_rate": 2.6132179047347505e-05,
+      "loss": 0.256,
+      "step": 428000
+    },
+    {
+      "epoch": 9.55,
+      "eval_loss": 0.24006181955337524,
+      "eval_runtime": 1.9904,
+      "eval_samples_per_second": 1154.041,
+      "eval_steps_per_second": 18.087,
+      "step": 428000
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 2.5913076191862238e-05,
+      "loss": 0.2564,
+      "step": 428500
+    },
+    {
+      "epoch": 9.57,
+      "learning_rate": 2.5695385010294165e-05,
+      "loss": 0.2564,
+      "step": 429000
+    },
+    {
+      "epoch": 9.57,
+      "eval_loss": 0.24071797728538513,
+      "eval_runtime": 1.9595,
+      "eval_samples_per_second": 1172.235,
+      "eval_steps_per_second": 18.372,
+      "step": 429000
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 2.5479107883279144e-05,
+      "loss": 0.2564,
+      "step": 429500
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 2.5264247175989292e-05,
+      "loss": 0.2564,
+      "step": 430000
+    },
+    {
+      "epoch": 9.59,
+      "eval_loss": 0.23974178731441498,
+      "eval_runtime": 2.0589,
+      "eval_samples_per_second": 1115.617,
+      "eval_steps_per_second": 17.485,
+      "step": 430000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 1.3737690878950762e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8e5e19ff37c6ce7607be01898171697733e36744c9c85c433e17ed4553954f2
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:93aa30fc145e0d59395556dbcdda066166e18281fd9035e50e621fea7af14d91
 size 102501541