Training in progress, step 440000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf00e3d4f0141ee77d7fac9590f426eb5970750593815683fd979f14be837d4f
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a4ad94b9d5ed920cecf2394888d2a87ad3ee893c3c5ddbd5617ff00b81d3e84
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93aa30fc145e0d59395556dbcdda066166e18281fd9035e50e621fea7af14d91
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c579869ee7eca1f3cfb28c1e8c5c1a2c4c07c47eb9cbbb5f2453c93bc559b64a
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b43c6c8225f37c4e4c9b2cfb89653fd869da7112e0141a79fcb8ec050a3739
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a654aa71fcb8c8c7fac3eb694717c26bcb1def578ecd3a5246da103da0b6ce
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f427c751ea4b109969727e0c5f2ef9ef6fd7587de8192ab50fc2201ab4ba3ed9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1894f32b2441ea8820978bbb44f8f2d9ce0a579e669301efbd1655378591798a
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.591363311920057,
-  "global_step": 430000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8606,11 +8606,211 @@
       "eval_samples_per_second": 1115.617,
       "eval_steps_per_second": 17.485,
       "step": 430000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 1.3737690878950762e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.814418272662383,
+  "global_step": 440000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1115.617,
       "eval_steps_per_second": 17.485,
       "step": 430000
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 2.5050805238106804e-05,
+      "loss": 0.2561,
+      "step": 430500
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 2.4838784403798542e-05,
+      "loss": 0.256,
+      "step": 431000
+    },
+    {
+      "epoch": 9.61,
+      "eval_loss": 0.23836444318294525,
+      "eval_runtime": 2.1211,
+      "eval_samples_per_second": 1082.938,
+      "eval_steps_per_second": 16.972,
+      "step": 431000
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 2.4628186991690346e-05,
+      "loss": 0.256,
+      "step": 431500
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 2.4419015304841797e-05,
+      "loss": 0.2562,
+      "step": 432000
+    },
+    {
+      "epoch": 9.64,
+      "eval_loss": 0.2407396286725998,
+      "eval_runtime": 2.084,
+      "eval_samples_per_second": 1102.19,
+      "eval_steps_per_second": 17.274,
+      "step": 432000
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 2.4211271630720957e-05,
+      "loss": 0.2559,
+      "step": 432500
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 2.4004958241179347e-05,
+      "loss": 0.2558,
+      "step": 433000
+    },
+    {
+      "epoch": 9.66,
+      "eval_loss": 0.23972494900226593,
+      "eval_runtime": 2.0364,
+      "eval_samples_per_second": 1127.958,
+      "eval_steps_per_second": 17.678,
+      "step": 433000
+    },
+    {
+      "epoch": 9.67,
+      "learning_rate": 2.3800077392427193e-05,
+      "loss": 0.2559,
+      "step": 433500
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 2.3596631325008536e-05,
+      "loss": 0.256,
+      "step": 434000
+    },
+    {
+      "epoch": 9.68,
+      "eval_loss": 0.24173137545585632,
+      "eval_runtime": 2.0453,
+      "eval_samples_per_second": 1123.05,
+      "eval_steps_per_second": 17.601,
+      "step": 434000
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 2.3394622263777042e-05,
+      "loss": 0.2566,
+      "step": 434500
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 2.3194052417871433e-05,
+      "loss": 0.2558,
+      "step": 435000
+    },
+    {
+      "epoch": 9.7,
+      "eval_loss": 0.23999714851379395,
+      "eval_runtime": 2.0454,
+      "eval_samples_per_second": 1123.023,
+      "eval_steps_per_second": 17.601,
+      "step": 435000
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 2.2994923980691425e-05,
+      "loss": 0.2556,
+      "step": 435500
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 2.279723912987365e-05,
+      "loss": 0.2552,
+      "step": 436000
+    },
+    {
+      "epoch": 9.73,
+      "eval_loss": 0.23865634202957153,
+      "eval_runtime": 2.0599,
+      "eval_samples_per_second": 1115.091,
+      "eval_steps_per_second": 17.476,
+      "step": 436000
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 2.2601000027268006e-05,
+      "loss": 0.2555,
+      "step": 436500
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 2.2406208818913857e-05,
+      "loss": 0.2556,
+      "step": 437000
+    },
+    {
+      "epoch": 9.75,
+      "eval_loss": 0.2411411553621292,
+      "eval_runtime": 2.0137,
+      "eval_samples_per_second": 1140.659,
+      "eval_steps_per_second": 17.877,
+      "step": 437000
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 2.221286763501666e-05,
+      "loss": 0.2571,
+      "step": 437500
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 2.2020978589924673e-05,
+      "loss": 0.258,
+      "step": 438000
+    },
+    {
+      "epoch": 9.77,
+      "eval_loss": 0.24090658128261566,
+      "eval_runtime": 2.0077,
+      "eval_samples_per_second": 1144.123,
+      "eval_steps_per_second": 17.931,
+      "step": 438000
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 2.1830543782105647e-05,
+      "loss": 0.2566,
+      "step": 438500
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 2.1641565294124206e-05,
+      "loss": 0.2565,
+      "step": 439000
+    },
+    {
+      "epoch": 9.79,
+      "eval_loss": 0.23793531954288483,
+      "eval_runtime": 1.9748,
+      "eval_samples_per_second": 1163.127,
+      "eval_steps_per_second": 18.229,
+      "step": 439000
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 2.1454045192618794e-05,
+      "loss": 0.2564,
+      "step": 439500
+    },
+    {
+      "epoch": 9.81,
+      "learning_rate": 2.1267985528279212e-05,
+      "loss": 0.2569,
+      "step": 440000
+    },
+    {
+      "epoch": 9.81,
+      "eval_loss": 0.23971830308437347,
+      "eval_runtime": 1.9911,
+      "eval_samples_per_second": 1153.611,
+      "eval_steps_per_second": 18.08,
+      "step": 440000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 1.4057178017725262e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93aa30fc145e0d59395556dbcdda066166e18281fd9035e50e621fea7af14d91
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c579869ee7eca1f3cfb28c1e8c5c1a2c4c07c47eb9cbbb5f2453c93bc559b64a
 size 102501541