Training in progress, step 280000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:185444010f2414af8f6b292f79fa769076772990bf1219a1dafd09b6faae29a4
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:685baa1115c9996a6d3f73f4d770cb44301323ea5ee9d7eb0866dbaffb748894
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94365aa60c35fc7ec52e5e8ba19311622aaab34d18bf7ce3dd77401881509519
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:866ffe9cab4eb4a4754c64cb5d7ed4f31ed0ad83e08ecaffbb7f5035db70963f
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6f6ae6faade50eb043968b5667df29128b1e4a2530013bd32474d5a36afc850
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:69c627f38132dd40cef0053712aa1270dae63d12ac97e7fc6aaa3050230ece5f
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cc3f7b88227092a0043ff66b55085eb9bd377bb70cc891cc293b48f870db21f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ff5c53b911e025186f3d4cefd2ae203cd3c867a78b103c8c95c51e8d20b5b99
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f3a5a051f0b0618eb7cb1692de034b0ac1fd365c0c181b09a598798b6235801
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba38210b26270fe6dc17e8687ed18c17cb3c73130918a06af7f287737355cbb7
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9c6b8fbeaadc53fb4ee209c1d104938ceaf8c8a8cbc2fa87ebcabcc6284da17
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:088007f9c38eed502aa04c5f433e4da63387bd973584b94625ca26c1cb52eacf
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d753925d97c5520e660dcdd16394471ced5c4bc24193ed0a377ef70d8717a46
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:2014d323a6a226b752e2eff97f028102e8f8d7d7ca11f19c3f47a58b4e4654ab
 size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdee02ae130781f905df4745f98c06bad459194317ec411b25af7a96f282fee2
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:539ae7fa3d9912913294dc2719a2dd73be6f83eb9b37e29816e50a7b5d35e566
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:823a83d9a98cde647a58d74cc1bea63c670933d602a5a07e7fc2bfa68d3b9e32
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:75cd206de91cc2704e6a99c57b9e488ddcdbbc4b410b702c69de32467cde6e75
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4ef1c7732ec4132391d0d6a205bc292fbd5fe79d85d00447b48ac3c30b01e18
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c28314a75be0e567739244bb3713c7239bcefe683fa1af29178e1fe22d80967d
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cb61348726887e329b19406ea4e3e39ac391edeec6dfd8508b3cb524aa33e28
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:80db35d9a6af0da10cd7cebe3bf01f3932293e48fc6a8607555efe3b5591e844
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.272312264468887,
-  "global_step": 270000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5406,11 +5406,211 @@
       "eval_samples_per_second": 1913.356,
       "eval_steps_per_second": 30.614,
       "step": 270000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 8.626088843295693e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.578694200189958,
+  "global_step": 280000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1913.356,
       "eval_steps_per_second": 30.614,
       "step": 270000
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 0.00014733147931802578,
+      "loss": 0.7368,
+      "step": 270500
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 0.00014685268692538238,
+      "loss": 0.7368,
+      "step": 271000
+    },
+    {
+      "epoch": 8.3,
+      "eval_loss": 0.9023635387420654,
+      "eval_runtime": 0.5188,
+      "eval_samples_per_second": 1927.356,
+      "eval_steps_per_second": 30.838,
+      "step": 271000
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 0.00014637398363044946,
+      "loss": 0.7143,
+      "step": 271500
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 0.00014589537466824955,
+      "loss": 0.3428,
+      "step": 272000
+    },
+    {
+      "epoch": 8.33,
+      "eval_loss": 0.7834916710853577,
+      "eval_runtime": 0.5348,
+      "eval_samples_per_second": 1869.839,
+      "eval_steps_per_second": 29.917,
+      "step": 272000
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 0.00014541686527277356,
+      "loss": 0.3388,
+      "step": 272500
+    },
+    {
+      "epoch": 8.36,
+      "learning_rate": 0.00014493846067692358,
+      "loss": 0.3376,
+      "step": 273000
+    },
+    {
+      "epoch": 8.36,
+      "eval_loss": 0.7843596935272217,
+      "eval_runtime": 0.5178,
+      "eval_samples_per_second": 1931.2,
+      "eval_steps_per_second": 30.899,
+      "step": 273000
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 0.00014446016611245567,
+      "loss": 0.3362,
+      "step": 273500
+    },
+    {
+      "epoch": 8.39,
+      "learning_rate": 0.00014398198680992252,
+      "loss": 0.3369,
+      "step": 274000
+    },
+    {
+      "epoch": 8.39,
+      "eval_loss": 0.7844694256782532,
+      "eval_runtime": 0.5316,
+      "eval_samples_per_second": 1881.272,
+      "eval_steps_per_second": 30.1,
+      "step": 274000
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 0.00014350392799861636,
+      "loss": 0.336,
+      "step": 274500
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 0.0001430259949065118,
+      "loss": 0.3356,
+      "step": 275000
+    },
+    {
+      "epoch": 8.43,
+      "eval_loss": 0.7838680148124695,
+      "eval_runtime": 0.52,
+      "eval_samples_per_second": 1923.025,
+      "eval_steps_per_second": 30.768,
+      "step": 275000
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 0.0001425481927602085,
+      "loss": 0.3348,
+      "step": 275500
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 0.0001420705267848743,
+      "loss": 0.3352,
+      "step": 276000
+    },
+    {
+      "epoch": 8.46,
+      "eval_loss": 0.7744572162628174,
+      "eval_runtime": 0.5156,
+      "eval_samples_per_second": 1939.351,
+      "eval_steps_per_second": 31.03,
+      "step": 276000
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 0.00014159300220418757,
+      "loss": 0.3342,
+      "step": 276500
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 0.0001411156242402808,
+      "loss": 0.3341,
+      "step": 277000
+    },
+    {
+      "epoch": 8.49,
+      "eval_loss": 0.7838852405548096,
+      "eval_runtime": 0.5192,
+      "eval_samples_per_second": 1925.877,
+      "eval_steps_per_second": 30.814,
+      "step": 277000
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 0.0001406383981136829,
+      "loss": 0.3339,
+      "step": 277500
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 0.00014016132904326226,
+      "loss": 0.334,
+      "step": 278000
+    },
+    {
+      "epoch": 8.52,
+      "eval_loss": 0.7889499664306641,
+      "eval_runtime": 0.5333,
+      "eval_samples_per_second": 1875.279,
+      "eval_steps_per_second": 30.004,
+      "step": 278000
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 0.00013968442224616989,
+      "loss": 0.3338,
+      "step": 278500
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 0.00013920768293778195,
+      "loss": 0.3337,
+      "step": 279000
+    },
+    {
+      "epoch": 8.55,
+      "eval_loss": 0.7802003026008606,
+      "eval_runtime": 0.5176,
+      "eval_samples_per_second": 1931.905,
+      "eval_steps_per_second": 30.91,
+      "step": 279000
+    },
+    {
+      "epoch": 8.56,
+      "learning_rate": 0.00013873111633164336,
+      "loss": 0.3336,
+      "step": 279500
+    },
+    {
+      "epoch": 8.58,
+      "learning_rate": 0.00013825472763941,
+      "loss": 0.3338,
+      "step": 280000
+    },
+    {
+      "epoch": 8.58,
+      "eval_loss": 0.7855395674705505,
+      "eval_runtime": 0.525,
+      "eval_samples_per_second": 1904.885,
+      "eval_steps_per_second": 30.478,
+      "step": 280000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 8.945575982070193e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94365aa60c35fc7ec52e5e8ba19311622aaab34d18bf7ce3dd77401881509519
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:866ffe9cab4eb4a4754c64cb5d7ed4f31ed0ad83e08ecaffbb7f5035db70963f
 size 102501541