Training in progress, step 920000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:286afc89953ac85c207ddee00ff74005ad2f262dcd53bfa64635a387b524e2f5
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee3aeed50a2a4c25efaca58a22f8e74eeb4a5176131dc454fbde37631acf016d
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b52f3b8fcfa70b1731fae94d573cc6b63207a962d882488f83af9b17655c7c7
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:49c53e22d617d625d68b0b7c24d68f147254236ebb3b272bd10eecf6d93598e9
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff175a5d87dd6b1bf5f6c9e51e5ee8b16642953afdff5a8deb87c35e540e812
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b532accc0aeba393068677a9f95a8872109f8bff87e999a983cbe001ebba335b
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68bd93c5df85b9ef6b8dfb004005413abc49b194d979c692716ee25211f1498f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7df508c344c1f04d3b388cef9605593fbfd129cd18e2830701d3110873541479
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.791976623579403,
-  "global_step": 910000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -18206,11 +18206,211 @@
       "eval_samples_per_second": 861.024,
       "eval_steps_per_second": 13.495,
       "step": 910000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 6.3790744657339496e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.903505347802326,
+  "global_step": 920000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 861.024,
       "eval_steps_per_second": 13.495,
       "step": 910000
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 1.3043645183837645e-05,
+      "loss": 0.1817,
+      "step": 910500
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 1.3009978131197669e-05,
+      "loss": 0.1821,
+      "step": 911000
+    },
+    {
+      "epoch": 9.8,
+      "eval_loss": 0.17097479104995728,
+      "eval_runtime": 2.7046,
+      "eval_samples_per_second": 849.303,
+      "eval_steps_per_second": 13.311,
+      "step": 911000
+    },
+    {
+      "epoch": 9.81,
+      "learning_rate": 1.297649422671947e-05,
+      "loss": 0.1815,
+      "step": 911500
+    },
+    {
+      "epoch": 9.81,
+      "learning_rate": 1.2943193561946762e-05,
+      "loss": 0.1814,
+      "step": 912000
+    },
+    {
+      "epoch": 9.81,
+      "eval_loss": 0.1718176305294037,
+      "eval_runtime": 2.6645,
+      "eval_samples_per_second": 862.075,
+      "eval_steps_per_second": 13.511,
+      "step": 912000
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 1.291007622792231e-05,
+      "loss": 0.1816,
+      "step": 912500
+    },
+    {
+      "epoch": 9.83,
+      "learning_rate": 1.2877142315187628e-05,
+      "loss": 0.1818,
+      "step": 913000
+    },
+    {
+      "epoch": 9.83,
+      "eval_loss": 0.1710846871137619,
+      "eval_runtime": 2.7026,
+      "eval_samples_per_second": 849.924,
+      "eval_steps_per_second": 13.321,
+      "step": 913000
+    },
+    {
+      "epoch": 9.83,
+      "learning_rate": 1.2844391913782773e-05,
+      "loss": 0.182,
+      "step": 913500
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 1.28118251132461e-05,
+      "loss": 0.1815,
+      "step": 914000
+    },
+    {
+      "epoch": 9.84,
+      "eval_loss": 0.17333008348941803,
+      "eval_runtime": 2.5502,
+      "eval_samples_per_second": 900.72,
+      "eval_steps_per_second": 14.117,
+      "step": 914000
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 1.2779442002613984e-05,
+      "loss": 0.1814,
+      "step": 914500
+    },
+    {
+      "epoch": 9.85,
+      "learning_rate": 1.274724267042063e-05,
+      "loss": 0.1814,
+      "step": 915000
+    },
+    {
+      "epoch": 9.85,
+      "eval_loss": 0.1717572808265686,
+      "eval_runtime": 2.636,
+      "eval_samples_per_second": 871.395,
+      "eval_steps_per_second": 13.657,
+      "step": 915000
+    },
+    {
+      "epoch": 9.85,
+      "learning_rate": 1.2715227204697775e-05,
+      "loss": 0.1814,
+      "step": 915500
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 1.2683395692974472e-05,
+      "loss": 0.1819,
+      "step": 916000
+    },
+    {
+      "epoch": 9.86,
+      "eval_loss": 0.17225094139575958,
+      "eval_runtime": 2.6373,
+      "eval_samples_per_second": 870.95,
+      "eval_steps_per_second": 13.65,
+      "step": 916000
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 1.2651748222276879e-05,
+      "loss": 0.1815,
+      "step": 916500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 1.2620284879127947e-05,
+      "loss": 0.1816,
+      "step": 917000
+    },
+    {
+      "epoch": 9.87,
+      "eval_loss": 0.17146611213684082,
+      "eval_runtime": 2.7493,
+      "eval_samples_per_second": 835.499,
+      "eval_steps_per_second": 13.094,
+      "step": 917000
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.2589005749547281e-05,
+      "loss": 0.1815,
+      "step": 917500
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.2557910919050803e-05,
+      "loss": 0.1813,
+      "step": 918000
+    },
+    {
+      "epoch": 9.88,
+      "eval_loss": 0.16947948932647705,
+      "eval_runtime": 2.7503,
+      "eval_samples_per_second": 835.189,
+      "eval_steps_per_second": 13.09,
+      "step": 918000
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 1.2527000472650597e-05,
+      "loss": 0.1815,
+      "step": 918500
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 1.2496274494854666e-05,
+      "loss": 0.1812,
+      "step": 919000
+    },
+    {
+      "epoch": 9.89,
+      "eval_loss": 0.17127934098243713,
+      "eval_runtime": 2.6734,
+      "eval_samples_per_second": 859.205,
+      "eval_steps_per_second": 13.466,
+      "step": 919000
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 1.2465733069666629e-05,
+      "loss": 0.1813,
+      "step": 919500
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 1.24353762805856e-05,
+      "loss": 0.1814,
+      "step": 920000
+    },
+    {
+      "epoch": 9.9,
+      "eval_loss": 0.17229017615318298,
+      "eval_runtime": 2.6708,
+      "eval_samples_per_second": 860.053,
+      "eval_steps_per_second": 13.479,
+      "step": 920000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 6.449174726764297e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b52f3b8fcfa70b1731fae94d573cc6b63207a962d882488f83af9b17655c7c7
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:49c53e22d617d625d68b0b7c24d68f147254236ebb3b272bd10eecf6d93598e9
 size 449471589