Training in progress, step 130000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84c27558da026f6ac6f829599c8d9ba0e7ad0551d0a475705ca3d50371f47fe6
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:62c0a2c7e077b8baa73fd828f2e70985bcefeea8be38a9936a8140714c1e4c47
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:741994f4c9e1568601969909c18e19f79331bf84d435cca376c7e346bb47a00d
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc20de398adc6319c715613716f2c9d4ce124e70ee41a98ab642ac175fb204e5
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6f74feb9a4e4b8282d7fcaa0ade2acc29050c48ee19da4d55b9134c586370c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e66d48adb544b295049d3e3a54b3728811cc41b1dee1e6eae561cecd176107ac
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c534c69c702472a462ee5c5c8e40f09fd7295b5cb464c1c3364c271724c3d05b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa61e63d6ec853afa02e48d5167bab30a383bd9f05f192b20c686fb9a3478097
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.352941176470588,
-  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2406,11 +2406,211 @@
       "eval_samples_per_second": 761.353,
       "eval_steps_per_second": 12.182,
       "step": 120000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 1.9219459608643434e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.965686274509804,
+  "global_step": 130000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 761.353,
       "eval_steps_per_second": 12.182,
       "step": 120000
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 0.0003468073028890751,
+      "loss": 0.4725,
+      "step": 120500
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.0003448750009162916,
+      "loss": 0.4724,
+      "step": 121000
+    },
+    {
+      "epoch": 7.41,
+      "eval_loss": 0.8083821535110474,
+      "eval_runtime": 1.2822,
+      "eval_samples_per_second": 779.917,
+      "eval_steps_per_second": 12.479,
+      "step": 121000
+    },
+    {
+      "epoch": 7.44,
+      "learning_rate": 0.00034294095468179094,
+      "loss": 0.4721,
+      "step": 121500
+    },
+    {
+      "epoch": 7.48,
+      "learning_rate": 0.00034100524878702073,
+      "loss": 0.4714,
+      "step": 122000
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.8066253662109375,
+      "eval_runtime": 1.3256,
+      "eval_samples_per_second": 754.393,
+      "eval_steps_per_second": 12.07,
+      "step": 122000
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 0.000339067967906028,
+      "loss": 0.4711,
+      "step": 122500
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 0.0003371291967817539,
+      "loss": 0.4705,
+      "step": 123000
+    },
+    {
+      "epoch": 7.54,
+      "eval_loss": 0.8094301819801331,
+      "eval_runtime": 1.2682,
+      "eval_samples_per_second": 788.537,
+      "eval_steps_per_second": 12.617,
+      "step": 123000
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 0.0003351890202223285,
+      "loss": 0.4704,
+      "step": 123500
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 0.0003332475230973597,
+      "loss": 0.4699,
+      "step": 124000
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 0.8094833493232727,
+      "eval_runtime": 1.3119,
+      "eval_samples_per_second": 762.242,
+      "eval_steps_per_second": 12.196,
+      "step": 124000
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.00033130479033422134,
+      "loss": 0.4697,
+      "step": 124500
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 0.0003293609069143381,
+      "loss": 0.4693,
+      "step": 125000
+    },
+    {
+      "epoch": 7.66,
+      "eval_loss": 0.8100947141647339,
+      "eval_runtime": 1.3107,
+      "eval_samples_per_second": 762.972,
+      "eval_steps_per_second": 12.208,
+      "step": 125000
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 0.00032741595786946783,
+      "loss": 0.4688,
+      "step": 125500
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 0.000325470028277983,
+      "loss": 0.4685,
+      "step": 126000
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.8091694116592407,
+      "eval_runtime": 1.2961,
+      "eval_samples_per_second": 771.538,
+      "eval_steps_per_second": 12.345,
+      "step": 126000
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 0.00032352320326114754,
+      "loss": 0.4686,
+      "step": 126500
+    },
+    {
+      "epoch": 7.78,
+      "learning_rate": 0.00032157556797939436,
+      "loss": 0.4679,
+      "step": 127000
+    },
+    {
+      "epoch": 7.78,
+      "eval_loss": 0.8025205135345459,
+      "eval_runtime": 1.2855,
+      "eval_samples_per_second": 777.911,
+      "eval_steps_per_second": 12.447,
+      "step": 127000
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 0.00031962720762860057,
+      "loss": 0.4676,
+      "step": 127500
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 0.0003176782074363595,
+      "loss": 0.4672,
+      "step": 128000
+    },
+    {
+      "epoch": 7.84,
+      "eval_loss": 0.800028920173645,
+      "eval_runtime": 1.3752,
+      "eval_samples_per_second": 727.176,
+      "eval_steps_per_second": 11.635,
+      "step": 128000
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 0.0003157286526582535,
+      "loss": 0.4669,
+      "step": 128500
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.0003137786285741241,
+      "loss": 0.4665,
+      "step": 129000
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.802001416683197,
+      "eval_runtime": 1.3448,
+      "eval_samples_per_second": 743.623,
+      "eval_steps_per_second": 11.898,
+      "step": 129000
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.0003118282204843421,
+      "loss": 0.4663,
+      "step": 129500
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 0.0003098775137060758,
+      "loss": 0.4659,
+      "step": 130000
+    },
+    {
+      "epoch": 7.97,
+      "eval_loss": 0.8022414445877075,
+      "eval_runtime": 1.3715,
+      "eval_samples_per_second": 729.142,
+      "eval_steps_per_second": 11.666,
+      "step": 130000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 2.0821139637301475e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:741994f4c9e1568601969909c18e19f79331bf84d435cca376c7e346bb47a00d
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc20de398adc6319c715613716f2c9d4ce124e70ee41a98ab642ac175fb204e5
 size 25761253