Training in progress, step 360000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:836759fedb3c04c1e36e698a6cd3899f162ede3f32c56386ef24d49bc2163cbb
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e16c64f372a1e3d1a1bc418a8e836e1cdfb665e54de868c2b11e7665a8124bd
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998435b0f9ce53e66113d7bec14d46ccd8a7918639830988194463c1e5db1349
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc2fe2e5c738c8106278780fab9f7f87cb208c3a8d2ade89df93aa0343c89bdb
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c8523a23b2126f1e0b2250304237778c9e938ca58ea61d2aaa56f9cdd412f84
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:005b2e75d9554e018ed97e7633dc38306c4b6264c09e33e752be796ffbb52bec
+size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1c4bd77bedf03001af3b9ef889b6dfe87e92115f91a7e639d6fdb4f2831fa70
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f90d85a554f4240712d12f4bc1ca42d7122c1ea252e7027b0c918e99e4e1de85
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec34896b527ce9812ef17fb169750711c41b89b6349b3cbcdfa7be94e1a6baf1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:795aa2456aa093dc231a0ad24cc817827fd817979cb85490c41b919c7e2ac93d
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d73239bf94e1fdf6dfa1faf7bc1d6eac9849348001cddeb5d7b0b44851b2a55
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3a87c23715b7e025f85b63ac84fed0695e2db4c59ea40d605d467271ee7eaff
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d82a5834c903434e02d3959ef5a762fdae6236f6271145404caf4e2755eebe70
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2870379f6b63b47a9122657f592b0d575a5671da1a1fb7b494f10475da4ee08
+size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f0e5e58f841742c4dc32af4083c8e6dd9bd1edca9f29e95f20db66083298fd7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccc684958440988665bb83e21073c7e935f44d96d06218e7d486fc15f417721c
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5cc705bc82ed7c42464d2fba05f65cc617ebee401f1689c9b01b9b6c7d23636
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:7790e1f5d1d539cc24a5c7f36951077137e9c4173691b395bbb8021eb1098267
+size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:280859229d77bcf03b4604363e8dcb5eb462972def25bd8dc14847679a550bcd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:296d7ff2fcb06c6f8604bd8a18f2173bb33ea1cf17b1b7e10c614ffd53051e05
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aecc6465a886ff601ea303358a61f89a30e07c965e206675258095a3d963058
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6e54422706a010aa16b679660182e5a0c0f546c43656852cb88a82c1d45dccf
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.723367750237447,
-  "global_step": 350000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7006,11 +7006,211 @@
       "eval_samples_per_second": 1982.304,
       "eval_steps_per_second": 31.717,
       "step": 350000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.1181969977587741e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.029749685958516,
+  "global_step": 360000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1982.304,
       "eval_steps_per_second": 31.717,
       "step": 350000
+    },
+    {
+      "epoch": 10.74,
+      "learning_rate": 7.529152489465592e-05,
+      "loss": 0.3237,
+      "step": 350500
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 7.489140439617708e-05,
+      "loss": 0.3239,
+      "step": 351000
+    },
+    {
+      "epoch": 10.75,
+      "eval_loss": 0.7802942991256714,
+      "eval_runtime": 0.4971,
+      "eval_samples_per_second": 2011.848,
+      "eval_steps_per_second": 32.19,
+      "step": 351000
+    },
+    {
+      "epoch": 10.77,
+      "learning_rate": 7.449215995246522e-05,
+      "loss": 0.3236,
+      "step": 351500
+    },
+    {
+      "epoch": 10.78,
+      "learning_rate": 7.409379592959367e-05,
+      "loss": 0.3237,
+      "step": 352000
+    },
+    {
+      "epoch": 10.78,
+      "eval_loss": 0.7798171043395996,
+      "eval_runtime": 0.501,
+      "eval_samples_per_second": 1995.947,
+      "eval_steps_per_second": 31.935,
+      "step": 352000
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 7.369631668400746e-05,
+      "loss": 0.3234,
+      "step": 352500
+    },
+    {
+      "epoch": 10.82,
+      "learning_rate": 7.3299726562476e-05,
+      "loss": 0.3231,
+      "step": 353000
+    },
+    {
+      "epoch": 10.82,
+      "eval_loss": 0.7781672477722168,
+      "eval_runtime": 0.5053,
+      "eval_samples_per_second": 1979.072,
+      "eval_steps_per_second": 31.665,
+      "step": 353000
+    },
+    {
+      "epoch": 10.83,
+      "learning_rate": 7.290402990204531e-05,
+      "loss": 0.3233,
+      "step": 353500
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 7.250923102999073e-05,
+      "loss": 0.3234,
+      "step": 354000
+    },
+    {
+      "epoch": 10.85,
+      "eval_loss": 0.7746726870536804,
+      "eval_runtime": 0.5021,
+      "eval_samples_per_second": 1991.707,
+      "eval_steps_per_second": 31.867,
+      "step": 354000
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 7.211533426376934e-05,
+      "loss": 0.3234,
+      "step": 354500
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 7.172234391097317e-05,
+      "loss": 0.3232,
+      "step": 355000
+    },
+    {
+      "epoch": 10.88,
+      "eval_loss": 0.7761996984481812,
+      "eval_runtime": 0.5166,
+      "eval_samples_per_second": 1935.585,
+      "eval_steps_per_second": 30.969,
+      "step": 355000
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 7.133026426928173e-05,
+      "loss": 0.3231,
+      "step": 355500
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 7.093909962641514e-05,
+      "loss": 0.3254,
+      "step": 356000
+    },
+    {
+      "epoch": 10.91,
+      "eval_loss": 0.7848865985870361,
+      "eval_runtime": 0.5114,
+      "eval_samples_per_second": 1955.496,
+      "eval_steps_per_second": 31.288,
+      "step": 356000
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 7.054885426008737e-05,
+      "loss": 0.3229,
+      "step": 356500
+    },
+    {
+      "epoch": 10.94,
+      "learning_rate": 7.015953243795907e-05,
+      "loss": 0.3229,
+      "step": 357000
+    },
+    {
+      "epoch": 10.94,
+      "eval_loss": 0.7789940237998962,
+      "eval_runtime": 0.5055,
+      "eval_samples_per_second": 1978.178,
+      "eval_steps_per_second": 31.651,
+      "step": 357000
+    },
+    {
+      "epoch": 10.95,
+      "learning_rate": 6.97711384175914e-05,
+      "loss": 0.3244,
+      "step": 357500
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 6.938367644639911e-05,
+      "loss": 0.3227,
+      "step": 358000
+    },
+    {
+      "epoch": 10.97,
+      "eval_loss": 0.7808487415313721,
+      "eval_runtime": 0.5081,
+      "eval_samples_per_second": 1968.006,
+      "eval_steps_per_second": 31.488,
+      "step": 358000
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 6.899715076160425e-05,
+      "loss": 0.3226,
+      "step": 358500
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 6.861156559018986e-05,
+      "loss": 0.323,
+      "step": 359000
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.7747591137886047,
+      "eval_runtime": 0.493,
+      "eval_samples_per_second": 2028.496,
+      "eval_steps_per_second": 32.456,
+      "step": 359000
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 6.822692514885346e-05,
+      "loss": 0.3225,
+      "step": 359500
+    },
+    {
+      "epoch": 11.03,
+      "learning_rate": 6.784323364396135e-05,
+      "loss": 0.3224,
+      "step": 360000
+    },
+    {
+      "epoch": 11.03,
+      "eval_loss": 0.7760407328605652,
+      "eval_runtime": 0.5204,
+      "eval_samples_per_second": 1921.599,
+      "eval_steps_per_second": 30.746,
+      "step": 360000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.1501449128410266e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998435b0f9ce53e66113d7bec14d46ccd8a7918639830988194463c1e5db1349
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc2fe2e5c738c8106278780fab9f7f87cb208c3a8d2ade89df93aa0343c89bdb
 size 102501541