Training in progress, step 370000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e16c64f372a1e3d1a1bc418a8e836e1cdfb665e54de868c2b11e7665a8124bd
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9c8cce7fc16d49d0f7371660f21497251dd70fb6a0863ced538e8e9c69a0ca9
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc2fe2e5c738c8106278780fab9f7f87cb208c3a8d2ade89df93aa0343c89bdb
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb573bc42125377ae261521a84adbf685b2347ffb43eb62b536c886544fe2d46
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:005b2e75d9554e018ed97e7633dc38306c4b6264c09e33e752be796ffbb52bec
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ee12284053cf83e8530cb65257ff01350f611fa2a8f8b92c00004c4644ba728
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f90d85a554f4240712d12f4bc1ca42d7122c1ea252e7027b0c918e99e4e1de85
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c588aab0631e1cbe9b9bc91bd8fdb267f40c2efed21da72dbc11089c341db1a
+size 14567

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:795aa2456aa093dc231a0ad24cc817827fd817979cb85490c41b919c7e2ac93d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d81b56af08f24fc8d507e3068f145577049df6c261f921cf212def6001138c25
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3a87c23715b7e025f85b63ac84fed0695e2db4c59ea40d605d467271ee7eaff
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f3d36fad09b43ee50c94cb8bbf636c2e82070e751a5d530c5d483d7fea96111
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2870379f6b63b47a9122657f592b0d575a5671da1a1fb7b494f10475da4ee08
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:738ab6b372718dc5257fa8c5c82fc8480566553405b2c1fe74ac6bb9bd72e750
+size 14567

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccc684958440988665bb83e21073c7e935f44d96d06218e7d486fc15f417721c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a56c60b33853d8e6230ccd6985b78412b5623c0d98e6fcecc17ad9dcdf56630f
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7790e1f5d1d539cc24a5c7f36951077137e9c4173691b395bbb8021eb1098267
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:87c77a0d4fbb407266eb2a3608ccf0fffdba85f7cd116784ad470dea58425561
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:296d7ff2fcb06c6f8604bd8a18f2173bb33ea1cf17b1b7e10c614ffd53051e05
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0880cbd756484509ced83a375e5248ed2190c14baa2ebe717f828a8c21b981bd
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6e54422706a010aa16b679660182e5a0c0f546c43656852cb88a82c1d45dccf
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:580594f4768ecd1bd92e87dca92e874365a397305161c1f8781b79f1f0b613ba
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.029749685958516,
-  "global_step": 360000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7206,11 +7206,211 @@
       "eval_samples_per_second": 1921.599,
       "eval_steps_per_second": 30.746,
       "step": 360000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.1501449128410266e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.336131621679586,
+  "global_step": 370000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1921.599,
       "eval_steps_per_second": 30.746,
       "step": 360000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 6.746049527150238e-05,
+      "loss": 0.3226,
+      "step": 360500
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 6.707871421704209e-05,
+      "loss": 0.3225,
+      "step": 361000
+    },
+    {
+      "epoch": 11.06,
+      "eval_loss": 0.7777162790298462,
+      "eval_runtime": 0.5171,
+      "eval_samples_per_second": 1933.691,
+      "eval_steps_per_second": 30.939,
+      "step": 361000
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 6.669789465567683e-05,
+      "loss": 0.3226,
+      "step": 361500
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 6.631804075198838e-05,
+      "loss": 0.3223,
+      "step": 362000
+    },
+    {
+      "epoch": 11.09,
+      "eval_loss": 0.7790626287460327,
+      "eval_runtime": 0.512,
+      "eval_samples_per_second": 1953.298,
+      "eval_steps_per_second": 31.253,
+      "step": 362000
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 6.593915665999816e-05,
+      "loss": 0.3221,
+      "step": 362500
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 6.55612465231219e-05,
+      "loss": 0.3222,
+      "step": 363000
+    },
+    {
+      "epoch": 11.12,
+      "eval_loss": 0.7765858173370361,
+      "eval_runtime": 0.5305,
+      "eval_samples_per_second": 1884.91,
+      "eval_steps_per_second": 30.159,
+      "step": 363000
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 6.518431447412434e-05,
+      "loss": 0.3219,
+      "step": 363500
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 6.480836463507392e-05,
+      "loss": 0.322,
+      "step": 364000
+    },
+    {
+      "epoch": 11.15,
+      "eval_loss": 0.7808003425598145,
+      "eval_runtime": 0.5024,
+      "eval_samples_per_second": 1990.262,
+      "eval_steps_per_second": 31.844,
+      "step": 364000
+    },
+    {
+      "epoch": 11.17,
+      "learning_rate": 6.443340111729786e-05,
+      "loss": 0.3219,
+      "step": 364500
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 6.405942802133713e-05,
+      "loss": 0.322,
+      "step": 365000
+    },
+    {
+      "epoch": 11.18,
+      "eval_loss": 0.7744137048721313,
+      "eval_runtime": 0.5239,
+      "eval_samples_per_second": 1908.642,
+      "eval_steps_per_second": 30.538,
+      "step": 365000
+    },
+    {
+      "epoch": 11.2,
+      "learning_rate": 6.36864494369016e-05,
+      "loss": 0.3218,
+      "step": 365500
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 6.331446944282534e-05,
+      "loss": 0.3217,
+      "step": 366000
+    },
+    {
+      "epoch": 11.21,
+      "eval_loss": 0.7770714163780212,
+      "eval_runtime": 0.5069,
+      "eval_samples_per_second": 1972.691,
+      "eval_steps_per_second": 31.563,
+      "step": 366000
+    },
+    {
+      "epoch": 11.23,
+      "learning_rate": 6.294349210702188e-05,
+      "loss": 0.3219,
+      "step": 366500
+    },
+    {
+      "epoch": 11.24,
+      "learning_rate": 6.257352148643998e-05,
+      "loss": 0.3217,
+      "step": 367000
+    },
+    {
+      "epoch": 11.24,
+      "eval_loss": 0.7741234302520752,
+      "eval_runtime": 0.5107,
+      "eval_samples_per_second": 1958.008,
+      "eval_steps_per_second": 31.328,
+      "step": 367000
+    },
+    {
+      "epoch": 11.26,
+      "learning_rate": 6.220456162701908e-05,
+      "loss": 0.3215,
+      "step": 367500
+    },
+    {
+      "epoch": 11.27,
+      "learning_rate": 6.183661656364515e-05,
+      "loss": 0.3216,
+      "step": 368000
+    },
+    {
+      "epoch": 11.27,
+      "eval_loss": 0.7758086919784546,
+      "eval_runtime": 0.5088,
+      "eval_samples_per_second": 1965.315,
+      "eval_steps_per_second": 31.445,
+      "step": 368000
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 6.146969032010631e-05,
+      "loss": 0.3214,
+      "step": 368500
+    },
+    {
+      "epoch": 11.31,
+      "learning_rate": 6.110378690904928e-05,
+      "loss": 0.3216,
+      "step": 369000
+    },
+    {
+      "epoch": 11.31,
+      "eval_loss": 0.7766358256340027,
+      "eval_runtime": 0.5033,
+      "eval_samples_per_second": 1986.831,
+      "eval_steps_per_second": 31.789,
+      "step": 369000
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 6.073891033193507e-05,
+      "loss": 0.3214,
+      "step": 369500
+    },
+    {
+      "epoch": 11.34,
+      "learning_rate": 6.037506457899553e-05,
+      "loss": 0.3213,
+      "step": 370000
+    },
+    {
+      "epoch": 11.34,
+      "eval_loss": 0.7805209159851074,
+      "eval_runtime": 0.5089,
+      "eval_samples_per_second": 1964.929,
+      "eval_steps_per_second": 31.439,
+      "step": 370000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.1820936267184766e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc2fe2e5c738c8106278780fab9f7f87cb208c3a8d2ade89df93aa0343c89bdb
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb573bc42125377ae261521a84adbf685b2347ffb43eb62b536c886544fe2d46
 size 102501541