Training in progress, step 10500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25829a343b7e06cb4e4167e9b46a367935f8229a77e72a1421998542e27d1c90
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cc6d2ac14b136a0c5c39d3842c8290195765d0231c31019222880ab2ada323a
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d82f068e68971eb9728724c53cc1a345fe8d815fa606c2f3450b9b39b939104
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6c4e658acbdc5e0bc6eda245ab297a40c16a3c1814b13d63c1d7cae82962a95
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2aa24cd194618e57510eb16be4a4510b1af7e8497163286c5cb19c98f052ca0
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f1b6e95985cf829ad61f7f680a73f323339cc556ff96e0fd4cb8e86a2237898
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.014910336490026,
   "eval_steps": 500,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9008,6 +9008,456 @@
       "mean_token_accuracy": 0.801843786239624,
       "num_tokens": 11076275.0,
       "step": 10000
     }
   ],
   "logging_steps": 10,
@@ -9027,7 +9477,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3397361208068096e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1156558533145273,
   "eval_steps": 500,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.801843786239624,
       "num_tokens": 11076275.0,
       "step": 10000
+    },
+    {
+      "epoch": 2.016925246826516,
+      "grad_norm": 12.0625,
+      "learning_rate": 6.555174961380886e-06,
+      "loss": 0.7623,
+      "mean_token_accuracy": 0.809873354434967,
+      "num_tokens": 11087022.0,
+      "step": 10010
+    },
+    {
+      "epoch": 2.0189401571630063,
+      "grad_norm": 11.0625,
+      "learning_rate": 6.5417422258042855e-06,
+      "loss": 0.9055,
+      "mean_token_accuracy": 0.7793718695640564,
+      "num_tokens": 11098027.0,
+      "step": 10020
+    },
+    {
+      "epoch": 2.0209550674994965,
+      "grad_norm": 12.1875,
+      "learning_rate": 6.528309490227685e-06,
+      "loss": 0.7758,
+      "mean_token_accuracy": 0.8036232054233551,
+      "num_tokens": 11110290.0,
+      "step": 10030
+    },
+    {
+      "epoch": 2.022969977835986,
+      "grad_norm": 11.6875,
+      "learning_rate": 6.514876754651085e-06,
+      "loss": 0.7201,
+      "mean_token_accuracy": 0.8190805375576019,
+      "num_tokens": 11120919.0,
+      "step": 10040
+    },
+    {
+      "epoch": 2.0249848881724763,
+      "grad_norm": 12.5,
+      "learning_rate": 6.501444019074485e-06,
+      "loss": 0.9213,
+      "mean_token_accuracy": 0.7752482295036316,
+      "num_tokens": 11132545.0,
+      "step": 10050
+    },
+    {
+      "epoch": 2.0269997985089665,
+      "grad_norm": 12.6875,
+      "learning_rate": 6.488011283497885e-06,
+      "loss": 0.8841,
+      "mean_token_accuracy": 0.7821820974349976,
+      "num_tokens": 11143351.0,
+      "step": 10060
+    },
+    {
+      "epoch": 2.029014708845456,
+      "grad_norm": 12.1875,
+      "learning_rate": 6.474578547921284e-06,
+      "loss": 0.7844,
+      "mean_token_accuracy": 0.7987569034099579,
+      "num_tokens": 11153881.0,
+      "step": 10070
+    },
+    {
+      "epoch": 2.0310296191819464,
+      "grad_norm": 11.75,
+      "learning_rate": 6.461145812344684e-06,
+      "loss": 0.8333,
+      "mean_token_accuracy": 0.790239280462265,
+      "num_tokens": 11164316.0,
+      "step": 10080
+    },
+    {
+      "epoch": 2.0330445295184365,
+      "grad_norm": 10.0,
+      "learning_rate": 6.447713076768084e-06,
+      "loss": 0.7952,
+      "mean_token_accuracy": 0.798451715707779,
+      "num_tokens": 11175390.0,
+      "step": 10090
+    },
+    {
+      "epoch": 2.0350594398549267,
+      "grad_norm": 11.125,
+      "learning_rate": 6.434280341191485e-06,
+      "loss": 0.866,
+      "mean_token_accuracy": 0.7892335176467895,
+      "num_tokens": 11187303.0,
+      "step": 10100
+    },
+    {
+      "epoch": 2.0370743501914164,
+      "grad_norm": 12.875,
+      "learning_rate": 6.4208476056148835e-06,
+      "loss": 0.8048,
+      "mean_token_accuracy": 0.796100115776062,
+      "num_tokens": 11198006.0,
+      "step": 10110
+    },
+    {
+      "epoch": 2.0390892605279065,
+      "grad_norm": 11.8125,
+      "learning_rate": 6.407414870038284e-06,
+      "loss": 0.8066,
+      "mean_token_accuracy": 0.796057403087616,
+      "num_tokens": 11207940.0,
+      "step": 10120
+    },
+    {
+      "epoch": 2.0411041708643967,
+      "grad_norm": 12.25,
+      "learning_rate": 6.393982134461684e-06,
+      "loss": 0.7275,
+      "mean_token_accuracy": 0.818196564912796,
+      "num_tokens": 11218927.0,
+      "step": 10130
+    },
+    {
+      "epoch": 2.0431190812008864,
+      "grad_norm": 12.5,
+      "learning_rate": 6.380549398885083e-06,
+      "loss": 1.0617,
+      "mean_token_accuracy": 0.755308473110199,
+      "num_tokens": 11230139.0,
+      "step": 10140
+    },
+    {
+      "epoch": 2.0451339915373765,
+      "grad_norm": 9.75,
+      "learning_rate": 6.367116663308484e-06,
+      "loss": 0.793,
+      "mean_token_accuracy": 0.8068155586719513,
+      "num_tokens": 11241453.0,
+      "step": 10150
+    },
+    {
+      "epoch": 2.0471489018738667,
+      "grad_norm": 9.3125,
+      "learning_rate": 6.353683927731883e-06,
+      "loss": 0.9479,
+      "mean_token_accuracy": 0.7669933021068573,
+      "num_tokens": 11253740.0,
+      "step": 10160
+    },
+    {
+      "epoch": 2.049163812210357,
+      "grad_norm": 9.3125,
+      "learning_rate": 6.340251192155283e-06,
+      "loss": 0.6941,
+      "mean_token_accuracy": 0.8190494358539582,
+      "num_tokens": 11266238.0,
+      "step": 10170
+    },
+    {
+      "epoch": 2.0511787225468465,
+      "grad_norm": 10.9375,
+      "learning_rate": 6.326818456578683e-06,
+      "loss": 0.7265,
+      "mean_token_accuracy": 0.8130114257335663,
+      "num_tokens": 11277298.0,
+      "step": 10180
+    },
+    {
+      "epoch": 2.0531936328833367,
+      "grad_norm": 10.5625,
+      "learning_rate": 6.313385721002082e-06,
+      "loss": 0.7497,
+      "mean_token_accuracy": 0.8102090239524842,
+      "num_tokens": 11289134.0,
+      "step": 10190
+    },
+    {
+      "epoch": 2.055208543219827,
+      "grad_norm": 12.875,
+      "learning_rate": 6.299952985425482e-06,
+      "loss": 0.823,
+      "mean_token_accuracy": 0.7950894236564636,
+      "num_tokens": 11299969.0,
+      "step": 10200
+    },
+    {
+      "epoch": 2.0572234535563165,
+      "grad_norm": 11.75,
+      "learning_rate": 6.286520249848882e-06,
+      "loss": 0.7238,
+      "mean_token_accuracy": 0.8222428441047669,
+      "num_tokens": 11311491.0,
+      "step": 10210
+    },
+    {
+      "epoch": 2.0592383638928067,
+      "grad_norm": 13.4375,
+      "learning_rate": 6.2730875142722825e-06,
+      "loss": 0.8528,
+      "mean_token_accuracy": 0.7913759410381317,
+      "num_tokens": 11321862.0,
+      "step": 10220
+    },
+    {
+      "epoch": 2.061253274229297,
+      "grad_norm": 10.6875,
+      "learning_rate": 6.259654778695682e-06,
+      "loss": 0.7371,
+      "mean_token_accuracy": 0.8153777897357941,
+      "num_tokens": 11333343.0,
+      "step": 10230
+    },
+    {
+      "epoch": 2.063268184565787,
+      "grad_norm": 11.0,
+      "learning_rate": 6.246222043119081e-06,
+      "loss": 0.8531,
+      "mean_token_accuracy": 0.7924916267395019,
+      "num_tokens": 11345705.0,
+      "step": 10240
+    },
+    {
+      "epoch": 2.0652830949022767,
+      "grad_norm": 11.125,
+      "learning_rate": 6.2327893075424815e-06,
+      "loss": 0.7911,
+      "mean_token_accuracy": 0.8001395165920258,
+      "num_tokens": 11356265.0,
+      "step": 10250
+    },
+    {
+      "epoch": 2.067298005238767,
+      "grad_norm": 11.5625,
+      "learning_rate": 6.219356571965881e-06,
+      "loss": 0.7311,
+      "mean_token_accuracy": 0.8132711887359619,
+      "num_tokens": 11366725.0,
+      "step": 10260
+    },
+    {
+      "epoch": 2.069312915575257,
+      "grad_norm": 11.4375,
+      "learning_rate": 6.205923836389282e-06,
+      "loss": 0.8873,
+      "mean_token_accuracy": 0.7833378136157989,
+      "num_tokens": 11377435.0,
+      "step": 10270
+    },
+    {
+      "epoch": 2.071327825911747,
+      "grad_norm": 10.5625,
+      "learning_rate": 6.192491100812681e-06,
+      "loss": 0.802,
+      "mean_token_accuracy": 0.805024367570877,
+      "num_tokens": 11388919.0,
+      "step": 10280
+    },
+    {
+      "epoch": 2.073342736248237,
+      "grad_norm": 9.9375,
+      "learning_rate": 6.179058365236081e-06,
+      "loss": 0.782,
+      "mean_token_accuracy": 0.8056276500225067,
+      "num_tokens": 11399842.0,
+      "step": 10290
+    },
+    {
+      "epoch": 2.075357646584727,
+      "grad_norm": 12.125,
+      "learning_rate": 6.165625629659481e-06,
+      "loss": 0.7425,
+      "mean_token_accuracy": 0.8137720346450805,
+      "num_tokens": 11410189.0,
+      "step": 10300
+    },
+    {
+      "epoch": 2.077372556921217,
+      "grad_norm": 13.8125,
+      "learning_rate": 6.1521928940828805e-06,
+      "loss": 0.7876,
+      "mean_token_accuracy": 0.8061869978904724,
+      "num_tokens": 11419892.0,
+      "step": 10310
+    },
+    {
+      "epoch": 2.079387467257707,
+      "grad_norm": 11.125,
+      "learning_rate": 6.138760158506281e-06,
+      "loss": 0.8218,
+      "mean_token_accuracy": 0.7978219330310822,
+      "num_tokens": 11432030.0,
+      "step": 10320
+    },
+    {
+      "epoch": 2.081402377594197,
+      "grad_norm": 12.125,
+      "learning_rate": 6.12532742292968e-06,
+      "loss": 0.9129,
+      "mean_token_accuracy": 0.7785973668098449,
+      "num_tokens": 11443216.0,
+      "step": 10330
+    },
+    {
+      "epoch": 2.083417287930687,
+      "grad_norm": 14.25,
+      "learning_rate": 6.11189468735308e-06,
+      "loss": 0.8782,
+      "mean_token_accuracy": 0.7902339398860931,
+      "num_tokens": 11454439.0,
+      "step": 10340
+    },
+    {
+      "epoch": 2.0854321982671773,
+      "grad_norm": 13.1875,
+      "learning_rate": 6.09846195177648e-06,
+      "loss": 0.7751,
+      "mean_token_accuracy": 0.8015202224254608,
+      "num_tokens": 11465006.0,
+      "step": 10350
+    },
+    {
+      "epoch": 2.087447108603667,
+      "grad_norm": 10.9375,
+      "learning_rate": 6.085029216199879e-06,
+      "loss": 0.8718,
+      "mean_token_accuracy": 0.788787704706192,
+      "num_tokens": 11474763.0,
+      "step": 10360
+    },
+    {
+      "epoch": 2.089462018940157,
+      "grad_norm": 11.875,
+      "learning_rate": 6.071596480623279e-06,
+      "loss": 0.8359,
+      "mean_token_accuracy": 0.7963649094104767,
+      "num_tokens": 11485808.0,
+      "step": 10370
+    },
+    {
+      "epoch": 2.0914769292766473,
+      "grad_norm": 11.4375,
+      "learning_rate": 6.058163745046679e-06,
+      "loss": 0.7756,
+      "mean_token_accuracy": 0.8061880767345428,
+      "num_tokens": 11497158.0,
+      "step": 10380
+    },
+    {
+      "epoch": 2.093491839613137,
+      "grad_norm": 12.1875,
+      "learning_rate": 6.04473100947008e-06,
+      "loss": 0.946,
+      "mean_token_accuracy": 0.7709095120429993,
+      "num_tokens": 11507759.0,
+      "step": 10390
+    },
+    {
+      "epoch": 2.095506749949627,
+      "grad_norm": 10.5625,
+      "learning_rate": 6.0312982738934785e-06,
+      "loss": 0.7665,
+      "mean_token_accuracy": 0.8077448666095733,
+      "num_tokens": 11518936.0,
+      "step": 10400
+    },
+    {
+      "epoch": 2.0975216602861173,
+      "grad_norm": 12.125,
+      "learning_rate": 6.017865538316878e-06,
+      "loss": 0.8428,
+      "mean_token_accuracy": 0.7939082264900208,
+      "num_tokens": 11529031.0,
+      "step": 10410
+    },
+    {
+      "epoch": 2.0995365706226075,
+      "grad_norm": 12.4375,
+      "learning_rate": 6.004432802740279e-06,
+      "loss": 0.8232,
+      "mean_token_accuracy": 0.8003376543521881,
+      "num_tokens": 11541092.0,
+      "step": 10420
+    },
+    {
+      "epoch": 2.101551480959097,
+      "grad_norm": 13.1875,
+      "learning_rate": 5.991000067163678e-06,
+      "loss": 0.7565,
+      "mean_token_accuracy": 0.8153795897960663,
+      "num_tokens": 11550995.0,
+      "step": 10430
+    },
+    {
+      "epoch": 2.1035663912955873,
+      "grad_norm": 11.1875,
+      "learning_rate": 5.977567331587079e-06,
+      "loss": 0.7814,
+      "mean_token_accuracy": 0.8018035531044007,
+      "num_tokens": 11560893.0,
+      "step": 10440
+    },
+    {
+      "epoch": 2.1055813016320775,
+      "grad_norm": 13.125,
+      "learning_rate": 5.964134596010478e-06,
+      "loss": 0.8012,
+      "mean_token_accuracy": 0.7951594650745392,
+      "num_tokens": 11571484.0,
+      "step": 10450
+    },
+    {
+      "epoch": 2.1075962119685676,
+      "grad_norm": 11.5,
+      "learning_rate": 5.950701860433877e-06,
+      "loss": 0.8872,
+      "mean_token_accuracy": 0.7848295509815216,
+      "num_tokens": 11581689.0,
+      "step": 10460
+    },
+    {
+      "epoch": 2.1096111223050573,
+      "grad_norm": 11.4375,
+      "learning_rate": 5.937269124857278e-06,
+      "loss": 0.7238,
+      "mean_token_accuracy": 0.8154263854026794,
+      "num_tokens": 11591503.0,
+      "step": 10470
+    },
+    {
+      "epoch": 2.1116260326415475,
+      "grad_norm": 11.25,
+      "learning_rate": 5.923836389280677e-06,
+      "loss": 0.8675,
+      "mean_token_accuracy": 0.7881495654582977,
+      "num_tokens": 11602668.0,
+      "step": 10480
+    },
+    {
+      "epoch": 2.1136409429780376,
+      "grad_norm": 14.25,
+      "learning_rate": 5.910403653704077e-06,
+      "loss": 0.7428,
+      "mean_token_accuracy": 0.8135782480239868,
+      "num_tokens": 11613507.0,
+      "step": 10490
+    },
+    {
+      "epoch": 2.1156558533145273,
+      "grad_norm": 10.5,
+      "learning_rate": 5.896970918127477e-06,
+      "loss": 0.7815,
+      "mean_token_accuracy": 0.807522964477539,
+      "num_tokens": 11623915.0,
+      "step": 10500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4062792370479104e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null