Training in progress, step 10000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:070b5b7acfb870eafcd0bf40ce133115da39bd3236dee84b8493ea73e863aebf
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:21e9c11e02543045a52d1d10e85b29deee320e577ed8c40299be1aac88002bab
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6986d123949d70dafc8db16862d29980777537d8be6a72c449522a071032d5c
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c87bdbbf96a91780aaf4a58c008036f2bfda78e91f3d428d63005f735fe1e0c
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40beb3dc5129ab4ac6babe96012ebdd87569ab488ea6742096d9d349a8d4cd73
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:33e6b43d263edc3fb19dbc74c4a7ae9df523ccc7c2602c8a0c606ae6abf92007
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.6904804049987607,
   "eval_steps": 100,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8558,6 +8558,456 @@
       "mean_token_accuracy": 0.7248899202793837,
       "num_tokens": 77821952.0,
       "step": 9500
     }
   ],
   "logging_steps": 10,
@@ -8577,7 +9027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0566822331036467e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8320883633660214,
   "eval_steps": 100,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7248899202793837,
       "num_tokens": 77821952.0,
       "step": 9500
+    },
+    {
+      "epoch": 2.693312564166106,
+      "grad_norm": 1.6963791847229004,
+      "learning_rate": 1.137102695898458e-06,
+      "loss": 0.1448,
+      "mean_token_accuracy": 0.7517612528055906,
+      "num_tokens": 77903872.0,
+      "step": 9510
+    },
+    {
+      "epoch": 2.6961447233334512,
+      "grad_norm": 1.5691133737564087,
+      "learning_rate": 1.1266128186300221e-06,
+      "loss": 0.1062,
+      "mean_token_accuracy": 0.7805895309895277,
+      "num_tokens": 77985792.0,
+      "step": 9520
+    },
+    {
+      "epoch": 2.6989768825007965,
+      "grad_norm": 1.3455393314361572,
+      "learning_rate": 1.1161229413615862e-06,
+      "loss": 0.1181,
+      "mean_token_accuracy": 0.7727250501513481,
+      "num_tokens": 78067712.0,
+      "step": 9530
+    },
+    {
+      "epoch": 2.7018090416681417,
+      "grad_norm": 1.7499293088912964,
+      "learning_rate": 1.1056330640931503e-06,
+      "loss": 0.1621,
+      "mean_token_accuracy": 0.7321550864726305,
+      "num_tokens": 78149632.0,
+      "step": 9540
+    },
+    {
+      "epoch": 2.704641200835487,
+      "grad_norm": 1.078167200088501,
+      "learning_rate": 1.0951431868247141e-06,
+      "loss": 0.1142,
+      "mean_token_accuracy": 0.7804916825145483,
+      "num_tokens": 78231552.0,
+      "step": 9550
+    },
+    {
+      "epoch": 2.7074733600028322,
+      "grad_norm": 1.411314845085144,
+      "learning_rate": 1.0846533095562784e-06,
+      "loss": 0.1143,
+      "mean_token_accuracy": 0.7715141884982586,
+      "num_tokens": 78313472.0,
+      "step": 9560
+    },
+    {
+      "epoch": 2.7103055191701775,
+      "grad_norm": 1.734834909439087,
+      "learning_rate": 1.0741634322878423e-06,
+      "loss": 0.1425,
+      "mean_token_accuracy": 0.7414505925029516,
+      "num_tokens": 78395392.0,
+      "step": 9570
+    },
+    {
+      "epoch": 2.7131376783375227,
+      "grad_norm": 1.7494261264801025,
+      "learning_rate": 1.0636735550194063e-06,
+      "loss": 0.1213,
+      "mean_token_accuracy": 0.759222112223506,
+      "num_tokens": 78477312.0,
+      "step": 9580
+    },
+    {
+      "epoch": 2.7159698375048675,
+      "grad_norm": 1.2814098596572876,
+      "learning_rate": 1.0531836777509704e-06,
+      "loss": 0.1335,
+      "mean_token_accuracy": 0.7782045040279627,
+      "num_tokens": 78559232.0,
+      "step": 9590
+    },
+    {
+      "epoch": 2.7188019966722132,
+      "grad_norm": 1.2416023015975952,
+      "learning_rate": 1.0426938004825345e-06,
+      "loss": 0.131,
+      "mean_token_accuracy": 0.7627446163445711,
+      "num_tokens": 78641152.0,
+      "step": 9600
+    },
+    {
+      "epoch": 2.721634155839558,
+      "grad_norm": 1.2916755676269531,
+      "learning_rate": 1.0322039232140984e-06,
+      "loss": 0.1292,
+      "mean_token_accuracy": 0.7665728945285082,
+      "num_tokens": 78723072.0,
+      "step": 9610
+    },
+    {
+      "epoch": 2.7244663150069033,
+      "grad_norm": 0.9685536026954651,
+      "learning_rate": 1.0217140459456624e-06,
+      "loss": 0.0966,
+      "mean_token_accuracy": 0.7933586113154888,
+      "num_tokens": 78804992.0,
+      "step": 9620
+    },
+    {
+      "epoch": 2.7272984741742485,
+      "grad_norm": 1.0701133012771606,
+      "learning_rate": 1.0112241686772265e-06,
+      "loss": 0.0929,
+      "mean_token_accuracy": 0.768480920419097,
+      "num_tokens": 78886912.0,
+      "step": 9630
+    },
+    {
+      "epoch": 2.730130633341594,
+      "grad_norm": 1.155450701713562,
+      "learning_rate": 1.0007342914087906e-06,
+      "loss": 0.1217,
+      "mean_token_accuracy": 0.7712084148079157,
+      "num_tokens": 78968832.0,
+      "step": 9640
+    },
+    {
+      "epoch": 2.732962792508939,
+      "grad_norm": 1.2108891010284424,
+      "learning_rate": 9.902444141403547e-07,
+      "loss": 0.1269,
+      "mean_token_accuracy": 0.759784734621644,
+      "num_tokens": 79050752.0,
+      "step": 9650
+    },
+    {
+      "epoch": 2.7357949516762843,
+      "grad_norm": 1.3404109477996826,
+      "learning_rate": 9.797545368719187e-07,
+      "loss": 0.115,
+      "mean_token_accuracy": 0.7742294497787953,
+      "num_tokens": 79132672.0,
+      "step": 9660
+    },
+    {
+      "epoch": 2.7386271108436295,
+      "grad_norm": 0.9352473616600037,
+      "learning_rate": 9.692646596034828e-07,
+      "loss": 0.1153,
+      "mean_token_accuracy": 0.7558341480791568,
+      "num_tokens": 79214592.0,
+      "step": 9670
+    },
+    {
+      "epoch": 2.741459270010975,
+      "grad_norm": 1.2585588693618774,
+      "learning_rate": 9.587747823350467e-07,
+      "loss": 0.1447,
+      "mean_token_accuracy": 0.7387475546449422,
+      "num_tokens": 79296512.0,
+      "step": 9680
+    },
+    {
+      "epoch": 2.74429142917832,
+      "grad_norm": 1.4785575866699219,
+      "learning_rate": 9.482849050666109e-07,
+      "loss": 0.1194,
+      "mean_token_accuracy": 0.7637353233993054,
+      "num_tokens": 79378432.0,
+      "step": 9690
+    },
+    {
+      "epoch": 2.747123588345665,
+      "grad_norm": 0.9869931936264038,
+      "learning_rate": 9.377950277981748e-07,
+      "loss": 0.1237,
+      "mean_token_accuracy": 0.7830968666821718,
+      "num_tokens": 79460352.0,
+      "step": 9700
+    },
+    {
+      "epoch": 2.74995574751301,
+      "grad_norm": 1.2523363828659058,
+      "learning_rate": 9.273051505297388e-07,
+      "loss": 0.1295,
+      "mean_token_accuracy": 0.7593199610710144,
+      "num_tokens": 79542272.0,
+      "step": 9710
+    },
+    {
+      "epoch": 2.7527879066803553,
+      "grad_norm": 1.2600061893463135,
+      "learning_rate": 9.16815273261303e-07,
+      "loss": 0.1209,
+      "mean_token_accuracy": 0.7813111554831267,
+      "num_tokens": 79624192.0,
+      "step": 9720
+    },
+    {
+      "epoch": 2.7556200658477006,
+      "grad_norm": 0.9577277898788452,
+      "learning_rate": 9.063253959928669e-07,
+      "loss": 0.1156,
+      "mean_token_accuracy": 0.7740337550640106,
+      "num_tokens": 79706112.0,
+      "step": 9730
+    },
+    {
+      "epoch": 2.758452225015046,
+      "grad_norm": 1.1340205669403076,
+      "learning_rate": 8.958355187244309e-07,
+      "loss": 0.1038,
+      "mean_token_accuracy": 0.7865215256810189,
+      "num_tokens": 79788032.0,
+      "step": 9740
+    },
+    {
+      "epoch": 2.761284384182391,
+      "grad_norm": 1.5387784242630005,
+      "learning_rate": 8.853456414559951e-07,
+      "loss": 0.1328,
+      "mean_token_accuracy": 0.7656678043305873,
+      "num_tokens": 79869952.0,
+      "step": 9750
+    },
+    {
+      "epoch": 2.7641165433497363,
+      "grad_norm": 1.7430437803268433,
+      "learning_rate": 8.748557641875591e-07,
+      "loss": 0.095,
+      "mean_token_accuracy": 0.7949119359254837,
+      "num_tokens": 79951872.0,
+      "step": 9760
+    },
+    {
+      "epoch": 2.7669487025170816,
+      "grad_norm": 1.7460997104644775,
+      "learning_rate": 8.64365886919123e-07,
+      "loss": 0.1196,
+      "mean_token_accuracy": 0.775464779511094,
+      "num_tokens": 80033792.0,
+      "step": 9770
+    },
+    {
+      "epoch": 2.769780861684427,
+      "grad_norm": 1.1114528179168701,
+      "learning_rate": 8.538760096506872e-07,
+      "loss": 0.1293,
+      "mean_token_accuracy": 0.7551736798137426,
+      "num_tokens": 80115712.0,
+      "step": 9780
+    },
+    {
+      "epoch": 2.7726130208517716,
+      "grad_norm": 1.3568215370178223,
+      "learning_rate": 8.433861323822512e-07,
+      "loss": 0.0965,
+      "mean_token_accuracy": 0.7976272024214268,
+      "num_tokens": 80197632.0,
+      "step": 9790
+    },
+    {
+      "epoch": 2.7754451800191173,
+      "grad_norm": 1.039504885673523,
+      "learning_rate": 8.328962551138151e-07,
+      "loss": 0.1181,
+      "mean_token_accuracy": 0.7570694729685783,
+      "num_tokens": 80279552.0,
+      "step": 9800
+    },
+    {
+      "epoch": 2.778277339186462,
+      "grad_norm": 0.9073276519775391,
+      "learning_rate": 8.224063778453793e-07,
+      "loss": 0.1327,
+      "mean_token_accuracy": 0.7564946163445712,
+      "num_tokens": 80361472.0,
+      "step": 9810
+    },
+    {
+      "epoch": 2.7811094983538074,
+      "grad_norm": 2.061521291732788,
+      "learning_rate": 8.119165005769433e-07,
+      "loss": 0.1195,
+      "mean_token_accuracy": 0.7596379648894072,
+      "num_tokens": 80443392.0,
+      "step": 9820
+    },
+    {
+      "epoch": 2.7839416575211526,
+      "grad_norm": 1.21349036693573,
+      "learning_rate": 8.014266233085073e-07,
+      "loss": 0.126,
+      "mean_token_accuracy": 0.7478473570197821,
+      "num_tokens": 80525312.0,
+      "step": 9830
+    },
+    {
+      "epoch": 2.786773816688498,
+      "grad_norm": 1.4586316347122192,
+      "learning_rate": 7.909367460400715e-07,
+      "loss": 0.1223,
+      "mean_token_accuracy": 0.770731408149004,
+      "num_tokens": 80607232.0,
+      "step": 9840
+    },
+    {
+      "epoch": 2.789605975855843,
+      "grad_norm": 1.3496206998825073,
+      "learning_rate": 7.804468687716354e-07,
+      "loss": 0.1015,
+      "mean_token_accuracy": 0.7758072383701802,
+      "num_tokens": 80689152.0,
+      "step": 9850
+    },
+    {
+      "epoch": 2.7924381350231884,
+      "grad_norm": 1.2071694135665894,
+      "learning_rate": 7.699569915031994e-07,
+      "loss": 0.1146,
+      "mean_token_accuracy": 0.774987768009305,
+      "num_tokens": 80771072.0,
+      "step": 9860
+    },
+    {
+      "epoch": 2.7952702941905336,
+      "grad_norm": 1.2012773752212524,
+      "learning_rate": 7.594671142347636e-07,
+      "loss": 0.1262,
+      "mean_token_accuracy": 0.7779476504772902,
+      "num_tokens": 80852992.0,
+      "step": 9870
+    },
+    {
+      "epoch": 2.7981024533578784,
+      "grad_norm": 1.2166376113891602,
+      "learning_rate": 7.489772369663275e-07,
+      "loss": 0.1141,
+      "mean_token_accuracy": 0.779562134295702,
+      "num_tokens": 80934912.0,
+      "step": 9880
+    },
+    {
+      "epoch": 2.800934612525224,
+      "grad_norm": 1.269511103630066,
+      "learning_rate": 7.384873596978916e-07,
+      "loss": 0.1247,
+      "mean_token_accuracy": 0.7734099797904491,
+      "num_tokens": 81016832.0,
+      "step": 9890
+    },
+    {
+      "epoch": 2.803766771692569,
+      "grad_norm": 1.0128493309020996,
+      "learning_rate": 7.279974824294557e-07,
+      "loss": 0.1261,
+      "mean_token_accuracy": 0.7762353252619505,
+      "num_tokens": 81098752.0,
+      "step": 9900
+    },
+    {
+      "epoch": 2.806598930859914,
+      "grad_norm": 1.538405179977417,
+      "learning_rate": 7.175076051610197e-07,
+      "loss": 0.1291,
+      "mean_token_accuracy": 0.7826198644936084,
+      "num_tokens": 81180672.0,
+      "step": 9910
+    },
+    {
+      "epoch": 2.8094310900272594,
+      "grad_norm": 1.5747365951538086,
+      "learning_rate": 7.070177278925837e-07,
+      "loss": 0.1306,
+      "mean_token_accuracy": 0.776382091268897,
+      "num_tokens": 81262592.0,
+      "step": 9920
+    },
+    {
+      "epoch": 2.8122632491946047,
+      "grad_norm": 1.071977972984314,
+      "learning_rate": 6.965278506241478e-07,
+      "loss": 0.1108,
+      "mean_token_accuracy": 0.7729818969964981,
+      "num_tokens": 81344512.0,
+      "step": 9930
+    },
+    {
+      "epoch": 2.81509540836195,
+      "grad_norm": 1.172013282775879,
+      "learning_rate": 6.860379733557118e-07,
+      "loss": 0.1414,
+      "mean_token_accuracy": 0.7524706482887268,
+      "num_tokens": 81426432.0,
+      "step": 9940
+    },
+    {
+      "epoch": 2.817927567529295,
+      "grad_norm": 1.3133201599121094,
+      "learning_rate": 6.755480960872759e-07,
+      "loss": 0.1192,
+      "mean_token_accuracy": 0.7713796466588974,
+      "num_tokens": 81508352.0,
+      "step": 9950
+    },
+    {
+      "epoch": 2.8207597266966404,
+      "grad_norm": 1.6226385831832886,
+      "learning_rate": 6.650582188188398e-07,
+      "loss": 0.1244,
+      "mean_token_accuracy": 0.7702299427241087,
+      "num_tokens": 81590272.0,
+      "step": 9960
+    },
+    {
+      "epoch": 2.8235918858639857,
+      "grad_norm": 1.5946696996688843,
+      "learning_rate": 6.545683415504039e-07,
+      "loss": 0.1186,
+      "mean_token_accuracy": 0.7681873787194491,
+      "num_tokens": 81672192.0,
+      "step": 9970
+    },
+    {
+      "epoch": 2.826424045031331,
+      "grad_norm": 1.3367503881454468,
+      "learning_rate": 6.44078464281968e-07,
+      "loss": 0.129,
+      "mean_token_accuracy": 0.7627201572060585,
+      "num_tokens": 81754112.0,
+      "step": 9980
+    },
+    {
+      "epoch": 2.8292562041986757,
+      "grad_norm": 1.6041656732559204,
+      "learning_rate": 6.335885870135319e-07,
+      "loss": 0.0955,
+      "mean_token_accuracy": 0.7912304297089576,
+      "num_tokens": 81836032.0,
+      "step": 9990
+    },
+    {
+      "epoch": 2.8320883633660214,
+      "grad_norm": 1.589345097541809,
+      "learning_rate": 6.23098709745096e-07,
+      "loss": 0.1391,
+      "mean_token_accuracy": 0.7658023487776517,
+      "num_tokens": 81917952.0,
+      "step": 10000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.1649315150902067e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null