Training in progress, step 6000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb80f83cde4a31bb60c1fd7260ffe3f7e16f618b67202dd29fd631a03093894
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eb50dbcfebd5f63fc3cc77929d31805c3be0d18c479c86d9d2674102149d998
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:deac3ee60db6adb45d1da1976f4f679efdf8206065175afc58ada5c695ccf6a5
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:69bc7042f1e1e7b74e152e40dbcd26c60ace8254419664002f89f720c072bde5
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4f36f1c6d7eb84c738a082911123d4e08f6356fc8093bb45612eb211d0cfe74
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6125d2b668a070022ee702876ba7ef10eb371529c27241694b5b376ca68bdc81
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1082006850695145,
   "eval_steps": 500,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4958,6 +4958,456 @@
       "mean_token_accuracy": 0.7852272689342499,
       "num_tokens": 6091516.0,
       "step": 5500
     }
   ],
   "logging_steps": 10,
@@ -4977,7 +5427,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7364465716629504.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2089462018940158,
   "eval_steps": 500,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7852272689342499,
       "num_tokens": 6091516.0,
       "step": 5500
+    },
+    {
+      "epoch": 1.1102155954060045,
+      "grad_norm": 13.9375,
+      "learning_rate": 1.2599905970850965e-05,
+      "loss": 0.8984,
+      "mean_token_accuracy": 0.7786856353282928,
+      "num_tokens": 6101758.0,
+      "step": 5510
+    },
+    {
+      "epoch": 1.1122305057424944,
+      "grad_norm": 10.5,
+      "learning_rate": 1.2586473235274365e-05,
+      "loss": 0.8218,
+      "mean_token_accuracy": 0.8003330588340759,
+      "num_tokens": 6112860.0,
+      "step": 5520
+    },
+    {
+      "epoch": 1.1142454160789845,
+      "grad_norm": 10.25,
+      "learning_rate": 1.2573040499697764e-05,
+      "loss": 0.8069,
+      "mean_token_accuracy": 0.7983652293682099,
+      "num_tokens": 6124481.0,
+      "step": 5530
+    },
+    {
+      "epoch": 1.1162603264154745,
+      "grad_norm": 10.5,
+      "learning_rate": 1.2559607764121164e-05,
+      "loss": 0.9377,
+      "mean_token_accuracy": 0.7729220628738404,
+      "num_tokens": 6137558.0,
+      "step": 5540
+    },
+    {
+      "epoch": 1.1182752367519646,
+      "grad_norm": 10.0,
+      "learning_rate": 1.2546175028544565e-05,
+      "loss": 0.8107,
+      "mean_token_accuracy": 0.8016826927661895,
+      "num_tokens": 6149919.0,
+      "step": 5550
+    },
+    {
+      "epoch": 1.1202901470884545,
+      "grad_norm": 11.875,
+      "learning_rate": 1.2532742292967964e-05,
+      "loss": 0.8375,
+      "mean_token_accuracy": 0.7957591891288758,
+      "num_tokens": 6160493.0,
+      "step": 5560
+    },
+    {
+      "epoch": 1.1223050574249447,
+      "grad_norm": 9.25,
+      "learning_rate": 1.2519309557391364e-05,
+      "loss": 0.8292,
+      "mean_token_accuracy": 0.7971819519996644,
+      "num_tokens": 6172744.0,
+      "step": 5570
+    },
+    {
+      "epoch": 1.1243199677614346,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.2505876821814765e-05,
+      "loss": 0.8092,
+      "mean_token_accuracy": 0.8008480191230773,
+      "num_tokens": 6183620.0,
+      "step": 5580
+    },
+    {
+      "epoch": 1.1263348780979245,
+      "grad_norm": 9.8125,
+      "learning_rate": 1.2492444086238162e-05,
+      "loss": 0.7622,
+      "mean_token_accuracy": 0.8064143776893615,
+      "num_tokens": 6194516.0,
+      "step": 5590
+    },
+    {
+      "epoch": 1.1283497884344147,
+      "grad_norm": 12.875,
+      "learning_rate": 1.2479011350661563e-05,
+      "loss": 0.8479,
+      "mean_token_accuracy": 0.7917460918426513,
+      "num_tokens": 6205641.0,
+      "step": 5600
+    },
+    {
+      "epoch": 1.1303646987709046,
+      "grad_norm": 13.125,
+      "learning_rate": 1.2465578615084963e-05,
+      "loss": 0.9111,
+      "mean_token_accuracy": 0.77914879322052,
+      "num_tokens": 6218283.0,
+      "step": 5610
+    },
+    {
+      "epoch": 1.1323796091073948,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.2452145879508364e-05,
+      "loss": 0.8832,
+      "mean_token_accuracy": 0.784546959400177,
+      "num_tokens": 6230024.0,
+      "step": 5620
+    },
+    {
+      "epoch": 1.1343945194438847,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.2438713143931762e-05,
+      "loss": 0.8859,
+      "mean_token_accuracy": 0.7834093928337097,
+      "num_tokens": 6242378.0,
+      "step": 5630
+    },
+    {
+      "epoch": 1.1364094297803748,
+      "grad_norm": 9.875,
+      "learning_rate": 1.2425280408355163e-05,
+      "loss": 0.9509,
+      "mean_token_accuracy": 0.7756809532642365,
+      "num_tokens": 6253645.0,
+      "step": 5640
+    },
+    {
+      "epoch": 1.1384243401168648,
+      "grad_norm": 10.625,
+      "learning_rate": 1.2411847672778563e-05,
+      "loss": 0.8785,
+      "mean_token_accuracy": 0.7828778207302094,
+      "num_tokens": 6266360.0,
+      "step": 5650
+    },
+    {
+      "epoch": 1.1404392504533547,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.239841493720196e-05,
+      "loss": 0.8892,
+      "mean_token_accuracy": 0.7838792741298676,
+      "num_tokens": 6277349.0,
+      "step": 5660
+    },
+    {
+      "epoch": 1.1424541607898449,
+      "grad_norm": 12.875,
+      "learning_rate": 1.2384982201625361e-05,
+      "loss": 0.8632,
+      "mean_token_accuracy": 0.790741640329361,
+      "num_tokens": 6288664.0,
+      "step": 5670
+    },
+    {
+      "epoch": 1.144469071126335,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.2371549466048762e-05,
+      "loss": 0.8403,
+      "mean_token_accuracy": 0.7891623616218567,
+      "num_tokens": 6302179.0,
+      "step": 5680
+    },
+    {
+      "epoch": 1.146483981462825,
+      "grad_norm": 11.75,
+      "learning_rate": 1.2358116730472162e-05,
+      "loss": 0.9125,
+      "mean_token_accuracy": 0.7795878767967224,
+      "num_tokens": 6313611.0,
+      "step": 5690
+    },
+    {
+      "epoch": 1.1484988917993149,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.2344683994895561e-05,
+      "loss": 0.8863,
+      "mean_token_accuracy": 0.787626963853836,
+      "num_tokens": 6324550.0,
+      "step": 5700
+    },
+    {
+      "epoch": 1.150513802135805,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.2331251259318962e-05,
+      "loss": 0.9229,
+      "mean_token_accuracy": 0.7838542103767395,
+      "num_tokens": 6336013.0,
+      "step": 5710
+    },
+    {
+      "epoch": 1.152528712472295,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.2317818523742362e-05,
+      "loss": 0.7724,
+      "mean_token_accuracy": 0.8055199205875396,
+      "num_tokens": 6346134.0,
+      "step": 5720
+    },
+    {
+      "epoch": 1.154543622808785,
+      "grad_norm": 11.125,
+      "learning_rate": 1.2304385788165761e-05,
+      "loss": 0.7996,
+      "mean_token_accuracy": 0.8010989010334015,
+      "num_tokens": 6356419.0,
+      "step": 5730
+    },
+    {
+      "epoch": 1.156558533145275,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.2290953052589161e-05,
+      "loss": 0.7861,
+      "mean_token_accuracy": 0.8053541004657745,
+      "num_tokens": 6367086.0,
+      "step": 5740
+    },
+    {
+      "epoch": 1.1585734434817652,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.2277520317012562e-05,
+      "loss": 0.7886,
+      "mean_token_accuracy": 0.8104895174503326,
+      "num_tokens": 6378360.0,
+      "step": 5750
+    },
+    {
+      "epoch": 1.160588353818255,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.226408758143596e-05,
+      "loss": 0.7607,
+      "mean_token_accuracy": 0.807652473449707,
+      "num_tokens": 6390770.0,
+      "step": 5760
+    },
+    {
+      "epoch": 1.162603264154745,
+      "grad_norm": 15.4375,
+      "learning_rate": 1.225065484585936e-05,
+      "loss": 0.8117,
+      "mean_token_accuracy": 0.8016961336135864,
+      "num_tokens": 6400647.0,
+      "step": 5770
+    },
+    {
+      "epoch": 1.1646181744912352,
+      "grad_norm": 13.9375,
+      "learning_rate": 1.223722211028276e-05,
+      "loss": 0.8433,
+      "mean_token_accuracy": 0.7853075683116912,
+      "num_tokens": 6410061.0,
+      "step": 5780
+    },
+    {
+      "epoch": 1.166633084827725,
+      "grad_norm": 13.6875,
+      "learning_rate": 1.222378937470616e-05,
+      "loss": 0.7607,
+      "mean_token_accuracy": 0.8095987677574158,
+      "num_tokens": 6420080.0,
+      "step": 5790
+    },
+    {
+      "epoch": 1.1686479951642152,
+      "grad_norm": 12.25,
+      "learning_rate": 1.221035663912956e-05,
+      "loss": 0.9257,
+      "mean_token_accuracy": 0.778600412607193,
+      "num_tokens": 6432179.0,
+      "step": 5800
+    },
+    {
+      "epoch": 1.1706629055007052,
+      "grad_norm": 11.0,
+      "learning_rate": 1.219692390355296e-05,
+      "loss": 0.8849,
+      "mean_token_accuracy": 0.7801730871200562,
+      "num_tokens": 6442848.0,
+      "step": 5810
+    },
+    {
+      "epoch": 1.1726778158371953,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.218349116797636e-05,
+      "loss": 0.765,
+      "mean_token_accuracy": 0.8116752684116364,
+      "num_tokens": 6453565.0,
+      "step": 5820
+    },
+    {
+      "epoch": 1.1746927261736853,
+      "grad_norm": 14.0,
+      "learning_rate": 1.2170058432399758e-05,
+      "loss": 0.8767,
+      "mean_token_accuracy": 0.7874524176120759,
+      "num_tokens": 6464704.0,
+      "step": 5830
+    },
+    {
+      "epoch": 1.1767076365101752,
+      "grad_norm": 14.625,
+      "learning_rate": 1.2156625696823158e-05,
+      "loss": 0.9735,
+      "mean_token_accuracy": 0.7777929544448853,
+      "num_tokens": 6476700.0,
+      "step": 5840
+    },
+    {
+      "epoch": 1.1787225468466653,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.2143192961246559e-05,
+      "loss": 0.9004,
+      "mean_token_accuracy": 0.7828619062900544,
+      "num_tokens": 6487976.0,
+      "step": 5850
+    },
+    {
+      "epoch": 1.1807374571831553,
+      "grad_norm": 12.625,
+      "learning_rate": 1.2129760225669958e-05,
+      "loss": 0.8873,
+      "mean_token_accuracy": 0.7900948286056518,
+      "num_tokens": 6499362.0,
+      "step": 5860
+    },
+    {
+      "epoch": 1.1827523675196454,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.2116327490093358e-05,
+      "loss": 0.9967,
+      "mean_token_accuracy": 0.7665694057941437,
+      "num_tokens": 6510505.0,
+      "step": 5870
+    },
+    {
+      "epoch": 1.1847672778561353,
+      "grad_norm": 11.625,
+      "learning_rate": 1.2102894754516759e-05,
+      "loss": 0.8207,
+      "mean_token_accuracy": 0.7956820368766785,
+      "num_tokens": 6522577.0,
+      "step": 5880
+    },
+    {
+      "epoch": 1.1867821881926255,
+      "grad_norm": 13.25,
+      "learning_rate": 1.208946201894016e-05,
+      "loss": 0.7919,
+      "mean_token_accuracy": 0.7999676465988159,
+      "num_tokens": 6533179.0,
+      "step": 5890
+    },
+    {
+      "epoch": 1.1887970985291154,
+      "grad_norm": 11.5,
+      "learning_rate": 1.2076029283363558e-05,
+      "loss": 0.8339,
+      "mean_token_accuracy": 0.791290158033371,
+      "num_tokens": 6544059.0,
+      "step": 5900
+    },
+    {
+      "epoch": 1.1908120088656056,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.2062596547786957e-05,
+      "loss": 0.876,
+      "mean_token_accuracy": 0.7901681363582611,
+      "num_tokens": 6554941.0,
+      "step": 5910
+    },
+    {
+      "epoch": 1.1928269192020955,
+      "grad_norm": 9.6875,
+      "learning_rate": 1.2049163812210357e-05,
+      "loss": 0.969,
+      "mean_token_accuracy": 0.7663461267948151,
+      "num_tokens": 6567559.0,
+      "step": 5920
+    },
+    {
+      "epoch": 1.1948418295385856,
+      "grad_norm": 11.25,
+      "learning_rate": 1.2035731076633756e-05,
+      "loss": 0.796,
+      "mean_token_accuracy": 0.7978686451911926,
+      "num_tokens": 6577821.0,
+      "step": 5930
+    },
+    {
+      "epoch": 1.1968567398750756,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.2022298341057157e-05,
+      "loss": 0.8198,
+      "mean_token_accuracy": 0.7984302759170532,
+      "num_tokens": 6590610.0,
+      "step": 5940
+    },
+    {
+      "epoch": 1.1988716502115655,
+      "grad_norm": 10.25,
+      "learning_rate": 1.2008865605480557e-05,
+      "loss": 0.9362,
+      "mean_token_accuracy": 0.7766359865665435,
+      "num_tokens": 6601976.0,
+      "step": 5950
+    },
+    {
+      "epoch": 1.2008865605480556,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.1995432869903958e-05,
+      "loss": 0.7565,
+      "mean_token_accuracy": 0.8038519501686097,
+      "num_tokens": 6613911.0,
+      "step": 5960
+    },
+    {
+      "epoch": 1.2029014708845456,
+      "grad_norm": 14.0625,
+      "learning_rate": 1.1982000134327357e-05,
+      "loss": 0.89,
+      "mean_token_accuracy": 0.7806312680244446,
+      "num_tokens": 6625392.0,
+      "step": 5970
+    },
+    {
+      "epoch": 1.2049163812210357,
+      "grad_norm": 10.625,
+      "learning_rate": 1.1968567398750757e-05,
+      "loss": 0.7505,
+      "mean_token_accuracy": 0.8176207900047302,
+      "num_tokens": 6635806.0,
+      "step": 5980
+    },
+    {
+      "epoch": 1.2069312915575257,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.1955134663174158e-05,
+      "loss": 0.7663,
+      "mean_token_accuracy": 0.8061110198497772,
+      "num_tokens": 6646644.0,
+      "step": 5990
+    },
+    {
+      "epoch": 1.2089462018940158,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.1941701927597555e-05,
+      "loss": 0.7133,
+      "mean_token_accuracy": 0.8181872367858887,
+      "num_tokens": 6657605.0,
+      "step": 6000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8046973169571840.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null