Training in progress, step 7500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f17a33da6a6be08a3dfaa7e6c5e60a20306cc6e557fc8b7a0963fd3e0a820f66
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fc17cf4778de00f56eb3118cc881d33a3737ff10e3eb03e214d86942e058e70
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56d8d3a670435b5f5f1d8c0dbeb4c4bef041897b3d26af31b6008d89bbb0f5da
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aa3a4015c1121204d1e50a3f1402c43eca6ceea15098443b41437862247a64e
 size 4768663315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea1916e5e1d99532b0ae3780fa8b68c23b1117b4ecb0a0bdf06a7d5d71cbf5f2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6db8d4f24a9b059deca696b72055b5814e66617e31dc4227844e631fef5e5cd
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9824760151520515,
   "eval_steps": 100,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6308,6 +6308,456 @@
       "mean_token_accuracy": 0.7816780813038349,
       "num_tokens": 57342976.0,
       "step": 7000
     }
   ],
   "logging_steps": 10,
@@ -6327,7 +6777,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5154628854913434e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.12404857152972,
   "eval_steps": 100,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7816780813038349,
       "num_tokens": 57342976.0,
       "step": 7000
+    },
+    {
+      "epoch": 1.9853081743193968,
+      "grad_norm": 1.2141501903533936,
+      "learning_rate": 3.759572013007448e-06,
+      "loss": 0.1356,
+      "mean_token_accuracy": 0.7747798431664705,
+      "num_tokens": 57424896.0,
+      "step": 7010
+    },
+    {
+      "epoch": 1.9881403334867418,
+      "grad_norm": 1.7239429950714111,
+      "learning_rate": 3.7490821357390124e-06,
+      "loss": 0.1708,
+      "mean_token_accuracy": 0.7312010746449232,
+      "num_tokens": 57506816.0,
+      "step": 7020
+    },
+    {
+      "epoch": 1.990972492654087,
+      "grad_norm": 1.4694973230361938,
+      "learning_rate": 3.7385922584705765e-06,
+      "loss": 0.1418,
+      "mean_token_accuracy": 0.7763209376484156,
+      "num_tokens": 57588736.0,
+      "step": 7030
+    },
+    {
+      "epoch": 1.9938046518214323,
+      "grad_norm": 1.2129154205322266,
+      "learning_rate": 3.72810238120214e-06,
+      "loss": 0.1644,
+      "mean_token_accuracy": 0.7523361068218947,
+      "num_tokens": 57670656.0,
+      "step": 7040
+    },
+    {
+      "epoch": 1.9966368109887775,
+      "grad_norm": 1.0555603504180908,
+      "learning_rate": 3.7176125039337042e-06,
+      "loss": 0.1415,
+      "mean_token_accuracy": 0.7746942289173603,
+      "num_tokens": 57752576.0,
+      "step": 7050
+    },
+    {
+      "epoch": 1.9994689701561228,
+      "grad_norm": 1.5597031116485596,
+      "learning_rate": 3.7071226266652683e-06,
+      "loss": 0.1409,
+      "mean_token_accuracy": 0.7636497039347887,
+      "num_tokens": 57834496.0,
+      "step": 7060
+    },
+    {
+      "epoch": 2.002265727333876,
+      "grad_norm": 1.1237660646438599,
+      "learning_rate": 3.6966327493968324e-06,
+      "loss": 0.1065,
+      "mean_token_accuracy": 0.7782952212080171,
+      "num_tokens": 57915392.0,
+      "step": 7070
+    },
+    {
+      "epoch": 2.0050978865012214,
+      "grad_norm": 1.2385786771774292,
+      "learning_rate": 3.6861428721283965e-06,
+      "loss": 0.11,
+      "mean_token_accuracy": 0.7639187891036272,
+      "num_tokens": 57997312.0,
+      "step": 7080
+    },
+    {
+      "epoch": 2.0079300456685667,
+      "grad_norm": 1.055507779121399,
+      "learning_rate": 3.6756529948599605e-06,
+      "loss": 0.113,
+      "mean_token_accuracy": 0.7746575351804494,
+      "num_tokens": 58079232.0,
+      "step": 7090
+    },
+    {
+      "epoch": 2.010762204835912,
+      "grad_norm": 1.1237515211105347,
+      "learning_rate": 3.665163117591524e-06,
+      "loss": 0.0966,
+      "mean_token_accuracy": 0.781531311571598,
+      "num_tokens": 58161152.0,
+      "step": 7100
+    },
+    {
+      "epoch": 2.013594364003257,
+      "grad_norm": 1.7721480131149292,
+      "learning_rate": 3.6546732403230883e-06,
+      "loss": 0.1252,
+      "mean_token_accuracy": 0.761117908358574,
+      "num_tokens": 58243072.0,
+      "step": 7110
+    },
+    {
+      "epoch": 2.016426523170602,
+      "grad_norm": 1.310492992401123,
+      "learning_rate": 3.6441833630546523e-06,
+      "loss": 0.1261,
+      "mean_token_accuracy": 0.7766267094761133,
+      "num_tokens": 58324992.0,
+      "step": 7120
+    },
+    {
+      "epoch": 2.0192586823379473,
+      "grad_norm": 1.3270450830459595,
+      "learning_rate": 3.6336934857862164e-06,
+      "loss": 0.1702,
+      "mean_token_accuracy": 0.729219663143158,
+      "num_tokens": 58406912.0,
+      "step": 7130
+    },
+    {
+      "epoch": 2.0220908415052925,
+      "grad_norm": 1.4443167448043823,
+      "learning_rate": 3.623203608517781e-06,
+      "loss": 0.1288,
+      "mean_token_accuracy": 0.7712328769266605,
+      "num_tokens": 58488832.0,
+      "step": 7140
+    },
+    {
+      "epoch": 2.0249230006726378,
+      "grad_norm": 1.5470432043075562,
+      "learning_rate": 3.612713731249345e-06,
+      "loss": 0.1346,
+      "mean_token_accuracy": 0.7625000022351742,
+      "num_tokens": 58570752.0,
+      "step": 7150
+    },
+    {
+      "epoch": 2.027755159839983,
+      "grad_norm": 1.260907530784607,
+      "learning_rate": 3.6022238539809086e-06,
+      "loss": 0.104,
+      "mean_token_accuracy": 0.7806873768568039,
+      "num_tokens": 58652672.0,
+      "step": 7160
+    },
+    {
+      "epoch": 2.0305873190073283,
+      "grad_norm": 0.9440592527389526,
+      "learning_rate": 3.5917339767124727e-06,
+      "loss": 0.1294,
+      "mean_token_accuracy": 0.75951565541327,
+      "num_tokens": 58734592.0,
+      "step": 7170
+    },
+    {
+      "epoch": 2.0334194781746735,
+      "grad_norm": 1.4341137409210205,
+      "learning_rate": 3.581244099444037e-06,
+      "loss": 0.1188,
+      "mean_token_accuracy": 0.7584393329918384,
+      "num_tokens": 58816512.0,
+      "step": 7180
+    },
+    {
+      "epoch": 2.0362516373420187,
+      "grad_norm": 1.1970900297164917,
+      "learning_rate": 3.570754222175601e-06,
+      "loss": 0.0963,
+      "mean_token_accuracy": 0.7981164366006851,
+      "num_tokens": 58898432.0,
+      "step": 7190
+    },
+    {
+      "epoch": 2.039083796509364,
+      "grad_norm": 1.7112830877304077,
+      "learning_rate": 3.560264344907165e-06,
+      "loss": 0.1528,
+      "mean_token_accuracy": 0.7553693726658821,
+      "num_tokens": 58980352.0,
+      "step": 7200
+    },
+    {
+      "epoch": 2.0419159556767092,
+      "grad_norm": 1.4228155612945557,
+      "learning_rate": 3.549774467638729e-06,
+      "loss": 0.1225,
+      "mean_token_accuracy": 0.7504280801862478,
+      "num_tokens": 59062272.0,
+      "step": 7210
+    },
+    {
+      "epoch": 2.044748114844054,
+      "grad_norm": 1.5878945589065552,
+      "learning_rate": 3.5392845903702927e-06,
+      "loss": 0.1153,
+      "mean_token_accuracy": 0.7910225056111813,
+      "num_tokens": 59144192.0,
+      "step": 7220
+    },
+    {
+      "epoch": 2.0475802740113993,
+      "grad_norm": 1.1206371784210205,
+      "learning_rate": 3.5287947131018567e-06,
+      "loss": 0.1279,
+      "mean_token_accuracy": 0.7498165342956782,
+      "num_tokens": 59226112.0,
+      "step": 7230
+    },
+    {
+      "epoch": 2.0504124331787446,
+      "grad_norm": 1.6621618270874023,
+      "learning_rate": 3.518304835833421e-06,
+      "loss": 0.1217,
+      "mean_token_accuracy": 0.7606286689639091,
+      "num_tokens": 59308032.0,
+      "step": 7240
+    },
+    {
+      "epoch": 2.05324459234609,
+      "grad_norm": 1.387544870376587,
+      "learning_rate": 3.507814958564985e-06,
+      "loss": 0.1446,
+      "mean_token_accuracy": 0.7522015646100044,
+      "num_tokens": 59389952.0,
+      "step": 7250
+    },
+    {
+      "epoch": 2.056076751513435,
+      "grad_norm": 1.303863525390625,
+      "learning_rate": 3.4973250812965494e-06,
+      "loss": 0.1362,
+      "mean_token_accuracy": 0.7659858129918575,
+      "num_tokens": 59471872.0,
+      "step": 7260
+    },
+    {
+      "epoch": 2.0589089106807803,
+      "grad_norm": 1.3478611707687378,
+      "learning_rate": 3.4868352040281135e-06,
+      "loss": 0.1246,
+      "mean_token_accuracy": 0.7809809193015098,
+      "num_tokens": 59553792.0,
+      "step": 7270
+    },
+    {
+      "epoch": 2.0617410698481256,
+      "grad_norm": 1.1989835500717163,
+      "learning_rate": 3.476345326759677e-06,
+      "loss": 0.1085,
+      "mean_token_accuracy": 0.7756604697555304,
+      "num_tokens": 59635712.0,
+      "step": 7280
+    },
+    {
+      "epoch": 2.064573229015471,
+      "grad_norm": 1.1155551671981812,
+      "learning_rate": 3.465855449491241e-06,
+      "loss": 0.1089,
+      "mean_token_accuracy": 0.7770547963678837,
+      "num_tokens": 59717632.0,
+      "step": 7290
+    },
+    {
+      "epoch": 2.067405388182816,
+      "grad_norm": 1.2903120517730713,
+      "learning_rate": 3.4553655722228053e-06,
+      "loss": 0.1234,
+      "mean_token_accuracy": 0.7721501953899861,
+      "num_tokens": 59799552.0,
+      "step": 7300
+    },
+    {
+      "epoch": 2.0702375473501613,
+      "grad_norm": 1.6666812896728516,
+      "learning_rate": 3.4448756949543694e-06,
+      "loss": 0.1253,
+      "mean_token_accuracy": 0.7631360098719597,
+      "num_tokens": 59881472.0,
+      "step": 7310
+    },
+    {
+      "epoch": 2.073069706517506,
+      "grad_norm": 1.2040691375732422,
+      "learning_rate": 3.4343858176859334e-06,
+      "loss": 0.1359,
+      "mean_token_accuracy": 0.7778008833527565,
+      "num_tokens": 59963392.0,
+      "step": 7320
+    },
+    {
+      "epoch": 2.0759018656848514,
+      "grad_norm": 1.2499768733978271,
+      "learning_rate": 3.4238959404174975e-06,
+      "loss": 0.1113,
+      "mean_token_accuracy": 0.7751345403492451,
+      "num_tokens": 60045312.0,
+      "step": 7330
+    },
+    {
+      "epoch": 2.0787340248521966,
+      "grad_norm": 0.9466302990913391,
+      "learning_rate": 3.413406063149061e-06,
+      "loss": 0.1402,
+      "mean_token_accuracy": 0.7586472611874342,
+      "num_tokens": 60127232.0,
+      "step": 7340
+    },
+    {
+      "epoch": 2.081566184019542,
+      "grad_norm": 1.0079811811447144,
+      "learning_rate": 3.4029161858806252e-06,
+      "loss": 0.1033,
+      "mean_token_accuracy": 0.7875611506402492,
+      "num_tokens": 60209152.0,
+      "step": 7350
+    },
+    {
+      "epoch": 2.084398343186887,
+      "grad_norm": 1.493399977684021,
+      "learning_rate": 3.3924263086121893e-06,
+      "loss": 0.1128,
+      "mean_token_accuracy": 0.7791707415133715,
+      "num_tokens": 60291072.0,
+      "step": 7360
+    },
+    {
+      "epoch": 2.0872305023542324,
+      "grad_norm": 1.5899913311004639,
+      "learning_rate": 3.381936431343754e-06,
+      "loss": 0.154,
+      "mean_token_accuracy": 0.7400317970663309,
+      "num_tokens": 60372992.0,
+      "step": 7370
+    },
+    {
+      "epoch": 2.0900626615215776,
+      "grad_norm": 1.5314220190048218,
+      "learning_rate": 3.371446554075318e-06,
+      "loss": 0.1232,
+      "mean_token_accuracy": 0.7905455000698567,
+      "num_tokens": 60454912.0,
+      "step": 7380
+    },
+    {
+      "epoch": 2.092894820688923,
+      "grad_norm": 1.2721341848373413,
+      "learning_rate": 3.360956676806882e-06,
+      "loss": 0.1085,
+      "mean_token_accuracy": 0.7729696653783321,
+      "num_tokens": 60536832.0,
+      "step": 7390
+    },
+    {
+      "epoch": 2.095726979856268,
+      "grad_norm": 1.1642765998840332,
+      "learning_rate": 3.3504667995384456e-06,
+      "loss": 0.1081,
+      "mean_token_accuracy": 0.7889799427241087,
+      "num_tokens": 60618752.0,
+      "step": 7400
+    },
+    {
+      "epoch": 2.098559139023613,
+      "grad_norm": 1.3702284097671509,
+      "learning_rate": 3.3399769222700097e-06,
+      "loss": 0.1094,
+      "mean_token_accuracy": 0.7912671204656363,
+      "num_tokens": 60700672.0,
+      "step": 7410
+    },
+    {
+      "epoch": 2.101391298190958,
+      "grad_norm": 1.2944626808166504,
+      "learning_rate": 3.3294870450015738e-06,
+      "loss": 0.1313,
+      "mean_token_accuracy": 0.7547211341559887,
+      "num_tokens": 60782592.0,
+      "step": 7420
+    },
+    {
+      "epoch": 2.1042234573583034,
+      "grad_norm": 1.1357483863830566,
+      "learning_rate": 3.318997167733138e-06,
+      "loss": 0.1069,
+      "mean_token_accuracy": 0.7714530322700739,
+      "num_tokens": 60864512.0,
+      "step": 7430
+    },
+    {
+      "epoch": 2.1070556165256487,
+      "grad_norm": 1.0823742151260376,
+      "learning_rate": 3.308507290464702e-06,
+      "loss": 0.1106,
+      "mean_token_accuracy": 0.7675146773457527,
+      "num_tokens": 60946432.0,
+      "step": 7440
+    },
+    {
+      "epoch": 2.109887775692994,
+      "grad_norm": 1.2482222318649292,
+      "learning_rate": 3.298017413196266e-06,
+      "loss": 0.1122,
+      "mean_token_accuracy": 0.7684442289173603,
+      "num_tokens": 61028352.0,
+      "step": 7450
+    },
+    {
+      "epoch": 2.112719934860339,
+      "grad_norm": 1.9791706800460815,
+      "learning_rate": 3.2875275359278296e-06,
+      "loss": 0.1222,
+      "mean_token_accuracy": 0.7773728009313345,
+      "num_tokens": 61110272.0,
+      "step": 7460
+    },
+    {
+      "epoch": 2.1155520940276844,
+      "grad_norm": 1.8661694526672363,
+      "learning_rate": 3.2770376586593937e-06,
+      "loss": 0.1091,
+      "mean_token_accuracy": 0.7745596896857023,
+      "num_tokens": 61192192.0,
+      "step": 7470
+    },
+    {
+      "epoch": 2.1183842531950297,
+      "grad_norm": 0.9961443543434143,
+      "learning_rate": 3.2665477813909578e-06,
+      "loss": 0.1212,
+      "mean_token_accuracy": 0.7665973592549562,
+      "num_tokens": 61274112.0,
+      "step": 7480
+    },
+    {
+      "epoch": 2.121216412362375,
+      "grad_norm": 1.1755738258361816,
+      "learning_rate": 3.2560579041225223e-06,
+      "loss": 0.1216,
+      "mean_token_accuracy": 0.7842465721070766,
+      "num_tokens": 61356032.0,
+      "step": 7490
+    },
+    {
+      "epoch": 2.12404857152972,
+      "grad_norm": 1.227830171585083,
+      "learning_rate": 3.2455680268540864e-06,
+      "loss": 0.1372,
+      "mean_token_accuracy": 0.7647749528288841,
+      "num_tokens": 61437952.0,
+      "step": 7500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.6236851051574067e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null