DeRooseBERTa / trainer_state.json

Upload 6 files

8434575 verified about 1 month ago

46.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 75.1879934828926,
	"eval_steps": 2000,
	"global_step": 150000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0,
	"eval_accuracy": 1.3660035857594126e-07,
	"eval_loss": 132.875,
	"eval_runtime": 254.898,
	"eval_samples_per_second": 6486.396,
	"eval_steps_per_second": 12.672,
	"step": 0
	},
	{
	"epoch": 0.13762730525736305,
	"grad_norm": 49.58098602294922,
	"learning_rate": 2.967e-05,
	"loss": 178.872046875,
	"step": 1000
	},
	{
	"epoch": 0.2752546105147261,
	"grad_norm": 40.552101135253906,
	"learning_rate": 5.966999999999999e-05,
	"loss": 82.2545625,
	"step": 2000
	},
	{
	"epoch": 0.2752546105147261,
	"eval_accuracy": 0.6086885594122716,
	"eval_loss": 16.890625,
	"eval_runtime": 245.8339,
	"eval_samples_per_second": 6725.555,
	"eval_steps_per_second": 13.139,
	"step": 2000
	},
	{
	"epoch": 0.41288191577208916,
	"grad_norm": 37.14718246459961,
	"learning_rate": 8.966999999999999e-05,
	"loss": 66.408390625,
	"step": 3000
	},
	{
	"epoch": 0.5505092210294522,
	"grad_norm": 32.7165641784668,
	"learning_rate": 0.00011960999999999999,
	"loss": 59.63419921875,
	"step": 4000
	},
	{
	"epoch": 0.5505092210294522,
	"eval_accuracy": 0.6626575571303744,
	"eval_loss": 13.6171875,
	"eval_runtime": 239.1422,
	"eval_samples_per_second": 6913.748,
	"eval_steps_per_second": 13.507,
	"step": 4000
	},
	{
	"epoch": 0.6881365262868153,
	"grad_norm": 26.651721954345703,
	"learning_rate": 0.00014960999999999997,
	"loss": 55.59596484375,
	"step": 5000
	},
	{
	"epoch": 0.8257638315441783,
	"grad_norm": 25.13609504699707,
	"learning_rate": 0.00017961,
	"loss": 52.9440390625,
	"step": 6000
	},
	{
	"epoch": 0.8257638315441783,
	"eval_accuracy": 0.6820435002667244,
	"eval_loss": 12.4453125,
	"eval_runtime": 241.0405,
	"eval_samples_per_second": 6859.298,
	"eval_steps_per_second": 13.4,
	"step": 6000
	},
	{
	"epoch": 0.9633911368015414,
	"grad_norm": 25.540454864501953,
	"learning_rate": 0.00020960999999999997,
	"loss": 51.0653359375,
	"step": 7000
	},
	{
	"epoch": 1.1010184420589044,
	"grad_norm": 22.598819732666016,
	"learning_rate": 0.00023960999999999996,
	"loss": 49.669171875,
	"step": 8000
	},
	{
	"epoch": 1.1010184420589044,
	"eval_accuracy": 0.6911625811516694,
	"eval_loss": 11.875,
	"eval_runtime": 238.8748,
	"eval_samples_per_second": 6921.488,
	"eval_steps_per_second": 13.522,
	"step": 8000
	},
	{
	"epoch": 1.2386457473162675,
	"grad_norm": 21.2167911529541,
	"learning_rate": 0.00026957999999999995,
	"loss": 48.713546875,
	"step": 9000
	},
	{
	"epoch": 1.3762730525736306,
	"grad_norm": 20.751371383666992,
	"learning_rate": 0.00029955,
	"loss": 47.99215625,
	"step": 10000
	},
	{
	"epoch": 1.3762730525736306,
	"eval_accuracy": 0.6964798957051618,
	"eval_loss": 11.5546875,
	"eval_runtime": 240.5455,
	"eval_samples_per_second": 6873.416,
	"eval_steps_per_second": 13.428,
	"step": 10000
	},
	{
	"epoch": 1.5139003578309937,
	"grad_norm": 21.686861038208008,
	"learning_rate": 0.0003,
	"loss": 47.29948046875,
	"step": 11000
	},
	{
	"epoch": 1.6515276630883569,
	"grad_norm": 18.800752639770508,
	"learning_rate": 0.0003,
	"loss": 46.53960546875,
	"step": 12000
	},
	{
	"epoch": 1.6515276630883569,
	"eval_accuracy": 0.701906575930677,
	"eval_loss": 11.2265625,
	"eval_runtime": 239.4873,
	"eval_samples_per_second": 6903.785,
	"eval_steps_per_second": 13.487,
	"step": 12000
	},
	{
	"epoch": 1.7891549683457197,
	"grad_norm": 19.42099952697754,
	"learning_rate": 0.0003,
	"loss": 45.9191953125,
	"step": 13000
	},
	{
	"epoch": 1.9267822736030829,
	"grad_norm": 19.15869140625,
	"learning_rate": 0.0003,
	"loss": 45.381796875,
	"step": 14000
	},
	{
	"epoch": 1.9267822736030829,
	"eval_accuracy": 0.7061886218301343,
	"eval_loss": 10.9765625,
	"eval_runtime": 239.2568,
	"eval_samples_per_second": 6910.438,
	"eval_steps_per_second": 13.5,
	"step": 14000
	},
	{
	"epoch": 2.0644095788604457,
	"grad_norm": 16.94078826904297,
	"learning_rate": 0.0003,
	"loss": 44.90976953125,
	"step": 15000
	},
	{
	"epoch": 2.202036884117809,
	"grad_norm": 17.655250549316406,
	"learning_rate": 0.0003,
	"loss": 44.45808203125,
	"step": 16000
	},
	{
	"epoch": 2.202036884117809,
	"eval_accuracy": 0.7093567074531988,
	"eval_loss": 10.8203125,
	"eval_runtime": 241.1911,
	"eval_samples_per_second": 6855.016,
	"eval_steps_per_second": 13.392,
	"step": 16000
	},
	{
	"epoch": 2.339664189375172,
	"grad_norm": 17.694721221923828,
	"learning_rate": 0.0003,
	"loss": 44.16196484375,
	"step": 17000
	},
	{
	"epoch": 2.477291494632535,
	"grad_norm": 17.49053955078125,
	"learning_rate": 0.0003,
	"loss": 43.84825,
	"step": 18000
	},
	{
	"epoch": 2.477291494632535,
	"eval_accuracy": 0.7115680703757034,
	"eval_loss": 10.6640625,
	"eval_runtime": 239.4688,
	"eval_samples_per_second": 6904.32,
	"eval_steps_per_second": 13.488,
	"step": 18000
	},
	{
	"epoch": 2.614918799889898,
	"grad_norm": 19.09914207458496,
	"learning_rate": 0.0003,
	"loss": 43.59271875,
	"step": 19000
	},
	{
	"epoch": 2.7525461051472613,
	"grad_norm": 16.3907527923584,
	"learning_rate": 0.0003,
	"loss": 43.352640625,
	"step": 20000
	},
	{
	"epoch": 2.7525461051472613,
	"eval_accuracy": 0.7139675040013439,
	"eval_loss": 10.5546875,
	"eval_runtime": 238.1647,
	"eval_samples_per_second": 6942.126,
	"eval_steps_per_second": 13.562,
	"step": 20000
	},
	{
	"epoch": 2.8901734104046244,
	"grad_norm": 15.896549224853516,
	"learning_rate": 0.0003,
	"loss": 43.17196875,
	"step": 21000
	},
	{
	"epoch": 3.0278007156619875,
	"grad_norm": 29.67310905456543,
	"learning_rate": 0.0003,
	"loss": 42.92155859375,
	"step": 22000
	},
	{
	"epoch": 3.0278007156619875,
	"eval_accuracy": 0.7146398068421496,
	"eval_loss": 10.484375,
	"eval_runtime": 238.4701,
	"eval_samples_per_second": 6933.233,
	"eval_steps_per_second": 13.545,
	"step": 22000
	},
	{
	"epoch": 3.1654280209193506,
	"grad_norm": 16.424579620361328,
	"learning_rate": 0.0003,
	"loss": 42.65390625,
	"step": 23000
	},
	{
	"epoch": 3.3030553261767133,
	"grad_norm": 16.19496726989746,
	"learning_rate": 0.0003,
	"loss": 42.48802734375,
	"step": 24000
	},
	{
	"epoch": 3.3030553261767133,
	"eval_accuracy": 0.7170818189501579,
	"eval_loss": 10.3671875,
	"eval_runtime": 240.7935,
	"eval_samples_per_second": 6866.337,
	"eval_steps_per_second": 13.414,
	"step": 24000
	},
	{
	"epoch": 3.4406826314340764,
	"grad_norm": 15.53753662109375,
	"learning_rate": 0.0003,
	"loss": 42.357984375,
	"step": 25000
	},
	{
	"epoch": 3.5783099366914395,
	"grad_norm": 16.701377868652344,
	"learning_rate": 0.0003,
	"loss": 42.1965703125,
	"step": 26000
	},
	{
	"epoch": 3.5783099366914395,
	"eval_accuracy": 0.7182790131411184,
	"eval_loss": 10.2890625,
	"eval_runtime": 241.2004,
	"eval_samples_per_second": 6854.753,
	"eval_steps_per_second": 13.391,
	"step": 26000
	},
	{
	"epoch": 3.7159372419488026,
	"grad_norm": 15.334391593933105,
	"learning_rate": 0.0003,
	"loss": 42.05885546875,
	"step": 27000
	},
	{
	"epoch": 3.8535645472061657,
	"grad_norm": 15.341226577758789,
	"learning_rate": 0.0003,
	"loss": 41.9392421875,
	"step": 28000
	},
	{
	"epoch": 3.8535645472061657,
	"eval_accuracy": 0.719322972712139,
	"eval_loss": 10.2421875,
	"eval_runtime": 241.186,
	"eval_samples_per_second": 6855.162,
	"eval_steps_per_second": 13.392,
	"step": 28000
	},
	{
	"epoch": 3.991191852463529,
	"grad_norm": 16.253334045410156,
	"learning_rate": 0.0003,
	"loss": 41.81163671875,
	"step": 29000
	},
	{
	"epoch": 4.1288191577208915,
	"grad_norm": 15.035149574279785,
	"learning_rate": 0.0003,
	"loss": 41.617953125,
	"step": 30000
	},
	{
	"epoch": 4.1288191577208915,
	"eval_accuracy": 0.720451396648655,
	"eval_loss": 10.171875,
	"eval_runtime": 240.2855,
	"eval_samples_per_second": 6880.853,
	"eval_steps_per_second": 13.442,
	"step": 30000
	},
	{
	"epoch": 4.266446462978255,
	"grad_norm": 14.762296676635742,
	"learning_rate": 0.0003,
	"loss": 41.5138203125,
	"step": 31000
	},
	{
	"epoch": 4.404073768235618,
	"grad_norm": 14.627701759338379,
	"learning_rate": 0.0003,
	"loss": 41.4306015625,
	"step": 32000
	},
	{
	"epoch": 4.404073768235618,
	"eval_accuracy": 0.7213651673804347,
	"eval_loss": 10.1328125,
	"eval_runtime": 242.2962,
	"eval_samples_per_second": 6823.752,
	"eval_steps_per_second": 13.331,
	"step": 32000
	},
	{
	"epoch": 4.541701073492981,
	"grad_norm": 14.57941722869873,
	"learning_rate": 0.0003,
	"loss": 41.3221171875,
	"step": 33000
	},
	{
	"epoch": 4.679328378750344,
	"grad_norm": 15.291731834411621,
	"learning_rate": 0.0003,
	"loss": 41.276203125,
	"step": 34000
	},
	{
	"epoch": 4.679328378750344,
	"eval_accuracy": 0.7223401458779132,
	"eval_loss": 10.0703125,
	"eval_runtime": 239.5218,
	"eval_samples_per_second": 6902.793,
	"eval_steps_per_second": 13.485,
	"step": 34000
	},
	{
	"epoch": 4.8169556840077075,
	"grad_norm": 15.057552337646484,
	"learning_rate": 0.0003,
	"loss": 41.19701171875,
	"step": 35000
	},
	{
	"epoch": 4.95458298926507,
	"grad_norm": 15.457907676696777,
	"learning_rate": 0.0003,
	"loss": 41.10438671875,
	"step": 36000
	},
	{
	"epoch": 4.95458298926507,
	"eval_accuracy": 0.7230995451445803,
	"eval_loss": 10.0546875,
	"eval_runtime": 240.0931,
	"eval_samples_per_second": 6886.367,
	"eval_steps_per_second": 13.453,
	"step": 36000
	},
	{
	"epoch": 5.092210294522434,
	"grad_norm": 15.539594650268555,
	"learning_rate": 0.0003,
	"loss": 40.93646875,
	"step": 37000
	},
	{
	"epoch": 5.229837599779796,
	"grad_norm": 14.915628433227539,
	"learning_rate": 0.0003,
	"loss": 40.8286875,
	"step": 38000
	},
	{
	"epoch": 5.229837599779796,
	"eval_accuracy": 0.7238966529952525,
	"eval_loss": 10.0,
	"eval_runtime": 239.9098,
	"eval_samples_per_second": 6891.629,
	"eval_steps_per_second": 13.463,
	"step": 38000
	},
	{
	"epoch": 5.367464905037159,
	"grad_norm": 14.271048545837402,
	"learning_rate": 0.0003,
	"loss": 40.80625,
	"step": 39000
	},
	{
	"epoch": 5.505092210294523,
	"grad_norm": 14.605119705200195,
	"learning_rate": 0.0003,
	"loss": 40.713796875,
	"step": 40000
	},
	{
	"epoch": 5.505092210294523,
	"eval_accuracy": 0.7245612679427045,
	"eval_loss": 9.9609375,
	"eval_runtime": 240.0103,
	"eval_samples_per_second": 6888.743,
	"eval_steps_per_second": 13.458,
	"step": 40000
	},
	{
	"epoch": 5.642719515551885,
	"grad_norm": 14.748287200927734,
	"learning_rate": 0.0003,
	"loss": 40.62338671875,
	"step": 41000
	},
	{
	"epoch": 5.780346820809249,
	"grad_norm": 15.422652244567871,
	"learning_rate": 0.0003,
	"loss": 40.56144140625,
	"step": 42000
	},
	{
	"epoch": 5.780346820809249,
	"eval_accuracy": 0.7251576961266964,
	"eval_loss": 9.9375,
	"eval_runtime": 240.638,
	"eval_samples_per_second": 6870.772,
	"eval_steps_per_second": 13.423,
	"step": 42000
	},
	{
	"epoch": 5.917974126066611,
	"grad_norm": 15.326558113098145,
	"learning_rate": 0.0003,
	"loss": 40.5059375,
	"step": 43000
	},
	{
	"epoch": 6.055601431323975,
	"grad_norm": 15.331598281860352,
	"learning_rate": 0.0003,
	"loss": 40.40818359375,
	"step": 44000
	},
	{
	"epoch": 6.055601431323975,
	"eval_accuracy": 0.7254487554600376,
	"eval_loss": 9.8984375,
	"eval_runtime": 240.1599,
	"eval_samples_per_second": 6884.449,
	"eval_steps_per_second": 13.449,
	"step": 44000
	},
	{
	"epoch": 6.193228736581338,
	"grad_norm": 14.527973175048828,
	"learning_rate": 0.0003,
	"loss": 40.3428828125,
	"step": 45000
	},
	{
	"epoch": 6.330856041838701,
	"grad_norm": 15.686996459960938,
	"learning_rate": 0.0003,
	"loss": 40.3244765625,
	"step": 46000
	},
	{
	"epoch": 6.330856041838701,
	"eval_accuracy": 0.7256079479674087,
	"eval_loss": 9.8984375,
	"eval_runtime": 239.085,
	"eval_samples_per_second": 6915.403,
	"eval_steps_per_second": 13.51,
	"step": 46000
	},
	{
	"epoch": 6.468483347096064,
	"grad_norm": 14.848986625671387,
	"learning_rate": 0.0003,
	"loss": 40.312796875,
	"step": 47000
	},
	{
	"epoch": 6.6061106523534265,
	"grad_norm": 14.275111198425293,
	"learning_rate": 0.0003,
	"loss": 40.28499609375,
	"step": 48000
	},
	{
	"epoch": 6.6061106523534265,
	"eval_accuracy": 0.7262142861047188,
	"eval_loss": 9.875,
	"eval_runtime": 240.5807,
	"eval_samples_per_second": 6872.409,
	"eval_steps_per_second": 13.426,
	"step": 48000
	},
	{
	"epoch": 6.74373795761079,
	"grad_norm": 14.665587425231934,
	"learning_rate": 0.0003,
	"loss": 40.18369921875,
	"step": 49000
	},
	{
	"epoch": 6.881365262868153,
	"grad_norm": 14.547246932983398,
	"learning_rate": 0.0003,
	"loss": 40.1498828125,
	"step": 50000
	},
	{
	"epoch": 6.881365262868153,
	"eval_accuracy": 0.7269716959581425,
	"eval_loss": 9.8515625,
	"eval_runtime": 241.4549,
	"eval_samples_per_second": 6847.527,
	"eval_steps_per_second": 13.377,
	"step": 50000
	},
	{
	"epoch": 7.018992568125516,
	"grad_norm": 14.525768280029297,
	"learning_rate": 0.0003,
	"loss": 40.1036328125,
	"step": 51000
	},
	{
	"epoch": 7.156619873382879,
	"grad_norm": 14.632113456726074,
	"learning_rate": 0.0003,
	"loss": 39.9834296875,
	"step": 52000
	},
	{
	"epoch": 7.156619873382879,
	"eval_accuracy": 0.7272316426626143,
	"eval_loss": 9.828125,
	"eval_runtime": 239.3181,
	"eval_samples_per_second": 6908.667,
	"eval_steps_per_second": 13.497,
	"step": 52000
	},
	{
	"epoch": 7.2942471786402425,
	"grad_norm": 14.982499122619629,
	"learning_rate": 0.0003,
	"loss": 39.9509375,
	"step": 53000
	},
	{
	"epoch": 7.431874483897605,
	"grad_norm": 16.801025390625,
	"learning_rate": 0.0003,
	"loss": 39.891859375,
	"step": 54000
	},
	{
	"epoch": 7.431874483897605,
	"eval_accuracy": 0.7271305788939304,
	"eval_loss": 9.828125,
	"eval_runtime": 240.159,
	"eval_samples_per_second": 6884.477,
	"eval_steps_per_second": 13.449,
	"step": 54000
	},
	{
	"epoch": 7.569501789154968,
	"grad_norm": 14.868009567260742,
	"learning_rate": 0.0003,
	"loss": 39.88668359375,
	"step": 55000
	},
	{
	"epoch": 7.707129094412331,
	"grad_norm": 14.595479011535645,
	"learning_rate": 0.0003,
	"loss": 39.821890625,
	"step": 56000
	},
	{
	"epoch": 7.707129094412331,
	"eval_accuracy": 0.7280901536840519,
	"eval_loss": 9.7734375,
	"eval_runtime": 238.9096,
	"eval_samples_per_second": 6920.478,
	"eval_steps_per_second": 13.52,
	"step": 56000
	},
	{
	"epoch": 7.844756399669695,
	"grad_norm": 13.92586612701416,
	"learning_rate": 0.0003,
	"loss": 39.78269921875,
	"step": 57000
	},
	{
	"epoch": 7.982383704927058,
	"grad_norm": 15.85058307647705,
	"learning_rate": 0.0003,
	"loss": 39.72277734375,
	"step": 58000
	},
	{
	"epoch": 7.982383704927058,
	"eval_accuracy": 0.7287356832938983,
	"eval_loss": 9.7578125,
	"eval_runtime": 239.7822,
	"eval_samples_per_second": 6895.295,
	"eval_steps_per_second": 13.471,
	"step": 58000
	},
	{
	"epoch": 8.12001101018442,
	"grad_norm": 15.202603340148926,
	"learning_rate": 0.0003,
	"loss": 39.6687421875,
	"step": 59000
	},
	{
	"epoch": 8.257638315441783,
	"grad_norm": 14.994338989257812,
	"learning_rate": 0.0003,
	"loss": 39.60739453125,
	"step": 60000
	},
	{
	"epoch": 8.257638315441783,
	"eval_accuracy": 0.7289930926403759,
	"eval_loss": 9.7265625,
	"eval_runtime": 241.1318,
	"eval_samples_per_second": 6856.702,
	"eval_steps_per_second": 13.395,
	"step": 60000
	},
	{
	"epoch": 8.395265620699147,
	"grad_norm": 15.15245532989502,
	"learning_rate": 0.0003,
	"loss": 39.57180859375,
	"step": 61000
	},
	{
	"epoch": 8.53289292595651,
	"grad_norm": 15.941924095153809,
	"learning_rate": 0.0003,
	"loss": 39.5704296875,
	"step": 62000
	},
	{
	"epoch": 8.53289292595651,
	"eval_accuracy": 0.7289831970926051,
	"eval_loss": 9.734375,
	"eval_runtime": 241.0009,
	"eval_samples_per_second": 6860.426,
	"eval_steps_per_second": 13.402,
	"step": 62000
	},
	{
	"epoch": 8.670520231213873,
	"grad_norm": 14.842296600341797,
	"learning_rate": 0.0003,
	"loss": 39.53778125,
	"step": 63000
	},
	{
	"epoch": 8.808147536471235,
	"grad_norm": 17.454763412475586,
	"learning_rate": 0.0003,
	"loss": 39.540921875,
	"step": 64000
	},
	{
	"epoch": 8.808147536471235,
	"eval_accuracy": 0.7290886771189041,
	"eval_loss": 9.7109375,
	"eval_runtime": 240.0306,
	"eval_samples_per_second": 6888.158,
	"eval_steps_per_second": 13.457,
	"step": 64000
	},
	{
	"epoch": 8.9457748417286,
	"grad_norm": 13.98570442199707,
	"learning_rate": 0.0003,
	"loss": 39.512796875,
	"step": 65000
	},
	{
	"epoch": 9.083402146985962,
	"grad_norm": 18.010318756103516,
	"learning_rate": 0.0003,
	"loss": 39.4786171875,
	"step": 66000
	},
	{
	"epoch": 9.083402146985962,
	"eval_accuracy": 0.7294749784251455,
	"eval_loss": 9.7109375,
	"eval_runtime": 240.1115,
	"eval_samples_per_second": 6885.838,
	"eval_steps_per_second": 13.452,
	"step": 66000
	},
	{
	"epoch": 9.221029452243325,
	"grad_norm": 15.137900352478027,
	"learning_rate": 0.0003,
	"loss": 39.4073359375,
	"step": 67000
	},
	{
	"epoch": 9.358656757500688,
	"grad_norm": 18.228130340576172,
	"learning_rate": 0.0003,
	"loss": 39.3549765625,
	"step": 68000
	},
	{
	"epoch": 9.358656757500688,
	"eval_accuracy": 0.7301181665976199,
	"eval_loss": 9.671875,
	"eval_runtime": 239.7862,
	"eval_samples_per_second": 6895.179,
	"eval_steps_per_second": 13.47,
	"step": 68000
	},
	{
	"epoch": 9.49628406275805,
	"grad_norm": 16.575559616088867,
	"learning_rate": 0.0003,
	"loss": 39.3098828125,
	"step": 69000
	},
	{
	"epoch": 9.633911368015415,
	"grad_norm": 14.635740280151367,
	"learning_rate": 0.0003,
	"loss": 39.35287890625,
	"step": 70000
	},
	{
	"epoch": 9.633911368015415,
	"eval_accuracy": 0.7295560826467988,
	"eval_loss": 9.6875,
	"eval_runtime": 241.3494,
	"eval_samples_per_second": 6850.521,
	"eval_steps_per_second": 13.383,
	"step": 70000
	},
	{
	"epoch": 9.771538673272778,
	"grad_norm": 14.436244010925293,
	"learning_rate": 0.0003,
	"loss": 39.29956640625,
	"step": 71000
	},
	{
	"epoch": 9.90916597853014,
	"grad_norm": 14.493698120117188,
	"learning_rate": 0.0003,
	"loss": 39.31009375,
	"step": 72000
	},
	{
	"epoch": 9.90916597853014,
	"eval_accuracy": 0.7304579509385183,
	"eval_loss": 9.6484375,
	"eval_runtime": 245.6684,
	"eval_samples_per_second": 6730.085,
	"eval_steps_per_second": 13.148,
	"step": 72000
	},
	{
	"epoch": 10.046793283787503,
	"grad_norm": 15.077356338500977,
	"learning_rate": 0.0003,
	"loss": 39.2335546875,
	"step": 73000
	},
	{
	"epoch": 10.184420589044867,
	"grad_norm": 13.661473274230957,
	"learning_rate": 0.0003,
	"loss": 39.09965625,
	"step": 74000
	},
	{
	"epoch": 10.184420589044867,
	"eval_accuracy": 0.7312455280822778,
	"eval_loss": 9.625,
	"eval_runtime": 239.6349,
	"eval_samples_per_second": 6899.534,
	"eval_steps_per_second": 13.479,
	"step": 74000
	},
	{
	"epoch": 10.32204789430223,
	"grad_norm": 15.429136276245117,
	"learning_rate": 0.0003,
	"loss": 39.147140625,
	"step": 75000
	},
	{
	"epoch": 10.459675199559593,
	"grad_norm": 15.229757308959961,
	"learning_rate": 0.0003,
	"loss": 39.1339453125,
	"step": 76000
	},
	{
	"epoch": 10.459675199559593,
	"eval_accuracy": 0.731277762807936,
	"eval_loss": 9.609375,
	"eval_runtime": 238.7439,
	"eval_samples_per_second": 6925.282,
	"eval_steps_per_second": 13.529,
	"step": 76000
	},
	{
	"epoch": 10.597302504816955,
	"grad_norm": 14.771382331848145,
	"learning_rate": 0.0003,
	"loss": 39.1441796875,
	"step": 77000
	},
	{
	"epoch": 10.734929810074318,
	"grad_norm": 13.703607559204102,
	"learning_rate": 0.0003,
	"loss": 39.141265625,
	"step": 78000
	},
	{
	"epoch": 10.734929810074318,
	"eval_accuracy": 0.7310708531463442,
	"eval_loss": 9.609375,
	"eval_runtime": 239.4162,
	"eval_samples_per_second": 6905.836,
	"eval_steps_per_second": 13.491,
	"step": 78000
	},
	{
	"epoch": 10.872557115331682,
	"grad_norm": 19.041141510009766,
	"learning_rate": 0.0003,
	"loss": 39.0934140625,
	"step": 79000
	},
	{
	"epoch": 11.010184420589045,
	"grad_norm": 17.401290893554688,
	"learning_rate": 0.0003,
	"loss": 39.113875,
	"step": 80000
	},
	{
	"epoch": 11.010184420589045,
	"eval_accuracy": 0.7312406631974454,
	"eval_loss": 9.6015625,
	"eval_runtime": 238.9522,
	"eval_samples_per_second": 6919.246,
	"eval_steps_per_second": 13.517,
	"step": 80000
	},
	{
	"epoch": 11.147811725846408,
	"grad_norm": 14.292427062988281,
	"learning_rate": 0.0003,
	"loss": 39.012484375,
	"step": 81000
	},
	{
	"epoch": 11.28543903110377,
	"grad_norm": 15.462931632995605,
	"learning_rate": 0.0003,
	"loss": 39.04391796875,
	"step": 82000
	},
	{
	"epoch": 11.28543903110377,
	"eval_accuracy": 0.7316027472794033,
	"eval_loss": 9.6015625,
	"eval_runtime": 240.4477,
	"eval_samples_per_second": 6876.21,
	"eval_steps_per_second": 13.433,
	"step": 82000
	},
	{
	"epoch": 11.423066336361135,
	"grad_norm": 17.796772003173828,
	"learning_rate": 0.0003,
	"loss": 38.957421875,
	"step": 83000
	},
	{
	"epoch": 11.560693641618498,
	"grad_norm": 17.314067840576172,
	"learning_rate": 0.0003,
	"loss": 38.9495234375,
	"step": 84000
	},
	{
	"epoch": 11.560693641618498,
	"eval_accuracy": 0.7321146855990825,
	"eval_loss": 9.578125,
	"eval_runtime": 239.2384,
	"eval_samples_per_second": 6910.967,
	"eval_steps_per_second": 13.501,
	"step": 84000
	},
	{
	"epoch": 11.69832094687586,
	"grad_norm": 16.145645141601562,
	"learning_rate": 0.0003,
	"loss": 38.91906640625,
	"step": 85000
	},
	{
	"epoch": 11.835948252133223,
	"grad_norm": 13.51314640045166,
	"learning_rate": 0.0003,
	"loss": 38.91014453125,
	"step": 86000
	},
	{
	"epoch": 11.835948252133223,
	"eval_accuracy": 0.732051599943418,
	"eval_loss": 9.5546875,
	"eval_runtime": 240.3949,
	"eval_samples_per_second": 6877.722,
	"eval_steps_per_second": 13.436,
	"step": 86000
	},
	{
	"epoch": 11.973575557390586,
	"grad_norm": 15.877927780151367,
	"learning_rate": 0.0003,
	"loss": 38.933609375,
	"step": 87000
	},
	{
	"epoch": 12.11120286264795,
	"grad_norm": 15.215489387512207,
	"learning_rate": 0.0003,
	"loss": 38.8452265625,
	"step": 88000
	},
	{
	"epoch": 12.11120286264795,
	"eval_accuracy": 0.7323534973774022,
	"eval_loss": 9.546875,
	"eval_runtime": 240.1188,
	"eval_samples_per_second": 6885.629,
	"eval_steps_per_second": 13.452,
	"step": 88000
	},
	{
	"epoch": 12.248830167905313,
	"grad_norm": 15.539190292358398,
	"learning_rate": 0.0003,
	"loss": 38.8104296875,
	"step": 89000
	},
	{
	"epoch": 12.386457473162675,
	"grad_norm": 15.577831268310547,
	"learning_rate": 0.0003,
	"loss": 38.80796875,
	"step": 90000
	},
	{
	"epoch": 12.386457473162675,
	"eval_accuracy": 0.7324531616408847,
	"eval_loss": 9.546875,
	"eval_runtime": 240.2465,
	"eval_samples_per_second": 6881.969,
	"eval_steps_per_second": 13.445,
	"step": 90000
	},
	{
	"epoch": 12.524084778420038,
	"grad_norm": 14.47063159942627,
	"learning_rate": 0.0003,
	"loss": 38.865859375,
	"step": 91000
	},
	{
	"epoch": 12.661712083677402,
	"grad_norm": 13.968493461608887,
	"learning_rate": 0.0003,
	"loss": 38.81719921875,
	"step": 92000
	},
	{
	"epoch": 12.661712083677402,
	"eval_accuracy": 0.7321305936040334,
	"eval_loss": 9.546875,
	"eval_runtime": 239.1976,
	"eval_samples_per_second": 6912.148,
	"eval_steps_per_second": 13.503,
	"step": 92000
	},
	{
	"epoch": 12.799339388934765,
	"grad_norm": 28.390636444091797,
	"learning_rate": 0.0003,
	"loss": 38.815578125,
	"step": 93000
	},
	{
	"epoch": 12.936966694192128,
	"grad_norm": 27.102386474609375,
	"learning_rate": 0.0003,
	"loss": 38.82604296875,
	"step": 94000
	},
	{
	"epoch": 12.936966694192128,
	"eval_accuracy": 0.732027704335829,
	"eval_loss": 9.546875,
	"eval_runtime": 240.3497,
	"eval_samples_per_second": 6879.014,
	"eval_steps_per_second": 13.439,
	"step": 94000
	},
	{
	"epoch": 13.07459399944949,
	"grad_norm": 14.193507194519043,
	"learning_rate": 0.0003,
	"loss": 38.72788671875,
	"step": 95000
	},
	{
	"epoch": 13.212221304706853,
	"grad_norm": 18.604595184326172,
	"learning_rate": 0.0003,
	"loss": 38.6876171875,
	"step": 96000
	},
	{
	"epoch": 13.212221304706853,
	"eval_accuracy": 0.7321750300843878,
	"eval_loss": 9.546875,
	"eval_runtime": 240.1101,
	"eval_samples_per_second": 6885.879,
	"eval_steps_per_second": 13.452,
	"step": 96000
	},
	{
	"epoch": 13.349848609964218,
	"grad_norm": 16.717756271362305,
	"learning_rate": 0.0003,
	"loss": 38.7415390625,
	"step": 97000
	},
	{
	"epoch": 13.48747591522158,
	"grad_norm": 13.74322509765625,
	"learning_rate": 0.0003,
	"loss": 38.704234375,
	"step": 98000
	},
	{
	"epoch": 13.48747591522158,
	"eval_accuracy": 0.7335116918906991,
	"eval_loss": 9.4921875,
	"eval_runtime": 240.4214,
	"eval_samples_per_second": 6876.962,
	"eval_steps_per_second": 13.435,
	"step": 98000
	},
	{
	"epoch": 13.625103220478943,
	"grad_norm": 17.836227416992188,
	"learning_rate": 0.0003,
	"loss": 38.6647890625,
	"step": 99000
	},
	{
	"epoch": 13.762730525736306,
	"grad_norm": 20.256298065185547,
	"learning_rate": 0.0003,
	"loss": 38.654390625,
	"step": 100000
	},
	{
	"epoch": 13.762730525736306,
	"eval_accuracy": 0.7328628073699861,
	"eval_loss": 9.5078125,
	"eval_runtime": 240.901,
	"eval_samples_per_second": 6863.272,
	"eval_steps_per_second": 13.408,
	"step": 100000
	},
	{
	"epoch": 13.762730525736306,
	"eval_accuracy": 0.7328718517886109,
	"eval_loss": 9.5078125,
	"eval_runtime": 257.3667,
	"eval_samples_per_second": 6424.176,
	"eval_steps_per_second": 12.55,
	"step": 100000
	},
	{
	"epoch": 13.90035783099367,
	"grad_norm": 17.175275802612305,
	"learning_rate": 0.0003,
	"loss": 38.7094453125,
	"step": 101000
	},
	{
	"epoch": 14.037985136251033,
	"grad_norm": 30.791107177734375,
	"learning_rate": 0.0003,
	"loss": 38.7431796875,
	"step": 102000
	},
	{
	"epoch": 14.037985136251033,
	"eval_accuracy": 0.732853775052298,
	"eval_loss": 9.53125,
	"eval_runtime": 244.7843,
	"eval_samples_per_second": 6754.392,
	"eval_steps_per_second": 13.195,
	"step": 102000
	},
	{
	"epoch": 14.175612441508395,
	"grad_norm": 15.07434368133545,
	"learning_rate": 0.0003,
	"loss": 38.5621875,
	"step": 103000
	},
	{
	"epoch": 14.313239746765758,
	"grad_norm": 16.333436965942383,
	"learning_rate": 0.0003,
	"loss": 38.6172734375,
	"step": 104000
	},
	{
	"epoch": 14.313239746765758,
	"eval_accuracy": 0.7328456338360237,
	"eval_loss": 9.515625,
	"eval_runtime": 243.7048,
	"eval_samples_per_second": 6784.311,
	"eval_steps_per_second": 13.254,
	"step": 104000
	},
	{
	"epoch": 14.45086705202312,
	"grad_norm": 14.872163772583008,
	"learning_rate": 0.0003,
	"loss": 38.61624609375,
	"step": 105000
	},
	{
	"epoch": 14.588494357280485,
	"grad_norm": 15.491616249084473,
	"learning_rate": 0.0003,
	"loss": 38.5978203125,
	"step": 106000
	},
	{
	"epoch": 14.588494357280485,
	"eval_accuracy": 0.7325266385860558,
	"eval_loss": 9.53125,
	"eval_runtime": 241.371,
	"eval_samples_per_second": 6849.906,
	"eval_steps_per_second": 13.382,
	"step": 106000
	},
	{
	"epoch": 14.726121662537848,
	"grad_norm": 14.945006370544434,
	"learning_rate": 0.0003,
	"loss": 38.621796875,
	"step": 107000
	},
	{
	"epoch": 14.86374896779521,
	"grad_norm": 14.714298248291016,
	"learning_rate": 0.0003,
	"loss": 38.5805546875,
	"step": 108000
	},
	{
	"epoch": 14.86374896779521,
	"eval_accuracy": 0.7336863429887471,
	"eval_loss": 9.484375,
	"eval_runtime": 243.3178,
	"eval_samples_per_second": 6795.1,
	"eval_steps_per_second": 13.275,
	"step": 108000
	},
	{
	"epoch": 15.001376273052573,
	"grad_norm": 17.513687133789062,
	"learning_rate": 0.0003,
	"loss": 38.5988359375,
	"step": 109000
	},
	{
	"epoch": 15.139003578309937,
	"grad_norm": 14.208888053894043,
	"learning_rate": 0.0003,
	"loss": 38.5494453125,
	"step": 110000
	},
	{
	"epoch": 15.139003578309937,
	"eval_accuracy": 0.7334265583450897,
	"eval_loss": 9.4921875,
	"eval_runtime": 245.3975,
	"eval_samples_per_second": 6737.512,
	"eval_steps_per_second": 13.162,
	"step": 110000
	},
	{
	"epoch": 15.2766308835673,
	"grad_norm": 20.13620376586914,
	"learning_rate": 0.0003,
	"loss": 38.51769140625,
	"step": 111000
	},
	{
	"epoch": 15.414258188824663,
	"grad_norm": 14.885974884033203,
	"learning_rate": 0.0003,
	"loss": 38.52906640625,
	"step": 112000
	},
	{
	"epoch": 15.414258188824663,
	"eval_accuracy": 0.7332003955432331,
	"eval_loss": 9.4921875,
	"eval_runtime": 246.8519,
	"eval_samples_per_second": 6697.818,
	"eval_steps_per_second": 13.085,
	"step": 112000
	},
	{
	"epoch": 15.551885494082025,
	"grad_norm": 14.931363105773926,
	"learning_rate": 0.0003,
	"loss": 38.534203125,
	"step": 113000
	},
	{
	"epoch": 15.689512799339388,
	"grad_norm": 15.144700050354004,
	"learning_rate": 0.0003,
	"loss": 38.5433125,
	"step": 114000
	},
	{
	"epoch": 15.689512799339388,
	"eval_accuracy": 0.7337025970829132,
	"eval_loss": 9.4765625,
	"eval_runtime": 244.85,
	"eval_samples_per_second": 6752.58,
	"eval_steps_per_second": 13.192,
	"step": 114000
	},
	{
	"epoch": 15.827140104596753,
	"grad_norm": 17.183073043823242,
	"learning_rate": 0.0003,
	"loss": 38.4901015625,
	"step": 115000
	},
	{
	"epoch": 15.964767409854115,
	"grad_norm": 14.985239028930664,
	"learning_rate": 0.0003,
	"loss": 38.51575390625,
	"step": 116000
	},
	{
	"epoch": 15.964767409854115,
	"eval_accuracy": 0.7338189696183159,
	"eval_loss": 9.484375,
	"eval_runtime": 245.1155,
	"eval_samples_per_second": 6745.266,
	"eval_steps_per_second": 13.177,
	"step": 116000
	},
	{
	"epoch": 16.10239471511148,
	"grad_norm": 19.971887588500977,
	"learning_rate": 0.0003,
	"loss": 38.4035234375,
	"step": 117000
	},
	{
	"epoch": 16.24002202036884,
	"grad_norm": 17.1956844329834,
	"learning_rate": 0.0003,
	"loss": 38.42918359375,
	"step": 118000
	},
	{
	"epoch": 16.24002202036884,
	"eval_accuracy": 0.733730730614503,
	"eval_loss": 9.46875,
	"eval_runtime": 243.3012,
	"eval_samples_per_second": 6795.566,
	"eval_steps_per_second": 13.276,
	"step": 118000
	},
	{
	"epoch": 16.377649325626205,
	"grad_norm": 15.118714332580566,
	"learning_rate": 0.0003,
	"loss": 38.507515625,
	"step": 119000
	},
	{
	"epoch": 16.515276630883566,
	"grad_norm": 14.03774642944336,
	"learning_rate": 0.0003,
	"loss": 38.526671875,
	"step": 120000
	},
	{
	"epoch": 16.515276630883566,
	"eval_accuracy": 0.733831136300071,
	"eval_loss": 9.484375,
	"eval_runtime": 241.9438,
	"eval_samples_per_second": 6833.691,
	"eval_steps_per_second": 13.35,
	"step": 120000
	},
	{
	"epoch": 16.515276630883566,
	"eval_accuracy": 0.7365382984533457,
	"eval_loss": 9.328125,
	"eval_runtime": 320.3822,
	"eval_samples_per_second": 1416.711,
	"eval_steps_per_second": 2.769,
	"step": 120000
	},
	{
	"epoch": 60.65171074069432,
	"grad_norm": 8.715871810913086,
	"learning_rate": 0.0003,
	"loss": 34.4526328125,
	"step": 121000
	},
	{
	"epoch": 61.15290136608598,
	"grad_norm": 16.51197052001953,
	"learning_rate": 0.0003,
	"loss": 33.80009375,
	"step": 122000
	},
	{
	"epoch": 61.15290136608598,
	"eval_accuracy": 0.7592972259433672,
	"eval_loss": 8.328125,
	"eval_runtime": 322.1474,
	"eval_samples_per_second": 1408.948,
	"eval_steps_per_second": 2.753,
	"step": 122000
	},
	{
	"epoch": 61.65421732046622,
	"grad_norm": 8.568217277526855,
	"learning_rate": 0.0003,
	"loss": 33.51157421875,
	"step": 123000
	},
	{
	"epoch": 62.155407945857874,
	"grad_norm": 13.904038429260254,
	"learning_rate": 0.0003,
	"loss": 33.3759140625,
	"step": 124000
	},
	{
	"epoch": 62.155407945857874,
	"eval_accuracy": 0.7606993464209245,
	"eval_loss": 8.2578125,
	"eval_runtime": 310.5126,
	"eval_samples_per_second": 1461.741,
	"eval_steps_per_second": 2.857,
	"step": 124000
	},
	{
	"epoch": 62.65672390023813,
	"grad_norm": 9.302454948425293,
	"learning_rate": 0.0003,
	"loss": 33.2303125,
	"step": 125000
	},
	{
	"epoch": 63.15791452562978,
	"grad_norm": 10.245097160339355,
	"learning_rate": 0.0003,
	"loss": 33.114984375,
	"step": 126000
	},
	{
	"epoch": 63.15791452562978,
	"eval_accuracy": 0.7620252803249203,
	"eval_loss": 8.1953125,
	"eval_runtime": 311.281,
	"eval_samples_per_second": 1458.133,
	"eval_steps_per_second": 2.85,
	"step": 126000
	},
	{
	"epoch": 63.659230480010024,
	"grad_norm": 9.459521293640137,
	"learning_rate": 0.0003,
	"loss": 33.0674765625,
	"step": 127000
	},
	{
	"epoch": 64.16042110540168,
	"grad_norm": 12.050172805786133,
	"learning_rate": 0.0003,
	"loss": 33.0123046875,
	"step": 128000
	},
	{
	"epoch": 64.16042110540168,
	"eval_accuracy": 0.7628614283635131,
	"eval_loss": 8.15625,
	"eval_runtime": 309.2479,
	"eval_samples_per_second": 1467.719,
	"eval_steps_per_second": 2.868,
	"step": 128000
	},
	{
	"epoch": 64.66173705978193,
	"grad_norm": 8.326544761657715,
	"learning_rate": 0.0003,
	"loss": 32.89726171875,
	"step": 129000
	},
	{
	"epoch": 65.16292768517359,
	"grad_norm": 9.267374038696289,
	"learning_rate": 0.0003,
	"loss": 32.78715625,
	"step": 130000
	},
	{
	"epoch": 65.16292768517359,
	"eval_accuracy": 0.7632605632607093,
	"eval_loss": 8.1484375,
	"eval_runtime": 313.0209,
	"eval_samples_per_second": 1450.028,
	"eval_steps_per_second": 2.834,
	"step": 130000
	},
	{
	"epoch": 65.66424363955383,
	"grad_norm": 9.583052635192871,
	"learning_rate": 0.0003,
	"loss": 32.747501953125,
	"step": 131000
	},
	{
	"epoch": 66.16543426494549,
	"grad_norm": 8.761311531066895,
	"learning_rate": 0.0003,
	"loss": 32.67369140625,
	"step": 132000
	},
	{
	"epoch": 66.16543426494549,
	"eval_accuracy": 0.7639422135833412,
	"eval_loss": 8.1015625,
	"eval_runtime": 311.6656,
	"eval_samples_per_second": 1456.333,
	"eval_steps_per_second": 2.846,
	"step": 132000
	},
	{
	"epoch": 66.66675021932573,
	"grad_norm": 8.83479118347168,
	"learning_rate": 0.0003,
	"loss": 32.617767578125,
	"step": 133000
	},
	{
	"epoch": 67.16794084471738,
	"grad_norm": 8.598926544189453,
	"learning_rate": 0.0003,
	"loss": 32.5695625,
	"step": 134000
	},
	{
	"epoch": 67.16794084471738,
	"eval_accuracy": 0.7644549296283725,
	"eval_loss": 8.078125,
	"eval_runtime": 308.4248,
	"eval_samples_per_second": 1471.636,
	"eval_steps_per_second": 2.876,
	"step": 134000
	},
	{
	"epoch": 67.66925679909762,
	"grad_norm": 10.846793174743652,
	"learning_rate": 0.0003,
	"loss": 32.53196484375,
	"step": 135000
	},
	{
	"epoch": 68.17044742448928,
	"grad_norm": 23.080833435058594,
	"learning_rate": 0.0003,
	"loss": 32.47344140625,
	"step": 136000
	},
	{
	"epoch": 68.17044742448928,
	"eval_accuracy": 0.7638109525627774,
	"eval_loss": 8.109375,
	"eval_runtime": 312.4841,
	"eval_samples_per_second": 1452.519,
	"eval_steps_per_second": 2.839,
	"step": 136000
	},
	{
	"epoch": 68.67176337886953,
	"grad_norm": 11.440296173095703,
	"learning_rate": 0.0003,
	"loss": 32.4546796875,
	"step": 137000
	},
	{
	"epoch": 69.17295400426119,
	"grad_norm": 9.561952590942383,
	"learning_rate": 0.0003,
	"loss": 32.3915703125,
	"step": 138000
	},
	{
	"epoch": 69.17295400426119,
	"eval_accuracy": 0.7654183586207545,
	"eval_loss": 8.0234375,
	"eval_runtime": 311.376,
	"eval_samples_per_second": 1457.688,
	"eval_steps_per_second": 2.849,
	"step": 138000
	},
	{
	"epoch": 69.67426995864143,
	"grad_norm": 10.652801513671875,
	"learning_rate": 0.0003,
	"loss": 32.3813203125,
	"step": 139000
	},
	{
	"epoch": 70.17546058403309,
	"grad_norm": 9.549755096435547,
	"learning_rate": 0.0003,
	"loss": 32.329857421875,
	"step": 140000
	},
	{
	"epoch": 70.17546058403309,
	"eval_accuracy": 0.765731013146163,
	"eval_loss": 8.015625,
	"eval_runtime": 311.5237,
	"eval_samples_per_second": 1456.997,
	"eval_steps_per_second": 2.847,
	"step": 140000
	},
	{
	"epoch": 70.17546058403309,
	"eval_accuracy": 0.7655576478890911,
	"eval_loss": 8.03125,
	"eval_runtime": 312.782,
	"eval_samples_per_second": 1451.135,
	"eval_steps_per_second": 2.836,
	"step": 140000
	},
	{
	"epoch": 70.67677653841334,
	"grad_norm": 8.273364067077637,
	"learning_rate": 0.0003,
	"loss": 32.32880859375,
	"step": 141000
	},
	{
	"epoch": 71.177967163805,
	"grad_norm": 11.310037612915039,
	"learning_rate": 0.0003,
	"loss": 32.2803671875,
	"step": 142000
	},
	{
	"epoch": 71.177967163805,
	"eval_accuracy": 0.7654140428452689,
	"eval_loss": 8.0234375,
	"eval_runtime": 302.7715,
	"eval_samples_per_second": 1499.114,
	"eval_steps_per_second": 2.93,
	"step": 142000
	},
	{
	"epoch": 71.67928311818524,
	"grad_norm": 9.46422004699707,
	"learning_rate": 0.0003,
	"loss": 32.241615234375,
	"step": 143000
	},
	{
	"epoch": 72.18047374357688,
	"grad_norm": 9.287914276123047,
	"learning_rate": 0.0003,
	"loss": 32.22880078125,
	"step": 144000
	},
	{
	"epoch": 72.18047374357688,
	"eval_accuracy": 0.7658155554395308,
	"eval_loss": 8.015625,
	"eval_runtime": 300.7976,
	"eval_samples_per_second": 1508.951,
	"eval_steps_per_second": 2.949,
	"step": 144000
	},
	{
	"epoch": 72.68178969795714,
	"grad_norm": 9.183584213256836,
	"learning_rate": 0.0003,
	"loss": 32.233244140625,
	"step": 145000
	},
	{
	"epoch": 73.18298032334879,
	"grad_norm": 9.008417129516602,
	"learning_rate": 0.0003,
	"loss": 32.181228515625,
	"step": 146000
	},
	{
	"epoch": 73.18298032334879,
	"eval_accuracy": 0.76619202647217,
	"eval_loss": 7.98828125,
	"eval_runtime": 302.0251,
	"eval_samples_per_second": 1502.819,
	"eval_steps_per_second": 2.937,
	"step": 146000
	},
	{
	"epoch": 73.68429627772903,
	"grad_norm": 8.19743537902832,
	"learning_rate": 0.0003,
	"loss": 32.162357421875,
	"step": 147000
	},
	{
	"epoch": 74.18548690312069,
	"grad_norm": 8.455910682678223,
	"learning_rate": 0.0003,
	"loss": 32.091048828125,
	"step": 148000
	},
	{
	"epoch": 74.18548690312069,
	"eval_accuracy": 0.7663843416476586,
	"eval_loss": 7.97265625,
	"eval_runtime": 301.7215,
	"eval_samples_per_second": 1504.331,
	"eval_steps_per_second": 2.94,
	"step": 148000
	},
	{
	"epoch": 74.68680285750094,
	"grad_norm": 8.09157943725586,
	"learning_rate": 0.0003,
	"loss": 32.071322265625,
	"step": 149000
	},
	{
	"epoch": 75.1879934828926,
	"grad_norm": 12.704072952270508,
	"learning_rate": 0.0003,
	"loss": 32.044611328125,
	"step": 150000
	},
	{
	"epoch": 75.1879934828926,
	"eval_accuracy": 0.7670952482486783,
	"eval_loss": 7.96484375,
	"eval_runtime": 301.7456,
	"eval_samples_per_second": 1504.211,
	"eval_steps_per_second": 2.94,
	"step": 150000
	},
	{
	"epoch": 75.1879934828926,
	"step": 150000,
	"total_flos": 3.23779983669461e+19,
	"train_loss": 2.1457560286458333,
	"train_runtime": 27498.2172,
	"train_samples_per_second": 11171.633,
	"train_steps_per_second": 5.455
	}
	],
	"logging_steps": 1000,
	"max_steps": 150000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 76,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.23779983669461e+19,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}