cifar10_swin-tiny / trainer_state.json

Upload folder using huggingface_hub

ddcc1cd verified 4 months ago

104 kB

	{
	"best_metric": 0.9818,
	"best_model_checkpoint": "../../checkpoint/cifar10/swin-tiny/checkpoint-38295",
	"epoch": 300.0,
	"eval_steps": 500,
	"global_step": 99900,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_accuracy": 0.9223,
	"eval_loss": 0.2584497928619385,
	"eval_runtime": 21.3622,
	"eval_samples_per_second": 468.117,
	"eval_steps_per_second": 1.872,
	"step": 333
	},
	{
	"epoch": 1.5,
	"grad_norm": 14.220479011535645,
	"learning_rate": 9.949949949949951e-06,
	"loss": 0.9076,
	"step": 500
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.945,
	"eval_loss": 0.1637052595615387,
	"eval_runtime": 13.6699,
	"eval_samples_per_second": 731.533,
	"eval_steps_per_second": 2.926,
	"step": 666
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9553,
	"eval_loss": 0.1344435065984726,
	"eval_runtime": 13.1721,
	"eval_samples_per_second": 759.181,
	"eval_steps_per_second": 3.037,
	"step": 999
	},
	{
	"epoch": 3.0,
	"grad_norm": 9.328938484191895,
	"learning_rate": 9.899899899899901e-06,
	"loss": 0.4797,
	"step": 1000
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9604,
	"eval_loss": 0.1205841451883316,
	"eval_runtime": 12.6584,
	"eval_samples_per_second": 789.992,
	"eval_steps_per_second": 3.16,
	"step": 1332
	},
	{
	"epoch": 4.5,
	"grad_norm": 14.11563777923584,
	"learning_rate": 9.849849849849851e-06,
	"loss": 0.4193,
	"step": 1500
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9635,
	"eval_loss": 0.11088060587644577,
	"eval_runtime": 12.7891,
	"eval_samples_per_second": 781.918,
	"eval_steps_per_second": 3.128,
	"step": 1665
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9661,
	"eval_loss": 0.10564317554235458,
	"eval_runtime": 12.9686,
	"eval_samples_per_second": 771.094,
	"eval_steps_per_second": 3.084,
	"step": 1998
	},
	{
	"epoch": 6.01,
	"grad_norm": 12.565740585327148,
	"learning_rate": 9.799799799799801e-06,
	"loss": 0.3846,
	"step": 2000
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9688,
	"eval_loss": 0.09508195519447327,
	"eval_runtime": 13.2698,
	"eval_samples_per_second": 753.592,
	"eval_steps_per_second": 3.014,
	"step": 2331
	},
	{
	"epoch": 7.51,
	"grad_norm": 9.896069526672363,
	"learning_rate": 9.749749749749751e-06,
	"loss": 0.3572,
	"step": 2500
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9689,
	"eval_loss": 0.09568808227777481,
	"eval_runtime": 13.6448,
	"eval_samples_per_second": 732.879,
	"eval_steps_per_second": 2.932,
	"step": 2664
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9693,
	"eval_loss": 0.09088099747896194,
	"eval_runtime": 13.9779,
	"eval_samples_per_second": 715.417,
	"eval_steps_per_second": 2.862,
	"step": 2997
	},
	{
	"epoch": 9.01,
	"grad_norm": 9.739038467407227,
	"learning_rate": 9.699699699699701e-06,
	"loss": 0.3409,
	"step": 3000
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.971,
	"eval_loss": 0.0861617922782898,
	"eval_runtime": 13.5874,
	"eval_samples_per_second": 735.979,
	"eval_steps_per_second": 2.944,
	"step": 3330
	},
	{
	"epoch": 10.51,
	"grad_norm": 7.383803367614746,
	"learning_rate": 9.649649649649651e-06,
	"loss": 0.3319,
	"step": 3500
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9721,
	"eval_loss": 0.08562646806240082,
	"eval_runtime": 13.5289,
	"eval_samples_per_second": 739.158,
	"eval_steps_per_second": 2.957,
	"step": 3663
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.972,
	"eval_loss": 0.08723447471857071,
	"eval_runtime": 13.3531,
	"eval_samples_per_second": 748.887,
	"eval_steps_per_second": 2.996,
	"step": 3996
	},
	{
	"epoch": 12.01,
	"grad_norm": 11.866540908813477,
	"learning_rate": 9.5995995995996e-06,
	"loss": 0.3253,
	"step": 4000
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.973,
	"eval_loss": 0.08058160543441772,
	"eval_runtime": 14.1547,
	"eval_samples_per_second": 706.479,
	"eval_steps_per_second": 2.826,
	"step": 4329
	},
	{
	"epoch": 13.51,
	"grad_norm": 7.938398361206055,
	"learning_rate": 9.54954954954955e-06,
	"loss": 0.3084,
	"step": 4500
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9738,
	"eval_loss": 0.08162784576416016,
	"eval_runtime": 14.1065,
	"eval_samples_per_second": 708.895,
	"eval_steps_per_second": 2.836,
	"step": 4662
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9742,
	"eval_loss": 0.07894858717918396,
	"eval_runtime": 13.886,
	"eval_samples_per_second": 720.149,
	"eval_steps_per_second": 2.881,
	"step": 4995
	},
	{
	"epoch": 15.02,
	"grad_norm": 16.568248748779297,
	"learning_rate": 9.4994994994995e-06,
	"loss": 0.3022,
	"step": 5000
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9746,
	"eval_loss": 0.07670588046312332,
	"eval_runtime": 13.5929,
	"eval_samples_per_second": 735.676,
	"eval_steps_per_second": 2.943,
	"step": 5328
	},
	{
	"epoch": 16.52,
	"grad_norm": 13.009441375732422,
	"learning_rate": 9.44944944944945e-06,
	"loss": 0.2894,
	"step": 5500
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.9725,
	"eval_loss": 0.0805484876036644,
	"eval_runtime": 13.3932,
	"eval_samples_per_second": 746.649,
	"eval_steps_per_second": 2.987,
	"step": 5661
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.9759,
	"eval_loss": 0.0759720578789711,
	"eval_runtime": 13.5457,
	"eval_samples_per_second": 738.24,
	"eval_steps_per_second": 2.953,
	"step": 5994
	},
	{
	"epoch": 18.02,
	"grad_norm": 13.468392372131348,
	"learning_rate": 9.3993993993994e-06,
	"loss": 0.2842,
	"step": 6000
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.9744,
	"eval_loss": 0.07423894852399826,
	"eval_runtime": 13.6253,
	"eval_samples_per_second": 733.929,
	"eval_steps_per_second": 2.936,
	"step": 6327
	},
	{
	"epoch": 19.52,
	"grad_norm": 12.263895988464355,
	"learning_rate": 9.34934934934935e-06,
	"loss": 0.2712,
	"step": 6500
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9738,
	"eval_loss": 0.07846847176551819,
	"eval_runtime": 12.9608,
	"eval_samples_per_second": 771.556,
	"eval_steps_per_second": 3.086,
	"step": 6660
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.9735,
	"eval_loss": 0.07904864102602005,
	"eval_runtime": 12.8724,
	"eval_samples_per_second": 776.858,
	"eval_steps_per_second": 3.107,
	"step": 6993
	},
	{
	"epoch": 21.02,
	"grad_norm": 10.845202445983887,
	"learning_rate": 9.2992992992993e-06,
	"loss": 0.2729,
	"step": 7000
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.9759,
	"eval_loss": 0.07514221966266632,
	"eval_runtime": 14.1339,
	"eval_samples_per_second": 707.52,
	"eval_steps_per_second": 2.83,
	"step": 7326
	},
	{
	"epoch": 22.52,
	"grad_norm": 11.12897777557373,
	"learning_rate": 9.24924924924925e-06,
	"loss": 0.2634,
	"step": 7500
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.9737,
	"eval_loss": 0.07959982007741928,
	"eval_runtime": 13.0065,
	"eval_samples_per_second": 768.844,
	"eval_steps_per_second": 3.075,
	"step": 7659
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.9752,
	"eval_loss": 0.07558540254831314,
	"eval_runtime": 13.805,
	"eval_samples_per_second": 724.375,
	"eval_steps_per_second": 2.897,
	"step": 7992
	},
	{
	"epoch": 24.02,
	"grad_norm": 10.100821495056152,
	"learning_rate": 9.1991991991992e-06,
	"loss": 0.2591,
	"step": 8000
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.9759,
	"eval_loss": 0.07549387961626053,
	"eval_runtime": 13.4677,
	"eval_samples_per_second": 742.518,
	"eval_steps_per_second": 2.97,
	"step": 8325
	},
	{
	"epoch": 25.53,
	"grad_norm": 9.881790161132812,
	"learning_rate": 9.14914914914915e-06,
	"loss": 0.253,
	"step": 8500
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.9746,
	"eval_loss": 0.07933681458234787,
	"eval_runtime": 13.2517,
	"eval_samples_per_second": 754.619,
	"eval_steps_per_second": 3.018,
	"step": 8658
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.9765,
	"eval_loss": 0.07278025895357132,
	"eval_runtime": 13.5258,
	"eval_samples_per_second": 739.327,
	"eval_steps_per_second": 2.957,
	"step": 8991
	},
	{
	"epoch": 27.03,
	"grad_norm": 7.72860860824585,
	"learning_rate": 9.0990990990991e-06,
	"loss": 0.2518,
	"step": 9000
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.9748,
	"eval_loss": 0.07914856821298599,
	"eval_runtime": 13.7348,
	"eval_samples_per_second": 728.079,
	"eval_steps_per_second": 2.912,
	"step": 9324
	},
	{
	"epoch": 28.53,
	"grad_norm": 8.068327903747559,
	"learning_rate": 9.04904904904905e-06,
	"loss": 0.2482,
	"step": 9500
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.9756,
	"eval_loss": 0.07918867468833923,
	"eval_runtime": 13.3633,
	"eval_samples_per_second": 748.316,
	"eval_steps_per_second": 2.993,
	"step": 9657
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.9764,
	"eval_loss": 0.07418718934059143,
	"eval_runtime": 12.9493,
	"eval_samples_per_second": 772.24,
	"eval_steps_per_second": 3.089,
	"step": 9990
	},
	{
	"epoch": 30.03,
	"grad_norm": 8.977522850036621,
	"learning_rate": 8.998998998999e-06,
	"loss": 0.2429,
	"step": 10000
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.9757,
	"eval_loss": 0.07399851083755493,
	"eval_runtime": 13.4787,
	"eval_samples_per_second": 741.913,
	"eval_steps_per_second": 2.968,
	"step": 10323
	},
	{
	"epoch": 31.53,
	"grad_norm": 11.080597877502441,
	"learning_rate": 8.94894894894895e-06,
	"loss": 0.2405,
	"step": 10500
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.9757,
	"eval_loss": 0.07426943629980087,
	"eval_runtime": 12.8343,
	"eval_samples_per_second": 779.16,
	"eval_steps_per_second": 3.117,
	"step": 10656
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.9757,
	"eval_loss": 0.07429418712854385,
	"eval_runtime": 12.9825,
	"eval_samples_per_second": 770.266,
	"eval_steps_per_second": 3.081,
	"step": 10989
	},
	{
	"epoch": 33.03,
	"grad_norm": 7.3039140701293945,
	"learning_rate": 8.8988988988989e-06,
	"loss": 0.234,
	"step": 11000
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.9769,
	"eval_loss": 0.07486932724714279,
	"eval_runtime": 12.96,
	"eval_samples_per_second": 771.606,
	"eval_steps_per_second": 3.086,
	"step": 11322
	},
	{
	"epoch": 34.53,
	"grad_norm": 8.610194206237793,
	"learning_rate": 8.84884884884885e-06,
	"loss": 0.2353,
	"step": 11500
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.975,
	"eval_loss": 0.0768030509352684,
	"eval_runtime": 13.519,
	"eval_samples_per_second": 739.698,
	"eval_steps_per_second": 2.959,
	"step": 11655
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.9771,
	"eval_loss": 0.07342812418937683,
	"eval_runtime": 14.3472,
	"eval_samples_per_second": 697.001,
	"eval_steps_per_second": 2.788,
	"step": 11988
	},
	{
	"epoch": 36.04,
	"grad_norm": 7.767194747924805,
	"learning_rate": 8.798798798798799e-06,
	"loss": 0.2329,
	"step": 12000
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.9755,
	"eval_loss": 0.07778933644294739,
	"eval_runtime": 13.5633,
	"eval_samples_per_second": 737.284,
	"eval_steps_per_second": 2.949,
	"step": 12321
	},
	{
	"epoch": 37.54,
	"grad_norm": 11.39279842376709,
	"learning_rate": 8.74874874874875e-06,
	"loss": 0.2289,
	"step": 12500
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.9771,
	"eval_loss": 0.07622923702001572,
	"eval_runtime": 13.5603,
	"eval_samples_per_second": 737.447,
	"eval_steps_per_second": 2.95,
	"step": 12654
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.9761,
	"eval_loss": 0.07648137956857681,
	"eval_runtime": 13.4622,
	"eval_samples_per_second": 742.82,
	"eval_steps_per_second": 2.971,
	"step": 12987
	},
	{
	"epoch": 39.04,
	"grad_norm": 8.879070281982422,
	"learning_rate": 8.6986986986987e-06,
	"loss": 0.227,
	"step": 13000
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.9768,
	"eval_loss": 0.07394447922706604,
	"eval_runtime": 13.4641,
	"eval_samples_per_second": 742.715,
	"eval_steps_per_second": 2.971,
	"step": 13320
	},
	{
	"epoch": 40.54,
	"grad_norm": 10.858572006225586,
	"learning_rate": 8.64864864864865e-06,
	"loss": 0.2213,
	"step": 13500
	},
	{
	"epoch": 41.0,
	"eval_accuracy": 0.9773,
	"eval_loss": 0.07473840564489365,
	"eval_runtime": 12.9211,
	"eval_samples_per_second": 773.93,
	"eval_steps_per_second": 3.096,
	"step": 13653
	},
	{
	"epoch": 42.0,
	"eval_accuracy": 0.9786,
	"eval_loss": 0.07195272296667099,
	"eval_runtime": 13.3716,
	"eval_samples_per_second": 747.852,
	"eval_steps_per_second": 2.991,
	"step": 13986
	},
	{
	"epoch": 42.04,
	"grad_norm": 9.299273490905762,
	"learning_rate": 8.5985985985986e-06,
	"loss": 0.217,
	"step": 14000
	},
	{
	"epoch": 43.0,
	"eval_accuracy": 0.9771,
	"eval_loss": 0.07661354541778564,
	"eval_runtime": 13.4888,
	"eval_samples_per_second": 741.354,
	"eval_steps_per_second": 2.965,
	"step": 14319
	},
	{
	"epoch": 43.54,
	"grad_norm": 9.49695873260498,
	"learning_rate": 8.54854854854855e-06,
	"loss": 0.22,
	"step": 14500
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.9767,
	"eval_loss": 0.07640816271305084,
	"eval_runtime": 14.0377,
	"eval_samples_per_second": 712.365,
	"eval_steps_per_second": 2.849,
	"step": 14652
	},
	{
	"epoch": 45.0,
	"eval_accuracy": 0.9779,
	"eval_loss": 0.07278802245855331,
	"eval_runtime": 13.4886,
	"eval_samples_per_second": 741.366,
	"eval_steps_per_second": 2.965,
	"step": 14985
	},
	{
	"epoch": 45.05,
	"grad_norm": 12.065461158752441,
	"learning_rate": 8.4984984984985e-06,
	"loss": 0.2179,
	"step": 15000
	},
	{
	"epoch": 46.0,
	"eval_accuracy": 0.9785,
	"eval_loss": 0.0740213543176651,
	"eval_runtime": 14.112,
	"eval_samples_per_second": 708.617,
	"eval_steps_per_second": 2.834,
	"step": 15318
	},
	{
	"epoch": 46.55,
	"grad_norm": 9.281307220458984,
	"learning_rate": 8.44844844844845e-06,
	"loss": 0.2074,
	"step": 15500
	},
	{
	"epoch": 47.0,
	"eval_accuracy": 0.9793,
	"eval_loss": 0.0712471604347229,
	"eval_runtime": 13.5017,
	"eval_samples_per_second": 740.647,
	"eval_steps_per_second": 2.963,
	"step": 15651
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.9783,
	"eval_loss": 0.0759299248456955,
	"eval_runtime": 13.3849,
	"eval_samples_per_second": 747.113,
	"eval_steps_per_second": 2.988,
	"step": 15984
	},
	{
	"epoch": 48.05,
	"grad_norm": 6.8984503746032715,
	"learning_rate": 8.398398398398398e-06,
	"loss": 0.2096,
	"step": 16000
	},
	{
	"epoch": 49.0,
	"eval_accuracy": 0.9791,
	"eval_loss": 0.07268951088190079,
	"eval_runtime": 13.5376,
	"eval_samples_per_second": 738.686,
	"eval_steps_per_second": 2.955,
	"step": 16317
	},
	{
	"epoch": 49.55,
	"grad_norm": 8.968807220458984,
	"learning_rate": 8.348348348348348e-06,
	"loss": 0.2097,
	"step": 16500
	},
	{
	"epoch": 50.0,
	"eval_accuracy": 0.9792,
	"eval_loss": 0.07472656667232513,
	"eval_runtime": 13.5262,
	"eval_samples_per_second": 739.304,
	"eval_steps_per_second": 2.957,
	"step": 16650
	},
	{
	"epoch": 51.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.0754549577832222,
	"eval_runtime": 13.1606,
	"eval_samples_per_second": 759.845,
	"eval_steps_per_second": 3.039,
	"step": 16983
	},
	{
	"epoch": 51.05,
	"grad_norm": 8.540103912353516,
	"learning_rate": 8.298298298298298e-06,
	"loss": 0.2063,
	"step": 17000
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.9788,
	"eval_loss": 0.0741283968091011,
	"eval_runtime": 13.8466,
	"eval_samples_per_second": 722.201,
	"eval_steps_per_second": 2.889,
	"step": 17316
	},
	{
	"epoch": 52.55,
	"grad_norm": 7.042116165161133,
	"learning_rate": 8.248248248248248e-06,
	"loss": 0.2054,
	"step": 17500
	},
	{
	"epoch": 53.0,
	"eval_accuracy": 0.9784,
	"eval_loss": 0.0738772302865982,
	"eval_runtime": 13.021,
	"eval_samples_per_second": 767.992,
	"eval_steps_per_second": 3.072,
	"step": 17649
	},
	{
	"epoch": 54.0,
	"eval_accuracy": 0.9779,
	"eval_loss": 0.07553113251924515,
	"eval_runtime": 12.8958,
	"eval_samples_per_second": 775.444,
	"eval_steps_per_second": 3.102,
	"step": 17982
	},
	{
	"epoch": 54.05,
	"grad_norm": 9.23681640625,
	"learning_rate": 8.198198198198198e-06,
	"loss": 0.2003,
	"step": 18000
	},
	{
	"epoch": 55.0,
	"eval_accuracy": 0.9784,
	"eval_loss": 0.07760650664567947,
	"eval_runtime": 12.6634,
	"eval_samples_per_second": 789.678,
	"eval_steps_per_second": 3.159,
	"step": 18315
	},
	{
	"epoch": 55.56,
	"grad_norm": 5.839297771453857,
	"learning_rate": 8.148148148148148e-06,
	"loss": 0.2009,
	"step": 18500
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.9786,
	"eval_loss": 0.07352690398693085,
	"eval_runtime": 13.1656,
	"eval_samples_per_second": 759.554,
	"eval_steps_per_second": 3.038,
	"step": 18648
	},
	{
	"epoch": 57.0,
	"eval_accuracy": 0.9769,
	"eval_loss": 0.07721856981515884,
	"eval_runtime": 12.8626,
	"eval_samples_per_second": 777.447,
	"eval_steps_per_second": 3.11,
	"step": 18981
	},
	{
	"epoch": 57.06,
	"grad_norm": 10.131054878234863,
	"learning_rate": 8.098098098098098e-06,
	"loss": 0.1999,
	"step": 19000
	},
	{
	"epoch": 58.0,
	"eval_accuracy": 0.9789,
	"eval_loss": 0.07691636681556702,
	"eval_runtime": 12.8042,
	"eval_samples_per_second": 780.991,
	"eval_steps_per_second": 3.124,
	"step": 19314
	},
	{
	"epoch": 58.56,
	"grad_norm": 7.643968105316162,
	"learning_rate": 8.048048048048048e-06,
	"loss": 0.1973,
	"step": 19500
	},
	{
	"epoch": 59.0,
	"eval_accuracy": 0.9793,
	"eval_loss": 0.07336228340864182,
	"eval_runtime": 13.6825,
	"eval_samples_per_second": 730.861,
	"eval_steps_per_second": 2.923,
	"step": 19647
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.9787,
	"eval_loss": 0.07408491522073746,
	"eval_runtime": 13.4079,
	"eval_samples_per_second": 745.831,
	"eval_steps_per_second": 2.983,
	"step": 19980
	},
	{
	"epoch": 60.06,
	"grad_norm": 9.443299293518066,
	"learning_rate": 7.997997997997999e-06,
	"loss": 0.1953,
	"step": 20000
	},
	{
	"epoch": 61.0,
	"eval_accuracy": 0.978,
	"eval_loss": 0.07513260841369629,
	"eval_runtime": 13.4048,
	"eval_samples_per_second": 745.999,
	"eval_steps_per_second": 2.984,
	"step": 20313
	},
	{
	"epoch": 61.56,
	"grad_norm": 16.85797119140625,
	"learning_rate": 7.947947947947949e-06,
	"loss": 0.1937,
	"step": 20500
	},
	{
	"epoch": 62.0,
	"eval_accuracy": 0.9786,
	"eval_loss": 0.07370081543922424,
	"eval_runtime": 13.3055,
	"eval_samples_per_second": 751.568,
	"eval_steps_per_second": 3.006,
	"step": 20646
	},
	{
	"epoch": 63.0,
	"eval_accuracy": 0.9786,
	"eval_loss": 0.07323586940765381,
	"eval_runtime": 12.7695,
	"eval_samples_per_second": 783.119,
	"eval_steps_per_second": 3.132,
	"step": 20979
	},
	{
	"epoch": 63.06,
	"grad_norm": 8.4561128616333,
	"learning_rate": 7.897897897897899e-06,
	"loss": 0.1946,
	"step": 21000
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.9789,
	"eval_loss": 0.07585693150758743,
	"eval_runtime": 13.6921,
	"eval_samples_per_second": 730.349,
	"eval_steps_per_second": 2.921,
	"step": 21312
	},
	{
	"epoch": 64.56,
	"grad_norm": 11.68150806427002,
	"learning_rate": 7.847847847847849e-06,
	"loss": 0.1909,
	"step": 21500
	},
	{
	"epoch": 65.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.07349375635385513,
	"eval_runtime": 12.8445,
	"eval_samples_per_second": 778.544,
	"eval_steps_per_second": 3.114,
	"step": 21645
	},
	{
	"epoch": 66.0,
	"eval_accuracy": 0.9788,
	"eval_loss": 0.07336971163749695,
	"eval_runtime": 12.8882,
	"eval_samples_per_second": 775.905,
	"eval_steps_per_second": 3.104,
	"step": 21978
	},
	{
	"epoch": 66.07,
	"grad_norm": 8.738271713256836,
	"learning_rate": 7.797797797797799e-06,
	"loss": 0.1935,
	"step": 22000
	},
	{
	"epoch": 67.0,
	"eval_accuracy": 0.9793,
	"eval_loss": 0.07337453961372375,
	"eval_runtime": 12.8166,
	"eval_samples_per_second": 780.24,
	"eval_steps_per_second": 3.121,
	"step": 22311
	},
	{
	"epoch": 67.57,
	"grad_norm": 6.386814117431641,
	"learning_rate": 7.747747747747749e-06,
	"loss": 0.1936,
	"step": 22500
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.07239189743995667,
	"eval_runtime": 12.831,
	"eval_samples_per_second": 779.362,
	"eval_steps_per_second": 3.117,
	"step": 22644
	},
	{
	"epoch": 69.0,
	"eval_accuracy": 0.9785,
	"eval_loss": 0.07570048421621323,
	"eval_runtime": 12.8964,
	"eval_samples_per_second": 775.412,
	"eval_steps_per_second": 3.102,
	"step": 22977
	},
	{
	"epoch": 69.07,
	"grad_norm": 9.476435661315918,
	"learning_rate": 7.697697697697697e-06,
	"loss": 0.1858,
	"step": 23000
	},
	{
	"epoch": 70.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.07100442796945572,
	"eval_runtime": 13.0999,
	"eval_samples_per_second": 763.367,
	"eval_steps_per_second": 3.053,
	"step": 23310
	},
	{
	"epoch": 70.57,
	"grad_norm": 9.190871238708496,
	"learning_rate": 7.647647647647647e-06,
	"loss": 0.1871,
	"step": 23500
	},
	{
	"epoch": 71.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.07596922665834427,
	"eval_runtime": 13.423,
	"eval_samples_per_second": 744.991,
	"eval_steps_per_second": 2.98,
	"step": 23643
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.07650475203990936,
	"eval_runtime": 13.055,
	"eval_samples_per_second": 765.99,
	"eval_steps_per_second": 3.064,
	"step": 23976
	},
	{
	"epoch": 72.07,
	"grad_norm": 10.302529335021973,
	"learning_rate": 7.597597597597598e-06,
	"loss": 0.1836,
	"step": 24000
	},
	{
	"epoch": 73.0,
	"eval_accuracy": 0.9787,
	"eval_loss": 0.07714686542749405,
	"eval_runtime": 13.4272,
	"eval_samples_per_second": 744.757,
	"eval_steps_per_second": 2.979,
	"step": 24309
	},
	{
	"epoch": 73.57,
	"grad_norm": 7.050232410430908,
	"learning_rate": 7.547547547547548e-06,
	"loss": 0.1827,
	"step": 24500
	},
	{
	"epoch": 74.0,
	"eval_accuracy": 0.9782,
	"eval_loss": 0.07620517909526825,
	"eval_runtime": 12.8858,
	"eval_samples_per_second": 776.045,
	"eval_steps_per_second": 3.104,
	"step": 24642
	},
	{
	"epoch": 75.0,
	"eval_accuracy": 0.9781,
	"eval_loss": 0.0778127908706665,
	"eval_runtime": 13.234,
	"eval_samples_per_second": 755.629,
	"eval_steps_per_second": 3.023,
	"step": 24975
	},
	{
	"epoch": 75.08,
	"grad_norm": 8.824182510375977,
	"learning_rate": 7.4974974974974975e-06,
	"loss": 0.1847,
	"step": 25000
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.9781,
	"eval_loss": 0.08140425384044647,
	"eval_runtime": 13.9137,
	"eval_samples_per_second": 718.714,
	"eval_steps_per_second": 2.875,
	"step": 25308
	},
	{
	"epoch": 76.58,
	"grad_norm": 8.920430183410645,
	"learning_rate": 7.447447447447448e-06,
	"loss": 0.1815,
	"step": 25500
	},
	{
	"epoch": 77.0,
	"eval_accuracy": 0.9788,
	"eval_loss": 0.07689312100410461,
	"eval_runtime": 13.1404,
	"eval_samples_per_second": 761.014,
	"eval_steps_per_second": 3.044,
	"step": 25641
	},
	{
	"epoch": 78.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.07370501756668091,
	"eval_runtime": 13.7683,
	"eval_samples_per_second": 726.307,
	"eval_steps_per_second": 2.905,
	"step": 25974
	},
	{
	"epoch": 78.08,
	"grad_norm": 9.352115631103516,
	"learning_rate": 7.397397397397398e-06,
	"loss": 0.1786,
	"step": 26000
	},
	{
	"epoch": 79.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.07396883517503738,
	"eval_runtime": 13.0019,
	"eval_samples_per_second": 769.121,
	"eval_steps_per_second": 3.076,
	"step": 26307
	},
	{
	"epoch": 79.58,
	"grad_norm": 14.500313758850098,
	"learning_rate": 7.347347347347348e-06,
	"loss": 0.1819,
	"step": 26500
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.07097125053405762,
	"eval_runtime": 13.6192,
	"eval_samples_per_second": 734.256,
	"eval_steps_per_second": 2.937,
	"step": 26640
	},
	{
	"epoch": 81.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.07538946717977524,
	"eval_runtime": 13.1675,
	"eval_samples_per_second": 759.445,
	"eval_steps_per_second": 3.038,
	"step": 26973
	},
	{
	"epoch": 81.08,
	"grad_norm": 6.939184188842773,
	"learning_rate": 7.297297297297298e-06,
	"loss": 0.1767,
	"step": 27000
	},
	{
	"epoch": 82.0,
	"eval_accuracy": 0.9789,
	"eval_loss": 0.07721950113773346,
	"eval_runtime": 13.1312,
	"eval_samples_per_second": 761.542,
	"eval_steps_per_second": 3.046,
	"step": 27306
	},
	{
	"epoch": 82.58,
	"grad_norm": 6.59556770324707,
	"learning_rate": 7.247247247247248e-06,
	"loss": 0.1792,
	"step": 27500
	},
	{
	"epoch": 83.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.0765281617641449,
	"eval_runtime": 13.0707,
	"eval_samples_per_second": 765.07,
	"eval_steps_per_second": 3.06,
	"step": 27639
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.07408629357814789,
	"eval_runtime": 12.4754,
	"eval_samples_per_second": 801.579,
	"eval_steps_per_second": 3.206,
	"step": 27972
	},
	{
	"epoch": 84.08,
	"grad_norm": 7.376372814178467,
	"learning_rate": 7.197197197197198e-06,
	"loss": 0.1752,
	"step": 28000
	},
	{
	"epoch": 85.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.0741427093744278,
	"eval_runtime": 12.8952,
	"eval_samples_per_second": 775.481,
	"eval_steps_per_second": 3.102,
	"step": 28305
	},
	{
	"epoch": 85.59,
	"grad_norm": 11.074542045593262,
	"learning_rate": 7.147147147147148e-06,
	"loss": 0.1789,
	"step": 28500
	},
	{
	"epoch": 86.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.07748846709728241,
	"eval_runtime": 12.5701,
	"eval_samples_per_second": 795.538,
	"eval_steps_per_second": 3.182,
	"step": 28638
	},
	{
	"epoch": 87.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.07314252853393555,
	"eval_runtime": 13.4921,
	"eval_samples_per_second": 741.174,
	"eval_steps_per_second": 2.965,
	"step": 28971
	},
	{
	"epoch": 87.09,
	"grad_norm": 8.502799987792969,
	"learning_rate": 7.097097097097097e-06,
	"loss": 0.1755,
	"step": 29000
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07246743142604828,
	"eval_runtime": 14.1164,
	"eval_samples_per_second": 708.396,
	"eval_steps_per_second": 2.834,
	"step": 29304
	},
	{
	"epoch": 88.59,
	"grad_norm": 10.004383087158203,
	"learning_rate": 7.047047047047047e-06,
	"loss": 0.1694,
	"step": 29500
	},
	{
	"epoch": 89.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.07495511323213577,
	"eval_runtime": 13.0203,
	"eval_samples_per_second": 768.031,
	"eval_steps_per_second": 3.072,
	"step": 29637
	},
	{
	"epoch": 90.0,
	"eval_accuracy": 0.9815,
	"eval_loss": 0.07112333923578262,
	"eval_runtime": 12.8831,
	"eval_samples_per_second": 776.209,
	"eval_steps_per_second": 3.105,
	"step": 29970
	},
	{
	"epoch": 90.09,
	"grad_norm": 10.05745792388916,
	"learning_rate": 6.996996996996997e-06,
	"loss": 0.1739,
	"step": 30000
	},
	{
	"epoch": 91.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07672711461782455,
	"eval_runtime": 13.4897,
	"eval_samples_per_second": 741.306,
	"eval_steps_per_second": 2.965,
	"step": 30303
	},
	{
	"epoch": 91.59,
	"grad_norm": 7.928704738616943,
	"learning_rate": 6.9469469469469474e-06,
	"loss": 0.1726,
	"step": 30500
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.0770508348941803,
	"eval_runtime": 13.4469,
	"eval_samples_per_second": 743.667,
	"eval_steps_per_second": 2.975,
	"step": 30636
	},
	{
	"epoch": 93.0,
	"eval_accuracy": 0.9786,
	"eval_loss": 0.0784955620765686,
	"eval_runtime": 13.8288,
	"eval_samples_per_second": 723.131,
	"eval_steps_per_second": 2.893,
	"step": 30969
	},
	{
	"epoch": 93.09,
	"grad_norm": 9.178421974182129,
	"learning_rate": 6.8968968968968975e-06,
	"loss": 0.1696,
	"step": 31000
	},
	{
	"epoch": 94.0,
	"eval_accuracy": 0.9787,
	"eval_loss": 0.07988455891609192,
	"eval_runtime": 13.675,
	"eval_samples_per_second": 731.261,
	"eval_steps_per_second": 2.925,
	"step": 31302
	},
	{
	"epoch": 94.59,
	"grad_norm": 7.237130165100098,
	"learning_rate": 6.846846846846848e-06,
	"loss": 0.1723,
	"step": 31500
	},
	{
	"epoch": 95.0,
	"eval_accuracy": 0.979,
	"eval_loss": 0.07755716890096664,
	"eval_runtime": 13.4765,
	"eval_samples_per_second": 742.035,
	"eval_steps_per_second": 2.968,
	"step": 31635
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.07740277796983719,
	"eval_runtime": 13.7122,
	"eval_samples_per_second": 729.276,
	"eval_steps_per_second": 2.917,
	"step": 31968
	},
	{
	"epoch": 96.1,
	"grad_norm": 6.332306385040283,
	"learning_rate": 6.796796796796798e-06,
	"loss": 0.1692,
	"step": 32000
	},
	{
	"epoch": 97.0,
	"eval_accuracy": 0.9797,
	"eval_loss": 0.08065084367990494,
	"eval_runtime": 12.8364,
	"eval_samples_per_second": 779.036,
	"eval_steps_per_second": 3.116,
	"step": 32301
	},
	{
	"epoch": 97.6,
	"grad_norm": 6.978306770324707,
	"learning_rate": 6.746746746746748e-06,
	"loss": 0.17,
	"step": 32500
	},
	{
	"epoch": 98.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.07497260719537735,
	"eval_runtime": 12.9795,
	"eval_samples_per_second": 770.446,
	"eval_steps_per_second": 3.082,
	"step": 32634
	},
	{
	"epoch": 99.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.07648865878582001,
	"eval_runtime": 13.1724,
	"eval_samples_per_second": 759.163,
	"eval_steps_per_second": 3.037,
	"step": 32967
	},
	{
	"epoch": 99.1,
	"grad_norm": 9.569737434387207,
	"learning_rate": 6.696696696696697e-06,
	"loss": 0.1691,
	"step": 33000
	},
	{
	"epoch": 100.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.07629863917827606,
	"eval_runtime": 13.7613,
	"eval_samples_per_second": 726.674,
	"eval_steps_per_second": 2.907,
	"step": 33300
	},
	{
	"epoch": 100.6,
	"grad_norm": 9.273295402526855,
	"learning_rate": 6.646646646646647e-06,
	"loss": 0.165,
	"step": 33500
	},
	{
	"epoch": 101.0,
	"eval_accuracy": 0.9794,
	"eval_loss": 0.07651650160551071,
	"eval_runtime": 12.8929,
	"eval_samples_per_second": 775.622,
	"eval_steps_per_second": 3.102,
	"step": 33633
	},
	{
	"epoch": 102.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07412749528884888,
	"eval_runtime": 13.1273,
	"eval_samples_per_second": 761.772,
	"eval_steps_per_second": 3.047,
	"step": 33966
	},
	{
	"epoch": 102.1,
	"grad_norm": 5.686313152313232,
	"learning_rate": 6.596596596596597e-06,
	"loss": 0.1678,
	"step": 34000
	},
	{
	"epoch": 103.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.07281830161809921,
	"eval_runtime": 14.1227,
	"eval_samples_per_second": 708.079,
	"eval_steps_per_second": 2.832,
	"step": 34299
	},
	{
	"epoch": 103.6,
	"grad_norm": 13.40892505645752,
	"learning_rate": 6.546546546546547e-06,
	"loss": 0.1663,
	"step": 34500
	},
	{
	"epoch": 104.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.07456088066101074,
	"eval_runtime": 12.9479,
	"eval_samples_per_second": 772.329,
	"eval_steps_per_second": 3.089,
	"step": 34632
	},
	{
	"epoch": 105.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.07469187676906586,
	"eval_runtime": 13.464,
	"eval_samples_per_second": 742.723,
	"eval_steps_per_second": 2.971,
	"step": 34965
	},
	{
	"epoch": 105.11,
	"grad_norm": 3.3622846603393555,
	"learning_rate": 6.496496496496497e-06,
	"loss": 0.1697,
	"step": 35000
	},
	{
	"epoch": 106.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07429709285497665,
	"eval_runtime": 12.5016,
	"eval_samples_per_second": 799.901,
	"eval_steps_per_second": 3.2,
	"step": 35298
	},
	{
	"epoch": 106.61,
	"grad_norm": 13.544451713562012,
	"learning_rate": 6.446446446446447e-06,
	"loss": 0.1637,
	"step": 35500
	},
	{
	"epoch": 107.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.07689350843429565,
	"eval_runtime": 13.0156,
	"eval_samples_per_second": 768.306,
	"eval_steps_per_second": 3.073,
	"step": 35631
	},
	{
	"epoch": 108.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.07509542256593704,
	"eval_runtime": 13.0921,
	"eval_samples_per_second": 763.817,
	"eval_steps_per_second": 3.055,
	"step": 35964
	},
	{
	"epoch": 108.11,
	"grad_norm": 11.040998458862305,
	"learning_rate": 6.396396396396397e-06,
	"loss": 0.1678,
	"step": 36000
	},
	{
	"epoch": 109.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.0769224464893341,
	"eval_runtime": 13.4563,
	"eval_samples_per_second": 743.145,
	"eval_steps_per_second": 2.973,
	"step": 36297
	},
	{
	"epoch": 109.61,
	"grad_norm": 7.243069171905518,
	"learning_rate": 6.3463463463463474e-06,
	"loss": 0.1674,
	"step": 36500
	},
	{
	"epoch": 110.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.07392393797636032,
	"eval_runtime": 12.9386,
	"eval_samples_per_second": 772.879,
	"eval_steps_per_second": 3.092,
	"step": 36630
	},
	{
	"epoch": 111.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.0809590220451355,
	"eval_runtime": 13.2637,
	"eval_samples_per_second": 753.935,
	"eval_steps_per_second": 3.016,
	"step": 36963
	},
	{
	"epoch": 111.11,
	"grad_norm": 8.149242401123047,
	"learning_rate": 6.296296296296297e-06,
	"loss": 0.1604,
	"step": 37000
	},
	{
	"epoch": 112.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07439053803682327,
	"eval_runtime": 12.9959,
	"eval_samples_per_second": 769.471,
	"eval_steps_per_second": 3.078,
	"step": 37296
	},
	{
	"epoch": 112.61,
	"grad_norm": 6.591969966888428,
	"learning_rate": 6.246246246246247e-06,
	"loss": 0.1583,
	"step": 37500
	},
	{
	"epoch": 113.0,
	"eval_accuracy": 0.9816,
	"eval_loss": 0.07411955296993256,
	"eval_runtime": 12.6355,
	"eval_samples_per_second": 791.421,
	"eval_steps_per_second": 3.166,
	"step": 37629
	},
	{
	"epoch": 114.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07842327654361725,
	"eval_runtime": 14.6497,
	"eval_samples_per_second": 682.608,
	"eval_steps_per_second": 2.73,
	"step": 37962
	},
	{
	"epoch": 114.11,
	"grad_norm": 8.455940246582031,
	"learning_rate": 6.196196196196197e-06,
	"loss": 0.1592,
	"step": 38000
	},
	{
	"epoch": 115.0,
	"eval_accuracy": 0.9818,
	"eval_loss": 0.07287651300430298,
	"eval_runtime": 13.5165,
	"eval_samples_per_second": 739.838,
	"eval_steps_per_second": 2.959,
	"step": 38295
	},
	{
	"epoch": 115.62,
	"grad_norm": 6.092105388641357,
	"learning_rate": 6.146146146146147e-06,
	"loss": 0.1607,
	"step": 38500
	},
	{
	"epoch": 116.0,
	"eval_accuracy": 0.9818,
	"eval_loss": 0.07438412308692932,
	"eval_runtime": 13.6093,
	"eval_samples_per_second": 734.794,
	"eval_steps_per_second": 2.939,
	"step": 38628
	},
	{
	"epoch": 117.0,
	"eval_accuracy": 0.9817,
	"eval_loss": 0.07355909794569016,
	"eval_runtime": 12.6698,
	"eval_samples_per_second": 789.279,
	"eval_steps_per_second": 3.157,
	"step": 38961
	},
	{
	"epoch": 117.12,
	"grad_norm": 7.972623348236084,
	"learning_rate": 6.096096096096097e-06,
	"loss": 0.1657,
	"step": 39000
	},
	{
	"epoch": 118.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.0769243985414505,
	"eval_runtime": 13.3442,
	"eval_samples_per_second": 749.391,
	"eval_steps_per_second": 2.998,
	"step": 39294
	},
	{
	"epoch": 118.62,
	"grad_norm": 7.559940338134766,
	"learning_rate": 6.046046046046047e-06,
	"loss": 0.1605,
	"step": 39500
	},
	{
	"epoch": 119.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.0768662765622139,
	"eval_runtime": 13.0344,
	"eval_samples_per_second": 767.2,
	"eval_steps_per_second": 3.069,
	"step": 39627
	},
	{
	"epoch": 120.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.07865633815526962,
	"eval_runtime": 13.8055,
	"eval_samples_per_second": 724.347,
	"eval_steps_per_second": 2.897,
	"step": 39960
	},
	{
	"epoch": 120.12,
	"grad_norm": 7.175966739654541,
	"learning_rate": 5.995995995995997e-06,
	"loss": 0.1554,
	"step": 40000
	},
	{
	"epoch": 121.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.07854399085044861,
	"eval_runtime": 12.8799,
	"eval_samples_per_second": 776.402,
	"eval_steps_per_second": 3.106,
	"step": 40293
	},
	{
	"epoch": 121.62,
	"grad_norm": 12.97214126586914,
	"learning_rate": 5.945945945945947e-06,
	"loss": 0.157,
	"step": 40500
	},
	{
	"epoch": 122.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.0760401040315628,
	"eval_runtime": 12.9319,
	"eval_samples_per_second": 773.283,
	"eval_steps_per_second": 3.093,
	"step": 40626
	},
	{
	"epoch": 123.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.07537718862295151,
	"eval_runtime": 12.9913,
	"eval_samples_per_second": 769.749,
	"eval_steps_per_second": 3.079,
	"step": 40959
	},
	{
	"epoch": 123.12,
	"grad_norm": 7.540937423706055,
	"learning_rate": 5.895895895895896e-06,
	"loss": 0.1549,
	"step": 41000
	},
	{
	"epoch": 124.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.07550998032093048,
	"eval_runtime": 14.417,
	"eval_samples_per_second": 693.624,
	"eval_steps_per_second": 2.774,
	"step": 41292
	},
	{
	"epoch": 124.62,
	"grad_norm": 6.355432987213135,
	"learning_rate": 5.8458458458458464e-06,
	"loss": 0.1578,
	"step": 41500
	},
	{
	"epoch": 125.0,
	"eval_accuracy": 0.9792,
	"eval_loss": 0.07649920880794525,
	"eval_runtime": 13.4926,
	"eval_samples_per_second": 741.15,
	"eval_steps_per_second": 2.965,
	"step": 41625
	},
	{
	"epoch": 126.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07526528090238571,
	"eval_runtime": 12.9079,
	"eval_samples_per_second": 774.72,
	"eval_steps_per_second": 3.099,
	"step": 41958
	},
	{
	"epoch": 126.13,
	"grad_norm": 6.478011131286621,
	"learning_rate": 5.7957957957957965e-06,
	"loss": 0.1531,
	"step": 42000
	},
	{
	"epoch": 127.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07793418318033218,
	"eval_runtime": 13.471,
	"eval_samples_per_second": 742.337,
	"eval_steps_per_second": 2.969,
	"step": 42291
	},
	{
	"epoch": 127.63,
	"grad_norm": 7.928163051605225,
	"learning_rate": 5.7457457457457466e-06,
	"loss": 0.1572,
	"step": 42500
	},
	{
	"epoch": 128.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07834824174642563,
	"eval_runtime": 13.8772,
	"eval_samples_per_second": 720.605,
	"eval_steps_per_second": 2.882,
	"step": 42624
	},
	{
	"epoch": 129.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.0785522609949112,
	"eval_runtime": 12.947,
	"eval_samples_per_second": 772.377,
	"eval_steps_per_second": 3.09,
	"step": 42957
	},
	{
	"epoch": 129.13,
	"grad_norm": 19.900619506835938,
	"learning_rate": 5.695695695695697e-06,
	"loss": 0.1558,
	"step": 43000
	},
	{
	"epoch": 130.0,
	"eval_accuracy": 0.9814,
	"eval_loss": 0.0741908997297287,
	"eval_runtime": 12.8882,
	"eval_samples_per_second": 775.906,
	"eval_steps_per_second": 3.104,
	"step": 43290
	},
	{
	"epoch": 130.63,
	"grad_norm": 12.561553001403809,
	"learning_rate": 5.645645645645647e-06,
	"loss": 0.1515,
	"step": 43500
	},
	{
	"epoch": 131.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.07759422063827515,
	"eval_runtime": 14.2426,
	"eval_samples_per_second": 702.121,
	"eval_steps_per_second": 2.808,
	"step": 43623
	},
	{
	"epoch": 132.0,
	"eval_accuracy": 0.9793,
	"eval_loss": 0.08000089973211288,
	"eval_runtime": 13.0308,
	"eval_samples_per_second": 767.413,
	"eval_steps_per_second": 3.07,
	"step": 43956
	},
	{
	"epoch": 132.13,
	"grad_norm": 10.955676078796387,
	"learning_rate": 5.595595595595597e-06,
	"loss": 0.1526,
	"step": 44000
	},
	{
	"epoch": 133.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07563788443803787,
	"eval_runtime": 12.9183,
	"eval_samples_per_second": 774.093,
	"eval_steps_per_second": 3.096,
	"step": 44289
	},
	{
	"epoch": 133.63,
	"grad_norm": 9.621336936950684,
	"learning_rate": 5.545545545545547e-06,
	"loss": 0.1523,
	"step": 44500
	},
	{
	"epoch": 134.0,
	"eval_accuracy": 0.9797,
	"eval_loss": 0.07889340072870255,
	"eval_runtime": 13.5904,
	"eval_samples_per_second": 735.813,
	"eval_steps_per_second": 2.943,
	"step": 44622
	},
	{
	"epoch": 135.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.07651440799236298,
	"eval_runtime": 13.0261,
	"eval_samples_per_second": 767.689,
	"eval_steps_per_second": 3.071,
	"step": 44955
	},
	{
	"epoch": 135.14,
	"grad_norm": 9.40494155883789,
	"learning_rate": 5.495495495495496e-06,
	"loss": 0.1519,
	"step": 45000
	},
	{
	"epoch": 136.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.07700727880001068,
	"eval_runtime": 14.2776,
	"eval_samples_per_second": 700.397,
	"eval_steps_per_second": 2.802,
	"step": 45288
	},
	{
	"epoch": 136.64,
	"grad_norm": 7.778809070587158,
	"learning_rate": 5.445445445445446e-06,
	"loss": 0.1491,
	"step": 45500
	},
	{
	"epoch": 137.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07937881350517273,
	"eval_runtime": 13.7045,
	"eval_samples_per_second": 729.689,
	"eval_steps_per_second": 2.919,
	"step": 45621
	},
	{
	"epoch": 138.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.07901179045438766,
	"eval_runtime": 12.8776,
	"eval_samples_per_second": 776.54,
	"eval_steps_per_second": 3.106,
	"step": 45954
	},
	{
	"epoch": 138.14,
	"grad_norm": 12.694830894470215,
	"learning_rate": 5.395395395395396e-06,
	"loss": 0.1488,
	"step": 46000
	},
	{
	"epoch": 139.0,
	"eval_accuracy": 0.9796,
	"eval_loss": 0.07827717065811157,
	"eval_runtime": 13.01,
	"eval_samples_per_second": 768.642,
	"eval_steps_per_second": 3.075,
	"step": 46287
	},
	{
	"epoch": 139.64,
	"grad_norm": 5.728260517120361,
	"learning_rate": 5.345345345345346e-06,
	"loss": 0.1511,
	"step": 46500
	},
	{
	"epoch": 140.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07687978446483612,
	"eval_runtime": 13.4169,
	"eval_samples_per_second": 745.331,
	"eval_steps_per_second": 2.981,
	"step": 46620
	},
	{
	"epoch": 141.0,
	"eval_accuracy": 0.9797,
	"eval_loss": 0.0826837420463562,
	"eval_runtime": 13.6768,
	"eval_samples_per_second": 731.166,
	"eval_steps_per_second": 2.925,
	"step": 46953
	},
	{
	"epoch": 141.14,
	"grad_norm": 8.749393463134766,
	"learning_rate": 5.2952952952952955e-06,
	"loss": 0.1475,
	"step": 47000
	},
	{
	"epoch": 142.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07702562212944031,
	"eval_runtime": 13.4888,
	"eval_samples_per_second": 741.356,
	"eval_steps_per_second": 2.965,
	"step": 47286
	},
	{
	"epoch": 142.64,
	"grad_norm": 8.479342460632324,
	"learning_rate": 5.245245245245245e-06,
	"loss": 0.1449,
	"step": 47500
	},
	{
	"epoch": 143.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07797821611166,
	"eval_runtime": 13.0058,
	"eval_samples_per_second": 768.886,
	"eval_steps_per_second": 3.076,
	"step": 47619
	},
	{
	"epoch": 144.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.07707054167985916,
	"eval_runtime": 12.9845,
	"eval_samples_per_second": 770.15,
	"eval_steps_per_second": 3.081,
	"step": 47952
	},
	{
	"epoch": 144.14,
	"grad_norm": 10.80911636352539,
	"learning_rate": 5.195195195195195e-06,
	"loss": 0.146,
	"step": 48000
	},
	{
	"epoch": 145.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.0750807523727417,
	"eval_runtime": 14.0436,
	"eval_samples_per_second": 712.069,
	"eval_steps_per_second": 2.848,
	"step": 48285
	},
	{
	"epoch": 145.65,
	"grad_norm": 5.568371295928955,
	"learning_rate": 5.145145145145145e-06,
	"loss": 0.1473,
	"step": 48500
	},
	{
	"epoch": 146.0,
	"eval_accuracy": 0.9797,
	"eval_loss": 0.07933703809976578,
	"eval_runtime": 13.1022,
	"eval_samples_per_second": 763.232,
	"eval_steps_per_second": 3.053,
	"step": 48618
	},
	{
	"epoch": 147.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.07590621709823608,
	"eval_runtime": 13.1387,
	"eval_samples_per_second": 761.108,
	"eval_steps_per_second": 3.044,
	"step": 48951
	},
	{
	"epoch": 147.15,
	"grad_norm": 8.234355926513672,
	"learning_rate": 5.095095095095095e-06,
	"loss": 0.1466,
	"step": 49000
	},
	{
	"epoch": 148.0,
	"eval_accuracy": 0.9787,
	"eval_loss": 0.08211437612771988,
	"eval_runtime": 13.453,
	"eval_samples_per_second": 743.33,
	"eval_steps_per_second": 2.973,
	"step": 49284
	},
	{
	"epoch": 148.65,
	"grad_norm": 9.734493255615234,
	"learning_rate": 5.045045045045045e-06,
	"loss": 0.1472,
	"step": 49500
	},
	{
	"epoch": 149.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.07566899061203003,
	"eval_runtime": 13.5127,
	"eval_samples_per_second": 740.042,
	"eval_steps_per_second": 2.96,
	"step": 49617
	},
	{
	"epoch": 150.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.07641930133104324,
	"eval_runtime": 13.729,
	"eval_samples_per_second": 728.384,
	"eval_steps_per_second": 2.914,
	"step": 49950
	},
	{
	"epoch": 150.15,
	"grad_norm": 9.083195686340332,
	"learning_rate": 4.994994994994996e-06,
	"loss": 0.1437,
	"step": 50000
	},
	{
	"epoch": 151.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.0816345363855362,
	"eval_runtime": 13.6081,
	"eval_samples_per_second": 734.856,
	"eval_steps_per_second": 2.939,
	"step": 50283
	},
	{
	"epoch": 151.65,
	"grad_norm": 16.20008087158203,
	"learning_rate": 4.944944944944945e-06,
	"loss": 0.1487,
	"step": 50500
	},
	{
	"epoch": 152.0,
	"eval_accuracy": 0.9818,
	"eval_loss": 0.07768727838993073,
	"eval_runtime": 12.9061,
	"eval_samples_per_second": 774.83,
	"eval_steps_per_second": 3.099,
	"step": 50616
	},
	{
	"epoch": 153.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.07950293272733688,
	"eval_runtime": 13.0523,
	"eval_samples_per_second": 766.151,
	"eval_steps_per_second": 3.065,
	"step": 50949
	},
	{
	"epoch": 153.15,
	"grad_norm": 6.783934593200684,
	"learning_rate": 4.894894894894895e-06,
	"loss": 0.1455,
	"step": 51000
	},
	{
	"epoch": 154.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.07836713641881943,
	"eval_runtime": 13.4341,
	"eval_samples_per_second": 744.377,
	"eval_steps_per_second": 2.978,
	"step": 51282
	},
	{
	"epoch": 154.65,
	"grad_norm": 7.791309833526611,
	"learning_rate": 4.844844844844845e-06,
	"loss": 0.1463,
	"step": 51500
	},
	{
	"epoch": 155.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.07995989918708801,
	"eval_runtime": 13.7204,
	"eval_samples_per_second": 728.844,
	"eval_steps_per_second": 2.915,
	"step": 51615
	},
	{
	"epoch": 156.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.07914280891418457,
	"eval_runtime": 13.045,
	"eval_samples_per_second": 766.58,
	"eval_steps_per_second": 3.066,
	"step": 51948
	},
	{
	"epoch": 156.16,
	"grad_norm": 7.225980281829834,
	"learning_rate": 4.794794794794795e-06,
	"loss": 0.1449,
	"step": 52000
	},
	{
	"epoch": 157.0,
	"eval_accuracy": 0.9815,
	"eval_loss": 0.0777197852730751,
	"eval_runtime": 12.8795,
	"eval_samples_per_second": 776.43,
	"eval_steps_per_second": 3.106,
	"step": 52281
	},
	{
	"epoch": 157.66,
	"grad_norm": 7.848995208740234,
	"learning_rate": 4.7447447447447454e-06,
	"loss": 0.1413,
	"step": 52500
	},
	{
	"epoch": 158.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.07978815585374832,
	"eval_runtime": 13.0849,
	"eval_samples_per_second": 764.238,
	"eval_steps_per_second": 3.057,
	"step": 52614
	},
	{
	"epoch": 159.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.08010842651128769,
	"eval_runtime": 12.9948,
	"eval_samples_per_second": 769.539,
	"eval_steps_per_second": 3.078,
	"step": 52947
	},
	{
	"epoch": 159.16,
	"grad_norm": 10.857318878173828,
	"learning_rate": 4.6946946946946955e-06,
	"loss": 0.143,
	"step": 53000
	},
	{
	"epoch": 160.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.07897085696458817,
	"eval_runtime": 13.4824,
	"eval_samples_per_second": 741.707,
	"eval_steps_per_second": 2.967,
	"step": 53280
	},
	{
	"epoch": 160.66,
	"grad_norm": 8.192683219909668,
	"learning_rate": 4.6446446446446456e-06,
	"loss": 0.1462,
	"step": 53500
	},
	{
	"epoch": 161.0,
	"eval_accuracy": 0.9794,
	"eval_loss": 0.07847656309604645,
	"eval_runtime": 13.3614,
	"eval_samples_per_second": 748.422,
	"eval_steps_per_second": 2.994,
	"step": 53613
	},
	{
	"epoch": 162.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.07839296758174896,
	"eval_runtime": 13.4943,
	"eval_samples_per_second": 741.054,
	"eval_steps_per_second": 2.964,
	"step": 53946
	},
	{
	"epoch": 162.16,
	"grad_norm": 5.753213882446289,
	"learning_rate": 4.594594594594596e-06,
	"loss": 0.1454,
	"step": 54000
	},
	{
	"epoch": 163.0,
	"eval_accuracy": 0.9814,
	"eval_loss": 0.07774946093559265,
	"eval_runtime": 13.5161,
	"eval_samples_per_second": 739.858,
	"eval_steps_per_second": 2.959,
	"step": 54279
	},
	{
	"epoch": 163.66,
	"grad_norm": 23.634429931640625,
	"learning_rate": 4.544544544544545e-06,
	"loss": 0.1404,
	"step": 54500
	},
	{
	"epoch": 164.0,
	"eval_accuracy": 0.9817,
	"eval_loss": 0.07676123827695847,
	"eval_runtime": 13.7785,
	"eval_samples_per_second": 725.767,
	"eval_steps_per_second": 2.903,
	"step": 54612
	},
	{
	"epoch": 165.0,
	"eval_accuracy": 0.9795,
	"eval_loss": 0.07868321239948273,
	"eval_runtime": 13.3337,
	"eval_samples_per_second": 749.978,
	"eval_steps_per_second": 3.0,
	"step": 54945
	},
	{
	"epoch": 165.17,
	"grad_norm": 14.497030258178711,
	"learning_rate": 4.494494494494495e-06,
	"loss": 0.1404,
	"step": 55000
	},
	{
	"epoch": 166.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.08142885565757751,
	"eval_runtime": 13.0878,
	"eval_samples_per_second": 764.068,
	"eval_steps_per_second": 3.056,
	"step": 55278
	},
	{
	"epoch": 166.67,
	"grad_norm": 5.504241943359375,
	"learning_rate": 4.444444444444444e-06,
	"loss": 0.1438,
	"step": 55500
	},
	{
	"epoch": 167.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08015668392181396,
	"eval_runtime": 13.3375,
	"eval_samples_per_second": 749.766,
	"eval_steps_per_second": 2.999,
	"step": 55611
	},
	{
	"epoch": 168.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.0773804783821106,
	"eval_runtime": 13.1562,
	"eval_samples_per_second": 760.1,
	"eval_steps_per_second": 3.04,
	"step": 55944
	},
	{
	"epoch": 168.17,
	"grad_norm": 10.65889835357666,
	"learning_rate": 4.394394394394394e-06,
	"loss": 0.1405,
	"step": 56000
	},
	{
	"epoch": 169.0,
	"eval_accuracy": 0.9793,
	"eval_loss": 0.07769276201725006,
	"eval_runtime": 13.37,
	"eval_samples_per_second": 747.945,
	"eval_steps_per_second": 2.992,
	"step": 56277
	},
	{
	"epoch": 169.67,
	"grad_norm": 9.663138389587402,
	"learning_rate": 4.344344344344344e-06,
	"loss": 0.1465,
	"step": 56500
	},
	{
	"epoch": 170.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.07831669598817825,
	"eval_runtime": 13.9555,
	"eval_samples_per_second": 716.565,
	"eval_steps_per_second": 2.866,
	"step": 56610
	},
	{
	"epoch": 171.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.08174577355384827,
	"eval_runtime": 13.3581,
	"eval_samples_per_second": 748.612,
	"eval_steps_per_second": 2.994,
	"step": 56943
	},
	{
	"epoch": 171.17,
	"grad_norm": 11.15052604675293,
	"learning_rate": 4.294294294294294e-06,
	"loss": 0.1404,
	"step": 57000
	},
	{
	"epoch": 172.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.0780324712395668,
	"eval_runtime": 12.9812,
	"eval_samples_per_second": 770.346,
	"eval_steps_per_second": 3.081,
	"step": 57276
	},
	{
	"epoch": 172.67,
	"grad_norm": 10.398097038269043,
	"learning_rate": 4.2442442442442444e-06,
	"loss": 0.1367,
	"step": 57500
	},
	{
	"epoch": 173.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07895645499229431,
	"eval_runtime": 12.8468,
	"eval_samples_per_second": 778.402,
	"eval_steps_per_second": 3.114,
	"step": 57609
	},
	{
	"epoch": 174.0,
	"eval_accuracy": 0.9816,
	"eval_loss": 0.07868947833776474,
	"eval_runtime": 13.3373,
	"eval_samples_per_second": 749.779,
	"eval_steps_per_second": 2.999,
	"step": 57942
	},
	{
	"epoch": 174.17,
	"grad_norm": 8.292234420776367,
	"learning_rate": 4.1941941941941945e-06,
	"loss": 0.1399,
	"step": 58000
	},
	{
	"epoch": 175.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.08106452971696854,
	"eval_runtime": 12.854,
	"eval_samples_per_second": 777.968,
	"eval_steps_per_second": 3.112,
	"step": 58275
	},
	{
	"epoch": 175.68,
	"grad_norm": 12.446533203125,
	"learning_rate": 4.1441441441441446e-06,
	"loss": 0.1418,
	"step": 58500
	},
	{
	"epoch": 176.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.08040361106395721,
	"eval_runtime": 13.1526,
	"eval_samples_per_second": 760.308,
	"eval_steps_per_second": 3.041,
	"step": 58608
	},
	{
	"epoch": 177.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07995961606502533,
	"eval_runtime": 13.0397,
	"eval_samples_per_second": 766.888,
	"eval_steps_per_second": 3.068,
	"step": 58941
	},
	{
	"epoch": 177.18,
	"grad_norm": 9.551538467407227,
	"learning_rate": 4.094094094094095e-06,
	"loss": 0.1381,
	"step": 59000
	},
	{
	"epoch": 178.0,
	"eval_accuracy": 0.9814,
	"eval_loss": 0.07857974618673325,
	"eval_runtime": 13.3646,
	"eval_samples_per_second": 748.245,
	"eval_steps_per_second": 2.993,
	"step": 59274
	},
	{
	"epoch": 178.68,
	"grad_norm": 7.961233615875244,
	"learning_rate": 4.044044044044044e-06,
	"loss": 0.1357,
	"step": 59500
	},
	{
	"epoch": 179.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.0797557458281517,
	"eval_runtime": 13.833,
	"eval_samples_per_second": 722.907,
	"eval_steps_per_second": 2.892,
	"step": 59607
	},
	{
	"epoch": 180.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.07922037690877914,
	"eval_runtime": 13.1611,
	"eval_samples_per_second": 759.818,
	"eval_steps_per_second": 3.039,
	"step": 59940
	},
	{
	"epoch": 180.18,
	"grad_norm": 8.392486572265625,
	"learning_rate": 3.993993993993994e-06,
	"loss": 0.1465,
	"step": 60000
	},
	{
	"epoch": 181.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.08021984249353409,
	"eval_runtime": 12.7756,
	"eval_samples_per_second": 782.741,
	"eval_steps_per_second": 3.131,
	"step": 60273
	},
	{
	"epoch": 181.68,
	"grad_norm": 5.668210506439209,
	"learning_rate": 3.943943943943944e-06,
	"loss": 0.1366,
	"step": 60500
	},
	{
	"epoch": 182.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.07884296774864197,
	"eval_runtime": 12.9767,
	"eval_samples_per_second": 770.61,
	"eval_steps_per_second": 3.082,
	"step": 60606
	},
	{
	"epoch": 183.0,
	"eval_accuracy": 0.979,
	"eval_loss": 0.0805293619632721,
	"eval_runtime": 12.9332,
	"eval_samples_per_second": 773.205,
	"eval_steps_per_second": 3.093,
	"step": 60939
	},
	{
	"epoch": 183.18,
	"grad_norm": 9.771552085876465,
	"learning_rate": 3.893893893893894e-06,
	"loss": 0.139,
	"step": 61000
	},
	{
	"epoch": 184.0,
	"eval_accuracy": 0.9794,
	"eval_loss": 0.0822456106543541,
	"eval_runtime": 13.3118,
	"eval_samples_per_second": 751.211,
	"eval_steps_per_second": 3.005,
	"step": 61272
	},
	{
	"epoch": 184.68,
	"grad_norm": 10.898391723632812,
	"learning_rate": 3.843843843843844e-06,
	"loss": 0.1381,
	"step": 61500
	},
	{
	"epoch": 185.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08079157024621964,
	"eval_runtime": 12.8717,
	"eval_samples_per_second": 776.899,
	"eval_steps_per_second": 3.108,
	"step": 61605
	},
	{
	"epoch": 186.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08059785515069962,
	"eval_runtime": 12.418,
	"eval_samples_per_second": 805.284,
	"eval_steps_per_second": 3.221,
	"step": 61938
	},
	{
	"epoch": 186.19,
	"grad_norm": 6.1758246421813965,
	"learning_rate": 3.793793793793794e-06,
	"loss": 0.1367,
	"step": 62000
	},
	{
	"epoch": 187.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.07853790372610092,
	"eval_runtime": 12.9215,
	"eval_samples_per_second": 773.902,
	"eval_steps_per_second": 3.096,
	"step": 62271
	},
	{
	"epoch": 187.69,
	"grad_norm": 9.155027389526367,
	"learning_rate": 3.743743743743744e-06,
	"loss": 0.1354,
	"step": 62500
	},
	{
	"epoch": 188.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.0803978368639946,
	"eval_runtime": 13.5157,
	"eval_samples_per_second": 739.883,
	"eval_steps_per_second": 2.96,
	"step": 62604
	},
	{
	"epoch": 189.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.07950347661972046,
	"eval_runtime": 13.0185,
	"eval_samples_per_second": 768.138,
	"eval_steps_per_second": 3.073,
	"step": 62937
	},
	{
	"epoch": 189.19,
	"grad_norm": 9.88645076751709,
	"learning_rate": 3.693693693693694e-06,
	"loss": 0.137,
	"step": 63000
	},
	{
	"epoch": 190.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.07970842719078064,
	"eval_runtime": 13.0486,
	"eval_samples_per_second": 766.367,
	"eval_steps_per_second": 3.065,
	"step": 63270
	},
	{
	"epoch": 190.69,
	"grad_norm": 10.085098266601562,
	"learning_rate": 3.643643643643644e-06,
	"loss": 0.1351,
	"step": 63500
	},
	{
	"epoch": 191.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.07862575352191925,
	"eval_runtime": 13.7359,
	"eval_samples_per_second": 728.019,
	"eval_steps_per_second": 2.912,
	"step": 63603
	},
	{
	"epoch": 192.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.07779725641012192,
	"eval_runtime": 14.1749,
	"eval_samples_per_second": 705.473,
	"eval_steps_per_second": 2.822,
	"step": 63936
	},
	{
	"epoch": 192.19,
	"grad_norm": 7.259002685546875,
	"learning_rate": 3.593593593593594e-06,
	"loss": 0.1345,
	"step": 64000
	},
	{
	"epoch": 193.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.07995971292257309,
	"eval_runtime": 13.3268,
	"eval_samples_per_second": 750.366,
	"eval_steps_per_second": 3.001,
	"step": 64269
	},
	{
	"epoch": 193.69,
	"grad_norm": 6.42719030380249,
	"learning_rate": 3.5435435435435437e-06,
	"loss": 0.1377,
	"step": 64500
	},
	{
	"epoch": 194.0,
	"eval_accuracy": 0.9799,
	"eval_loss": 0.07895601540803909,
	"eval_runtime": 12.9129,
	"eval_samples_per_second": 774.417,
	"eval_steps_per_second": 3.098,
	"step": 64602
	},
	{
	"epoch": 195.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.08155795186758041,
	"eval_runtime": 13.7447,
	"eval_samples_per_second": 727.555,
	"eval_steps_per_second": 2.91,
	"step": 64935
	},
	{
	"epoch": 195.2,
	"grad_norm": 7.303466320037842,
	"learning_rate": 3.4934934934934938e-06,
	"loss": 0.1339,
	"step": 65000
	},
	{
	"epoch": 196.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08134587854146957,
	"eval_runtime": 12.87,
	"eval_samples_per_second": 777.004,
	"eval_steps_per_second": 3.108,
	"step": 65268
	},
	{
	"epoch": 196.7,
	"grad_norm": 10.115856170654297,
	"learning_rate": 3.443443443443444e-06,
	"loss": 0.1338,
	"step": 65500
	},
	{
	"epoch": 197.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.07863133400678635,
	"eval_runtime": 13.1588,
	"eval_samples_per_second": 759.949,
	"eval_steps_per_second": 3.04,
	"step": 65601
	},
	{
	"epoch": 198.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08128491789102554,
	"eval_runtime": 12.3451,
	"eval_samples_per_second": 810.038,
	"eval_steps_per_second": 3.24,
	"step": 65934
	},
	{
	"epoch": 198.2,
	"grad_norm": 9.01919174194336,
	"learning_rate": 3.393393393393394e-06,
	"loss": 0.1371,
	"step": 66000
	},
	{
	"epoch": 199.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.08089832216501236,
	"eval_runtime": 13.1128,
	"eval_samples_per_second": 762.612,
	"eval_steps_per_second": 3.05,
	"step": 66267
	},
	{
	"epoch": 199.7,
	"grad_norm": 9.190634727478027,
	"learning_rate": 3.3433433433433436e-06,
	"loss": 0.1339,
	"step": 66500
	},
	{
	"epoch": 200.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.07968232780694962,
	"eval_runtime": 12.8919,
	"eval_samples_per_second": 775.68,
	"eval_steps_per_second": 3.103,
	"step": 66600
	},
	{
	"epoch": 201.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.08057761192321777,
	"eval_runtime": 12.9886,
	"eval_samples_per_second": 769.904,
	"eval_steps_per_second": 3.08,
	"step": 66933
	},
	{
	"epoch": 201.2,
	"grad_norm": 9.490571022033691,
	"learning_rate": 3.2932932932932936e-06,
	"loss": 0.131,
	"step": 67000
	},
	{
	"epoch": 202.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.08165069669485092,
	"eval_runtime": 13.9588,
	"eval_samples_per_second": 716.394,
	"eval_steps_per_second": 2.866,
	"step": 67266
	},
	{
	"epoch": 202.7,
	"grad_norm": 8.564950942993164,
	"learning_rate": 3.2432432432432437e-06,
	"loss": 0.1365,
	"step": 67500
	},
	{
	"epoch": 203.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.08228688687086105,
	"eval_runtime": 12.9615,
	"eval_samples_per_second": 771.513,
	"eval_steps_per_second": 3.086,
	"step": 67599
	},
	{
	"epoch": 204.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.08267272263765335,
	"eval_runtime": 12.8976,
	"eval_samples_per_second": 775.339,
	"eval_steps_per_second": 3.101,
	"step": 67932
	},
	{
	"epoch": 204.2,
	"grad_norm": 9.844771385192871,
	"learning_rate": 3.1931931931931938e-06,
	"loss": 0.1358,
	"step": 68000
	},
	{
	"epoch": 205.0,
	"eval_accuracy": 0.9816,
	"eval_loss": 0.0804433524608612,
	"eval_runtime": 12.8434,
	"eval_samples_per_second": 778.613,
	"eval_steps_per_second": 3.114,
	"step": 68265
	},
	{
	"epoch": 205.71,
	"grad_norm": 9.6033935546875,
	"learning_rate": 3.1431431431431434e-06,
	"loss": 0.132,
	"step": 68500
	},
	{
	"epoch": 206.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08253764361143112,
	"eval_runtime": 13.4062,
	"eval_samples_per_second": 745.922,
	"eval_steps_per_second": 2.984,
	"step": 68598
	},
	{
	"epoch": 207.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.07984968274831772,
	"eval_runtime": 13.6899,
	"eval_samples_per_second": 730.467,
	"eval_steps_per_second": 2.922,
	"step": 68931
	},
	{
	"epoch": 207.21,
	"grad_norm": 7.0395355224609375,
	"learning_rate": 3.0930930930930935e-06,
	"loss": 0.1396,
	"step": 69000
	},
	{
	"epoch": 208.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.08085375279188156,
	"eval_runtime": 12.8706,
	"eval_samples_per_second": 776.962,
	"eval_steps_per_second": 3.108,
	"step": 69264
	},
	{
	"epoch": 208.71,
	"grad_norm": 12.84909725189209,
	"learning_rate": 3.0430430430430436e-06,
	"loss": 0.1324,
	"step": 69500
	},
	{
	"epoch": 209.0,
	"eval_accuracy": 0.9815,
	"eval_loss": 0.07963848859071732,
	"eval_runtime": 12.9764,
	"eval_samples_per_second": 770.628,
	"eval_steps_per_second": 3.083,
	"step": 69597
	},
	{
	"epoch": 210.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08001097291707993,
	"eval_runtime": 13.4375,
	"eval_samples_per_second": 744.185,
	"eval_steps_per_second": 2.977,
	"step": 69930
	},
	{
	"epoch": 210.21,
	"grad_norm": 8.406508445739746,
	"learning_rate": 2.9929929929929936e-06,
	"loss": 0.1324,
	"step": 70000
	},
	{
	"epoch": 211.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.08123359829187393,
	"eval_runtime": 13.1971,
	"eval_samples_per_second": 757.742,
	"eval_steps_per_second": 3.031,
	"step": 70263
	},
	{
	"epoch": 211.71,
	"grad_norm": 4.204705715179443,
	"learning_rate": 2.942942942942943e-06,
	"loss": 0.1343,
	"step": 70500
	},
	{
	"epoch": 212.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08246932923793793,
	"eval_runtime": 13.3417,
	"eval_samples_per_second": 749.532,
	"eval_steps_per_second": 2.998,
	"step": 70596
	},
	{
	"epoch": 213.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08172763139009476,
	"eval_runtime": 12.9861,
	"eval_samples_per_second": 770.053,
	"eval_steps_per_second": 3.08,
	"step": 70929
	},
	{
	"epoch": 213.21,
	"grad_norm": 8.177204132080078,
	"learning_rate": 2.892892892892893e-06,
	"loss": 0.1322,
	"step": 71000
	},
	{
	"epoch": 214.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08131828904151917,
	"eval_runtime": 14.0986,
	"eval_samples_per_second": 709.289,
	"eval_steps_per_second": 2.837,
	"step": 71262
	},
	{
	"epoch": 214.71,
	"grad_norm": 8.844195365905762,
	"learning_rate": 2.842842842842843e-06,
	"loss": 0.133,
	"step": 71500
	},
	{
	"epoch": 215.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.0824679508805275,
	"eval_runtime": 12.94,
	"eval_samples_per_second": 772.8,
	"eval_steps_per_second": 3.091,
	"step": 71595
	},
	{
	"epoch": 216.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.0828867107629776,
	"eval_runtime": 12.9965,
	"eval_samples_per_second": 769.439,
	"eval_steps_per_second": 3.078,
	"step": 71928
	},
	{
	"epoch": 216.22,
	"grad_norm": 11.01076889038086,
	"learning_rate": 2.7927927927927926e-06,
	"loss": 0.1336,
	"step": 72000
	},
	{
	"epoch": 217.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08191470056772232,
	"eval_runtime": 12.6388,
	"eval_samples_per_second": 791.211,
	"eval_steps_per_second": 3.165,
	"step": 72261
	},
	{
	"epoch": 217.72,
	"grad_norm": 8.309555053710938,
	"learning_rate": 2.7427427427427427e-06,
	"loss": 0.1287,
	"step": 72500
	},
	{
	"epoch": 218.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.08172294497489929,
	"eval_runtime": 12.869,
	"eval_samples_per_second": 777.063,
	"eval_steps_per_second": 3.108,
	"step": 72594
	},
	{
	"epoch": 219.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.08100100606679916,
	"eval_runtime": 13.9577,
	"eval_samples_per_second": 716.449,
	"eval_steps_per_second": 2.866,
	"step": 72927
	},
	{
	"epoch": 219.22,
	"grad_norm": 10.596402168273926,
	"learning_rate": 2.6926926926926928e-06,
	"loss": 0.1322,
	"step": 73000
	},
	{
	"epoch": 220.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.08346739411354065,
	"eval_runtime": 12.8881,
	"eval_samples_per_second": 775.91,
	"eval_steps_per_second": 3.104,
	"step": 73260
	},
	{
	"epoch": 220.72,
	"grad_norm": 8.293975830078125,
	"learning_rate": 2.642642642642643e-06,
	"loss": 0.1287,
	"step": 73500
	},
	{
	"epoch": 221.0,
	"eval_accuracy": 0.9798,
	"eval_loss": 0.08478812873363495,
	"eval_runtime": 12.482,
	"eval_samples_per_second": 801.151,
	"eval_steps_per_second": 3.205,
	"step": 73593
	},
	{
	"epoch": 222.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.08156371861696243,
	"eval_runtime": 12.9596,
	"eval_samples_per_second": 771.628,
	"eval_steps_per_second": 3.087,
	"step": 73926
	},
	{
	"epoch": 222.22,
	"grad_norm": 9.707475662231445,
	"learning_rate": 2.5925925925925925e-06,
	"loss": 0.1317,
	"step": 74000
	},
	{
	"epoch": 223.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.08239776641130447,
	"eval_runtime": 13.8203,
	"eval_samples_per_second": 723.571,
	"eval_steps_per_second": 2.894,
	"step": 74259
	},
	{
	"epoch": 223.72,
	"grad_norm": 5.2577996253967285,
	"learning_rate": 2.5425425425425426e-06,
	"loss": 0.1308,
	"step": 74500
	},
	{
	"epoch": 224.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08223745971918106,
	"eval_runtime": 13.4783,
	"eval_samples_per_second": 741.934,
	"eval_steps_per_second": 2.968,
	"step": 74592
	},
	{
	"epoch": 225.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.0822429209947586,
	"eval_runtime": 13.2583,
	"eval_samples_per_second": 754.244,
	"eval_steps_per_second": 3.017,
	"step": 74925
	},
	{
	"epoch": 225.23,
	"grad_norm": 6.952250957489014,
	"learning_rate": 2.4924924924924926e-06,
	"loss": 0.1247,
	"step": 75000
	},
	{
	"epoch": 226.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.08117574453353882,
	"eval_runtime": 13.5159,
	"eval_samples_per_second": 739.872,
	"eval_steps_per_second": 2.959,
	"step": 75258
	},
	{
	"epoch": 226.73,
	"grad_norm": 17.568580627441406,
	"learning_rate": 2.4424424424424427e-06,
	"loss": 0.129,
	"step": 75500
	},
	{
	"epoch": 227.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08187758177518845,
	"eval_runtime": 12.7892,
	"eval_samples_per_second": 781.912,
	"eval_steps_per_second": 3.128,
	"step": 75591
	},
	{
	"epoch": 228.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08235606551170349,
	"eval_runtime": 12.9107,
	"eval_samples_per_second": 774.55,
	"eval_steps_per_second": 3.098,
	"step": 75924
	},
	{
	"epoch": 228.23,
	"grad_norm": 13.310216903686523,
	"learning_rate": 2.3923923923923923e-06,
	"loss": 0.1315,
	"step": 76000
	},
	{
	"epoch": 229.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.08291840553283691,
	"eval_runtime": 13.4267,
	"eval_samples_per_second": 744.787,
	"eval_steps_per_second": 2.979,
	"step": 76257
	},
	{
	"epoch": 229.73,
	"grad_norm": 7.18035888671875,
	"learning_rate": 2.3423423423423424e-06,
	"loss": 0.1243,
	"step": 76500
	},
	{
	"epoch": 230.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.08134060353040695,
	"eval_runtime": 12.9054,
	"eval_samples_per_second": 774.871,
	"eval_steps_per_second": 3.099,
	"step": 76590
	},
	{
	"epoch": 231.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.08125565946102142,
	"eval_runtime": 13.8266,
	"eval_samples_per_second": 723.246,
	"eval_steps_per_second": 2.893,
	"step": 76923
	},
	{
	"epoch": 231.23,
	"grad_norm": 11.132826805114746,
	"learning_rate": 2.2922922922922925e-06,
	"loss": 0.1244,
	"step": 77000
	},
	{
	"epoch": 232.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08288297057151794,
	"eval_runtime": 13.8545,
	"eval_samples_per_second": 721.786,
	"eval_steps_per_second": 2.887,
	"step": 77256
	},
	{
	"epoch": 232.73,
	"grad_norm": 7.415234565734863,
	"learning_rate": 2.2422422422422426e-06,
	"loss": 0.1286,
	"step": 77500
	},
	{
	"epoch": 233.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.083954356610775,
	"eval_runtime": 13.1117,
	"eval_samples_per_second": 762.679,
	"eval_steps_per_second": 3.051,
	"step": 77589
	},
	{
	"epoch": 234.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08230035752058029,
	"eval_runtime": 13.3702,
	"eval_samples_per_second": 747.932,
	"eval_steps_per_second": 2.992,
	"step": 77922
	},
	{
	"epoch": 234.23,
	"grad_norm": 7.36590576171875,
	"learning_rate": 2.192192192192192e-06,
	"loss": 0.1261,
	"step": 78000
	},
	{
	"epoch": 235.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08295118808746338,
	"eval_runtime": 13.748,
	"eval_samples_per_second": 727.381,
	"eval_steps_per_second": 2.91,
	"step": 78255
	},
	{
	"epoch": 235.74,
	"grad_norm": 10.516325950622559,
	"learning_rate": 2.1421421421421423e-06,
	"loss": 0.1238,
	"step": 78500
	},
	{
	"epoch": 236.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.08197174966335297,
	"eval_runtime": 12.9286,
	"eval_samples_per_second": 773.481,
	"eval_steps_per_second": 3.094,
	"step": 78588
	},
	{
	"epoch": 237.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08315034210681915,
	"eval_runtime": 13.634,
	"eval_samples_per_second": 733.458,
	"eval_steps_per_second": 2.934,
	"step": 78921
	},
	{
	"epoch": 237.24,
	"grad_norm": 5.020528316497803,
	"learning_rate": 2.0920920920920923e-06,
	"loss": 0.1296,
	"step": 79000
	},
	{
	"epoch": 238.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.08168121427297592,
	"eval_runtime": 14.4842,
	"eval_samples_per_second": 690.406,
	"eval_steps_per_second": 2.762,
	"step": 79254
	},
	{
	"epoch": 238.74,
	"grad_norm": 11.957234382629395,
	"learning_rate": 2.0420420420420424e-06,
	"loss": 0.1278,
	"step": 79500
	},
	{
	"epoch": 239.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08146882057189941,
	"eval_runtime": 14.503,
	"eval_samples_per_second": 689.511,
	"eval_steps_per_second": 2.758,
	"step": 79587
	},
	{
	"epoch": 240.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08267929404973984,
	"eval_runtime": 12.9081,
	"eval_samples_per_second": 774.71,
	"eval_steps_per_second": 3.099,
	"step": 79920
	},
	{
	"epoch": 240.24,
	"grad_norm": 10.550077438354492,
	"learning_rate": 1.991991991991992e-06,
	"loss": 0.1246,
	"step": 80000
	},
	{
	"epoch": 241.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08258900791406631,
	"eval_runtime": 13.3618,
	"eval_samples_per_second": 748.404,
	"eval_steps_per_second": 2.994,
	"step": 80253
	},
	{
	"epoch": 241.74,
	"grad_norm": 14.927352905273438,
	"learning_rate": 1.941941941941942e-06,
	"loss": 0.128,
	"step": 80500
	},
	{
	"epoch": 242.0,
	"eval_accuracy": 0.9797,
	"eval_loss": 0.08207195997238159,
	"eval_runtime": 13.4168,
	"eval_samples_per_second": 745.333,
	"eval_steps_per_second": 2.981,
	"step": 80586
	},
	{
	"epoch": 243.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08075813204050064,
	"eval_runtime": 12.9166,
	"eval_samples_per_second": 774.198,
	"eval_steps_per_second": 3.097,
	"step": 80919
	},
	{
	"epoch": 243.24,
	"grad_norm": 10.435842514038086,
	"learning_rate": 1.8918918918918922e-06,
	"loss": 0.1274,
	"step": 81000
	},
	{
	"epoch": 244.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.0817038044333458,
	"eval_runtime": 12.9068,
	"eval_samples_per_second": 774.784,
	"eval_steps_per_second": 3.099,
	"step": 81252
	},
	{
	"epoch": 244.74,
	"grad_norm": 6.686298370361328,
	"learning_rate": 1.841841841841842e-06,
	"loss": 0.1232,
	"step": 81500
	},
	{
	"epoch": 245.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.0812101811170578,
	"eval_runtime": 13.3736,
	"eval_samples_per_second": 747.741,
	"eval_steps_per_second": 2.991,
	"step": 81585
	},
	{
	"epoch": 246.0,
	"eval_accuracy": 0.9809,
	"eval_loss": 0.08127359300851822,
	"eval_runtime": 13.8034,
	"eval_samples_per_second": 724.46,
	"eval_steps_per_second": 2.898,
	"step": 81918
	},
	{
	"epoch": 246.25,
	"grad_norm": 9.9036865234375,
	"learning_rate": 1.7917917917917917e-06,
	"loss": 0.1281,
	"step": 82000
	},
	{
	"epoch": 247.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.0803731232881546,
	"eval_runtime": 13.6609,
	"eval_samples_per_second": 732.019,
	"eval_steps_per_second": 2.928,
	"step": 82251
	},
	{
	"epoch": 247.75,
	"grad_norm": 9.58124828338623,
	"learning_rate": 1.7417417417417418e-06,
	"loss": 0.1236,
	"step": 82500
	},
	{
	"epoch": 248.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08054234832525253,
	"eval_runtime": 12.9985,
	"eval_samples_per_second": 769.319,
	"eval_steps_per_second": 3.077,
	"step": 82584
	},
	{
	"epoch": 249.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08253397792577744,
	"eval_runtime": 12.7246,
	"eval_samples_per_second": 785.882,
	"eval_steps_per_second": 3.144,
	"step": 82917
	},
	{
	"epoch": 249.25,
	"grad_norm": 11.608097076416016,
	"learning_rate": 1.6916916916916916e-06,
	"loss": 0.1223,
	"step": 83000
	},
	{
	"epoch": 250.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.08115767687559128,
	"eval_runtime": 13.6973,
	"eval_samples_per_second": 730.07,
	"eval_steps_per_second": 2.92,
	"step": 83250
	},
	{
	"epoch": 250.75,
	"grad_norm": 7.931227207183838,
	"learning_rate": 1.6416416416416417e-06,
	"loss": 0.1278,
	"step": 83500
	},
	{
	"epoch": 251.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08087089657783508,
	"eval_runtime": 12.8657,
	"eval_samples_per_second": 777.263,
	"eval_steps_per_second": 3.109,
	"step": 83583
	},
	{
	"epoch": 252.0,
	"eval_accuracy": 0.9818,
	"eval_loss": 0.07839205116033554,
	"eval_runtime": 12.9826,
	"eval_samples_per_second": 770.262,
	"eval_steps_per_second": 3.081,
	"step": 83916
	},
	{
	"epoch": 252.25,
	"grad_norm": 6.618145942687988,
	"learning_rate": 1.5915915915915916e-06,
	"loss": 0.1238,
	"step": 84000
	},
	{
	"epoch": 253.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.07928815484046936,
	"eval_runtime": 13.4795,
	"eval_samples_per_second": 741.867,
	"eval_steps_per_second": 2.967,
	"step": 84249
	},
	{
	"epoch": 253.75,
	"grad_norm": 6.5788397789001465,
	"learning_rate": 1.5415415415415416e-06,
	"loss": 0.1259,
	"step": 84500
	},
	{
	"epoch": 254.0,
	"eval_accuracy": 0.9814,
	"eval_loss": 0.08129309117794037,
	"eval_runtime": 12.8787,
	"eval_samples_per_second": 776.478,
	"eval_steps_per_second": 3.106,
	"step": 84582
	},
	{
	"epoch": 255.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08033791929483414,
	"eval_runtime": 12.7033,
	"eval_samples_per_second": 787.197,
	"eval_steps_per_second": 3.149,
	"step": 84915
	},
	{
	"epoch": 255.26,
	"grad_norm": 8.367218017578125,
	"learning_rate": 1.4914914914914915e-06,
	"loss": 0.1261,
	"step": 85000
	},
	{
	"epoch": 256.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08045142143964767,
	"eval_runtime": 12.9511,
	"eval_samples_per_second": 772.133,
	"eval_steps_per_second": 3.089,
	"step": 85248
	},
	{
	"epoch": 256.76,
	"grad_norm": 17.39365005493164,
	"learning_rate": 1.4414414414414416e-06,
	"loss": 0.1312,
	"step": 85500
	},
	{
	"epoch": 257.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08164441585540771,
	"eval_runtime": 13.3735,
	"eval_samples_per_second": 747.745,
	"eval_steps_per_second": 2.991,
	"step": 85581
	},
	{
	"epoch": 258.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08030729740858078,
	"eval_runtime": 12.9143,
	"eval_samples_per_second": 774.336,
	"eval_steps_per_second": 3.097,
	"step": 85914
	},
	{
	"epoch": 258.26,
	"grad_norm": 12.668910026550293,
	"learning_rate": 1.3913913913913914e-06,
	"loss": 0.1237,
	"step": 86000
	},
	{
	"epoch": 259.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.07897236198186874,
	"eval_runtime": 13.3964,
	"eval_samples_per_second": 746.469,
	"eval_steps_per_second": 2.986,
	"step": 86247
	},
	{
	"epoch": 259.76,
	"grad_norm": 3.696176767349243,
	"learning_rate": 1.3413413413413415e-06,
	"loss": 0.1234,
	"step": 86500
	},
	{
	"epoch": 260.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.07928313314914703,
	"eval_runtime": 13.8621,
	"eval_samples_per_second": 721.391,
	"eval_steps_per_second": 2.886,
	"step": 86580
	},
	{
	"epoch": 261.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.07920601218938828,
	"eval_runtime": 12.907,
	"eval_samples_per_second": 774.775,
	"eval_steps_per_second": 3.099,
	"step": 86913
	},
	{
	"epoch": 261.26,
	"grad_norm": 11.28502082824707,
	"learning_rate": 1.2912912912912913e-06,
	"loss": 0.1237,
	"step": 87000
	},
	{
	"epoch": 262.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.08003947883844376,
	"eval_runtime": 13.8177,
	"eval_samples_per_second": 723.709,
	"eval_steps_per_second": 2.895,
	"step": 87246
	},
	{
	"epoch": 262.76,
	"grad_norm": 13.543560981750488,
	"learning_rate": 1.2412412412412414e-06,
	"loss": 0.1257,
	"step": 87500
	},
	{
	"epoch": 263.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08235891908407211,
	"eval_runtime": 13.4574,
	"eval_samples_per_second": 743.088,
	"eval_steps_per_second": 2.972,
	"step": 87579
	},
	{
	"epoch": 264.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08182436227798462,
	"eval_runtime": 12.9778,
	"eval_samples_per_second": 770.546,
	"eval_steps_per_second": 3.082,
	"step": 87912
	},
	{
	"epoch": 264.26,
	"grad_norm": 11.065189361572266,
	"learning_rate": 1.1911911911911913e-06,
	"loss": 0.1219,
	"step": 88000
	},
	{
	"epoch": 265.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.08205542713403702,
	"eval_runtime": 13.6001,
	"eval_samples_per_second": 735.288,
	"eval_steps_per_second": 2.941,
	"step": 88245
	},
	{
	"epoch": 265.77,
	"grad_norm": 9.291784286499023,
	"learning_rate": 1.1411411411411411e-06,
	"loss": 0.1298,
	"step": 88500
	},
	{
	"epoch": 266.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08165726810693741,
	"eval_runtime": 13.3896,
	"eval_samples_per_second": 746.85,
	"eval_steps_per_second": 2.987,
	"step": 88578
	},
	{
	"epoch": 267.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08162441104650497,
	"eval_runtime": 14.0305,
	"eval_samples_per_second": 712.733,
	"eval_steps_per_second": 2.851,
	"step": 88911
	},
	{
	"epoch": 267.27,
	"grad_norm": 17.33576202392578,
	"learning_rate": 1.0910910910910912e-06,
	"loss": 0.1222,
	"step": 89000
	},
	{
	"epoch": 268.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.08136063069105148,
	"eval_runtime": 12.8095,
	"eval_samples_per_second": 780.671,
	"eval_steps_per_second": 3.123,
	"step": 89244
	},
	{
	"epoch": 268.77,
	"grad_norm": 11.170260429382324,
	"learning_rate": 1.041041041041041e-06,
	"loss": 0.1268,
	"step": 89500
	},
	{
	"epoch": 269.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.08162767440080643,
	"eval_runtime": 13.5821,
	"eval_samples_per_second": 736.263,
	"eval_steps_per_second": 2.945,
	"step": 89577
	},
	{
	"epoch": 270.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08254320919513702,
	"eval_runtime": 12.9419,
	"eval_samples_per_second": 772.681,
	"eval_steps_per_second": 3.091,
	"step": 89910
	},
	{
	"epoch": 270.27,
	"grad_norm": 10.08292007446289,
	"learning_rate": 9.909909909909911e-07,
	"loss": 0.1239,
	"step": 90000
	},
	{
	"epoch": 271.0,
	"eval_accuracy": 0.9802,
	"eval_loss": 0.08088234812021255,
	"eval_runtime": 12.9857,
	"eval_samples_per_second": 770.075,
	"eval_steps_per_second": 3.08,
	"step": 90243
	},
	{
	"epoch": 271.77,
	"grad_norm": 7.639751434326172,
	"learning_rate": 9.409409409409411e-07,
	"loss": 0.1277,
	"step": 90500
	},
	{
	"epoch": 272.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.0805734246969223,
	"eval_runtime": 12.6096,
	"eval_samples_per_second": 793.045,
	"eval_steps_per_second": 3.172,
	"step": 90576
	},
	{
	"epoch": 273.0,
	"eval_accuracy": 0.98,
	"eval_loss": 0.08124550431966782,
	"eval_runtime": 13.1278,
	"eval_samples_per_second": 761.741,
	"eval_steps_per_second": 3.047,
	"step": 90909
	},
	{
	"epoch": 273.27,
	"grad_norm": 7.800063133239746,
	"learning_rate": 8.90890890890891e-07,
	"loss": 0.1235,
	"step": 91000
	},
	{
	"epoch": 274.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08137263357639313,
	"eval_runtime": 13.3744,
	"eval_samples_per_second": 747.7,
	"eval_steps_per_second": 2.991,
	"step": 91242
	},
	{
	"epoch": 274.77,
	"grad_norm": 13.224382400512695,
	"learning_rate": 8.40840840840841e-07,
	"loss": 0.1261,
	"step": 91500
	},
	{
	"epoch": 275.0,
	"eval_accuracy": 0.9801,
	"eval_loss": 0.08086758852005005,
	"eval_runtime": 12.9048,
	"eval_samples_per_second": 774.907,
	"eval_steps_per_second": 3.1,
	"step": 91575
	},
	{
	"epoch": 276.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.080258309841156,
	"eval_runtime": 14.2222,
	"eval_samples_per_second": 703.127,
	"eval_steps_per_second": 2.813,
	"step": 91908
	},
	{
	"epoch": 276.28,
	"grad_norm": 8.529864311218262,
	"learning_rate": 7.907907907907908e-07,
	"loss": 0.1219,
	"step": 92000
	},
	{
	"epoch": 277.0,
	"eval_accuracy": 0.9803,
	"eval_loss": 0.08069344609975815,
	"eval_runtime": 13.3763,
	"eval_samples_per_second": 747.589,
	"eval_steps_per_second": 2.99,
	"step": 92241
	},
	{
	"epoch": 277.78,
	"grad_norm": 5.7626051902771,
	"learning_rate": 7.407407407407407e-07,
	"loss": 0.1235,
	"step": 92500
	},
	{
	"epoch": 278.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.0805598720908165,
	"eval_runtime": 13.2417,
	"eval_samples_per_second": 755.192,
	"eval_steps_per_second": 3.021,
	"step": 92574
	},
	{
	"epoch": 279.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.07991771399974823,
	"eval_runtime": 12.9989,
	"eval_samples_per_second": 769.296,
	"eval_steps_per_second": 3.077,
	"step": 92907
	},
	{
	"epoch": 279.28,
	"grad_norm": 12.886475563049316,
	"learning_rate": 6.906906906906907e-07,
	"loss": 0.1232,
	"step": 93000
	},
	{
	"epoch": 280.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08009103685617447,
	"eval_runtime": 14.1951,
	"eval_samples_per_second": 704.469,
	"eval_steps_per_second": 2.818,
	"step": 93240
	},
	{
	"epoch": 280.78,
	"grad_norm": 13.245797157287598,
	"learning_rate": 6.406406406406407e-07,
	"loss": 0.1236,
	"step": 93500
	},
	{
	"epoch": 281.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.08077774941921234,
	"eval_runtime": 13.9349,
	"eval_samples_per_second": 717.624,
	"eval_steps_per_second": 2.87,
	"step": 93573
	},
	{
	"epoch": 282.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08111685514450073,
	"eval_runtime": 13.0495,
	"eval_samples_per_second": 766.313,
	"eval_steps_per_second": 3.065,
	"step": 93906
	},
	{
	"epoch": 282.28,
	"grad_norm": 6.8997673988342285,
	"learning_rate": 5.905905905905906e-07,
	"loss": 0.1195,
	"step": 94000
	},
	{
	"epoch": 283.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.08137265592813492,
	"eval_runtime": 13.163,
	"eval_samples_per_second": 759.705,
	"eval_steps_per_second": 3.039,
	"step": 94239
	},
	{
	"epoch": 283.78,
	"grad_norm": 12.197209358215332,
	"learning_rate": 5.405405405405406e-07,
	"loss": 0.1191,
	"step": 94500
	},
	{
	"epoch": 284.0,
	"eval_accuracy": 0.9804,
	"eval_loss": 0.08120004087686539,
	"eval_runtime": 12.9217,
	"eval_samples_per_second": 773.893,
	"eval_steps_per_second": 3.096,
	"step": 94572
	},
	{
	"epoch": 285.0,
	"eval_accuracy": 0.9805,
	"eval_loss": 0.08181598037481308,
	"eval_runtime": 12.828,
	"eval_samples_per_second": 779.547,
	"eval_steps_per_second": 3.118,
	"step": 94905
	},
	{
	"epoch": 285.29,
	"grad_norm": 6.001578330993652,
	"learning_rate": 4.904904904904905e-07,
	"loss": 0.1205,
	"step": 95000
	},
	{
	"epoch": 286.0,
	"eval_accuracy": 0.9807,
	"eval_loss": 0.08141326904296875,
	"eval_runtime": 13.7647,
	"eval_samples_per_second": 726.495,
	"eval_steps_per_second": 2.906,
	"step": 95238
	},
	{
	"epoch": 286.79,
	"grad_norm": 9.633207321166992,
	"learning_rate": 4.4044044044044046e-07,
	"loss": 0.1203,
	"step": 95500
	},
	{
	"epoch": 287.0,
	"eval_accuracy": 0.9808,
	"eval_loss": 0.08182702958583832,
	"eval_runtime": 14.1767,
	"eval_samples_per_second": 705.381,
	"eval_steps_per_second": 2.822,
	"step": 95571
	},
	{
	"epoch": 288.0,
	"eval_accuracy": 0.9806,
	"eval_loss": 0.08031768351793289,
	"eval_runtime": 14.019,
	"eval_samples_per_second": 713.316,
	"eval_steps_per_second": 2.853,
	"step": 95904
	},
	{
	"epoch": 288.29,
	"grad_norm": 9.451753616333008,
	"learning_rate": 3.903903903903904e-07,
	"loss": 0.1197,
	"step": 96000
	},
	{
	"epoch": 289.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.0809708833694458,
	"eval_runtime": 13.7936,
	"eval_samples_per_second": 724.975,
	"eval_steps_per_second": 2.9,
	"step": 96237
	},
	{
	"epoch": 289.79,
	"grad_norm": 10.313632011413574,
	"learning_rate": 3.403403403403404e-07,
	"loss": 0.1233,
	"step": 96500
	},
	{
	"epoch": 290.0,
	"eval_accuracy": 0.9811,
	"eval_loss": 0.08130063861608505,
	"eval_runtime": 13.4821,
	"eval_samples_per_second": 741.722,
	"eval_steps_per_second": 2.967,
	"step": 96570
	},
	{
	"epoch": 291.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.08096129447221756,
	"eval_runtime": 13.9986,
	"eval_samples_per_second": 714.359,
	"eval_steps_per_second": 2.857,
	"step": 96903
	},
	{
	"epoch": 291.29,
	"grad_norm": 6.7220892906188965,
	"learning_rate": 2.9029029029029035e-07,
	"loss": 0.12,
	"step": 97000
	},
	{
	"epoch": 292.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.08056668192148209,
	"eval_runtime": 13.2921,
	"eval_samples_per_second": 752.329,
	"eval_steps_per_second": 3.009,
	"step": 97236
	},
	{
	"epoch": 292.79,
	"grad_norm": 7.212859630584717,
	"learning_rate": 2.4024024024024026e-07,
	"loss": 0.1219,
	"step": 97500
	},
	{
	"epoch": 293.0,
	"eval_accuracy": 0.9816,
	"eval_loss": 0.08098697662353516,
	"eval_runtime": 13.5812,
	"eval_samples_per_second": 736.31,
	"eval_steps_per_second": 2.945,
	"step": 97569
	},
	{
	"epoch": 294.0,
	"eval_accuracy": 0.9815,
	"eval_loss": 0.08067005127668381,
	"eval_runtime": 12.9034,
	"eval_samples_per_second": 774.988,
	"eval_steps_per_second": 3.1,
	"step": 97902
	},
	{
	"epoch": 294.29,
	"grad_norm": 7.5087409019470215,
	"learning_rate": 1.9019019019019022e-07,
	"loss": 0.1202,
	"step": 98000
	},
	{
	"epoch": 295.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.08077917248010635,
	"eval_runtime": 13.4699,
	"eval_samples_per_second": 742.397,
	"eval_steps_per_second": 2.97,
	"step": 98235
	},
	{
	"epoch": 295.8,
	"grad_norm": 7.660182952880859,
	"learning_rate": 1.4014014014014016e-07,
	"loss": 0.1228,
	"step": 98500
	},
	{
	"epoch": 296.0,
	"eval_accuracy": 0.9815,
	"eval_loss": 0.0807722955942154,
	"eval_runtime": 13.0168,
	"eval_samples_per_second": 768.237,
	"eval_steps_per_second": 3.073,
	"step": 98568
	},
	{
	"epoch": 297.0,
	"eval_accuracy": 0.9813,
	"eval_loss": 0.08067157864570618,
	"eval_runtime": 13.4303,
	"eval_samples_per_second": 744.586,
	"eval_steps_per_second": 2.978,
	"step": 98901
	},
	{
	"epoch": 297.3,
	"grad_norm": 10.4266357421875,
	"learning_rate": 9.00900900900901e-08,
	"loss": 0.1212,
	"step": 99000
	},
	{
	"epoch": 298.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.08074088394641876,
	"eval_runtime": 12.8481,
	"eval_samples_per_second": 778.327,
	"eval_steps_per_second": 3.113,
	"step": 99234
	},
	{
	"epoch": 298.8,
	"grad_norm": 10.557640075683594,
	"learning_rate": 4.004004004004004e-08,
	"loss": 0.1214,
	"step": 99500
	},
	{
	"epoch": 299.0,
	"eval_accuracy": 0.9812,
	"eval_loss": 0.0807051733136177,
	"eval_runtime": 13.1178,
	"eval_samples_per_second": 762.323,
	"eval_steps_per_second": 3.049,
	"step": 99567
	},
	{
	"epoch": 300.0,
	"eval_accuracy": 0.981,
	"eval_loss": 0.08068788051605225,
	"eval_runtime": 12.9887,
	"eval_samples_per_second": 769.902,
	"eval_steps_per_second": 3.08,
	"step": 99900
	},
	{
	"epoch": 300.0,
	"step": 99900,
	"total_flos": 3.1698470226124734e+20,
	"train_loss": 0.17093151241451413,
	"train_runtime": 47820.897,
	"train_samples_per_second": 266.62,
	"train_steps_per_second": 2.089
	}
	],
	"logging_steps": 500,
	"max_steps": 99900,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 300,
	"save_steps": 500,
	"total_flos": 3.1698470226124734e+20,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}