Upload folder using huggingface_hub

d39a332 verified 5 months ago

134 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 531.25,
	"eval_steps": 500,
	"global_step": 8500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.625,
	"grad_norm": 0.9679650664329529,
	"learning_rate": 1.8e-07,
	"loss": 1.4147,
	"step": 10
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.9715470671653748,
	"learning_rate": 3.8e-07,
	"loss": 1.4102,
	"step": 20
	},
	{
	"epoch": 1.875,
	"grad_norm": 0.9312183260917664,
	"learning_rate": 5.8e-07,
	"loss": 1.4117,
	"step": 30
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.9487130641937256,
	"learning_rate": 7.8e-07,
	"loss": 1.4086,
	"step": 40
	},
	{
	"epoch": 3.125,
	"grad_norm": 0.8825913071632385,
	"learning_rate": 9.8e-07,
	"loss": 1.3962,
	"step": 50
	},
	{
	"epoch": 3.75,
	"grad_norm": 0.8918140530586243,
	"learning_rate": 1.18e-06,
	"loss": 1.3851,
	"step": 60
	},
	{
	"epoch": 4.375,
	"grad_norm": 0.8738917708396912,
	"learning_rate": 1.3800000000000001e-06,
	"loss": 1.3686,
	"step": 70
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.9906870126724243,
	"learning_rate": 1.5800000000000003e-06,
	"loss": 1.3532,
	"step": 80
	},
	{
	"epoch": 5.625,
	"grad_norm": 1.1455429792404175,
	"learning_rate": 1.7800000000000001e-06,
	"loss": 1.3182,
	"step": 90
	},
	{
	"epoch": 6.25,
	"grad_norm": 1.236258864402771,
	"learning_rate": 1.98e-06,
	"loss": 1.2925,
	"step": 100
	},
	{
	"epoch": 6.875,
	"grad_norm": 1.327654242515564,
	"learning_rate": 2.1800000000000003e-06,
	"loss": 1.258,
	"step": 110
	},
	{
	"epoch": 7.5,
	"grad_norm": 1.2924314737319946,
	"learning_rate": 2.38e-06,
	"loss": 1.2277,
	"step": 120
	},
	{
	"epoch": 8.125,
	"grad_norm": 1.167385220527649,
	"learning_rate": 2.5800000000000003e-06,
	"loss": 1.1915,
	"step": 130
	},
	{
	"epoch": 8.75,
	"grad_norm": 0.9448131322860718,
	"learning_rate": 2.78e-06,
	"loss": 1.1615,
	"step": 140
	},
	{
	"epoch": 9.375,
	"grad_norm": 0.6841535568237305,
	"learning_rate": 2.9800000000000003e-06,
	"loss": 1.1314,
	"step": 150
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.41633787751197815,
	"learning_rate": 3.1800000000000005e-06,
	"loss": 1.1138,
	"step": 160
	},
	{
	"epoch": 10.625,
	"grad_norm": 0.3072815537452698,
	"learning_rate": 3.38e-06,
	"loss": 1.1009,
	"step": 170
	},
	{
	"epoch": 11.25,
	"grad_norm": 0.28385525941848755,
	"learning_rate": 3.58e-06,
	"loss": 1.0909,
	"step": 180
	},
	{
	"epoch": 11.875,
	"grad_norm": 0.26593610644340515,
	"learning_rate": 3.7800000000000002e-06,
	"loss": 1.0844,
	"step": 190
	},
	{
	"epoch": 12.5,
	"grad_norm": 0.2532358169555664,
	"learning_rate": 3.98e-06,
	"loss": 1.0767,
	"step": 200
	},
	{
	"epoch": 13.125,
	"grad_norm": 0.2549743354320526,
	"learning_rate": 4.18e-06,
	"loss": 1.0693,
	"step": 210
	},
	{
	"epoch": 13.75,
	"grad_norm": 0.22734442353248596,
	"learning_rate": 4.38e-06,
	"loss": 1.0659,
	"step": 220
	},
	{
	"epoch": 14.375,
	"grad_norm": 0.22863343358039856,
	"learning_rate": 4.58e-06,
	"loss": 1.0584,
	"step": 230
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.22417008876800537,
	"learning_rate": 4.780000000000001e-06,
	"loss": 1.0538,
	"step": 240
	},
	{
	"epoch": 15.625,
	"grad_norm": 0.20044955611228943,
	"learning_rate": 4.98e-06,
	"loss": 1.0501,
	"step": 250
	},
	{
	"epoch": 16.25,
	"grad_norm": 0.20292679965496063,
	"learning_rate": 5.18e-06,
	"loss": 1.0471,
	"step": 260
	},
	{
	"epoch": 16.875,
	"grad_norm": 0.18847720324993134,
	"learning_rate": 5.38e-06,
	"loss": 1.0408,
	"step": 270
	},
	{
	"epoch": 17.5,
	"grad_norm": 0.16966596245765686,
	"learning_rate": 5.580000000000001e-06,
	"loss": 1.0372,
	"step": 280
	},
	{
	"epoch": 18.125,
	"grad_norm": 0.189141184091568,
	"learning_rate": 5.78e-06,
	"loss": 1.0352,
	"step": 290
	},
	{
	"epoch": 18.75,
	"grad_norm": 0.18442021310329437,
	"learning_rate": 5.98e-06,
	"loss": 1.0313,
	"step": 300
	},
	{
	"epoch": 19.375,
	"grad_norm": 0.1687787026166916,
	"learning_rate": 6.18e-06,
	"loss": 1.0297,
	"step": 310
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.20706340670585632,
	"learning_rate": 6.38e-06,
	"loss": 1.0266,
	"step": 320
	},
	{
	"epoch": 20.625,
	"grad_norm": 0.17096994817256927,
	"learning_rate": 6.58e-06,
	"loss": 1.0222,
	"step": 330
	},
	{
	"epoch": 21.25,
	"grad_norm": 0.18136513233184814,
	"learning_rate": 6.78e-06,
	"loss": 1.0181,
	"step": 340
	},
	{
	"epoch": 21.875,
	"grad_norm": 0.18053822219371796,
	"learning_rate": 6.98e-06,
	"loss": 1.0154,
	"step": 350
	},
	{
	"epoch": 22.5,
	"grad_norm": 0.2154332548379898,
	"learning_rate": 7.180000000000001e-06,
	"loss": 1.0116,
	"step": 360
	},
	{
	"epoch": 23.125,
	"grad_norm": 0.23920832574367523,
	"learning_rate": 7.3800000000000005e-06,
	"loss": 1.0056,
	"step": 370
	},
	{
	"epoch": 23.75,
	"grad_norm": 0.24692080914974213,
	"learning_rate": 7.580000000000001e-06,
	"loss": 0.9982,
	"step": 380
	},
	{
	"epoch": 24.375,
	"grad_norm": 0.32462307810783386,
	"learning_rate": 7.78e-06,
	"loss": 0.988,
	"step": 390
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.3690284788608551,
	"learning_rate": 7.98e-06,
	"loss": 0.9721,
	"step": 400
	},
	{
	"epoch": 25.625,
	"grad_norm": 0.44107159972190857,
	"learning_rate": 8.18e-06,
	"loss": 0.9429,
	"step": 410
	},
	{
	"epoch": 26.25,
	"grad_norm": 0.5854696035385132,
	"learning_rate": 8.380000000000001e-06,
	"loss": 0.8986,
	"step": 420
	},
	{
	"epoch": 26.875,
	"grad_norm": 0.7961719632148743,
	"learning_rate": 8.580000000000001e-06,
	"loss": 0.8538,
	"step": 430
	},
	{
	"epoch": 27.5,
	"grad_norm": 0.9634988307952881,
	"learning_rate": 8.78e-06,
	"loss": 0.8043,
	"step": 440
	},
	{
	"epoch": 28.125,
	"grad_norm": 0.8321980834007263,
	"learning_rate": 8.98e-06,
	"loss": 0.7597,
	"step": 450
	},
	{
	"epoch": 28.75,
	"grad_norm": 0.784283459186554,
	"learning_rate": 9.180000000000002e-06,
	"loss": 0.7166,
	"step": 460
	},
	{
	"epoch": 29.375,
	"grad_norm": 0.8551204800605774,
	"learning_rate": 9.38e-06,
	"loss": 0.6809,
	"step": 470
	},
	{
	"epoch": 30.0,
	"grad_norm": 0.774193525314331,
	"learning_rate": 9.58e-06,
	"loss": 0.6511,
	"step": 480
	},
	{
	"epoch": 30.625,
	"grad_norm": 0.8994619846343994,
	"learning_rate": 9.78e-06,
	"loss": 0.6267,
	"step": 490
	},
	{
	"epoch": 31.25,
	"grad_norm": 1.0884357690811157,
	"learning_rate": 9.980000000000001e-06,
	"loss": 0.6061,
	"step": 500
	},
	{
	"epoch": 31.875,
	"grad_norm": 1.0175591707229614,
	"learning_rate": 1.018e-05,
	"loss": 0.5858,
	"step": 510
	},
	{
	"epoch": 32.5,
	"grad_norm": 1.1407521963119507,
	"learning_rate": 1.038e-05,
	"loss": 0.5714,
	"step": 520
	},
	{
	"epoch": 33.125,
	"grad_norm": 1.042667269706726,
	"learning_rate": 1.058e-05,
	"loss": 0.5586,
	"step": 530
	},
	{
	"epoch": 33.75,
	"grad_norm": 0.9843167662620544,
	"learning_rate": 1.0780000000000002e-05,
	"loss": 0.5492,
	"step": 540
	},
	{
	"epoch": 34.375,
	"grad_norm": 1.0415880680084229,
	"learning_rate": 1.098e-05,
	"loss": 0.5431,
	"step": 550
	},
	{
	"epoch": 35.0,
	"grad_norm": 1.1198561191558838,
	"learning_rate": 1.118e-05,
	"loss": 0.5375,
	"step": 560
	},
	{
	"epoch": 35.625,
	"grad_norm": 1.2082597017288208,
	"learning_rate": 1.1380000000000001e-05,
	"loss": 0.5338,
	"step": 570
	},
	{
	"epoch": 36.25,
	"grad_norm": 1.2071870565414429,
	"learning_rate": 1.1580000000000001e-05,
	"loss": 0.5298,
	"step": 580
	},
	{
	"epoch": 36.875,
	"grad_norm": 1.3737869262695312,
	"learning_rate": 1.178e-05,
	"loss": 0.5287,
	"step": 590
	},
	{
	"epoch": 37.5,
	"grad_norm": 1.0583442449569702,
	"learning_rate": 1.198e-05,
	"loss": 0.5243,
	"step": 600
	},
	{
	"epoch": 38.125,
	"grad_norm": 1.0685936212539673,
	"learning_rate": 1.2180000000000002e-05,
	"loss": 0.5229,
	"step": 610
	},
	{
	"epoch": 38.75,
	"grad_norm": 1.2425378561019897,
	"learning_rate": 1.238e-05,
	"loss": 0.5215,
	"step": 620
	},
	{
	"epoch": 39.375,
	"grad_norm": 1.1828131675720215,
	"learning_rate": 1.258e-05,
	"loss": 0.5194,
	"step": 630
	},
	{
	"epoch": 40.0,
	"grad_norm": 1.0766721963882446,
	"learning_rate": 1.278e-05,
	"loss": 0.519,
	"step": 640
	},
	{
	"epoch": 40.625,
	"grad_norm": 1.0481817722320557,
	"learning_rate": 1.2980000000000001e-05,
	"loss": 0.5154,
	"step": 650
	},
	{
	"epoch": 41.25,
	"grad_norm": 1.0572658777236938,
	"learning_rate": 1.3180000000000001e-05,
	"loss": 0.5159,
	"step": 660
	},
	{
	"epoch": 41.875,
	"grad_norm": 1.203803539276123,
	"learning_rate": 1.338e-05,
	"loss": 0.5121,
	"step": 670
	},
	{
	"epoch": 42.5,
	"grad_norm": 0.872924268245697,
	"learning_rate": 1.358e-05,
	"loss": 0.512,
	"step": 680
	},
	{
	"epoch": 43.125,
	"grad_norm": 1.162695050239563,
	"learning_rate": 1.3780000000000002e-05,
	"loss": 0.5064,
	"step": 690
	},
	{
	"epoch": 43.75,
	"grad_norm": 1.1628501415252686,
	"learning_rate": 1.3980000000000002e-05,
	"loss": 0.5082,
	"step": 700
	},
	{
	"epoch": 44.375,
	"grad_norm": 1.217319369316101,
	"learning_rate": 1.4180000000000001e-05,
	"loss": 0.5067,
	"step": 710
	},
	{
	"epoch": 45.0,
	"grad_norm": 1.1384787559509277,
	"learning_rate": 1.4380000000000001e-05,
	"loss": 0.506,
	"step": 720
	},
	{
	"epoch": 45.625,
	"grad_norm": 1.2870819568634033,
	"learning_rate": 1.4580000000000003e-05,
	"loss": 0.505,
	"step": 730
	},
	{
	"epoch": 46.25,
	"grad_norm": 1.1514242887496948,
	"learning_rate": 1.4779999999999999e-05,
	"loss": 0.5064,
	"step": 740
	},
	{
	"epoch": 46.875,
	"grad_norm": 1.144319772720337,
	"learning_rate": 1.4979999999999999e-05,
	"loss": 0.5017,
	"step": 750
	},
	{
	"epoch": 47.5,
	"grad_norm": 1.22275710105896,
	"learning_rate": 1.518e-05,
	"loss": 0.5013,
	"step": 760
	},
	{
	"epoch": 48.125,
	"grad_norm": 1.118972659111023,
	"learning_rate": 1.538e-05,
	"loss": 0.4997,
	"step": 770
	},
	{
	"epoch": 48.75,
	"grad_norm": 1.051975965499878,
	"learning_rate": 1.558e-05,
	"loss": 0.5008,
	"step": 780
	},
	{
	"epoch": 49.375,
	"grad_norm": 1.4525421857833862,
	"learning_rate": 1.578e-05,
	"loss": 0.4996,
	"step": 790
	},
	{
	"epoch": 50.0,
	"grad_norm": 1.183190941810608,
	"learning_rate": 1.598e-05,
	"loss": 0.4963,
	"step": 800
	},
	{
	"epoch": 50.625,
	"grad_norm": 1.2612169981002808,
	"learning_rate": 1.618e-05,
	"loss": 0.4974,
	"step": 810
	},
	{
	"epoch": 51.25,
	"grad_norm": 0.9744483828544617,
	"learning_rate": 1.6380000000000002e-05,
	"loss": 0.4954,
	"step": 820
	},
	{
	"epoch": 51.875,
	"grad_norm": 1.1227869987487793,
	"learning_rate": 1.658e-05,
	"loss": 0.4959,
	"step": 830
	},
	{
	"epoch": 52.5,
	"grad_norm": 1.043039321899414,
	"learning_rate": 1.6780000000000002e-05,
	"loss": 0.4927,
	"step": 840
	},
	{
	"epoch": 53.125,
	"grad_norm": 1.2920984029769897,
	"learning_rate": 1.698e-05,
	"loss": 0.4918,
	"step": 850
	},
	{
	"epoch": 53.75,
	"grad_norm": 1.2774907350540161,
	"learning_rate": 1.718e-05,
	"loss": 0.4907,
	"step": 860
	},
	{
	"epoch": 54.375,
	"grad_norm": 1.1010966300964355,
	"learning_rate": 1.7380000000000003e-05,
	"loss": 0.4914,
	"step": 870
	},
	{
	"epoch": 55.0,
	"grad_norm": 1.0284886360168457,
	"learning_rate": 1.758e-05,
	"loss": 0.4873,
	"step": 880
	},
	{
	"epoch": 55.625,
	"grad_norm": 1.3238409757614136,
	"learning_rate": 1.7780000000000003e-05,
	"loss": 0.4883,
	"step": 890
	},
	{
	"epoch": 56.25,
	"grad_norm": 1.127139687538147,
	"learning_rate": 1.798e-05,
	"loss": 0.4871,
	"step": 900
	},
	{
	"epoch": 56.875,
	"grad_norm": 1.3855187892913818,
	"learning_rate": 1.818e-05,
	"loss": 0.4828,
	"step": 910
	},
	{
	"epoch": 57.5,
	"grad_norm": 1.536786437034607,
	"learning_rate": 1.838e-05,
	"loss": 0.4812,
	"step": 920
	},
	{
	"epoch": 58.125,
	"grad_norm": 2.120702028274536,
	"learning_rate": 1.858e-05,
	"loss": 0.4776,
	"step": 930
	},
	{
	"epoch": 58.75,
	"grad_norm": 1.6191856861114502,
	"learning_rate": 1.878e-05,
	"loss": 0.4761,
	"step": 940
	},
	{
	"epoch": 59.375,
	"grad_norm": 1.6021475791931152,
	"learning_rate": 1.898e-05,
	"loss": 0.4743,
	"step": 950
	},
	{
	"epoch": 60.0,
	"grad_norm": 1.604246735572815,
	"learning_rate": 1.918e-05,
	"loss": 0.4705,
	"step": 960
	},
	{
	"epoch": 60.625,
	"grad_norm": 3.4168691635131836,
	"learning_rate": 1.938e-05,
	"loss": 0.4732,
	"step": 970
	},
	{
	"epoch": 61.25,
	"grad_norm": 1.997071623802185,
	"learning_rate": 1.9580000000000002e-05,
	"loss": 0.4709,
	"step": 980
	},
	{
	"epoch": 61.875,
	"grad_norm": 2.351092576980591,
	"learning_rate": 1.978e-05,
	"loss": 0.4678,
	"step": 990
	},
	{
	"epoch": 62.5,
	"grad_norm": 1.9072397947311401,
	"learning_rate": 1.9980000000000002e-05,
	"loss": 0.469,
	"step": 1000
	},
	{
	"epoch": 63.125,
	"grad_norm": 1.777255892753601,
	"learning_rate": 2.0180000000000003e-05,
	"loss": 0.4642,
	"step": 1010
	},
	{
	"epoch": 63.75,
	"grad_norm": 1.3945808410644531,
	"learning_rate": 2.038e-05,
	"loss": 0.4613,
	"step": 1020
	},
	{
	"epoch": 64.375,
	"grad_norm": 1.5424234867095947,
	"learning_rate": 2.0580000000000003e-05,
	"loss": 0.4621,
	"step": 1030
	},
	{
	"epoch": 65.0,
	"grad_norm": 1.4399698972702026,
	"learning_rate": 2.078e-05,
	"loss": 0.4596,
	"step": 1040
	},
	{
	"epoch": 65.625,
	"grad_norm": 1.5211741924285889,
	"learning_rate": 2.098e-05,
	"loss": 0.4571,
	"step": 1050
	},
	{
	"epoch": 66.25,
	"grad_norm": 1.6879644393920898,
	"learning_rate": 2.118e-05,
	"loss": 0.4535,
	"step": 1060
	},
	{
	"epoch": 66.875,
	"grad_norm": 1.7169924974441528,
	"learning_rate": 2.138e-05,
	"loss": 0.4506,
	"step": 1070
	},
	{
	"epoch": 67.5,
	"grad_norm": 2.5419564247131348,
	"learning_rate": 2.158e-05,
	"loss": 0.4497,
	"step": 1080
	},
	{
	"epoch": 68.125,
	"grad_norm": 1.9424971342086792,
	"learning_rate": 2.178e-05,
	"loss": 0.446,
	"step": 1090
	},
	{
	"epoch": 68.75,
	"grad_norm": 4.030938148498535,
	"learning_rate": 2.198e-05,
	"loss": 0.4459,
	"step": 1100
	},
	{
	"epoch": 69.375,
	"grad_norm": 2.3670308589935303,
	"learning_rate": 2.218e-05,
	"loss": 0.4454,
	"step": 1110
	},
	{
	"epoch": 70.0,
	"grad_norm": 2.562795400619507,
	"learning_rate": 2.2380000000000003e-05,
	"loss": 0.4397,
	"step": 1120
	},
	{
	"epoch": 70.625,
	"grad_norm": 2.4600791931152344,
	"learning_rate": 2.258e-05,
	"loss": 0.4359,
	"step": 1130
	},
	{
	"epoch": 71.25,
	"grad_norm": 2.77167010307312,
	"learning_rate": 2.2780000000000002e-05,
	"loss": 0.4325,
	"step": 1140
	},
	{
	"epoch": 71.875,
	"grad_norm": 3.150618314743042,
	"learning_rate": 2.298e-05,
	"loss": 0.4285,
	"step": 1150
	},
	{
	"epoch": 72.5,
	"grad_norm": 2.5932984352111816,
	"learning_rate": 2.318e-05,
	"loss": 0.4247,
	"step": 1160
	},
	{
	"epoch": 73.125,
	"grad_norm": 2.8484175205230713,
	"learning_rate": 2.3380000000000003e-05,
	"loss": 0.4199,
	"step": 1170
	},
	{
	"epoch": 73.75,
	"grad_norm": 3.6509993076324463,
	"learning_rate": 2.358e-05,
	"loss": 0.4183,
	"step": 1180
	},
	{
	"epoch": 74.375,
	"grad_norm": 5.74982213973999,
	"learning_rate": 2.3780000000000003e-05,
	"loss": 0.4146,
	"step": 1190
	},
	{
	"epoch": 75.0,
	"grad_norm": 5.700360298156738,
	"learning_rate": 2.398e-05,
	"loss": 0.4322,
	"step": 1200
	},
	{
	"epoch": 75.625,
	"grad_norm": 3.3000857830047607,
	"learning_rate": 2.418e-05,
	"loss": 0.4228,
	"step": 1210
	},
	{
	"epoch": 76.25,
	"grad_norm": 2.5206165313720703,
	"learning_rate": 2.438e-05,
	"loss": 0.4072,
	"step": 1220
	},
	{
	"epoch": 76.875,
	"grad_norm": 4.3755083084106445,
	"learning_rate": 2.4580000000000002e-05,
	"loss": 0.4025,
	"step": 1230
	},
	{
	"epoch": 77.5,
	"grad_norm": 3.973033905029297,
	"learning_rate": 2.478e-05,
	"loss": 0.3953,
	"step": 1240
	},
	{
	"epoch": 78.125,
	"grad_norm": 3.5819246768951416,
	"learning_rate": 2.498e-05,
	"loss": 0.3909,
	"step": 1250
	},
	{
	"epoch": 78.75,
	"grad_norm": 3.183445930480957,
	"learning_rate": 2.5180000000000003e-05,
	"loss": 0.3852,
	"step": 1260
	},
	{
	"epoch": 79.375,
	"grad_norm": 3.4347057342529297,
	"learning_rate": 2.5380000000000004e-05,
	"loss": 0.3785,
	"step": 1270
	},
	{
	"epoch": 80.0,
	"grad_norm": 5.1768388748168945,
	"learning_rate": 2.5580000000000002e-05,
	"loss": 0.3717,
	"step": 1280
	},
	{
	"epoch": 80.625,
	"grad_norm": 3.9438490867614746,
	"learning_rate": 2.5779999999999997e-05,
	"loss": 0.3681,
	"step": 1290
	},
	{
	"epoch": 81.25,
	"grad_norm": 4.442440986633301,
	"learning_rate": 2.598e-05,
	"loss": 0.3571,
	"step": 1300
	},
	{
	"epoch": 81.875,
	"grad_norm": 5.6028900146484375,
	"learning_rate": 2.618e-05,
	"loss": 0.3553,
	"step": 1310
	},
	{
	"epoch": 82.5,
	"grad_norm": 5.537353038787842,
	"learning_rate": 2.6379999999999998e-05,
	"loss": 0.3515,
	"step": 1320
	},
	{
	"epoch": 83.125,
	"grad_norm": 6.435239315032959,
	"learning_rate": 2.658e-05,
	"loss": 0.3486,
	"step": 1330
	},
	{
	"epoch": 83.75,
	"grad_norm": 3.413828134536743,
	"learning_rate": 2.678e-05,
	"loss": 0.3373,
	"step": 1340
	},
	{
	"epoch": 84.375,
	"grad_norm": 3.34212327003479,
	"learning_rate": 2.698e-05,
	"loss": 0.3297,
	"step": 1350
	},
	{
	"epoch": 85.0,
	"grad_norm": 3.8223774433135986,
	"learning_rate": 2.718e-05,
	"loss": 0.322,
	"step": 1360
	},
	{
	"epoch": 85.625,
	"grad_norm": 4.211275577545166,
	"learning_rate": 2.738e-05,
	"loss": 0.314,
	"step": 1370
	},
	{
	"epoch": 86.25,
	"grad_norm": 5.035346984863281,
	"learning_rate": 2.758e-05,
	"loss": 0.3089,
	"step": 1380
	},
	{
	"epoch": 86.875,
	"grad_norm": 5.702706813812256,
	"learning_rate": 2.778e-05,
	"loss": 0.3017,
	"step": 1390
	},
	{
	"epoch": 87.5,
	"grad_norm": 3.9658496379852295,
	"learning_rate": 2.798e-05,
	"loss": 0.3002,
	"step": 1400
	},
	{
	"epoch": 88.125,
	"grad_norm": 3.6658170223236084,
	"learning_rate": 2.818e-05,
	"loss": 0.2877,
	"step": 1410
	},
	{
	"epoch": 88.75,
	"grad_norm": 4.639245986938477,
	"learning_rate": 2.8380000000000003e-05,
	"loss": 0.2773,
	"step": 1420
	},
	{
	"epoch": 89.375,
	"grad_norm": 4.7095947265625,
	"learning_rate": 2.858e-05,
	"loss": 0.2739,
	"step": 1430
	},
	{
	"epoch": 90.0,
	"grad_norm": 5.2461700439453125,
	"learning_rate": 2.8780000000000002e-05,
	"loss": 0.267,
	"step": 1440
	},
	{
	"epoch": 90.625,
	"grad_norm": 9.186333656311035,
	"learning_rate": 2.898e-05,
	"loss": 0.2638,
	"step": 1450
	},
	{
	"epoch": 91.25,
	"grad_norm": 5.92840051651001,
	"learning_rate": 2.9180000000000002e-05,
	"loss": 0.2639,
	"step": 1460
	},
	{
	"epoch": 91.875,
	"grad_norm": 4.675635814666748,
	"learning_rate": 2.9380000000000003e-05,
	"loss": 0.2485,
	"step": 1470
	},
	{
	"epoch": 92.5,
	"grad_norm": 4.761613845825195,
	"learning_rate": 2.958e-05,
	"loss": 0.2392,
	"step": 1480
	},
	{
	"epoch": 93.125,
	"grad_norm": 5.566701889038086,
	"learning_rate": 2.9780000000000003e-05,
	"loss": 0.2341,
	"step": 1490
	},
	{
	"epoch": 93.75,
	"grad_norm": 4.253500461578369,
	"learning_rate": 2.998e-05,
	"loss": 0.2222,
	"step": 1500
	},
	{
	"epoch": 94.375,
	"grad_norm": 4.602695465087891,
	"learning_rate": 3.0180000000000002e-05,
	"loss": 0.2183,
	"step": 1510
	},
	{
	"epoch": 95.0,
	"grad_norm": 5.938004493713379,
	"learning_rate": 3.0380000000000004e-05,
	"loss": 0.213,
	"step": 1520
	},
	{
	"epoch": 95.625,
	"grad_norm": 6.689606189727783,
	"learning_rate": 3.058e-05,
	"loss": 0.2123,
	"step": 1530
	},
	{
	"epoch": 96.25,
	"grad_norm": 5.87599515914917,
	"learning_rate": 3.078e-05,
	"loss": 0.2011,
	"step": 1540
	},
	{
	"epoch": 96.875,
	"grad_norm": 5.971210956573486,
	"learning_rate": 3.0980000000000005e-05,
	"loss": 0.1966,
	"step": 1550
	},
	{
	"epoch": 97.5,
	"grad_norm": 5.859025001525879,
	"learning_rate": 3.118e-05,
	"loss": 0.1946,
	"step": 1560
	},
	{
	"epoch": 98.125,
	"grad_norm": 5.950936317443848,
	"learning_rate": 3.138e-05,
	"loss": 0.1814,
	"step": 1570
	},
	{
	"epoch": 98.75,
	"grad_norm": 4.768659591674805,
	"learning_rate": 3.1580000000000006e-05,
	"loss": 0.1768,
	"step": 1580
	},
	{
	"epoch": 99.375,
	"grad_norm": 5.677441596984863,
	"learning_rate": 3.1780000000000004e-05,
	"loss": 0.1727,
	"step": 1590
	},
	{
	"epoch": 100.0,
	"grad_norm": 4.38816499710083,
	"learning_rate": 3.198e-05,
	"loss": 0.162,
	"step": 1600
	},
	{
	"epoch": 100.625,
	"grad_norm": 4.571051120758057,
	"learning_rate": 3.218e-05,
	"loss": 0.1606,
	"step": 1610
	},
	{
	"epoch": 101.25,
	"grad_norm": 6.406070709228516,
	"learning_rate": 3.238e-05,
	"loss": 0.1494,
	"step": 1620
	},
	{
	"epoch": 101.875,
	"grad_norm": 4.923046588897705,
	"learning_rate": 3.2579999999999996e-05,
	"loss": 0.1479,
	"step": 1630
	},
	{
	"epoch": 102.5,
	"grad_norm": 6.735141277313232,
	"learning_rate": 3.278e-05,
	"loss": 0.1468,
	"step": 1640
	},
	{
	"epoch": 103.125,
	"grad_norm": 5.201277732849121,
	"learning_rate": 3.298e-05,
	"loss": 0.137,
	"step": 1650
	},
	{
	"epoch": 103.75,
	"grad_norm": 5.127175331115723,
	"learning_rate": 3.318e-05,
	"loss": 0.1377,
	"step": 1660
	},
	{
	"epoch": 104.375,
	"grad_norm": 5.3002471923828125,
	"learning_rate": 3.338e-05,
	"loss": 0.1277,
	"step": 1670
	},
	{
	"epoch": 105.0,
	"grad_norm": 5.290287017822266,
	"learning_rate": 3.358e-05,
	"loss": 0.1224,
	"step": 1680
	},
	{
	"epoch": 105.625,
	"grad_norm": 6.6339311599731445,
	"learning_rate": 3.378e-05,
	"loss": 0.121,
	"step": 1690
	},
	{
	"epoch": 106.25,
	"grad_norm": 6.3351826667785645,
	"learning_rate": 3.398e-05,
	"loss": 0.1202,
	"step": 1700
	},
	{
	"epoch": 106.875,
	"grad_norm": 6.30771017074585,
	"learning_rate": 3.418e-05,
	"loss": 0.1182,
	"step": 1710
	},
	{
	"epoch": 107.5,
	"grad_norm": 5.454580307006836,
	"learning_rate": 3.438e-05,
	"loss": 0.1132,
	"step": 1720
	},
	{
	"epoch": 108.125,
	"grad_norm": 5.418821811676025,
	"learning_rate": 3.4580000000000004e-05,
	"loss": 0.1064,
	"step": 1730
	},
	{
	"epoch": 108.75,
	"grad_norm": 4.996350288391113,
	"learning_rate": 3.478e-05,
	"loss": 0.0993,
	"step": 1740
	},
	{
	"epoch": 109.375,
	"grad_norm": 6.961830139160156,
	"learning_rate": 3.498e-05,
	"loss": 0.0994,
	"step": 1750
	},
	{
	"epoch": 110.0,
	"grad_norm": 6.240096569061279,
	"learning_rate": 3.518e-05,
	"loss": 0.1032,
	"step": 1760
	},
	{
	"epoch": 110.625,
	"grad_norm": 5.9896111488342285,
	"learning_rate": 3.5380000000000003e-05,
	"loss": 0.0931,
	"step": 1770
	},
	{
	"epoch": 111.25,
	"grad_norm": 4.381375312805176,
	"learning_rate": 3.558e-05,
	"loss": 0.0899,
	"step": 1780
	},
	{
	"epoch": 111.875,
	"grad_norm": 4.847299098968506,
	"learning_rate": 3.578e-05,
	"loss": 0.0845,
	"step": 1790
	},
	{
	"epoch": 112.5,
	"grad_norm": 6.442471981048584,
	"learning_rate": 3.5980000000000004e-05,
	"loss": 0.0903,
	"step": 1800
	},
	{
	"epoch": 113.125,
	"grad_norm": 6.36176872253418,
	"learning_rate": 3.618e-05,
	"loss": 0.0871,
	"step": 1810
	},
	{
	"epoch": 113.75,
	"grad_norm": 5.581753730773926,
	"learning_rate": 3.638e-05,
	"loss": 0.0832,
	"step": 1820
	},
	{
	"epoch": 114.375,
	"grad_norm": 5.413025379180908,
	"learning_rate": 3.6580000000000006e-05,
	"loss": 0.0894,
	"step": 1830
	},
	{
	"epoch": 115.0,
	"grad_norm": 3.545975685119629,
	"learning_rate": 3.6780000000000004e-05,
	"loss": 0.0816,
	"step": 1840
	},
	{
	"epoch": 115.625,
	"grad_norm": 5.415703773498535,
	"learning_rate": 3.698e-05,
	"loss": 0.0847,
	"step": 1850
	},
	{
	"epoch": 116.25,
	"grad_norm": 5.82867956161499,
	"learning_rate": 3.7180000000000007e-05,
	"loss": 0.0781,
	"step": 1860
	},
	{
	"epoch": 116.875,
	"grad_norm": 6.405238151550293,
	"learning_rate": 3.7380000000000005e-05,
	"loss": 0.082,
	"step": 1870
	},
	{
	"epoch": 117.5,
	"grad_norm": 3.8289811611175537,
	"learning_rate": 3.758e-05,
	"loss": 0.0766,
	"step": 1880
	},
	{
	"epoch": 118.125,
	"grad_norm": 4.225410461425781,
	"learning_rate": 3.778000000000001e-05,
	"loss": 0.0753,
	"step": 1890
	},
	{
	"epoch": 118.75,
	"grad_norm": 3.565117120742798,
	"learning_rate": 3.7980000000000006e-05,
	"loss": 0.0714,
	"step": 1900
	},
	{
	"epoch": 119.375,
	"grad_norm": 4.679031848907471,
	"learning_rate": 3.818e-05,
	"loss": 0.0727,
	"step": 1910
	},
	{
	"epoch": 120.0,
	"grad_norm": 3.9762325286865234,
	"learning_rate": 3.838e-05,
	"loss": 0.0746,
	"step": 1920
	},
	{
	"epoch": 120.625,
	"grad_norm": 5.354043960571289,
	"learning_rate": 3.858e-05,
	"loss": 0.0715,
	"step": 1930
	},
	{
	"epoch": 121.25,
	"grad_norm": 4.858035564422607,
	"learning_rate": 3.878e-05,
	"loss": 0.0736,
	"step": 1940
	},
	{
	"epoch": 121.875,
	"grad_norm": 5.547657012939453,
	"learning_rate": 3.898e-05,
	"loss": 0.0747,
	"step": 1950
	},
	{
	"epoch": 122.5,
	"grad_norm": 4.109276294708252,
	"learning_rate": 3.918e-05,
	"loss": 0.0671,
	"step": 1960
	},
	{
	"epoch": 123.125,
	"grad_norm": 2.984168291091919,
	"learning_rate": 3.938e-05,
	"loss": 0.0675,
	"step": 1970
	},
	{
	"epoch": 123.75,
	"grad_norm": 3.5227620601654053,
	"learning_rate": 3.958e-05,
	"loss": 0.0704,
	"step": 1980
	},
	{
	"epoch": 124.375,
	"grad_norm": 4.113119125366211,
	"learning_rate": 3.978e-05,
	"loss": 0.0684,
	"step": 1990
	},
	{
	"epoch": 125.0,
	"grad_norm": 4.130417823791504,
	"learning_rate": 3.998e-05,
	"loss": 0.0696,
	"step": 2000
	},
	{
	"epoch": 125.625,
	"grad_norm": 4.076992034912109,
	"learning_rate": 4.018e-05,
	"loss": 0.0648,
	"step": 2010
	},
	{
	"epoch": 126.25,
	"grad_norm": 3.623624801635742,
	"learning_rate": 4.038e-05,
	"loss": 0.0634,
	"step": 2020
	},
	{
	"epoch": 126.875,
	"grad_norm": 3.0136911869049072,
	"learning_rate": 4.058e-05,
	"loss": 0.0619,
	"step": 2030
	},
	{
	"epoch": 127.5,
	"grad_norm": 2.3207767009735107,
	"learning_rate": 4.078e-05,
	"loss": 0.0602,
	"step": 2040
	},
	{
	"epoch": 128.125,
	"grad_norm": 6.006433963775635,
	"learning_rate": 4.0980000000000004e-05,
	"loss": 0.0618,
	"step": 2050
	},
	{
	"epoch": 128.75,
	"grad_norm": 4.211705684661865,
	"learning_rate": 4.118e-05,
	"loss": 0.0614,
	"step": 2060
	},
	{
	"epoch": 129.375,
	"grad_norm": 3.0991692543029785,
	"learning_rate": 4.138e-05,
	"loss": 0.0596,
	"step": 2070
	},
	{
	"epoch": 130.0,
	"grad_norm": 3.5333359241485596,
	"learning_rate": 4.1580000000000005e-05,
	"loss": 0.0594,
	"step": 2080
	},
	{
	"epoch": 130.625,
	"grad_norm": 2.464125394821167,
	"learning_rate": 4.178e-05,
	"loss": 0.0579,
	"step": 2090
	},
	{
	"epoch": 131.25,
	"grad_norm": 3.499553680419922,
	"learning_rate": 4.198e-05,
	"loss": 0.058,
	"step": 2100
	},
	{
	"epoch": 131.875,
	"grad_norm": 4.001912593841553,
	"learning_rate": 4.2180000000000006e-05,
	"loss": 0.0585,
	"step": 2110
	},
	{
	"epoch": 132.5,
	"grad_norm": 3.2040934562683105,
	"learning_rate": 4.2380000000000004e-05,
	"loss": 0.0597,
	"step": 2120
	},
	{
	"epoch": 133.125,
	"grad_norm": 3.650881767272949,
	"learning_rate": 4.258e-05,
	"loss": 0.0594,
	"step": 2130
	},
	{
	"epoch": 133.75,
	"grad_norm": 3.5435853004455566,
	"learning_rate": 4.278e-05,
	"loss": 0.0577,
	"step": 2140
	},
	{
	"epoch": 134.375,
	"grad_norm": 3.881361484527588,
	"learning_rate": 4.2980000000000005e-05,
	"loss": 0.0586,
	"step": 2150
	},
	{
	"epoch": 135.0,
	"grad_norm": 3.0621840953826904,
	"learning_rate": 4.318e-05,
	"loss": 0.0562,
	"step": 2160
	},
	{
	"epoch": 135.625,
	"grad_norm": 3.5643880367279053,
	"learning_rate": 4.338e-05,
	"loss": 0.0573,
	"step": 2170
	},
	{
	"epoch": 136.25,
	"grad_norm": 3.4029245376586914,
	"learning_rate": 4.3580000000000006e-05,
	"loss": 0.0538,
	"step": 2180
	},
	{
	"epoch": 136.875,
	"grad_norm": 2.941638469696045,
	"learning_rate": 4.3780000000000004e-05,
	"loss": 0.0518,
	"step": 2190
	},
	{
	"epoch": 137.5,
	"grad_norm": 3.19802188873291,
	"learning_rate": 4.398e-05,
	"loss": 0.0578,
	"step": 2200
	},
	{
	"epoch": 138.125,
	"grad_norm": 3.2176332473754883,
	"learning_rate": 4.418000000000001e-05,
	"loss": 0.0553,
	"step": 2210
	},
	{
	"epoch": 138.75,
	"grad_norm": 3.1325228214263916,
	"learning_rate": 4.438e-05,
	"loss": 0.0544,
	"step": 2220
	},
	{
	"epoch": 139.375,
	"grad_norm": 2.721820116043091,
	"learning_rate": 4.458e-05,
	"loss": 0.0537,
	"step": 2230
	},
	{
	"epoch": 140.0,
	"grad_norm": 2.2297821044921875,
	"learning_rate": 4.478e-05,
	"loss": 0.0536,
	"step": 2240
	},
	{
	"epoch": 140.625,
	"grad_norm": 3.736509323120117,
	"learning_rate": 4.498e-05,
	"loss": 0.0568,
	"step": 2250
	},
	{
	"epoch": 141.25,
	"grad_norm": 3.414687156677246,
	"learning_rate": 4.518e-05,
	"loss": 0.0535,
	"step": 2260
	},
	{
	"epoch": 141.875,
	"grad_norm": 3.533870220184326,
	"learning_rate": 4.538e-05,
	"loss": 0.0528,
	"step": 2270
	},
	{
	"epoch": 142.5,
	"grad_norm": 2.922818422317505,
	"learning_rate": 4.558e-05,
	"loss": 0.0509,
	"step": 2280
	},
	{
	"epoch": 143.125,
	"grad_norm": 3.248502731323242,
	"learning_rate": 4.578e-05,
	"loss": 0.0499,
	"step": 2290
	},
	{
	"epoch": 143.75,
	"grad_norm": 2.737330913543701,
	"learning_rate": 4.5980000000000004e-05,
	"loss": 0.0504,
	"step": 2300
	},
	{
	"epoch": 144.375,
	"grad_norm": 2.7490787506103516,
	"learning_rate": 4.618e-05,
	"loss": 0.0494,
	"step": 2310
	},
	{
	"epoch": 145.0,
	"grad_norm": 3.3917601108551025,
	"learning_rate": 4.638e-05,
	"loss": 0.0529,
	"step": 2320
	},
	{
	"epoch": 145.625,
	"grad_norm": 3.115227699279785,
	"learning_rate": 4.6580000000000005e-05,
	"loss": 0.0487,
	"step": 2330
	},
	{
	"epoch": 146.25,
	"grad_norm": 3.6642770767211914,
	"learning_rate": 4.678e-05,
	"loss": 0.0511,
	"step": 2340
	},
	{
	"epoch": 146.875,
	"grad_norm": 3.4796688556671143,
	"learning_rate": 4.698e-05,
	"loss": 0.048,
	"step": 2350
	},
	{
	"epoch": 147.5,
	"grad_norm": 2.7523436546325684,
	"learning_rate": 4.718e-05,
	"loss": 0.0478,
	"step": 2360
	},
	{
	"epoch": 148.125,
	"grad_norm": 3.309631824493408,
	"learning_rate": 4.7380000000000004e-05,
	"loss": 0.0489,
	"step": 2370
	},
	{
	"epoch": 148.75,
	"grad_norm": 3.5280392169952393,
	"learning_rate": 4.758e-05,
	"loss": 0.045,
	"step": 2380
	},
	{
	"epoch": 149.375,
	"grad_norm": 3.055738925933838,
	"learning_rate": 4.778e-05,
	"loss": 0.0443,
	"step": 2390
	},
	{
	"epoch": 150.0,
	"grad_norm": 2.935150146484375,
	"learning_rate": 4.7980000000000005e-05,
	"loss": 0.047,
	"step": 2400
	},
	{
	"epoch": 150.625,
	"grad_norm": 3.540233612060547,
	"learning_rate": 4.818e-05,
	"loss": 0.0483,
	"step": 2410
	},
	{
	"epoch": 151.25,
	"grad_norm": 3.3195087909698486,
	"learning_rate": 4.838e-05,
	"loss": 0.0461,
	"step": 2420
	},
	{
	"epoch": 151.875,
	"grad_norm": 3.5009474754333496,
	"learning_rate": 4.8580000000000006e-05,
	"loss": 0.0478,
	"step": 2430
	},
	{
	"epoch": 152.5,
	"grad_norm": 3.110968589782715,
	"learning_rate": 4.8780000000000004e-05,
	"loss": 0.0476,
	"step": 2440
	},
	{
	"epoch": 153.125,
	"grad_norm": 2.5114879608154297,
	"learning_rate": 4.898e-05,
	"loss": 0.0457,
	"step": 2450
	},
	{
	"epoch": 153.75,
	"grad_norm": 2.591670513153076,
	"learning_rate": 4.918000000000001e-05,
	"loss": 0.0425,
	"step": 2460
	},
	{
	"epoch": 154.375,
	"grad_norm": 2.149576187133789,
	"learning_rate": 4.9380000000000005e-05,
	"loss": 0.0432,
	"step": 2470
	},
	{
	"epoch": 155.0,
	"grad_norm": 2.866494655609131,
	"learning_rate": 4.958e-05,
	"loss": 0.047,
	"step": 2480
	},
	{
	"epoch": 155.625,
	"grad_norm": 3.465266227722168,
	"learning_rate": 4.978e-05,
	"loss": 0.0458,
	"step": 2490
	},
	{
	"epoch": 156.25,
	"grad_norm": 2.855782985687256,
	"learning_rate": 4.9980000000000006e-05,
	"loss": 0.043,
	"step": 2500
	},
	{
	"epoch": 156.875,
	"grad_norm": 2.906052350997925,
	"learning_rate": 5.0180000000000004e-05,
	"loss": 0.042,
	"step": 2510
	},
	{
	"epoch": 157.5,
	"grad_norm": 3.16371488571167,
	"learning_rate": 5.038e-05,
	"loss": 0.0427,
	"step": 2520
	},
	{
	"epoch": 158.125,
	"grad_norm": 2.54278826713562,
	"learning_rate": 5.058000000000001e-05,
	"loss": 0.0433,
	"step": 2530
	},
	{
	"epoch": 158.75,
	"grad_norm": 2.1072380542755127,
	"learning_rate": 5.0780000000000005e-05,
	"loss": 0.0378,
	"step": 2540
	},
	{
	"epoch": 159.375,
	"grad_norm": 2.749347448348999,
	"learning_rate": 5.098e-05,
	"loss": 0.0412,
	"step": 2550
	},
	{
	"epoch": 160.0,
	"grad_norm": 3.022982120513916,
	"learning_rate": 5.118000000000001e-05,
	"loss": 0.0413,
	"step": 2560
	},
	{
	"epoch": 160.625,
	"grad_norm": 3.038039207458496,
	"learning_rate": 5.1380000000000006e-05,
	"loss": 0.0418,
	"step": 2570
	},
	{
	"epoch": 161.25,
	"grad_norm": 2.538886070251465,
	"learning_rate": 5.1580000000000004e-05,
	"loss": 0.0407,
	"step": 2580
	},
	{
	"epoch": 161.875,
	"grad_norm": 2.79771089553833,
	"learning_rate": 5.178000000000001e-05,
	"loss": 0.0421,
	"step": 2590
	},
	{
	"epoch": 162.5,
	"grad_norm": 2.6892521381378174,
	"learning_rate": 5.198000000000001e-05,
	"loss": 0.0408,
	"step": 2600
	},
	{
	"epoch": 163.125,
	"grad_norm": 2.829843759536743,
	"learning_rate": 5.2180000000000005e-05,
	"loss": 0.0386,
	"step": 2610
	},
	{
	"epoch": 163.75,
	"grad_norm": 2.272169828414917,
	"learning_rate": 5.238000000000001e-05,
	"loss": 0.0392,
	"step": 2620
	},
	{
	"epoch": 164.375,
	"grad_norm": 2.683228015899658,
	"learning_rate": 5.258000000000001e-05,
	"loss": 0.0403,
	"step": 2630
	},
	{
	"epoch": 165.0,
	"grad_norm": 2.4979324340820312,
	"learning_rate": 5.2780000000000006e-05,
	"loss": 0.0412,
	"step": 2640
	},
	{
	"epoch": 165.625,
	"grad_norm": 2.7030258178710938,
	"learning_rate": 5.2980000000000004e-05,
	"loss": 0.0386,
	"step": 2650
	},
	{
	"epoch": 166.25,
	"grad_norm": 2.9168074131011963,
	"learning_rate": 5.318000000000001e-05,
	"loss": 0.041,
	"step": 2660
	},
	{
	"epoch": 166.875,
	"grad_norm": 2.2548749446868896,
	"learning_rate": 5.338000000000001e-05,
	"loss": 0.0386,
	"step": 2670
	},
	{
	"epoch": 167.5,
	"grad_norm": 2.6179001331329346,
	"learning_rate": 5.3580000000000005e-05,
	"loss": 0.0399,
	"step": 2680
	},
	{
	"epoch": 168.125,
	"grad_norm": 3.1817469596862793,
	"learning_rate": 5.378e-05,
	"loss": 0.0391,
	"step": 2690
	},
	{
	"epoch": 168.75,
	"grad_norm": 2.606260061264038,
	"learning_rate": 5.3979999999999995e-05,
	"loss": 0.0358,
	"step": 2700
	},
	{
	"epoch": 169.375,
	"grad_norm": 2.6046321392059326,
	"learning_rate": 5.418e-05,
	"loss": 0.0366,
	"step": 2710
	},
	{
	"epoch": 170.0,
	"grad_norm": 2.150594711303711,
	"learning_rate": 5.438e-05,
	"loss": 0.0366,
	"step": 2720
	},
	{
	"epoch": 170.625,
	"grad_norm": 1.9119679927825928,
	"learning_rate": 5.4579999999999996e-05,
	"loss": 0.0359,
	"step": 2730
	},
	{
	"epoch": 171.25,
	"grad_norm": 2.6968297958374023,
	"learning_rate": 5.478e-05,
	"loss": 0.0358,
	"step": 2740
	},
	{
	"epoch": 171.875,
	"grad_norm": 2.433364152908325,
	"learning_rate": 5.498e-05,
	"loss": 0.0396,
	"step": 2750
	},
	{
	"epoch": 172.5,
	"grad_norm": 2.7723114490509033,
	"learning_rate": 5.518e-05,
	"loss": 0.0369,
	"step": 2760
	},
	{
	"epoch": 173.125,
	"grad_norm": 1.9324524402618408,
	"learning_rate": 5.538e-05,
	"loss": 0.0366,
	"step": 2770
	},
	{
	"epoch": 173.75,
	"grad_norm": 2.4898505210876465,
	"learning_rate": 5.558e-05,
	"loss": 0.0357,
	"step": 2780
	},
	{
	"epoch": 174.375,
	"grad_norm": 3.377042293548584,
	"learning_rate": 5.578e-05,
	"loss": 0.0356,
	"step": 2790
	},
	{
	"epoch": 175.0,
	"grad_norm": 2.3189809322357178,
	"learning_rate": 5.5979999999999996e-05,
	"loss": 0.0383,
	"step": 2800
	},
	{
	"epoch": 175.625,
	"grad_norm": 2.4106035232543945,
	"learning_rate": 5.618e-05,
	"loss": 0.0377,
	"step": 2810
	},
	{
	"epoch": 176.25,
	"grad_norm": 2.3675427436828613,
	"learning_rate": 5.638e-05,
	"loss": 0.034,
	"step": 2820
	},
	{
	"epoch": 176.875,
	"grad_norm": 2.3263936042785645,
	"learning_rate": 5.658e-05,
	"loss": 0.0329,
	"step": 2830
	},
	{
	"epoch": 177.5,
	"grad_norm": 2.6326184272766113,
	"learning_rate": 5.678e-05,
	"loss": 0.0372,
	"step": 2840
	},
	{
	"epoch": 178.125,
	"grad_norm": 2.5026683807373047,
	"learning_rate": 5.698e-05,
	"loss": 0.0384,
	"step": 2850
	},
	{
	"epoch": 178.75,
	"grad_norm": 2.7007641792297363,
	"learning_rate": 5.718e-05,
	"loss": 0.0345,
	"step": 2860
	},
	{
	"epoch": 179.375,
	"grad_norm": 2.948171854019165,
	"learning_rate": 5.738e-05,
	"loss": 0.0371,
	"step": 2870
	},
	{
	"epoch": 180.0,
	"grad_norm": 2.368053674697876,
	"learning_rate": 5.758e-05,
	"loss": 0.0358,
	"step": 2880
	},
	{
	"epoch": 180.625,
	"grad_norm": 2.625312328338623,
	"learning_rate": 5.778e-05,
	"loss": 0.0382,
	"step": 2890
	},
	{
	"epoch": 181.25,
	"grad_norm": 2.2241172790527344,
	"learning_rate": 5.7980000000000004e-05,
	"loss": 0.0346,
	"step": 2900
	},
	{
	"epoch": 181.875,
	"grad_norm": 2.2202515602111816,
	"learning_rate": 5.818e-05,
	"loss": 0.0391,
	"step": 2910
	},
	{
	"epoch": 182.5,
	"grad_norm": 2.5838396549224854,
	"learning_rate": 5.838e-05,
	"loss": 0.0332,
	"step": 2920
	},
	{
	"epoch": 183.125,
	"grad_norm": 2.4340357780456543,
	"learning_rate": 5.858e-05,
	"loss": 0.0341,
	"step": 2930
	},
	{
	"epoch": 183.75,
	"grad_norm": 3.3191001415252686,
	"learning_rate": 5.878e-05,
	"loss": 0.0372,
	"step": 2940
	},
	{
	"epoch": 184.375,
	"grad_norm": 2.798825263977051,
	"learning_rate": 5.898e-05,
	"loss": 0.0344,
	"step": 2950
	},
	{
	"epoch": 185.0,
	"grad_norm": 2.0992839336395264,
	"learning_rate": 5.918e-05,
	"loss": 0.0364,
	"step": 2960
	},
	{
	"epoch": 185.625,
	"grad_norm": 2.3140695095062256,
	"learning_rate": 5.9380000000000004e-05,
	"loss": 0.0345,
	"step": 2970
	},
	{
	"epoch": 186.25,
	"grad_norm": 2.1252496242523193,
	"learning_rate": 5.958e-05,
	"loss": 0.0341,
	"step": 2980
	},
	{
	"epoch": 186.875,
	"grad_norm": 1.9925975799560547,
	"learning_rate": 5.978e-05,
	"loss": 0.0371,
	"step": 2990
	},
	{
	"epoch": 187.5,
	"grad_norm": 1.8534867763519287,
	"learning_rate": 5.9980000000000005e-05,
	"loss": 0.0324,
	"step": 3000
	},
	{
	"epoch": 188.125,
	"grad_norm": 1.8940081596374512,
	"learning_rate": 6.018e-05,
	"loss": 0.0313,
	"step": 3010
	},
	{
	"epoch": 188.75,
	"grad_norm": 3.098815679550171,
	"learning_rate": 6.038e-05,
	"loss": 0.0316,
	"step": 3020
	},
	{
	"epoch": 189.375,
	"grad_norm": 2.562849521636963,
	"learning_rate": 6.0580000000000006e-05,
	"loss": 0.034,
	"step": 3030
	},
	{
	"epoch": 190.0,
	"grad_norm": 2.3118202686309814,
	"learning_rate": 6.0780000000000004e-05,
	"loss": 0.0324,
	"step": 3040
	},
	{
	"epoch": 190.625,
	"grad_norm": 1.8349565267562866,
	"learning_rate": 6.098e-05,
	"loss": 0.0316,
	"step": 3050
	},
	{
	"epoch": 191.25,
	"grad_norm": 2.3919525146484375,
	"learning_rate": 6.118000000000001e-05,
	"loss": 0.0341,
	"step": 3060
	},
	{
	"epoch": 191.875,
	"grad_norm": 2.795734405517578,
	"learning_rate": 6.138e-05,
	"loss": 0.0321,
	"step": 3070
	},
	{
	"epoch": 192.5,
	"grad_norm": 2.4285318851470947,
	"learning_rate": 6.158e-05,
	"loss": 0.0338,
	"step": 3080
	},
	{
	"epoch": 193.125,
	"grad_norm": 2.724107265472412,
	"learning_rate": 6.178000000000001e-05,
	"loss": 0.0325,
	"step": 3090
	},
	{
	"epoch": 193.75,
	"grad_norm": 2.212014675140381,
	"learning_rate": 6.198e-05,
	"loss": 0.0297,
	"step": 3100
	},
	{
	"epoch": 194.375,
	"grad_norm": 1.8803651332855225,
	"learning_rate": 6.218e-05,
	"loss": 0.0298,
	"step": 3110
	},
	{
	"epoch": 195.0,
	"grad_norm": 1.7469961643218994,
	"learning_rate": 6.238000000000001e-05,
	"loss": 0.0291,
	"step": 3120
	},
	{
	"epoch": 195.625,
	"grad_norm": 2.5273945331573486,
	"learning_rate": 6.258e-05,
	"loss": 0.0309,
	"step": 3130
	},
	{
	"epoch": 196.25,
	"grad_norm": 2.398287773132324,
	"learning_rate": 6.278e-05,
	"loss": 0.0317,
	"step": 3140
	},
	{
	"epoch": 196.875,
	"grad_norm": 1.9407683610916138,
	"learning_rate": 6.298000000000001e-05,
	"loss": 0.0299,
	"step": 3150
	},
	{
	"epoch": 197.5,
	"grad_norm": 1.6159769296646118,
	"learning_rate": 6.318e-05,
	"loss": 0.0286,
	"step": 3160
	},
	{
	"epoch": 198.125,
	"grad_norm": 2.744300603866577,
	"learning_rate": 6.338e-05,
	"loss": 0.0303,
	"step": 3170
	},
	{
	"epoch": 198.75,
	"grad_norm": 2.6293482780456543,
	"learning_rate": 6.358000000000001e-05,
	"loss": 0.0328,
	"step": 3180
	},
	{
	"epoch": 199.375,
	"grad_norm": 2.2811481952667236,
	"learning_rate": 6.378e-05,
	"loss": 0.0328,
	"step": 3190
	},
	{
	"epoch": 200.0,
	"grad_norm": 2.951794385910034,
	"learning_rate": 6.398000000000001e-05,
	"loss": 0.033,
	"step": 3200
	},
	{
	"epoch": 200.625,
	"grad_norm": 2.3573927879333496,
	"learning_rate": 6.418000000000001e-05,
	"loss": 0.0312,
	"step": 3210
	},
	{
	"epoch": 201.25,
	"grad_norm": 2.088592529296875,
	"learning_rate": 6.438e-05,
	"loss": 0.0314,
	"step": 3220
	},
	{
	"epoch": 201.875,
	"grad_norm": 2.646054983139038,
	"learning_rate": 6.458000000000001e-05,
	"loss": 0.0295,
	"step": 3230
	},
	{
	"epoch": 202.5,
	"grad_norm": 2.5917739868164062,
	"learning_rate": 6.478000000000001e-05,
	"loss": 0.032,
	"step": 3240
	},
	{
	"epoch": 203.125,
	"grad_norm": 2.122236490249634,
	"learning_rate": 6.498e-05,
	"loss": 0.0306,
	"step": 3250
	},
	{
	"epoch": 203.75,
	"grad_norm": 2.2258174419403076,
	"learning_rate": 6.518000000000001e-05,
	"loss": 0.0289,
	"step": 3260
	},
	{
	"epoch": 204.375,
	"grad_norm": 2.1164627075195312,
	"learning_rate": 6.538000000000001e-05,
	"loss": 0.0298,
	"step": 3270
	},
	{
	"epoch": 205.0,
	"grad_norm": 2.397019386291504,
	"learning_rate": 6.558e-05,
	"loss": 0.0298,
	"step": 3280
	},
	{
	"epoch": 205.625,
	"grad_norm": 2.260453701019287,
	"learning_rate": 6.578000000000001e-05,
	"loss": 0.0279,
	"step": 3290
	},
	{
	"epoch": 206.25,
	"grad_norm": 2.1338107585906982,
	"learning_rate": 6.598e-05,
	"loss": 0.0292,
	"step": 3300
	},
	{
	"epoch": 206.875,
	"grad_norm": 1.875387191772461,
	"learning_rate": 6.618e-05,
	"loss": 0.0276,
	"step": 3310
	},
	{
	"epoch": 207.5,
	"grad_norm": 1.619683027267456,
	"learning_rate": 6.638e-05,
	"loss": 0.0286,
	"step": 3320
	},
	{
	"epoch": 208.125,
	"grad_norm": 2.5062685012817383,
	"learning_rate": 6.658e-05,
	"loss": 0.031,
	"step": 3330
	},
	{
	"epoch": 208.75,
	"grad_norm": 2.3004539012908936,
	"learning_rate": 6.678e-05,
	"loss": 0.0305,
	"step": 3340
	},
	{
	"epoch": 209.375,
	"grad_norm": 2.2835469245910645,
	"learning_rate": 6.698e-05,
	"loss": 0.0281,
	"step": 3350
	},
	{
	"epoch": 210.0,
	"grad_norm": 2.0576257705688477,
	"learning_rate": 6.718e-05,
	"loss": 0.0318,
	"step": 3360
	},
	{
	"epoch": 210.625,
	"grad_norm": 2.0494043827056885,
	"learning_rate": 6.738e-05,
	"loss": 0.0284,
	"step": 3370
	},
	{
	"epoch": 211.25,
	"grad_norm": 1.5460221767425537,
	"learning_rate": 6.758e-05,
	"loss": 0.0274,
	"step": 3380
	},
	{
	"epoch": 211.875,
	"grad_norm": 2.422177791595459,
	"learning_rate": 6.778e-05,
	"loss": 0.0287,
	"step": 3390
	},
	{
	"epoch": 212.5,
	"grad_norm": 2.38964581489563,
	"learning_rate": 6.798e-05,
	"loss": 0.0329,
	"step": 3400
	},
	{
	"epoch": 213.125,
	"grad_norm": 2.0634000301361084,
	"learning_rate": 6.818e-05,
	"loss": 0.0273,
	"step": 3410
	},
	{
	"epoch": 213.75,
	"grad_norm": 2.5334651470184326,
	"learning_rate": 6.838e-05,
	"loss": 0.0312,
	"step": 3420
	},
	{
	"epoch": 214.375,
	"grad_norm": 2.527052402496338,
	"learning_rate": 6.858e-05,
	"loss": 0.0297,
	"step": 3430
	},
	{
	"epoch": 215.0,
	"grad_norm": 2.3704299926757812,
	"learning_rate": 6.878e-05,
	"loss": 0.0313,
	"step": 3440
	},
	{
	"epoch": 215.625,
	"grad_norm": 1.926483154296875,
	"learning_rate": 6.898e-05,
	"loss": 0.0256,
	"step": 3450
	},
	{
	"epoch": 216.25,
	"grad_norm": 1.56046724319458,
	"learning_rate": 6.918e-05,
	"loss": 0.0278,
	"step": 3460
	},
	{
	"epoch": 216.875,
	"grad_norm": 1.8307677507400513,
	"learning_rate": 6.938e-05,
	"loss": 0.0269,
	"step": 3470
	},
	{
	"epoch": 217.5,
	"grad_norm": 1.9908180236816406,
	"learning_rate": 6.958e-05,
	"loss": 0.0276,
	"step": 3480
	},
	{
	"epoch": 218.125,
	"grad_norm": 2.067988395690918,
	"learning_rate": 6.978e-05,
	"loss": 0.0268,
	"step": 3490
	},
	{
	"epoch": 218.75,
	"grad_norm": 1.8545929193496704,
	"learning_rate": 6.998e-05,
	"loss": 0.0268,
	"step": 3500
	},
	{
	"epoch": 219.375,
	"grad_norm": 2.052927017211914,
	"learning_rate": 7.018e-05,
	"loss": 0.0253,
	"step": 3510
	},
	{
	"epoch": 220.0,
	"grad_norm": 2.1113545894622803,
	"learning_rate": 7.038e-05,
	"loss": 0.0245,
	"step": 3520
	},
	{
	"epoch": 220.625,
	"grad_norm": 1.541675329208374,
	"learning_rate": 7.058e-05,
	"loss": 0.0253,
	"step": 3530
	},
	{
	"epoch": 221.25,
	"grad_norm": 1.7272151708602905,
	"learning_rate": 7.078e-05,
	"loss": 0.0251,
	"step": 3540
	},
	{
	"epoch": 221.875,
	"grad_norm": 1.7178980112075806,
	"learning_rate": 7.098e-05,
	"loss": 0.026,
	"step": 3550
	},
	{
	"epoch": 222.5,
	"grad_norm": 2.246424913406372,
	"learning_rate": 7.118e-05,
	"loss": 0.0267,
	"step": 3560
	},
	{
	"epoch": 223.125,
	"grad_norm": 1.9230071306228638,
	"learning_rate": 7.138e-05,
	"loss": 0.0268,
	"step": 3570
	},
	{
	"epoch": 223.75,
	"grad_norm": 1.9361920356750488,
	"learning_rate": 7.158e-05,
	"loss": 0.0268,
	"step": 3580
	},
	{
	"epoch": 224.375,
	"grad_norm": 1.6865476369857788,
	"learning_rate": 7.178000000000001e-05,
	"loss": 0.0248,
	"step": 3590
	},
	{
	"epoch": 225.0,
	"grad_norm": 2.019584894180298,
	"learning_rate": 7.198e-05,
	"loss": 0.0258,
	"step": 3600
	},
	{
	"epoch": 225.625,
	"grad_norm": 1.8740990161895752,
	"learning_rate": 7.218e-05,
	"loss": 0.0243,
	"step": 3610
	},
	{
	"epoch": 226.25,
	"grad_norm": 2.088883399963379,
	"learning_rate": 7.238000000000001e-05,
	"loss": 0.0253,
	"step": 3620
	},
	{
	"epoch": 226.875,
	"grad_norm": 2.107874870300293,
	"learning_rate": 7.258e-05,
	"loss": 0.0265,
	"step": 3630
	},
	{
	"epoch": 227.5,
	"grad_norm": 1.690873622894287,
	"learning_rate": 7.278e-05,
	"loss": 0.0262,
	"step": 3640
	},
	{
	"epoch": 228.125,
	"grad_norm": 2.7033252716064453,
	"learning_rate": 7.298000000000001e-05,
	"loss": 0.025,
	"step": 3650
	},
	{
	"epoch": 228.75,
	"grad_norm": 1.91816246509552,
	"learning_rate": 7.318e-05,
	"loss": 0.0265,
	"step": 3660
	},
	{
	"epoch": 229.375,
	"grad_norm": 1.9548629522323608,
	"learning_rate": 7.338e-05,
	"loss": 0.0251,
	"step": 3670
	},
	{
	"epoch": 230.0,
	"grad_norm": 1.911120891571045,
	"learning_rate": 7.358000000000001e-05,
	"loss": 0.0245,
	"step": 3680
	},
	{
	"epoch": 230.625,
	"grad_norm": 1.6720895767211914,
	"learning_rate": 7.378e-05,
	"loss": 0.0252,
	"step": 3690
	},
	{
	"epoch": 231.25,
	"grad_norm": 1.9147329330444336,
	"learning_rate": 7.398e-05,
	"loss": 0.0247,
	"step": 3700
	},
	{
	"epoch": 231.875,
	"grad_norm": 2.1456077098846436,
	"learning_rate": 7.418000000000001e-05,
	"loss": 0.0252,
	"step": 3710
	},
	{
	"epoch": 232.5,
	"grad_norm": 1.9418590068817139,
	"learning_rate": 7.438e-05,
	"loss": 0.0257,
	"step": 3720
	},
	{
	"epoch": 233.125,
	"grad_norm": 1.9458227157592773,
	"learning_rate": 7.458000000000001e-05,
	"loss": 0.0271,
	"step": 3730
	},
	{
	"epoch": 233.75,
	"grad_norm": 1.9564207792282104,
	"learning_rate": 7.478e-05,
	"loss": 0.0262,
	"step": 3740
	},
	{
	"epoch": 234.375,
	"grad_norm": 1.4478167295455933,
	"learning_rate": 7.498e-05,
	"loss": 0.0254,
	"step": 3750
	},
	{
	"epoch": 235.0,
	"grad_norm": 2.14218807220459,
	"learning_rate": 7.518000000000001e-05,
	"loss": 0.0251,
	"step": 3760
	},
	{
	"epoch": 235.625,
	"grad_norm": 2.029665946960449,
	"learning_rate": 7.538e-05,
	"loss": 0.0276,
	"step": 3770
	},
	{
	"epoch": 236.25,
	"grad_norm": 1.8243962526321411,
	"learning_rate": 7.558e-05,
	"loss": 0.0267,
	"step": 3780
	},
	{
	"epoch": 236.875,
	"grad_norm": 1.6162742376327515,
	"learning_rate": 7.578000000000001e-05,
	"loss": 0.0224,
	"step": 3790
	},
	{
	"epoch": 237.5,
	"grad_norm": 2.0405139923095703,
	"learning_rate": 7.598e-05,
	"loss": 0.0248,
	"step": 3800
	},
	{
	"epoch": 238.125,
	"grad_norm": 1.9894390106201172,
	"learning_rate": 7.618e-05,
	"loss": 0.0239,
	"step": 3810
	},
	{
	"epoch": 238.75,
	"grad_norm": 1.7805562019348145,
	"learning_rate": 7.638000000000001e-05,
	"loss": 0.0245,
	"step": 3820
	},
	{
	"epoch": 239.375,
	"grad_norm": 2.0249173641204834,
	"learning_rate": 7.658e-05,
	"loss": 0.0221,
	"step": 3830
	},
	{
	"epoch": 240.0,
	"grad_norm": 1.8023134469985962,
	"learning_rate": 7.678000000000001e-05,
	"loss": 0.0234,
	"step": 3840
	},
	{
	"epoch": 240.625,
	"grad_norm": 1.5592528581619263,
	"learning_rate": 7.698000000000001e-05,
	"loss": 0.0245,
	"step": 3850
	},
	{
	"epoch": 241.25,
	"grad_norm": 2.1557257175445557,
	"learning_rate": 7.718e-05,
	"loss": 0.0243,
	"step": 3860
	},
	{
	"epoch": 241.875,
	"grad_norm": 1.9655349254608154,
	"learning_rate": 7.738000000000001e-05,
	"loss": 0.0223,
	"step": 3870
	},
	{
	"epoch": 242.5,
	"grad_norm": 1.616184115409851,
	"learning_rate": 7.758000000000001e-05,
	"loss": 0.0249,
	"step": 3880
	},
	{
	"epoch": 243.125,
	"grad_norm": 2.146557331085205,
	"learning_rate": 7.778e-05,
	"loss": 0.0243,
	"step": 3890
	},
	{
	"epoch": 243.75,
	"grad_norm": 1.6077772378921509,
	"learning_rate": 7.798000000000001e-05,
	"loss": 0.0237,
	"step": 3900
	},
	{
	"epoch": 244.375,
	"grad_norm": 2.073211431503296,
	"learning_rate": 7.818000000000001e-05,
	"loss": 0.0211,
	"step": 3910
	},
	{
	"epoch": 245.0,
	"grad_norm": 1.7445831298828125,
	"learning_rate": 7.838e-05,
	"loss": 0.0225,
	"step": 3920
	},
	{
	"epoch": 245.625,
	"grad_norm": 1.5558561086654663,
	"learning_rate": 7.858000000000001e-05,
	"loss": 0.0215,
	"step": 3930
	},
	{
	"epoch": 246.25,
	"grad_norm": 1.4040555953979492,
	"learning_rate": 7.878e-05,
	"loss": 0.0219,
	"step": 3940
	},
	{
	"epoch": 246.875,
	"grad_norm": 1.6972527503967285,
	"learning_rate": 7.897999999999999e-05,
	"loss": 0.0247,
	"step": 3950
	},
	{
	"epoch": 247.5,
	"grad_norm": 1.862613320350647,
	"learning_rate": 7.918e-05,
	"loss": 0.0235,
	"step": 3960
	},
	{
	"epoch": 248.125,
	"grad_norm": 1.9567930698394775,
	"learning_rate": 7.938e-05,
	"loss": 0.0243,
	"step": 3970
	},
	{
	"epoch": 248.75,
	"grad_norm": 1.8193110227584839,
	"learning_rate": 7.958e-05,
	"loss": 0.0232,
	"step": 3980
	},
	{
	"epoch": 249.375,
	"grad_norm": 1.8279744386672974,
	"learning_rate": 7.978e-05,
	"loss": 0.022,
	"step": 3990
	},
	{
	"epoch": 250.0,
	"grad_norm": 1.9170351028442383,
	"learning_rate": 7.998e-05,
	"loss": 0.0238,
	"step": 4000
	},
	{
	"epoch": 250.625,
	"grad_norm": 1.7806050777435303,
	"learning_rate": 8.018e-05,
	"loss": 0.0224,
	"step": 4010
	},
	{
	"epoch": 251.25,
	"grad_norm": 1.618657112121582,
	"learning_rate": 8.038e-05,
	"loss": 0.0228,
	"step": 4020
	},
	{
	"epoch": 251.875,
	"grad_norm": 1.3448606729507446,
	"learning_rate": 8.058e-05,
	"loss": 0.0213,
	"step": 4030
	},
	{
	"epoch": 252.5,
	"grad_norm": 2.1564993858337402,
	"learning_rate": 8.078e-05,
	"loss": 0.0224,
	"step": 4040
	},
	{
	"epoch": 253.125,
	"grad_norm": 1.9321818351745605,
	"learning_rate": 8.098e-05,
	"loss": 0.0258,
	"step": 4050
	},
	{
	"epoch": 253.75,
	"grad_norm": 1.6877397298812866,
	"learning_rate": 8.118e-05,
	"loss": 0.0235,
	"step": 4060
	},
	{
	"epoch": 254.375,
	"grad_norm": 1.899335265159607,
	"learning_rate": 8.138e-05,
	"loss": 0.0243,
	"step": 4070
	},
	{
	"epoch": 255.0,
	"grad_norm": 1.6680128574371338,
	"learning_rate": 8.158e-05,
	"loss": 0.0247,
	"step": 4080
	},
	{
	"epoch": 255.625,
	"grad_norm": 1.4403914213180542,
	"learning_rate": 8.178e-05,
	"loss": 0.0224,
	"step": 4090
	},
	{
	"epoch": 256.25,
	"grad_norm": 1.8112647533416748,
	"learning_rate": 8.198e-05,
	"loss": 0.022,
	"step": 4100
	},
	{
	"epoch": 256.875,
	"grad_norm": 1.6451849937438965,
	"learning_rate": 8.218e-05,
	"loss": 0.0216,
	"step": 4110
	},
	{
	"epoch": 257.5,
	"grad_norm": 1.4328521490097046,
	"learning_rate": 8.238000000000001e-05,
	"loss": 0.0217,
	"step": 4120
	},
	{
	"epoch": 258.125,
	"grad_norm": 1.8865714073181152,
	"learning_rate": 8.258e-05,
	"loss": 0.0218,
	"step": 4130
	},
	{
	"epoch": 258.75,
	"grad_norm": 1.6151604652404785,
	"learning_rate": 8.278e-05,
	"loss": 0.0207,
	"step": 4140
	},
	{
	"epoch": 259.375,
	"grad_norm": 1.576856017112732,
	"learning_rate": 8.298000000000001e-05,
	"loss": 0.0227,
	"step": 4150
	},
	{
	"epoch": 260.0,
	"grad_norm": 1.9383561611175537,
	"learning_rate": 8.318e-05,
	"loss": 0.0211,
	"step": 4160
	},
	{
	"epoch": 260.625,
	"grad_norm": 1.417213797569275,
	"learning_rate": 8.338e-05,
	"loss": 0.0218,
	"step": 4170
	},
	{
	"epoch": 261.25,
	"grad_norm": 1.4880584478378296,
	"learning_rate": 8.358e-05,
	"loss": 0.0215,
	"step": 4180
	},
	{
	"epoch": 261.875,
	"grad_norm": 1.7698973417282104,
	"learning_rate": 8.378e-05,
	"loss": 0.0209,
	"step": 4190
	},
	{
	"epoch": 262.5,
	"grad_norm": 1.4688743352890015,
	"learning_rate": 8.398e-05,
	"loss": 0.022,
	"step": 4200
	},
	{
	"epoch": 263.125,
	"grad_norm": 1.563480019569397,
	"learning_rate": 8.418e-05,
	"loss": 0.021,
	"step": 4210
	},
	{
	"epoch": 263.75,
	"grad_norm": 1.6026536226272583,
	"learning_rate": 8.438e-05,
	"loss": 0.0196,
	"step": 4220
	},
	{
	"epoch": 264.375,
	"grad_norm": 1.390167236328125,
	"learning_rate": 8.458e-05,
	"loss": 0.0203,
	"step": 4230
	},
	{
	"epoch": 265.0,
	"grad_norm": 1.3945834636688232,
	"learning_rate": 8.478e-05,
	"loss": 0.0187,
	"step": 4240
	},
	{
	"epoch": 265.625,
	"grad_norm": 1.6028813123703003,
	"learning_rate": 8.498e-05,
	"loss": 0.0211,
	"step": 4250
	},
	{
	"epoch": 266.25,
	"grad_norm": 1.5985839366912842,
	"learning_rate": 8.518000000000001e-05,
	"loss": 0.021,
	"step": 4260
	},
	{
	"epoch": 266.875,
	"grad_norm": 1.3894219398498535,
	"learning_rate": 8.538e-05,
	"loss": 0.0203,
	"step": 4270
	},
	{
	"epoch": 267.5,
	"grad_norm": 1.9198909997940063,
	"learning_rate": 8.558e-05,
	"loss": 0.0217,
	"step": 4280
	},
	{
	"epoch": 268.125,
	"grad_norm": 1.6992826461791992,
	"learning_rate": 8.578000000000001e-05,
	"loss": 0.0218,
	"step": 4290
	},
	{
	"epoch": 268.75,
	"grad_norm": 1.5295377969741821,
	"learning_rate": 8.598e-05,
	"loss": 0.0209,
	"step": 4300
	},
	{
	"epoch": 269.375,
	"grad_norm": 1.9647233486175537,
	"learning_rate": 8.618e-05,
	"loss": 0.0208,
	"step": 4310
	},
	{
	"epoch": 270.0,
	"grad_norm": 1.6796159744262695,
	"learning_rate": 8.638000000000001e-05,
	"loss": 0.0207,
	"step": 4320
	},
	{
	"epoch": 270.625,
	"grad_norm": 1.7937408685684204,
	"learning_rate": 8.658e-05,
	"loss": 0.0212,
	"step": 4330
	},
	{
	"epoch": 271.25,
	"grad_norm": 1.944583535194397,
	"learning_rate": 8.678e-05,
	"loss": 0.0214,
	"step": 4340
	},
	{
	"epoch": 271.875,
	"grad_norm": 1.501273512840271,
	"learning_rate": 8.698000000000001e-05,
	"loss": 0.0227,
	"step": 4350
	},
	{
	"epoch": 272.5,
	"grad_norm": 1.630289077758789,
	"learning_rate": 8.718e-05,
	"loss": 0.0187,
	"step": 4360
	},
	{
	"epoch": 273.125,
	"grad_norm": 1.558972716331482,
	"learning_rate": 8.738000000000001e-05,
	"loss": 0.0201,
	"step": 4370
	},
	{
	"epoch": 273.75,
	"grad_norm": 1.319100260734558,
	"learning_rate": 8.758000000000001e-05,
	"loss": 0.0199,
	"step": 4380
	},
	{
	"epoch": 274.375,
	"grad_norm": 1.687119722366333,
	"learning_rate": 8.778e-05,
	"loss": 0.0222,
	"step": 4390
	},
	{
	"epoch": 275.0,
	"grad_norm": 1.5666712522506714,
	"learning_rate": 8.798000000000001e-05,
	"loss": 0.0218,
	"step": 4400
	},
	{
	"epoch": 275.625,
	"grad_norm": 1.374186396598816,
	"learning_rate": 8.818000000000001e-05,
	"loss": 0.0201,
	"step": 4410
	},
	{
	"epoch": 276.25,
	"grad_norm": 1.4911551475524902,
	"learning_rate": 8.838e-05,
	"loss": 0.0197,
	"step": 4420
	},
	{
	"epoch": 276.875,
	"grad_norm": 1.391093134880066,
	"learning_rate": 8.858000000000001e-05,
	"loss": 0.019,
	"step": 4430
	},
	{
	"epoch": 277.5,
	"grad_norm": 1.5734379291534424,
	"learning_rate": 8.878000000000001e-05,
	"loss": 0.0182,
	"step": 4440
	},
	{
	"epoch": 278.125,
	"grad_norm": 1.5925443172454834,
	"learning_rate": 8.898e-05,
	"loss": 0.0196,
	"step": 4450
	},
	{
	"epoch": 278.75,
	"grad_norm": 1.6269075870513916,
	"learning_rate": 8.918000000000001e-05,
	"loss": 0.0211,
	"step": 4460
	},
	{
	"epoch": 279.375,
	"grad_norm": 1.5029900074005127,
	"learning_rate": 8.938e-05,
	"loss": 0.0208,
	"step": 4470
	},
	{
	"epoch": 280.0,
	"grad_norm": 1.56442391872406,
	"learning_rate": 8.958e-05,
	"loss": 0.0196,
	"step": 4480
	},
	{
	"epoch": 280.625,
	"grad_norm": 1.3483182191848755,
	"learning_rate": 8.978000000000001e-05,
	"loss": 0.0185,
	"step": 4490
	},
	{
	"epoch": 281.25,
	"grad_norm": 1.2249255180358887,
	"learning_rate": 8.998e-05,
	"loss": 0.0182,
	"step": 4500
	},
	{
	"epoch": 281.875,
	"grad_norm": 1.206023097038269,
	"learning_rate": 9.018000000000001e-05,
	"loss": 0.0191,
	"step": 4510
	},
	{
	"epoch": 282.5,
	"grad_norm": 1.9158329963684082,
	"learning_rate": 9.038000000000001e-05,
	"loss": 0.0202,
	"step": 4520
	},
	{
	"epoch": 283.125,
	"grad_norm": 1.6515963077545166,
	"learning_rate": 9.058e-05,
	"loss": 0.0199,
	"step": 4530
	},
	{
	"epoch": 283.75,
	"grad_norm": 1.7891855239868164,
	"learning_rate": 9.078000000000001e-05,
	"loss": 0.0213,
	"step": 4540
	},
	{
	"epoch": 284.375,
	"grad_norm": 1.5916194915771484,
	"learning_rate": 9.098000000000001e-05,
	"loss": 0.0204,
	"step": 4550
	},
	{
	"epoch": 285.0,
	"grad_norm": 1.6548500061035156,
	"learning_rate": 9.118e-05,
	"loss": 0.0206,
	"step": 4560
	},
	{
	"epoch": 285.625,
	"grad_norm": 1.7890138626098633,
	"learning_rate": 9.138e-05,
	"loss": 0.0216,
	"step": 4570
	},
	{
	"epoch": 286.25,
	"grad_norm": 1.3698619604110718,
	"learning_rate": 9.158e-05,
	"loss": 0.021,
	"step": 4580
	},
	{
	"epoch": 286.875,
	"grad_norm": 1.3164348602294922,
	"learning_rate": 9.178e-05,
	"loss": 0.0201,
	"step": 4590
	},
	{
	"epoch": 287.5,
	"grad_norm": 1.2602595090866089,
	"learning_rate": 9.198e-05,
	"loss": 0.0206,
	"step": 4600
	},
	{
	"epoch": 288.125,
	"grad_norm": 1.6356364488601685,
	"learning_rate": 9.218e-05,
	"loss": 0.0206,
	"step": 4610
	},
	{
	"epoch": 288.75,
	"grad_norm": 1.339037299156189,
	"learning_rate": 9.238e-05,
	"loss": 0.0194,
	"step": 4620
	},
	{
	"epoch": 289.375,
	"grad_norm": 1.5343581438064575,
	"learning_rate": 9.258e-05,
	"loss": 0.0214,
	"step": 4630
	},
	{
	"epoch": 290.0,
	"grad_norm": 1.7950295209884644,
	"learning_rate": 9.278e-05,
	"loss": 0.02,
	"step": 4640
	},
	{
	"epoch": 290.625,
	"grad_norm": 1.346240758895874,
	"learning_rate": 9.298e-05,
	"loss": 0.0202,
	"step": 4650
	},
	{
	"epoch": 291.25,
	"grad_norm": 1.1901124715805054,
	"learning_rate": 9.318e-05,
	"loss": 0.0176,
	"step": 4660
	},
	{
	"epoch": 291.875,
	"grad_norm": 1.3559141159057617,
	"learning_rate": 9.338e-05,
	"loss": 0.0165,
	"step": 4670
	},
	{
	"epoch": 292.5,
	"grad_norm": 1.342185139656067,
	"learning_rate": 9.358e-05,
	"loss": 0.0191,
	"step": 4680
	},
	{
	"epoch": 293.125,
	"grad_norm": 1.5401999950408936,
	"learning_rate": 9.378e-05,
	"loss": 0.0193,
	"step": 4690
	},
	{
	"epoch": 293.75,
	"grad_norm": 1.4412999153137207,
	"learning_rate": 9.398e-05,
	"loss": 0.0191,
	"step": 4700
	},
	{
	"epoch": 294.375,
	"grad_norm": 1.2340666055679321,
	"learning_rate": 9.418e-05,
	"loss": 0.0182,
	"step": 4710
	},
	{
	"epoch": 295.0,
	"grad_norm": 1.1816933155059814,
	"learning_rate": 9.438e-05,
	"loss": 0.0175,
	"step": 4720
	},
	{
	"epoch": 295.625,
	"grad_norm": 1.2440204620361328,
	"learning_rate": 9.458e-05,
	"loss": 0.0178,
	"step": 4730
	},
	{
	"epoch": 296.25,
	"grad_norm": 1.4980961084365845,
	"learning_rate": 9.478e-05,
	"loss": 0.0173,
	"step": 4740
	},
	{
	"epoch": 296.875,
	"grad_norm": 1.4015268087387085,
	"learning_rate": 9.498e-05,
	"loss": 0.0198,
	"step": 4750
	},
	{
	"epoch": 297.5,
	"grad_norm": 1.420882225036621,
	"learning_rate": 9.518000000000001e-05,
	"loss": 0.019,
	"step": 4760
	},
	{
	"epoch": 298.125,
	"grad_norm": 1.2662218809127808,
	"learning_rate": 9.538e-05,
	"loss": 0.0195,
	"step": 4770
	},
	{
	"epoch": 298.75,
	"grad_norm": 1.528330683708191,
	"learning_rate": 9.558e-05,
	"loss": 0.0213,
	"step": 4780
	},
	{
	"epoch": 299.375,
	"grad_norm": 1.3324357271194458,
	"learning_rate": 9.578000000000001e-05,
	"loss": 0.0194,
	"step": 4790
	},
	{
	"epoch": 300.0,
	"grad_norm": 1.3170146942138672,
	"learning_rate": 9.598e-05,
	"loss": 0.0186,
	"step": 4800
	},
	{
	"epoch": 300.625,
	"grad_norm": 1.4495036602020264,
	"learning_rate": 9.618e-05,
	"loss": 0.0178,
	"step": 4810
	},
	{
	"epoch": 301.25,
	"grad_norm": 1.6242793798446655,
	"learning_rate": 9.638000000000001e-05,
	"loss": 0.0204,
	"step": 4820
	},
	{
	"epoch": 301.875,
	"grad_norm": 1.4832464456558228,
	"learning_rate": 9.658e-05,
	"loss": 0.0203,
	"step": 4830
	},
	{
	"epoch": 302.5,
	"grad_norm": 1.3549563884735107,
	"learning_rate": 9.678e-05,
	"loss": 0.0177,
	"step": 4840
	},
	{
	"epoch": 303.125,
	"grad_norm": 1.804412841796875,
	"learning_rate": 9.698000000000001e-05,
	"loss": 0.021,
	"step": 4850
	},
	{
	"epoch": 303.75,
	"grad_norm": 1.5907257795333862,
	"learning_rate": 9.718e-05,
	"loss": 0.0209,
	"step": 4860
	},
	{
	"epoch": 304.375,
	"grad_norm": 1.4540935754776,
	"learning_rate": 9.738e-05,
	"loss": 0.017,
	"step": 4870
	},
	{
	"epoch": 305.0,
	"grad_norm": 1.223158597946167,
	"learning_rate": 9.758000000000001e-05,
	"loss": 0.018,
	"step": 4880
	},
	{
	"epoch": 305.625,
	"grad_norm": 1.2038943767547607,
	"learning_rate": 9.778e-05,
	"loss": 0.0176,
	"step": 4890
	},
	{
	"epoch": 306.25,
	"grad_norm": 1.110867977142334,
	"learning_rate": 9.798000000000001e-05,
	"loss": 0.0173,
	"step": 4900
	},
	{
	"epoch": 306.875,
	"grad_norm": 1.414939522743225,
	"learning_rate": 9.818000000000001e-05,
	"loss": 0.017,
	"step": 4910
	},
	{
	"epoch": 307.5,
	"grad_norm": 1.3866313695907593,
	"learning_rate": 9.838e-05,
	"loss": 0.02,
	"step": 4920
	},
	{
	"epoch": 308.125,
	"grad_norm": 1.5799922943115234,
	"learning_rate": 9.858000000000001e-05,
	"loss": 0.0162,
	"step": 4930
	},
	{
	"epoch": 308.75,
	"grad_norm": 1.261763334274292,
	"learning_rate": 9.878e-05,
	"loss": 0.0189,
	"step": 4940
	},
	{
	"epoch": 309.375,
	"grad_norm": 1.474787950515747,
	"learning_rate": 9.898e-05,
	"loss": 0.0181,
	"step": 4950
	},
	{
	"epoch": 310.0,
	"grad_norm": 1.287822961807251,
	"learning_rate": 9.918000000000001e-05,
	"loss": 0.0184,
	"step": 4960
	},
	{
	"epoch": 310.625,
	"grad_norm": 1.0713199377059937,
	"learning_rate": 9.938e-05,
	"loss": 0.0179,
	"step": 4970
	},
	{
	"epoch": 311.25,
	"grad_norm": 1.2200391292572021,
	"learning_rate": 9.958e-05,
	"loss": 0.018,
	"step": 4980
	},
	{
	"epoch": 311.875,
	"grad_norm": 1.5587009191513062,
	"learning_rate": 9.978000000000001e-05,
	"loss": 0.0199,
	"step": 4990
	},
	{
	"epoch": 312.5,
	"grad_norm": 1.4640460014343262,
	"learning_rate": 9.998e-05,
	"loss": 0.017,
	"step": 5000
	},
	{
	"epoch": 313.125,
	"grad_norm": 1.4215519428253174,
	"learning_rate": 9.999999778549045e-05,
	"loss": 0.0171,
	"step": 5010
	},
	{
	"epoch": 313.75,
	"grad_norm": 1.1879425048828125,
	"learning_rate": 9.999999013039593e-05,
	"loss": 0.016,
	"step": 5020
	},
	{
	"epoch": 314.375,
	"grad_norm": 1.231829047203064,
	"learning_rate": 9.999997700737766e-05,
	"loss": 0.0158,
	"step": 5030
	},
	{
	"epoch": 315.0,
	"grad_norm": 1.224221110343933,
	"learning_rate": 9.999995841643709e-05,
	"loss": 0.0164,
	"step": 5040
	},
	{
	"epoch": 315.625,
	"grad_norm": 1.491013765335083,
	"learning_rate": 9.999993435757623e-05,
	"loss": 0.0166,
	"step": 5050
	},
	{
	"epoch": 316.25,
	"grad_norm": 1.2551881074905396,
	"learning_rate": 9.999990483079773e-05,
	"loss": 0.0187,
	"step": 5060
	},
	{
	"epoch": 316.875,
	"grad_norm": 1.3919192552566528,
	"learning_rate": 9.999986983610481e-05,
	"loss": 0.0167,
	"step": 5070
	},
	{
	"epoch": 317.5,
	"grad_norm": 1.145408272743225,
	"learning_rate": 9.99998293735013e-05,
	"loss": 0.0169,
	"step": 5080
	},
	{
	"epoch": 318.125,
	"grad_norm": 1.5774271488189697,
	"learning_rate": 9.999978344299161e-05,
	"loss": 0.0171,
	"step": 5090
	},
	{
	"epoch": 318.75,
	"grad_norm": 1.4125555753707886,
	"learning_rate": 9.99997320445808e-05,
	"loss": 0.0191,
	"step": 5100
	},
	{
	"epoch": 319.375,
	"grad_norm": 1.110128402709961,
	"learning_rate": 9.999967517827444e-05,
	"loss": 0.0159,
	"step": 5110
	},
	{
	"epoch": 320.0,
	"grad_norm": 1.3442533016204834,
	"learning_rate": 9.999961284407879e-05,
	"loss": 0.0177,
	"step": 5120
	},
	{
	"epoch": 320.625,
	"grad_norm": 1.3384839296340942,
	"learning_rate": 9.999954504200067e-05,
	"loss": 0.0154,
	"step": 5130
	},
	{
	"epoch": 321.25,
	"grad_norm": 1.1482480764389038,
	"learning_rate": 9.999947177204744e-05,
	"loss": 0.0166,
	"step": 5140
	},
	{
	"epoch": 321.875,
	"grad_norm": 1.2519944906234741,
	"learning_rate": 9.999939303422718e-05,
	"loss": 0.0172,
	"step": 5150
	},
	{
	"epoch": 322.5,
	"grad_norm": 1.3870333433151245,
	"learning_rate": 9.999930882854847e-05,
	"loss": 0.0168,
	"step": 5160
	},
	{
	"epoch": 323.125,
	"grad_norm": 1.366909146308899,
	"learning_rate": 9.999921915502051e-05,
	"loss": 0.016,
	"step": 5170
	},
	{
	"epoch": 323.75,
	"grad_norm": 1.1931958198547363,
	"learning_rate": 9.99991240136531e-05,
	"loss": 0.0186,
	"step": 5180
	},
	{
	"epoch": 324.375,
	"grad_norm": 1.1246201992034912,
	"learning_rate": 9.999902340445668e-05,
	"loss": 0.0151,
	"step": 5190
	},
	{
	"epoch": 325.0,
	"grad_norm": 1.2969485521316528,
	"learning_rate": 9.999891732744224e-05,
	"loss": 0.0154,
	"step": 5200
	},
	{
	"epoch": 325.625,
	"grad_norm": 1.1869677305221558,
	"learning_rate": 9.999880578262135e-05,
	"loss": 0.0167,
	"step": 5210
	},
	{
	"epoch": 326.25,
	"grad_norm": 1.221058964729309,
	"learning_rate": 9.999868877000624e-05,
	"loss": 0.0164,
	"step": 5220
	},
	{
	"epoch": 326.875,
	"grad_norm": 1.2182931900024414,
	"learning_rate": 9.99985662896097e-05,
	"loss": 0.0175,
	"step": 5230
	},
	{
	"epoch": 327.5,
	"grad_norm": 1.2568279504776,
	"learning_rate": 9.999843834144513e-05,
	"loss": 0.0159,
	"step": 5240
	},
	{
	"epoch": 328.125,
	"grad_norm": 1.254540205001831,
	"learning_rate": 9.99983049255265e-05,
	"loss": 0.0161,
	"step": 5250
	},
	{
	"epoch": 328.75,
	"grad_norm": 1.2322643995285034,
	"learning_rate": 9.999816604186843e-05,
	"loss": 0.0168,
	"step": 5260
	},
	{
	"epoch": 329.375,
	"grad_norm": 0.9582310914993286,
	"learning_rate": 9.999802169048609e-05,
	"loss": 0.0149,
	"step": 5270
	},
	{
	"epoch": 330.0,
	"grad_norm": 0.900672197341919,
	"learning_rate": 9.999787187139527e-05,
	"loss": 0.0141,
	"step": 5280
	},
	{
	"epoch": 330.625,
	"grad_norm": 1.049651026725769,
	"learning_rate": 9.999771658461234e-05,
	"loss": 0.0153,
	"step": 5290
	},
	{
	"epoch": 331.25,
	"grad_norm": 1.0110572576522827,
	"learning_rate": 9.999755583015431e-05,
	"loss": 0.0145,
	"step": 5300
	},
	{
	"epoch": 331.875,
	"grad_norm": 1.1884170770645142,
	"learning_rate": 9.999738960803874e-05,
	"loss": 0.0152,
	"step": 5310
	},
	{
	"epoch": 332.5,
	"grad_norm": 1.4686788320541382,
	"learning_rate": 9.99972179182838e-05,
	"loss": 0.0136,
	"step": 5320
	},
	{
	"epoch": 333.125,
	"grad_norm": 1.0699830055236816,
	"learning_rate": 9.99970407609083e-05,
	"loss": 0.0161,
	"step": 5330
	},
	{
	"epoch": 333.75,
	"grad_norm": 1.8003672361373901,
	"learning_rate": 9.999685813593159e-05,
	"loss": 0.0177,
	"step": 5340
	},
	{
	"epoch": 334.375,
	"grad_norm": 1.38191556930542,
	"learning_rate": 9.999667004337362e-05,
	"loss": 0.0161,
	"step": 5350
	},
	{
	"epoch": 335.0,
	"grad_norm": 1.199036717414856,
	"learning_rate": 9.9996476483255e-05,
	"loss": 0.0164,
	"step": 5360
	},
	{
	"epoch": 335.625,
	"grad_norm": 1.1064685583114624,
	"learning_rate": 9.999627745559688e-05,
	"loss": 0.0153,
	"step": 5370
	},
	{
	"epoch": 336.25,
	"grad_norm": 0.968438982963562,
	"learning_rate": 9.999607296042101e-05,
	"loss": 0.015,
	"step": 5380
	},
	{
	"epoch": 336.875,
	"grad_norm": 1.3204340934753418,
	"learning_rate": 9.99958629977498e-05,
	"loss": 0.0144,
	"step": 5390
	},
	{
	"epoch": 337.5,
	"grad_norm": 1.0026376247406006,
	"learning_rate": 9.999564756760615e-05,
	"loss": 0.0144,
	"step": 5400
	},
	{
	"epoch": 338.125,
	"grad_norm": 1.094014048576355,
	"learning_rate": 9.999542667001366e-05,
	"loss": 0.0143,
	"step": 5410
	},
	{
	"epoch": 338.75,
	"grad_norm": 1.0915470123291016,
	"learning_rate": 9.999520030499647e-05,
	"loss": 0.0138,
	"step": 5420
	},
	{
	"epoch": 339.375,
	"grad_norm": 1.0048651695251465,
	"learning_rate": 9.999496847257936e-05,
	"loss": 0.0146,
	"step": 5430
	},
	{
	"epoch": 340.0,
	"grad_norm": 1.138767123222351,
	"learning_rate": 9.999473117278764e-05,
	"loss": 0.0162,
	"step": 5440
	},
	{
	"epoch": 340.625,
	"grad_norm": 1.3121551275253296,
	"learning_rate": 9.999448840564731e-05,
	"loss": 0.0144,
	"step": 5450
	},
	{
	"epoch": 341.25,
	"grad_norm": 1.2357908487319946,
	"learning_rate": 9.999424017118488e-05,
	"loss": 0.0155,
	"step": 5460
	},
	{
	"epoch": 341.875,
	"grad_norm": 1.4110485315322876,
	"learning_rate": 9.999398646942751e-05,
	"loss": 0.0171,
	"step": 5470
	},
	{
	"epoch": 342.5,
	"grad_norm": 1.231876015663147,
	"learning_rate": 9.999372730040296e-05,
	"loss": 0.0148,
	"step": 5480
	},
	{
	"epoch": 343.125,
	"grad_norm": 1.1513409614562988,
	"learning_rate": 9.999346266413953e-05,
	"loss": 0.0155,
	"step": 5490
	},
	{
	"epoch": 343.75,
	"grad_norm": 1.0324758291244507,
	"learning_rate": 9.99931925606662e-05,
	"loss": 0.0155,
	"step": 5500
	},
	{
	"epoch": 344.375,
	"grad_norm": 1.2001458406448364,
	"learning_rate": 9.99929169900125e-05,
	"loss": 0.0142,
	"step": 5510
	},
	{
	"epoch": 345.0,
	"grad_norm": 0.9090719819068909,
	"learning_rate": 9.999263595220855e-05,
	"loss": 0.0133,
	"step": 5520
	},
	{
	"epoch": 345.625,
	"grad_norm": 0.9517356157302856,
	"learning_rate": 9.99923494472851e-05,
	"loss": 0.0131,
	"step": 5530
	},
	{
	"epoch": 346.25,
	"grad_norm": 0.9557884931564331,
	"learning_rate": 9.999205747527348e-05,
	"loss": 0.0153,
	"step": 5540
	},
	{
	"epoch": 346.875,
	"grad_norm": 1.039165735244751,
	"learning_rate": 9.999176003620561e-05,
	"loss": 0.0141,
	"step": 5550
	},
	{
	"epoch": 347.5,
	"grad_norm": 0.930853545665741,
	"learning_rate": 9.999145713011405e-05,
	"loss": 0.0143,
	"step": 5560
	},
	{
	"epoch": 348.125,
	"grad_norm": 0.956095278263092,
	"learning_rate": 9.999114875703186e-05,
	"loss": 0.0141,
	"step": 5570
	},
	{
	"epoch": 348.75,
	"grad_norm": 0.771486222743988,
	"learning_rate": 9.999083491699281e-05,
	"loss": 0.0143,
	"step": 5580
	},
	{
	"epoch": 349.375,
	"grad_norm": 0.6893032193183899,
	"learning_rate": 9.999051561003123e-05,
	"loss": 0.0144,
	"step": 5590
	},
	{
	"epoch": 350.0,
	"grad_norm": 1.0121644735336304,
	"learning_rate": 9.999019083618202e-05,
	"loss": 0.0151,
	"step": 5600
	},
	{
	"epoch": 350.625,
	"grad_norm": 1.1058743000030518,
	"learning_rate": 9.99898605954807e-05,
	"loss": 0.0162,
	"step": 5610
	},
	{
	"epoch": 351.25,
	"grad_norm": 1.0109678506851196,
	"learning_rate": 9.998952488796338e-05,
	"loss": 0.015,
	"step": 5620
	},
	{
	"epoch": 351.875,
	"grad_norm": 0.8328022360801697,
	"learning_rate": 9.998918371366676e-05,
	"loss": 0.0142,
	"step": 5630
	},
	{
	"epoch": 352.5,
	"grad_norm": 0.836746096611023,
	"learning_rate": 9.99888370726282e-05,
	"loss": 0.0137,
	"step": 5640
	},
	{
	"epoch": 353.125,
	"grad_norm": 0.9082058072090149,
	"learning_rate": 9.998848496488556e-05,
	"loss": 0.0141,
	"step": 5650
	},
	{
	"epoch": 353.75,
	"grad_norm": 0.9380905628204346,
	"learning_rate": 9.998812739047736e-05,
	"loss": 0.0149,
	"step": 5660
	},
	{
	"epoch": 354.375,
	"grad_norm": 0.9345435500144958,
	"learning_rate": 9.99877643494427e-05,
	"loss": 0.0144,
	"step": 5670
	},
	{
	"epoch": 355.0,
	"grad_norm": 0.8377882242202759,
	"learning_rate": 9.998739584182128e-05,
	"loss": 0.0151,
	"step": 5680
	},
	{
	"epoch": 355.625,
	"grad_norm": 1.1241296529769897,
	"learning_rate": 9.998702186765342e-05,
	"loss": 0.0145,
	"step": 5690
	},
	{
	"epoch": 356.25,
	"grad_norm": 1.0022445917129517,
	"learning_rate": 9.998664242698e-05,
	"loss": 0.0137,
	"step": 5700
	},
	{
	"epoch": 356.875,
	"grad_norm": 1.14398992061615,
	"learning_rate": 9.998625751984251e-05,
	"loss": 0.0122,
	"step": 5710
	},
	{
	"epoch": 357.5,
	"grad_norm": 1.511240839958191,
	"learning_rate": 9.998586714628307e-05,
	"loss": 0.0141,
	"step": 5720
	},
	{
	"epoch": 358.125,
	"grad_norm": 1.257946252822876,
	"learning_rate": 9.998547130634432e-05,
	"loss": 0.0157,
	"step": 5730
	},
	{
	"epoch": 358.75,
	"grad_norm": 1.1702454090118408,
	"learning_rate": 9.99850700000696e-05,
	"loss": 0.0144,
	"step": 5740
	},
	{
	"epoch": 359.375,
	"grad_norm": 0.8067399859428406,
	"learning_rate": 9.998466322750278e-05,
	"loss": 0.0136,
	"step": 5750
	},
	{
	"epoch": 360.0,
	"grad_norm": 0.8550326228141785,
	"learning_rate": 9.998425098868834e-05,
	"loss": 0.0129,
	"step": 5760
	},
	{
	"epoch": 360.625,
	"grad_norm": 0.9919332265853882,
	"learning_rate": 9.998383328367136e-05,
	"loss": 0.013,
	"step": 5770
	},
	{
	"epoch": 361.25,
	"grad_norm": 0.9598110914230347,
	"learning_rate": 9.99834101124975e-05,
	"loss": 0.0136,
	"step": 5780
	},
	{
	"epoch": 361.875,
	"grad_norm": 0.8677031397819519,
	"learning_rate": 9.998298147521309e-05,
	"loss": 0.0137,
	"step": 5790
	},
	{
	"epoch": 362.5,
	"grad_norm": 0.9038897156715393,
	"learning_rate": 9.998254737186496e-05,
	"loss": 0.0124,
	"step": 5800
	},
	{
	"epoch": 363.125,
	"grad_norm": 0.9390170574188232,
	"learning_rate": 9.99821078025006e-05,
	"loss": 0.0119,
	"step": 5810
	},
	{
	"epoch": 363.75,
	"grad_norm": 1.011299967765808,
	"learning_rate": 9.998166276716807e-05,
	"loss": 0.0131,
	"step": 5820
	},
	{
	"epoch": 364.375,
	"grad_norm": 0.7727632522583008,
	"learning_rate": 9.998121226591606e-05,
	"loss": 0.0124,
	"step": 5830
	},
	{
	"epoch": 365.0,
	"grad_norm": 0.9111457467079163,
	"learning_rate": 9.998075629879382e-05,
	"loss": 0.0122,
	"step": 5840
	},
	{
	"epoch": 365.625,
	"grad_norm": 0.8254387378692627,
	"learning_rate": 9.99802948658512e-05,
	"loss": 0.0122,
	"step": 5850
	},
	{
	"epoch": 366.25,
	"grad_norm": 0.8419124484062195,
	"learning_rate": 9.99798279671387e-05,
	"loss": 0.0136,
	"step": 5860
	},
	{
	"epoch": 366.875,
	"grad_norm": 0.9950329661369324,
	"learning_rate": 9.997935560270734e-05,
	"loss": 0.0139,
	"step": 5870
	},
	{
	"epoch": 367.5,
	"grad_norm": 0.8446523547172546,
	"learning_rate": 9.997887777260879e-05,
	"loss": 0.0128,
	"step": 5880
	},
	{
	"epoch": 368.125,
	"grad_norm": 0.8795507550239563,
	"learning_rate": 9.997839447689532e-05,
	"loss": 0.0142,
	"step": 5890
	},
	{
	"epoch": 368.75,
	"grad_norm": 0.9794557094573975,
	"learning_rate": 9.997790571561978e-05,
	"loss": 0.0134,
	"step": 5900
	},
	{
	"epoch": 369.375,
	"grad_norm": 0.9027246236801147,
	"learning_rate": 9.99774114888356e-05,
	"loss": 0.0126,
	"step": 5910
	},
	{
	"epoch": 370.0,
	"grad_norm": 0.8756938576698303,
	"learning_rate": 9.997691179659684e-05,
	"loss": 0.014,
	"step": 5920
	},
	{
	"epoch": 370.625,
	"grad_norm": 1.2023380994796753,
	"learning_rate": 9.997640663895815e-05,
	"loss": 0.0131,
	"step": 5930
	},
	{
	"epoch": 371.25,
	"grad_norm": 1.141804814338684,
	"learning_rate": 9.997589601597477e-05,
	"loss": 0.015,
	"step": 5940
	},
	{
	"epoch": 371.875,
	"grad_norm": 0.9179847836494446,
	"learning_rate": 9.997537992770252e-05,
	"loss": 0.0126,
	"step": 5950
	},
	{
	"epoch": 372.5,
	"grad_norm": 0.8151926398277283,
	"learning_rate": 9.997485837419788e-05,
	"loss": 0.013,
	"step": 5960
	},
	{
	"epoch": 373.125,
	"grad_norm": 0.6601715683937073,
	"learning_rate": 9.997433135551786e-05,
	"loss": 0.0123,
	"step": 5970
	},
	{
	"epoch": 373.75,
	"grad_norm": 0.8281500935554504,
	"learning_rate": 9.997379887172009e-05,
	"loss": 0.0115,
	"step": 5980
	},
	{
	"epoch": 374.375,
	"grad_norm": 0.8727806806564331,
	"learning_rate": 9.997326092286281e-05,
	"loss": 0.0128,
	"step": 5990
	},
	{
	"epoch": 375.0,
	"grad_norm": 0.8489688038825989,
	"learning_rate": 9.997271750900486e-05,
	"loss": 0.0129,
	"step": 6000
	},
	{
	"epoch": 375.625,
	"grad_norm": 0.6510198712348938,
	"learning_rate": 9.997216863020565e-05,
	"loss": 0.0117,
	"step": 6010
	},
	{
	"epoch": 376.25,
	"grad_norm": 0.8793591856956482,
	"learning_rate": 9.99716142865252e-05,
	"loss": 0.012,
	"step": 6020
	},
	{
	"epoch": 376.875,
	"grad_norm": 0.7070950269699097,
	"learning_rate": 9.997105447802415e-05,
	"loss": 0.0118,
	"step": 6030
	},
	{
	"epoch": 377.5,
	"grad_norm": 0.8314371109008789,
	"learning_rate": 9.997048920476373e-05,
	"loss": 0.0118,
	"step": 6040
	},
	{
	"epoch": 378.125,
	"grad_norm": 0.761350154876709,
	"learning_rate": 9.996991846680572e-05,
	"loss": 0.0127,
	"step": 6050
	},
	{
	"epoch": 378.75,
	"grad_norm": 0.7484061121940613,
	"learning_rate": 9.996934226421257e-05,
	"loss": 0.0119,
	"step": 6060
	},
	{
	"epoch": 379.375,
	"grad_norm": 0.7929844260215759,
	"learning_rate": 9.996876059704726e-05,
	"loss": 0.012,
	"step": 6070
	},
	{
	"epoch": 380.0,
	"grad_norm": 0.8181713819503784,
	"learning_rate": 9.996817346537343e-05,
	"loss": 0.0142,
	"step": 6080
	},
	{
	"epoch": 380.625,
	"grad_norm": 0.9369438290596008,
	"learning_rate": 9.996758086925526e-05,
	"loss": 0.0132,
	"step": 6090
	},
	{
	"epoch": 381.25,
	"grad_norm": 0.8046433925628662,
	"learning_rate": 9.996698280875759e-05,
	"loss": 0.012,
	"step": 6100
	},
	{
	"epoch": 381.875,
	"grad_norm": 0.7803655862808228,
	"learning_rate": 9.99663792839458e-05,
	"loss": 0.0134,
	"step": 6110
	},
	{
	"epoch": 382.5,
	"grad_norm": 0.7660366296768188,
	"learning_rate": 9.99657702948859e-05,
	"loss": 0.0124,
	"step": 6120
	},
	{
	"epoch": 383.125,
	"grad_norm": 0.6417670845985413,
	"learning_rate": 9.996515584164448e-05,
	"loss": 0.012,
	"step": 6130
	},
	{
	"epoch": 383.75,
	"grad_norm": 0.8960108160972595,
	"learning_rate": 9.996453592428873e-05,
	"loss": 0.0117,
	"step": 6140
	},
	{
	"epoch": 384.375,
	"grad_norm": 0.8871966600418091,
	"learning_rate": 9.996391054288646e-05,
	"loss": 0.0116,
	"step": 6150
	},
	{
	"epoch": 385.0,
	"grad_norm": 0.8760678172111511,
	"learning_rate": 9.996327969750605e-05,
	"loss": 0.0117,
	"step": 6160
	},
	{
	"epoch": 385.625,
	"grad_norm": 0.865280032157898,
	"learning_rate": 9.996264338821649e-05,
	"loss": 0.011,
	"step": 6170
	},
	{
	"epoch": 386.25,
	"grad_norm": 1.1085981130599976,
	"learning_rate": 9.996200161508735e-05,
	"loss": 0.0128,
	"step": 6180
	},
	{
	"epoch": 386.875,
	"grad_norm": 1.0455905199050903,
	"learning_rate": 9.996135437818885e-05,
	"loss": 0.0121,
	"step": 6190
	},
	{
	"epoch": 387.5,
	"grad_norm": 0.8136721253395081,
	"learning_rate": 9.996070167759175e-05,
	"loss": 0.013,
	"step": 6200
	},
	{
	"epoch": 388.125,
	"grad_norm": 0.7488872408866882,
	"learning_rate": 9.996004351336743e-05,
	"loss": 0.0126,
	"step": 6210
	},
	{
	"epoch": 388.75,
	"grad_norm": 0.8310092091560364,
	"learning_rate": 9.995937988558785e-05,
	"loss": 0.0136,
	"step": 6220
	},
	{
	"epoch": 389.375,
	"grad_norm": 0.8811050653457642,
	"learning_rate": 9.995871079432561e-05,
	"loss": 0.0132,
	"step": 6230
	},
	{
	"epoch": 390.0,
	"grad_norm": 0.9369884133338928,
	"learning_rate": 9.995803623965389e-05,
	"loss": 0.0133,
	"step": 6240
	},
	{
	"epoch": 390.625,
	"grad_norm": 0.9472755193710327,
	"learning_rate": 9.995735622164641e-05,
	"loss": 0.0132,
	"step": 6250
	},
	{
	"epoch": 391.25,
	"grad_norm": 1.1913206577301025,
	"learning_rate": 9.995667074037758e-05,
	"loss": 0.0134,
	"step": 6260
	},
	{
	"epoch": 391.875,
	"grad_norm": 0.8896439075469971,
	"learning_rate": 9.995597979592232e-05,
	"loss": 0.0134,
	"step": 6270
	},
	{
	"epoch": 392.5,
	"grad_norm": 0.8965170383453369,
	"learning_rate": 9.995528338835625e-05,
	"loss": 0.0124,
	"step": 6280
	},
	{
	"epoch": 393.125,
	"grad_norm": 0.8789317011833191,
	"learning_rate": 9.995458151775547e-05,
	"loss": 0.0126,
	"step": 6290
	},
	{
	"epoch": 393.75,
	"grad_norm": 0.7865223288536072,
	"learning_rate": 9.995387418419677e-05,
	"loss": 0.0119,
	"step": 6300
	},
	{
	"epoch": 394.375,
	"grad_norm": 0.7527452111244202,
	"learning_rate": 9.99531613877575e-05,
	"loss": 0.0118,
	"step": 6310
	},
	{
	"epoch": 395.0,
	"grad_norm": 0.7900567650794983,
	"learning_rate": 9.995244312851559e-05,
	"loss": 0.0116,
	"step": 6320
	},
	{
	"epoch": 395.625,
	"grad_norm": 0.7366781234741211,
	"learning_rate": 9.995171940654961e-05,
	"loss": 0.0112,
	"step": 6330
	},
	{
	"epoch": 396.25,
	"grad_norm": 0.8073196411132812,
	"learning_rate": 9.995099022193871e-05,
	"loss": 0.0116,
	"step": 6340
	},
	{
	"epoch": 396.875,
	"grad_norm": 0.924555242061615,
	"learning_rate": 9.995025557476261e-05,
	"loss": 0.0109,
	"step": 6350
	},
	{
	"epoch": 397.5,
	"grad_norm": 0.8284614682197571,
	"learning_rate": 9.994951546510165e-05,
	"loss": 0.0117,
	"step": 6360
	},
	{
	"epoch": 398.125,
	"grad_norm": 0.8100062012672424,
	"learning_rate": 9.994876989303679e-05,
	"loss": 0.0127,
	"step": 6370
	},
	{
	"epoch": 398.75,
	"grad_norm": 0.9377039670944214,
	"learning_rate": 9.994801885864955e-05,
	"loss": 0.0122,
	"step": 6380
	},
	{
	"epoch": 399.375,
	"grad_norm": 0.9842908978462219,
	"learning_rate": 9.994726236202205e-05,
	"loss": 0.013,
	"step": 6390
	},
	{
	"epoch": 400.0,
	"grad_norm": 1.1019262075424194,
	"learning_rate": 9.994650040323704e-05,
	"loss": 0.0134,
	"step": 6400
	},
	{
	"epoch": 400.625,
	"grad_norm": 1.0751221179962158,
	"learning_rate": 9.994573298237784e-05,
	"loss": 0.0118,
	"step": 6410
	},
	{
	"epoch": 401.25,
	"grad_norm": 0.898923933506012,
	"learning_rate": 9.994496009952837e-05,
	"loss": 0.012,
	"step": 6420
	},
	{
	"epoch": 401.875,
	"grad_norm": 0.8281941413879395,
	"learning_rate": 9.994418175477316e-05,
	"loss": 0.0124,
	"step": 6430
	},
	{
	"epoch": 402.5,
	"grad_norm": 0.692079484462738,
	"learning_rate": 9.994339794819733e-05,
	"loss": 0.011,
	"step": 6440
	},
	{
	"epoch": 403.125,
	"grad_norm": 0.7526706457138062,
	"learning_rate": 9.994260867988658e-05,
	"loss": 0.0121,
	"step": 6450
	},
	{
	"epoch": 403.75,
	"grad_norm": 0.8704769015312195,
	"learning_rate": 9.994181394992723e-05,
	"loss": 0.0109,
	"step": 6460
	},
	{
	"epoch": 404.375,
	"grad_norm": 0.8282954096794128,
	"learning_rate": 9.994101375840618e-05,
	"loss": 0.0107,
	"step": 6470
	},
	{
	"epoch": 405.0,
	"grad_norm": 0.7742241621017456,
	"learning_rate": 9.994020810541098e-05,
	"loss": 0.0115,
	"step": 6480
	},
	{
	"epoch": 405.625,
	"grad_norm": 0.7262750267982483,
	"learning_rate": 9.99393969910297e-05,
	"loss": 0.011,
	"step": 6490
	},
	{
	"epoch": 406.25,
	"grad_norm": 0.8099271655082703,
	"learning_rate": 9.993858041535104e-05,
	"loss": 0.0126,
	"step": 6500
	},
	{
	"epoch": 406.875,
	"grad_norm": 0.8308644890785217,
	"learning_rate": 9.99377583784643e-05,
	"loss": 0.0119,
	"step": 6510
	},
	{
	"epoch": 407.5,
	"grad_norm": 0.900124728679657,
	"learning_rate": 9.993693088045939e-05,
	"loss": 0.0112,
	"step": 6520
	},
	{
	"epoch": 408.125,
	"grad_norm": 0.8921932578086853,
	"learning_rate": 9.99360979214268e-05,
	"loss": 0.0112,
	"step": 6530
	},
	{
	"epoch": 408.75,
	"grad_norm": 0.9405972361564636,
	"learning_rate": 9.99352595014576e-05,
	"loss": 0.0107,
	"step": 6540
	},
	{
	"epoch": 409.375,
	"grad_norm": 0.8436768651008606,
	"learning_rate": 9.993441562064354e-05,
	"loss": 0.0113,
	"step": 6550
	},
	{
	"epoch": 410.0,
	"grad_norm": 0.804934024810791,
	"learning_rate": 9.993356627907685e-05,
	"loss": 0.0117,
	"step": 6560
	},
	{
	"epoch": 410.625,
	"grad_norm": 0.945950984954834,
	"learning_rate": 9.99327114768504e-05,
	"loss": 0.0125,
	"step": 6570
	},
	{
	"epoch": 411.25,
	"grad_norm": 0.925611674785614,
	"learning_rate": 9.99318512140577e-05,
	"loss": 0.0121,
	"step": 6580
	},
	{
	"epoch": 411.875,
	"grad_norm": 0.9319164156913757,
	"learning_rate": 9.993098549079284e-05,
	"loss": 0.012,
	"step": 6590
	},
	{
	"epoch": 412.5,
	"grad_norm": 1.0740889310836792,
	"learning_rate": 9.993011430715047e-05,
	"loss": 0.0137,
	"step": 6600
	},
	{
	"epoch": 413.125,
	"grad_norm": 1.1442779302597046,
	"learning_rate": 9.992923766322586e-05,
	"loss": 0.0125,
	"step": 6610
	},
	{
	"epoch": 413.75,
	"grad_norm": 0.8353562355041504,
	"learning_rate": 9.99283555591149e-05,
	"loss": 0.0119,
	"step": 6620
	},
	{
	"epoch": 414.375,
	"grad_norm": 0.720020592212677,
	"learning_rate": 9.992746799491404e-05,
	"loss": 0.012,
	"step": 6630
	},
	{
	"epoch": 415.0,
	"grad_norm": 0.7117792367935181,
	"learning_rate": 9.992657497072033e-05,
	"loss": 0.0118,
	"step": 6640
	},
	{
	"epoch": 415.625,
	"grad_norm": 0.8013281226158142,
	"learning_rate": 9.992567648663147e-05,
	"loss": 0.0134,
	"step": 6650
	},
	{
	"epoch": 416.25,
	"grad_norm": 0.8130918145179749,
	"learning_rate": 9.992477254274568e-05,
	"loss": 0.0118,
	"step": 6660
	},
	{
	"epoch": 416.875,
	"grad_norm": 0.7213727235794067,
	"learning_rate": 9.992386313916183e-05,
	"loss": 0.0111,
	"step": 6670
	},
	{
	"epoch": 417.5,
	"grad_norm": 0.6564821004867554,
	"learning_rate": 9.992294827597934e-05,
	"loss": 0.0113,
	"step": 6680
	},
	{
	"epoch": 418.125,
	"grad_norm": 0.6905478239059448,
	"learning_rate": 9.992202795329831e-05,
	"loss": 0.012,
	"step": 6690
	},
	{
	"epoch": 418.75,
	"grad_norm": 0.821371853351593,
	"learning_rate": 9.992110217121936e-05,
	"loss": 0.0128,
	"step": 6700
	},
	{
	"epoch": 419.375,
	"grad_norm": 0.8834856152534485,
	"learning_rate": 9.992017092984372e-05,
	"loss": 0.0106,
	"step": 6710
	},
	{
	"epoch": 420.0,
	"grad_norm": 0.8281375765800476,
	"learning_rate": 9.991923422927326e-05,
	"loss": 0.0115,
	"step": 6720
	},
	{
	"epoch": 420.625,
	"grad_norm": 0.7310401797294617,
	"learning_rate": 9.991829206961037e-05,
	"loss": 0.0101,
	"step": 6730
	},
	{
	"epoch": 421.25,
	"grad_norm": 0.7845788598060608,
	"learning_rate": 9.991734445095813e-05,
	"loss": 0.0105,
	"step": 6740
	},
	{
	"epoch": 421.875,
	"grad_norm": 0.8412182331085205,
	"learning_rate": 9.991639137342015e-05,
	"loss": 0.0111,
	"step": 6750
	},
	{
	"epoch": 422.5,
	"grad_norm": 0.7537260055541992,
	"learning_rate": 9.991543283710064e-05,
	"loss": 0.0113,
	"step": 6760
	},
	{
	"epoch": 423.125,
	"grad_norm": 0.6647925972938538,
	"learning_rate": 9.991446884210445e-05,
	"loss": 0.0119,
	"step": 6770
	},
	{
	"epoch": 423.75,
	"grad_norm": 0.7035212516784668,
	"learning_rate": 9.9913499388537e-05,
	"loss": 0.0097,
	"step": 6780
	},
	{
	"epoch": 424.375,
	"grad_norm": 0.7553647756576538,
	"learning_rate": 9.99125244765043e-05,
	"loss": 0.01,
	"step": 6790
	},
	{
	"epoch": 425.0,
	"grad_norm": 0.7420441508293152,
	"learning_rate": 9.991154410611296e-05,
	"loss": 0.0114,
	"step": 6800
	},
	{
	"epoch": 425.625,
	"grad_norm": 0.6657722592353821,
	"learning_rate": 9.99105582774702e-05,
	"loss": 0.0109,
	"step": 6810
	},
	{
	"epoch": 426.25,
	"grad_norm": 0.7254708409309387,
	"learning_rate": 9.990956699068384e-05,
	"loss": 0.0116,
	"step": 6820
	},
	{
	"epoch": 426.875,
	"grad_norm": 0.8595172166824341,
	"learning_rate": 9.990857024586224e-05,
	"loss": 0.0113,
	"step": 6830
	},
	{
	"epoch": 427.5,
	"grad_norm": 0.9384058117866516,
	"learning_rate": 9.990756804311446e-05,
	"loss": 0.0112,
	"step": 6840
	},
	{
	"epoch": 428.125,
	"grad_norm": 0.8805230855941772,
	"learning_rate": 9.990656038255006e-05,
	"loss": 0.0097,
	"step": 6850
	},
	{
	"epoch": 428.75,
	"grad_norm": 0.8175788521766663,
	"learning_rate": 9.990554726427926e-05,
	"loss": 0.0111,
	"step": 6860
	},
	{
	"epoch": 429.375,
	"grad_norm": 0.8853816390037537,
	"learning_rate": 9.990452868841284e-05,
	"loss": 0.0119,
	"step": 6870
	},
	{
	"epoch": 430.0,
	"grad_norm": 0.8857107758522034,
	"learning_rate": 9.99035046550622e-05,
	"loss": 0.0111,
	"step": 6880
	},
	{
	"epoch": 430.625,
	"grad_norm": 0.7299500107765198,
	"learning_rate": 9.99024751643393e-05,
	"loss": 0.0113,
	"step": 6890
	},
	{
	"epoch": 431.25,
	"grad_norm": 0.6400433778762817,
	"learning_rate": 9.990144021635677e-05,
	"loss": 0.0106,
	"step": 6900
	},
	{
	"epoch": 431.875,
	"grad_norm": 0.6998341083526611,
	"learning_rate": 9.990039981122775e-05,
	"loss": 0.0117,
	"step": 6910
	},
	{
	"epoch": 432.5,
	"grad_norm": 0.6614553928375244,
	"learning_rate": 9.989935394906602e-05,
	"loss": 0.0108,
	"step": 6920
	},
	{
	"epoch": 433.125,
	"grad_norm": 0.8393372893333435,
	"learning_rate": 9.989830262998598e-05,
	"loss": 0.013,
	"step": 6930
	},
	{
	"epoch": 433.75,
	"grad_norm": 0.7657507061958313,
	"learning_rate": 9.989724585410259e-05,
	"loss": 0.0115,
	"step": 6940
	},
	{
	"epoch": 434.375,
	"grad_norm": 0.6534095406532288,
	"learning_rate": 9.989618362153139e-05,
	"loss": 0.0116,
	"step": 6950
	},
	{
	"epoch": 435.0,
	"grad_norm": 0.5554938316345215,
	"learning_rate": 9.989511593238859e-05,
	"loss": 0.0101,
	"step": 6960
	},
	{
	"epoch": 435.625,
	"grad_norm": 0.633482813835144,
	"learning_rate": 9.98940427867909e-05,
	"loss": 0.0105,
	"step": 6970
	},
	{
	"epoch": 436.25,
	"grad_norm": 0.5705388784408569,
	"learning_rate": 9.989296418485573e-05,
	"loss": 0.0127,
	"step": 6980
	},
	{
	"epoch": 436.875,
	"grad_norm": 0.560118556022644,
	"learning_rate": 9.989188012670101e-05,
	"loss": 0.0102,
	"step": 6990
	},
	{
	"epoch": 437.5,
	"grad_norm": 0.5680054426193237,
	"learning_rate": 9.989079061244528e-05,
	"loss": 0.0108,
	"step": 7000
	},
	{
	"epoch": 438.125,
	"grad_norm": 0.6862987875938416,
	"learning_rate": 9.988969564220769e-05,
	"loss": 0.011,
	"step": 7010
	},
	{
	"epoch": 438.75,
	"grad_norm": 0.6537038683891296,
	"learning_rate": 9.988859521610801e-05,
	"loss": 0.011,
	"step": 7020
	},
	{
	"epoch": 439.375,
	"grad_norm": 0.7102747559547424,
	"learning_rate": 9.988748933426656e-05,
	"loss": 0.0114,
	"step": 7030
	},
	{
	"epoch": 440.0,
	"grad_norm": 0.7743424773216248,
	"learning_rate": 9.988637799680428e-05,
	"loss": 0.0114,
	"step": 7040
	},
	{
	"epoch": 440.625,
	"grad_norm": 0.7385320663452148,
	"learning_rate": 9.98852612038427e-05,
	"loss": 0.0102,
	"step": 7050
	},
	{
	"epoch": 441.25,
	"grad_norm": 0.7324809432029724,
	"learning_rate": 9.988413895550397e-05,
	"loss": 0.0095,
	"step": 7060
	},
	{
	"epoch": 441.875,
	"grad_norm": 0.6916730999946594,
	"learning_rate": 9.98830112519108e-05,
	"loss": 0.012,
	"step": 7070
	},
	{
	"epoch": 442.5,
	"grad_norm": 0.5611207485198975,
	"learning_rate": 9.98818780931865e-05,
	"loss": 0.0099,
	"step": 7080
	},
	{
	"epoch": 443.125,
	"grad_norm": 0.6533907055854797,
	"learning_rate": 9.988073947945502e-05,
	"loss": 0.0097,
	"step": 7090
	},
	{
	"epoch": 443.75,
	"grad_norm": 0.8114432096481323,
	"learning_rate": 9.987959541084087e-05,
	"loss": 0.0096,
	"step": 7100
	},
	{
	"epoch": 444.375,
	"grad_norm": 0.5615887641906738,
	"learning_rate": 9.987844588746915e-05,
	"loss": 0.0085,
	"step": 7110
	},
	{
	"epoch": 445.0,
	"grad_norm": 0.6930294632911682,
	"learning_rate": 9.987729090946558e-05,
	"loss": 0.0096,
	"step": 7120
	},
	{
	"epoch": 445.625,
	"grad_norm": 0.7661396265029907,
	"learning_rate": 9.987613047695647e-05,
	"loss": 0.0099,
	"step": 7130
	},
	{
	"epoch": 446.25,
	"grad_norm": 0.7148370146751404,
	"learning_rate": 9.987496459006871e-05,
	"loss": 0.0092,
	"step": 7140
	},
	{
	"epoch": 446.875,
	"grad_norm": 0.9166419506072998,
	"learning_rate": 9.987379324892982e-05,
	"loss": 0.0113,
	"step": 7150
	},
	{
	"epoch": 447.5,
	"grad_norm": 0.8479866981506348,
	"learning_rate": 9.987261645366788e-05,
	"loss": 0.0101,
	"step": 7160
	},
	{
	"epoch": 448.125,
	"grad_norm": 0.6642943620681763,
	"learning_rate": 9.987143420441158e-05,
	"loss": 0.01,
	"step": 7170
	},
	{
	"epoch": 448.75,
	"grad_norm": 0.6536929607391357,
	"learning_rate": 9.987024650129022e-05,
	"loss": 0.0102,
	"step": 7180
	},
	{
	"epoch": 449.375,
	"grad_norm": 0.8466352820396423,
	"learning_rate": 9.986905334443368e-05,
	"loss": 0.0117,
	"step": 7190
	},
	{
	"epoch": 450.0,
	"grad_norm": 0.7626696228981018,
	"learning_rate": 9.986785473397245e-05,
	"loss": 0.0103,
	"step": 7200
	},
	{
	"epoch": 450.625,
	"grad_norm": 0.7776815891265869,
	"learning_rate": 9.98666506700376e-05,
	"loss": 0.0115,
	"step": 7210
	},
	{
	"epoch": 451.25,
	"grad_norm": 1.0069994926452637,
	"learning_rate": 9.986544115276081e-05,
	"loss": 0.0128,
	"step": 7220
	},
	{
	"epoch": 451.875,
	"grad_norm": 0.8917898535728455,
	"learning_rate": 9.986422618227433e-05,
	"loss": 0.0109,
	"step": 7230
	},
	{
	"epoch": 452.5,
	"grad_norm": 0.7967373728752136,
	"learning_rate": 9.986300575871106e-05,
	"loss": 0.0116,
	"step": 7240
	},
	{
	"epoch": 453.125,
	"grad_norm": 0.6768915057182312,
	"learning_rate": 9.986177988220444e-05,
	"loss": 0.0099,
	"step": 7250
	},
	{
	"epoch": 453.75,
	"grad_norm": 0.7261281609535217,
	"learning_rate": 9.986054855288856e-05,
	"loss": 0.0103,
	"step": 7260
	},
	{
	"epoch": 454.375,
	"grad_norm": 0.7023577094078064,
	"learning_rate": 9.985931177089802e-05,
	"loss": 0.0112,
	"step": 7270
	},
	{
	"epoch": 455.0,
	"grad_norm": 0.5902547836303711,
	"learning_rate": 9.985806953636814e-05,
	"loss": 0.0098,
	"step": 7280
	},
	{
	"epoch": 455.625,
	"grad_norm": 0.6153225302696228,
	"learning_rate": 9.985682184943471e-05,
	"loss": 0.0111,
	"step": 7290
	},
	{
	"epoch": 456.25,
	"grad_norm": 0.6180372834205627,
	"learning_rate": 9.98555687102342e-05,
	"loss": 0.0096,
	"step": 7300
	},
	{
	"epoch": 456.875,
	"grad_norm": 0.7004512548446655,
	"learning_rate": 9.985431011890367e-05,
	"loss": 0.0107,
	"step": 7310
	},
	{
	"epoch": 457.5,
	"grad_norm": 0.8018707036972046,
	"learning_rate": 9.985304607558075e-05,
	"loss": 0.0104,
	"step": 7320
	},
	{
	"epoch": 458.125,
	"grad_norm": 0.6335276365280151,
	"learning_rate": 9.985177658040364e-05,
	"loss": 0.0102,
	"step": 7330
	},
	{
	"epoch": 458.75,
	"grad_norm": 0.8146379590034485,
	"learning_rate": 9.985050163351119e-05,
	"loss": 0.0106,
	"step": 7340
	},
	{
	"epoch": 459.375,
	"grad_norm": 0.7131094336509705,
	"learning_rate": 9.984922123504286e-05,
	"loss": 0.0093,
	"step": 7350
	},
	{
	"epoch": 460.0,
	"grad_norm": 0.647261381149292,
	"learning_rate": 9.984793538513862e-05,
	"loss": 0.0103,
	"step": 7360
	},
	{
	"epoch": 460.625,
	"grad_norm": 0.6319265961647034,
	"learning_rate": 9.984664408393912e-05,
	"loss": 0.01,
	"step": 7370
	},
	{
	"epoch": 461.25,
	"grad_norm": 0.5086030960083008,
	"learning_rate": 9.984534733158556e-05,
	"loss": 0.0105,
	"step": 7380
	},
	{
	"epoch": 461.875,
	"grad_norm": 0.6072356104850769,
	"learning_rate": 9.984404512821977e-05,
	"loss": 0.0089,
	"step": 7390
	},
	{
	"epoch": 462.5,
	"grad_norm": 0.6429985165596008,
	"learning_rate": 9.984273747398411e-05,
	"loss": 0.0102,
	"step": 7400
	},
	{
	"epoch": 463.125,
	"grad_norm": 0.5790389776229858,
	"learning_rate": 9.984142436902165e-05,
	"loss": 0.0104,
	"step": 7410
	},
	{
	"epoch": 463.75,
	"grad_norm": 0.701302170753479,
	"learning_rate": 9.984010581347596e-05,
	"loss": 0.0089,
	"step": 7420
	},
	{
	"epoch": 464.375,
	"grad_norm": 0.6150535941123962,
	"learning_rate": 9.983878180749121e-05,
	"loss": 0.0098,
	"step": 7430
	},
	{
	"epoch": 465.0,
	"grad_norm": 0.6264737248420715,
	"learning_rate": 9.983745235121222e-05,
	"loss": 0.0093,
	"step": 7440
	},
	{
	"epoch": 465.625,
	"grad_norm": 0.5422685146331787,
	"learning_rate": 9.983611744478438e-05,
	"loss": 0.0104,
	"step": 7450
	},
	{
	"epoch": 466.25,
	"grad_norm": 0.6225709915161133,
	"learning_rate": 9.983477708835365e-05,
	"loss": 0.0101,
	"step": 7460
	},
	{
	"epoch": 466.875,
	"grad_norm": 0.5819153785705566,
	"learning_rate": 9.983343128206664e-05,
	"loss": 0.0106,
	"step": 7470
	},
	{
	"epoch": 467.5,
	"grad_norm": 0.7224307060241699,
	"learning_rate": 9.983208002607049e-05,
	"loss": 0.0107,
	"step": 7480
	},
	{
	"epoch": 468.125,
	"grad_norm": 0.7039912939071655,
	"learning_rate": 9.9830723320513e-05,
	"loss": 0.0103,
	"step": 7490
	},
	{
	"epoch": 468.75,
	"grad_norm": 0.6855049133300781,
	"learning_rate": 9.982936116554254e-05,
	"loss": 0.0088,
	"step": 7500
	},
	{
	"epoch": 469.375,
	"grad_norm": 0.6290692687034607,
	"learning_rate": 9.982799356130803e-05,
	"loss": 0.0106,
	"step": 7510
	},
	{
	"epoch": 470.0,
	"grad_norm": 0.5659773945808411,
	"learning_rate": 9.982662050795908e-05,
	"loss": 0.0106,
	"step": 7520
	},
	{
	"epoch": 470.625,
	"grad_norm": 0.5781753063201904,
	"learning_rate": 9.982524200564583e-05,
	"loss": 0.0104,
	"step": 7530
	},
	{
	"epoch": 471.25,
	"grad_norm": 0.6644128561019897,
	"learning_rate": 9.982385805451901e-05,
	"loss": 0.0103,
	"step": 7540
	},
	{
	"epoch": 471.875,
	"grad_norm": 0.7858973145484924,
	"learning_rate": 9.982246865472998e-05,
	"loss": 0.0093,
	"step": 7550
	},
	{
	"epoch": 472.5,
	"grad_norm": 0.7751241326332092,
	"learning_rate": 9.982107380643069e-05,
	"loss": 0.0101,
	"step": 7560
	},
	{
	"epoch": 473.125,
	"grad_norm": 0.8384363055229187,
	"learning_rate": 9.981967350977368e-05,
	"loss": 0.0107,
	"step": 7570
	},
	{
	"epoch": 473.75,
	"grad_norm": 0.8584528565406799,
	"learning_rate": 9.981826776491208e-05,
	"loss": 0.0095,
	"step": 7580
	},
	{
	"epoch": 474.375,
	"grad_norm": 0.995509922504425,
	"learning_rate": 9.98168565719996e-05,
	"loss": 0.0115,
	"step": 7590
	},
	{
	"epoch": 475.0,
	"grad_norm": 0.8218001127243042,
	"learning_rate": 9.98154399311906e-05,
	"loss": 0.011,
	"step": 7600
	},
	{
	"epoch": 475.625,
	"grad_norm": 0.7269605994224548,
	"learning_rate": 9.981401784263997e-05,
	"loss": 0.0103,
	"step": 7610
	},
	{
	"epoch": 476.25,
	"grad_norm": 0.6630864143371582,
	"learning_rate": 9.981259030650326e-05,
	"loss": 0.0092,
	"step": 7620
	},
	{
	"epoch": 476.875,
	"grad_norm": 0.7081972360610962,
	"learning_rate": 9.981115732293655e-05,
	"loss": 0.0084,
	"step": 7630
	},
	{
	"epoch": 477.5,
	"grad_norm": 0.6908837556838989,
	"learning_rate": 9.980971889209659e-05,
	"loss": 0.0096,
	"step": 7640
	},
	{
	"epoch": 478.125,
	"grad_norm": 0.6863625645637512,
	"learning_rate": 9.980827501414064e-05,
	"loss": 0.0094,
	"step": 7650
	},
	{
	"epoch": 478.75,
	"grad_norm": 0.628754734992981,
	"learning_rate": 9.980682568922663e-05,
	"loss": 0.0087,
	"step": 7660
	},
	{
	"epoch": 479.375,
	"grad_norm": 0.6461851000785828,
	"learning_rate": 9.980537091751304e-05,
	"loss": 0.0091,
	"step": 7670
	},
	{
	"epoch": 480.0,
	"grad_norm": 0.6353027820587158,
	"learning_rate": 9.980391069915897e-05,
	"loss": 0.009,
	"step": 7680
	},
	{
	"epoch": 480.625,
	"grad_norm": 0.5868967175483704,
	"learning_rate": 9.98024450343241e-05,
	"loss": 0.0101,
	"step": 7690
	},
	{
	"epoch": 481.25,
	"grad_norm": 0.6688029766082764,
	"learning_rate": 9.980097392316872e-05,
	"loss": 0.0083,
	"step": 7700
	},
	{
	"epoch": 481.875,
	"grad_norm": 0.5620129108428955,
	"learning_rate": 9.97994973658537e-05,
	"loss": 0.0088,
	"step": 7710
	},
	{
	"epoch": 482.5,
	"grad_norm": 0.6990760564804077,
	"learning_rate": 9.979801536254054e-05,
	"loss": 0.008,
	"step": 7720
	},
	{
	"epoch": 483.125,
	"grad_norm": 0.5271959900856018,
	"learning_rate": 9.979652791339127e-05,
	"loss": 0.01,
	"step": 7730
	},
	{
	"epoch": 483.75,
	"grad_norm": 0.717219352722168,
	"learning_rate": 9.97950350185686e-05,
	"loss": 0.0104,
	"step": 7740
	},
	{
	"epoch": 484.375,
	"grad_norm": 0.5886634588241577,
	"learning_rate": 9.979353667823574e-05,
	"loss": 0.0086,
	"step": 7750
	},
	{
	"epoch": 485.0,
	"grad_norm": 0.7227773070335388,
	"learning_rate": 9.979203289255658e-05,
	"loss": 0.0094,
	"step": 7760
	},
	{
	"epoch": 485.625,
	"grad_norm": 0.6355369687080383,
	"learning_rate": 9.979052366169557e-05,
	"loss": 0.0098,
	"step": 7770
	},
	{
	"epoch": 486.25,
	"grad_norm": 0.6813123226165771,
	"learning_rate": 9.978900898581775e-05,
	"loss": 0.01,
	"step": 7780
	},
	{
	"epoch": 486.875,
	"grad_norm": 0.659970223903656,
	"learning_rate": 9.978748886508875e-05,
	"loss": 0.0088,
	"step": 7790
	},
	{
	"epoch": 487.5,
	"grad_norm": 0.7737880349159241,
	"learning_rate": 9.978596329967484e-05,
	"loss": 0.0106,
	"step": 7800
	},
	{
	"epoch": 488.125,
	"grad_norm": 0.7581619024276733,
	"learning_rate": 9.978443228974284e-05,
	"loss": 0.0087,
	"step": 7810
	},
	{
	"epoch": 488.75,
	"grad_norm": 0.7430512309074402,
	"learning_rate": 9.978289583546015e-05,
	"loss": 0.0093,
	"step": 7820
	},
	{
	"epoch": 489.375,
	"grad_norm": 0.6579586863517761,
	"learning_rate": 9.978135393699484e-05,
	"loss": 0.0092,
	"step": 7830
	},
	{
	"epoch": 490.0,
	"grad_norm": 0.6156346797943115,
	"learning_rate": 9.977980659451548e-05,
	"loss": 0.0099,
	"step": 7840
	},
	{
	"epoch": 490.625,
	"grad_norm": 0.6920315623283386,
	"learning_rate": 9.977825380819135e-05,
	"loss": 0.0101,
	"step": 7850
	},
	{
	"epoch": 491.25,
	"grad_norm": 0.7143272161483765,
	"learning_rate": 9.97766955781922e-05,
	"loss": 0.0102,
	"step": 7860
	},
	{
	"epoch": 491.875,
	"grad_norm": 0.6715136170387268,
	"learning_rate": 9.977513190468848e-05,
	"loss": 0.0092,
	"step": 7870
	},
	{
	"epoch": 492.5,
	"grad_norm": 0.792335569858551,
	"learning_rate": 9.977356278785116e-05,
	"loss": 0.0094,
	"step": 7880
	},
	{
	"epoch": 493.125,
	"grad_norm": 0.8089608550071716,
	"learning_rate": 9.977198822785184e-05,
	"loss": 0.0099,
	"step": 7890
	},
	{
	"epoch": 493.75,
	"grad_norm": 0.727393627166748,
	"learning_rate": 9.977040822486273e-05,
	"loss": 0.0093,
	"step": 7900
	},
	{
	"epoch": 494.375,
	"grad_norm": 0.7314863204956055,
	"learning_rate": 9.97688227790566e-05,
	"loss": 0.01,
	"step": 7910
	},
	{
	"epoch": 495.0,
	"grad_norm": 0.6197735667228699,
	"learning_rate": 9.976723189060684e-05,
	"loss": 0.0093,
	"step": 7920
	},
	{
	"epoch": 495.625,
	"grad_norm": 0.6258811950683594,
	"learning_rate": 9.976563555968742e-05,
	"loss": 0.0089,
	"step": 7930
	},
	{
	"epoch": 496.25,
	"grad_norm": 0.6613799929618835,
	"learning_rate": 9.976403378647292e-05,
	"loss": 0.0099,
	"step": 7940
	},
	{
	"epoch": 496.875,
	"grad_norm": 0.5219643115997314,
	"learning_rate": 9.97624265711385e-05,
	"loss": 0.0102,
	"step": 7950
	},
	{
	"epoch": 497.5,
	"grad_norm": 0.5938867330551147,
	"learning_rate": 9.976081391385993e-05,
	"loss": 0.0101,
	"step": 7960
	},
	{
	"epoch": 498.125,
	"grad_norm": 0.5493279099464417,
	"learning_rate": 9.975919581481356e-05,
	"loss": 0.01,
	"step": 7970
	},
	{
	"epoch": 498.75,
	"grad_norm": 0.5064048767089844,
	"learning_rate": 9.975757227417634e-05,
	"loss": 0.0092,
	"step": 7980
	},
	{
	"epoch": 499.375,
	"grad_norm": 0.5940008163452148,
	"learning_rate": 9.975594329212586e-05,
	"loss": 0.0097,
	"step": 7990
	},
	{
	"epoch": 500.0,
	"grad_norm": 0.5561034083366394,
	"learning_rate": 9.97543088688402e-05,
	"loss": 0.0092,
	"step": 8000
	},
	{
	"epoch": 500.625,
	"grad_norm": 0.587040901184082,
	"learning_rate": 9.975266900449814e-05,
	"loss": 0.0105,
	"step": 8010
	},
	{
	"epoch": 501.25,
	"grad_norm": 0.6578340530395508,
	"learning_rate": 9.975102369927898e-05,
	"loss": 0.0088,
	"step": 8020
	},
	{
	"epoch": 501.875,
	"grad_norm": 0.6301031708717346,
	"learning_rate": 9.974937295336269e-05,
	"loss": 0.0096,
	"step": 8030
	},
	{
	"epoch": 502.5,
	"grad_norm": 0.49646562337875366,
	"learning_rate": 9.974771676692975e-05,
	"loss": 0.0094,
	"step": 8040
	},
	{
	"epoch": 503.125,
	"grad_norm": 0.5952965021133423,
	"learning_rate": 9.974605514016131e-05,
	"loss": 0.0088,
	"step": 8050
	},
	{
	"epoch": 503.75,
	"grad_norm": 0.6772691607475281,
	"learning_rate": 9.974438807323907e-05,
	"loss": 0.0093,
	"step": 8060
	},
	{
	"epoch": 504.375,
	"grad_norm": 0.5597459673881531,
	"learning_rate": 9.974271556634535e-05,
	"loss": 0.0088,
	"step": 8070
	},
	{
	"epoch": 505.0,
	"grad_norm": 0.8469547033309937,
	"learning_rate": 9.974103761966302e-05,
	"loss": 0.0106,
	"step": 8080
	},
	{
	"epoch": 505.625,
	"grad_norm": 0.775303065776825,
	"learning_rate": 9.973935423337563e-05,
	"loss": 0.0097,
	"step": 8090
	},
	{
	"epoch": 506.25,
	"grad_norm": 0.7015887498855591,
	"learning_rate": 9.973766540766722e-05,
	"loss": 0.0095,
	"step": 8100
	},
	{
	"epoch": 506.875,
	"grad_norm": 0.6640006303787231,
	"learning_rate": 9.97359711427225e-05,
	"loss": 0.0111,
	"step": 8110
	},
	{
	"epoch": 507.5,
	"grad_norm": 0.6578481793403625,
	"learning_rate": 9.973427143872677e-05,
	"loss": 0.0088,
	"step": 8120
	},
	{
	"epoch": 508.125,
	"grad_norm": 0.6807109713554382,
	"learning_rate": 9.973256629586589e-05,
	"loss": 0.0102,
	"step": 8130
	},
	{
	"epoch": 508.75,
	"grad_norm": 0.5422506332397461,
	"learning_rate": 9.973085571432632e-05,
	"loss": 0.0101,
	"step": 8140
	},
	{
	"epoch": 509.375,
	"grad_norm": 0.5136811137199402,
	"learning_rate": 9.972913969429513e-05,
	"loss": 0.0097,
	"step": 8150
	},
	{
	"epoch": 510.0,
	"grad_norm": 0.693134069442749,
	"learning_rate": 9.972741823596e-05,
	"loss": 0.0094,
	"step": 8160
	},
	{
	"epoch": 510.625,
	"grad_norm": 0.611960232257843,
	"learning_rate": 9.972569133950917e-05,
	"loss": 0.0089,
	"step": 8170
	},
	{
	"epoch": 511.25,
	"grad_norm": 0.617396354675293,
	"learning_rate": 9.972395900513151e-05,
	"loss": 0.0088,
	"step": 8180
	},
	{
	"epoch": 511.875,
	"grad_norm": 0.6016327738761902,
	"learning_rate": 9.972222123301645e-05,
	"loss": 0.0095,
	"step": 8190
	},
	{
	"epoch": 512.5,
	"grad_norm": 0.5470365881919861,
	"learning_rate": 9.972047802335403e-05,
	"loss": 0.0096,
	"step": 8200
	},
	{
	"epoch": 513.125,
	"grad_norm": 0.6275759935379028,
	"learning_rate": 9.971872937633488e-05,
	"loss": 0.0085,
	"step": 8210
	},
	{
	"epoch": 513.75,
	"grad_norm": 0.5876614451408386,
	"learning_rate": 9.971697529215024e-05,
	"loss": 0.0093,
	"step": 8220
	},
	{
	"epoch": 514.375,
	"grad_norm": 0.57300865650177,
	"learning_rate": 9.971521577099192e-05,
	"loss": 0.0091,
	"step": 8230
	},
	{
	"epoch": 515.0,
	"grad_norm": 0.6590330600738525,
	"learning_rate": 9.971345081305236e-05,
	"loss": 0.0094,
	"step": 8240
	},
	{
	"epoch": 515.625,
	"grad_norm": 0.7168742418289185,
	"learning_rate": 9.971168041852456e-05,
	"loss": 0.0091,
	"step": 8250
	},
	{
	"epoch": 516.25,
	"grad_norm": 0.7002500295639038,
	"learning_rate": 9.970990458760215e-05,
	"loss": 0.0082,
	"step": 8260
	},
	{
	"epoch": 516.875,
	"grad_norm": 0.5979912877082825,
	"learning_rate": 9.970812332047929e-05,
	"loss": 0.0083,
	"step": 8270
	},
	{
	"epoch": 517.5,
	"grad_norm": 0.6995880603790283,
	"learning_rate": 9.97063366173508e-05,
	"loss": 0.0083,
	"step": 8280
	},
	{
	"epoch": 518.125,
	"grad_norm": 0.6054606437683105,
	"learning_rate": 9.970454447841207e-05,
	"loss": 0.0086,
	"step": 8290
	},
	{
	"epoch": 518.75,
	"grad_norm": 0.6761727333068848,
	"learning_rate": 9.970274690385909e-05,
	"loss": 0.0091,
	"step": 8300
	},
	{
	"epoch": 519.375,
	"grad_norm": 0.7297013401985168,
	"learning_rate": 9.970094389388844e-05,
	"loss": 0.0101,
	"step": 8310
	},
	{
	"epoch": 520.0,
	"grad_norm": 0.6933302879333496,
	"learning_rate": 9.969913544869728e-05,
	"loss": 0.009,
	"step": 8320
	},
	{
	"epoch": 520.625,
	"grad_norm": 0.632068932056427,
	"learning_rate": 9.96973215684834e-05,
	"loss": 0.0092,
	"step": 8330
	},
	{
	"epoch": 521.25,
	"grad_norm": 0.5213248133659363,
	"learning_rate": 9.969550225344513e-05,
	"loss": 0.0095,
	"step": 8340
	},
	{
	"epoch": 521.875,
	"grad_norm": 0.5387685298919678,
	"learning_rate": 9.969367750378147e-05,
	"loss": 0.0072,
	"step": 8350
	},
	{
	"epoch": 522.5,
	"grad_norm": 0.5790697336196899,
	"learning_rate": 9.969184731969194e-05,
	"loss": 0.0098,
	"step": 8360
	},
	{
	"epoch": 523.125,
	"grad_norm": 0.6181520819664001,
	"learning_rate": 9.96900117013767e-05,
	"loss": 0.0094,
	"step": 8370
	},
	{
	"epoch": 523.75,
	"grad_norm": 0.6647499799728394,
	"learning_rate": 9.96881706490365e-05,
	"loss": 0.0092,
	"step": 8380
	},
	{
	"epoch": 524.375,
	"grad_norm": 0.5274850726127625,
	"learning_rate": 9.968632416287265e-05,
	"loss": 0.0092,
	"step": 8390
	},
	{
	"epoch": 525.0,
	"grad_norm": 0.5954369902610779,
	"learning_rate": 9.96844722430871e-05,
	"loss": 0.0083,
	"step": 8400
	},
	{
	"epoch": 525.625,
	"grad_norm": 0.5637514591217041,
	"learning_rate": 9.968261488988235e-05,
	"loss": 0.0096,
	"step": 8410
	},
	{
	"epoch": 526.25,
	"grad_norm": 0.5467987656593323,
	"learning_rate": 9.968075210346155e-05,
	"loss": 0.0087,
	"step": 8420
	},
	{
	"epoch": 526.875,
	"grad_norm": 0.6766216158866882,
	"learning_rate": 9.967888388402839e-05,
	"loss": 0.0098,
	"step": 8430
	},
	{
	"epoch": 527.5,
	"grad_norm": 0.689804196357727,
	"learning_rate": 9.967701023178717e-05,
	"loss": 0.0094,
	"step": 8440
	},
	{
	"epoch": 528.125,
	"grad_norm": 0.6711739301681519,
	"learning_rate": 9.967513114694282e-05,
	"loss": 0.0098,
	"step": 8450
	},
	{
	"epoch": 528.75,
	"grad_norm": 0.7609061002731323,
	"learning_rate": 9.967324662970079e-05,
	"loss": 0.0091,
	"step": 8460
	},
	{
	"epoch": 529.375,
	"grad_norm": 0.6599430441856384,
	"learning_rate": 9.96713566802672e-05,
	"loss": 0.0096,
	"step": 8470
	},
	{
	"epoch": 530.0,
	"grad_norm": 0.6817207932472229,
	"learning_rate": 9.966946129884873e-05,
	"loss": 0.0093,
	"step": 8480
	},
	{
	"epoch": 530.625,
	"grad_norm": 0.8081104755401611,
	"learning_rate": 9.966756048565265e-05,
	"loss": 0.01,
	"step": 8490
	},
	{
	"epoch": 531.25,
	"grad_norm": 0.6982617378234863,
	"learning_rate": 9.966565424088681e-05,
	"loss": 0.0088,
	"step": 8500
	}
	],
	"logging_steps": 10,
	"max_steps": 100000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6250,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 256,
	"trial_name": null,
	"trial_params": null
	}