lavida-llada-reason / trainer_state.json

Add files using upload-large-folder tool

246b218 verified 9 months ago

110 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.32,
	"eval_steps": 500,
	"global_step": 648,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 2.1375420093536377,
	"learning_rate": 8.695652173913044e-07,
	"loss": 0.6337,
	"step": 1
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 1.3867141008377075,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 0.4949,
	"step": 2
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.0555808544158936,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 0.8126,
	"step": 3
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 2.612351179122925,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 0.7339,
	"step": 4
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 1.3486746549606323,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.2616,
	"step": 5
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.0544432401657104,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 0.3067,
	"step": 6
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 1.7482120990753174,
	"learning_rate": 6.086956521739132e-06,
	"loss": 0.5077,
	"step": 7
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 1.1587380170822144,
	"learning_rate": 6.956521739130435e-06,
	"loss": 0.3569,
	"step": 8
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.9702258706092834,
	"learning_rate": 7.82608695652174e-06,
	"loss": 0.2481,
	"step": 9
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 2.1485090255737305,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.8677,
	"step": 10
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 1.8601247072219849,
	"learning_rate": 9.565217391304349e-06,
	"loss": 0.7287,
	"step": 11
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.7620797753334045,
	"learning_rate": 1.0434782608695653e-05,
	"loss": 0.2058,
	"step": 12
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 1.5065464973449707,
	"learning_rate": 1.1304347826086957e-05,
	"loss": 0.3753,
	"step": 13
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 2.2056727409362793,
	"learning_rate": 1.2173913043478263e-05,
	"loss": 0.5868,
	"step": 14
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.4034738540649414,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 0.4816,
	"step": 15
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 1.3337379693984985,
	"learning_rate": 1.391304347826087e-05,
	"loss": 0.3676,
	"step": 16
	},
	{
	"epoch": 0.11333333333333333,
	"grad_norm": 1.246992588043213,
	"learning_rate": 1.4782608695652174e-05,
	"loss": 0.5706,
	"step": 17
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.2821959257125854,
	"learning_rate": 1.565217391304348e-05,
	"loss": 0.3634,
	"step": 18
	},
	{
	"epoch": 0.12666666666666668,
	"grad_norm": 1.5053499937057495,
	"learning_rate": 1.6521739130434785e-05,
	"loss": 0.5677,
	"step": 19
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 1.814946174621582,
	"learning_rate": 1.739130434782609e-05,
	"loss": 0.3515,
	"step": 20
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.469709873199463,
	"learning_rate": 1.8260869565217393e-05,
	"loss": 0.4288,
	"step": 21
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 2.078496217727661,
	"learning_rate": 1.9130434782608697e-05,
	"loss": 0.5581,
	"step": 22
	},
	{
	"epoch": 0.15333333333333332,
	"grad_norm": 0.9332765340805054,
	"learning_rate": 2e-05,
	"loss": 0.2232,
	"step": 23
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.065216064453125,
	"learning_rate": 1.999991596837507e-05,
	"loss": 0.615,
	"step": 24
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 1.0639126300811768,
	"learning_rate": 1.999966387506947e-05,
	"loss": 0.4299,
	"step": 25
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 1.2220447063446045,
	"learning_rate": 1.9999243724790705e-05,
	"loss": 0.333,
	"step": 26
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.0556367635726929,
	"learning_rate": 1.9998655525384534e-05,
	"loss": 0.2706,
	"step": 27
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 1.2605373859405518,
	"learning_rate": 1.999789928783482e-05,
	"loss": 0.3138,
	"step": 28
	},
	{
	"epoch": 0.19333333333333333,
	"grad_norm": 1.5340529680252075,
	"learning_rate": 1.9996975026263304e-05,
	"loss": 0.2929,
	"step": 29
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.2613033056259155,
	"learning_rate": 1.9995882757929367e-05,
	"loss": 0.4769,
	"step": 30
	},
	{
	"epoch": 0.20666666666666667,
	"grad_norm": 1.3187987804412842,
	"learning_rate": 1.9994622503229694e-05,
	"loss": 0.3597,
	"step": 31
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 1.2319542169570923,
	"learning_rate": 1.9993194285697898e-05,
	"loss": 0.394,
	"step": 32
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.3756078481674194,
	"learning_rate": 1.9991598132004072e-05,
	"loss": 0.4712,
	"step": 33
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 1.537395715713501,
	"learning_rate": 1.998983407195431e-05,
	"loss": 0.7394,
	"step": 34
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 2.503176212310791,
	"learning_rate": 1.9987902138490118e-05,
	"loss": 0.7219,
	"step": 35
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.753596544265747,
	"learning_rate": 1.9985802367687844e-05,
	"loss": 0.7032,
	"step": 36
	},
	{
	"epoch": 0.24666666666666667,
	"grad_norm": 1.8421489000320435,
	"learning_rate": 1.9983534798757964e-05,
	"loss": 0.6088,
	"step": 37
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 1.8208023309707642,
	"learning_rate": 1.9981099474044362e-05,
	"loss": 0.4845,
	"step": 38
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.356024146080017,
	"learning_rate": 1.997849643902355e-05,
	"loss": 0.487,
	"step": 39
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 1.470805048942566,
	"learning_rate": 1.997572574230381e-05,
	"loss": 0.54,
	"step": 40
	},
	{
	"epoch": 0.2733333333333333,
	"grad_norm": 1.4851891994476318,
	"learning_rate": 1.9972787435624282e-05,
	"loss": 0.4076,
	"step": 41
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.803066074848175,
	"learning_rate": 1.996968157385401e-05,
	"loss": 0.1891,
	"step": 42
	},
	{
	"epoch": 0.2866666666666667,
	"grad_norm": 1.5581703186035156,
	"learning_rate": 1.996640821499091e-05,
	"loss": 0.3365,
	"step": 43
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 1.6261980533599854,
	"learning_rate": 1.9962967420160683e-05,
	"loss": 0.4267,
	"step": 44
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.4385892152786255,
	"learning_rate": 1.9959359253615676e-05,
	"loss": 0.3899,
	"step": 45
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 1.3031079769134521,
	"learning_rate": 1.9955583782733693e-05,
	"loss": 0.4338,
	"step": 46
	},
	{
	"epoch": 0.31333333333333335,
	"grad_norm": 1.2695931196212769,
	"learning_rate": 1.9951641078016725e-05,
	"loss": 0.6285,
	"step": 47
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.1178261041641235,
	"learning_rate": 1.994753121308963e-05,
	"loss": 0.4285,
	"step": 48
	},
	{
	"epoch": 0.32666666666666666,
	"grad_norm": 1.6929885149002075,
	"learning_rate": 1.9943254264698775e-05,
	"loss": 0.4132,
	"step": 49
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.9805382490158081,
	"learning_rate": 1.9938810312710585e-05,
	"loss": 0.3083,
	"step": 50
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.9645007848739624,
	"learning_rate": 1.993419944011006e-05,
	"loss": 0.1915,
	"step": 51
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 1.752095103263855,
	"learning_rate": 1.992942173299923e-05,
	"loss": 0.4278,
	"step": 52
	},
	{
	"epoch": 0.35333333333333333,
	"grad_norm": 1.3025977611541748,
	"learning_rate": 1.9924477280595533e-05,
	"loss": 0.3838,
	"step": 53
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.117335557937622,
	"learning_rate": 1.9919366175230163e-05,
	"loss": 0.392,
	"step": 54
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 1.9283711910247803,
	"learning_rate": 1.9914088512346344e-05,
	"loss": 0.632,
	"step": 55
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 1.0203382968902588,
	"learning_rate": 1.9908644390497535e-05,
	"loss": 0.205,
	"step": 56
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.7649632692337036,
	"learning_rate": 1.9903033911345607e-05,
	"loss": 0.2475,
	"step": 57
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 1.1519532203674316,
	"learning_rate": 1.9897257179658936e-05,
	"loss": 0.4095,
	"step": 58
	},
	{
	"epoch": 0.3933333333333333,
	"grad_norm": 1.232419729232788,
	"learning_rate": 1.9891314303310435e-05,
	"loss": 0.4682,
	"step": 59
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.3041213750839233,
	"learning_rate": 1.9885205393275572e-05,
	"loss": 0.5696,
	"step": 60
	},
	{
	"epoch": 0.4066666666666667,
	"grad_norm": 1.5985859632492065,
	"learning_rate": 1.9878930563630257e-05,
	"loss": 0.3258,
	"step": 61
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 1.4802793264389038,
	"learning_rate": 1.9872489931548743e-05,
	"loss": 0.4622,
	"step": 62
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.4201364517211914,
	"learning_rate": 1.9865883617301433e-05,
	"loss": 0.3725,
	"step": 63
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 0.6913735270500183,
	"learning_rate": 1.9859111744252615e-05,
	"loss": 0.3119,
	"step": 64
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 1.1920121908187866,
	"learning_rate": 1.9852174438858177e-05,
	"loss": 0.3138,
	"step": 65
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.9476704597473145,
	"learning_rate": 1.9845071830663237e-05,
	"loss": 0.6468,
	"step": 66
	},
	{
	"epoch": 0.44666666666666666,
	"grad_norm": 1.4647783041000366,
	"learning_rate": 1.9837804052299737e-05,
	"loss": 0.5353,
	"step": 67
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 1.4652175903320312,
	"learning_rate": 1.9830371239483942e-05,
	"loss": 0.5751,
	"step": 68
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.1322413682937622,
	"learning_rate": 1.9822773531013932e-05,
	"loss": 0.3728,
	"step": 69
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 1.4815658330917358,
	"learning_rate": 1.9815011068766996e-05,
	"loss": 0.5075,
	"step": 70
	},
	{
	"epoch": 0.47333333333333333,
	"grad_norm": 1.5985065698623657,
	"learning_rate": 1.9807083997696977e-05,
	"loss": 0.3835,
	"step": 71
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.1205939054489136,
	"learning_rate": 1.979899246583158e-05,
	"loss": 0.5067,
	"step": 72
	},
	{
	"epoch": 0.4866666666666667,
	"grad_norm": 0.9271765947341919,
	"learning_rate": 1.9790736624269596e-05,
	"loss": 0.2899,
	"step": 73
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 1.379699468612671,
	"learning_rate": 1.9782316627178088e-05,
	"loss": 0.5131,
	"step": 74
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.1322109699249268,
	"learning_rate": 1.977373263178951e-05,
	"loss": 0.4466,
	"step": 75
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 1.5308328866958618,
	"learning_rate": 1.9764984798398773e-05,
	"loss": 0.5935,
	"step": 76
	},
	{
	"epoch": 0.5133333333333333,
	"grad_norm": 1.3057100772857666,
	"learning_rate": 1.9756073290360236e-05,
	"loss": 0.3564,
	"step": 77
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.281868815422058,
	"learning_rate": 1.9746998274084683e-05,
	"loss": 0.3617,
	"step": 78
	},
	{
	"epoch": 0.5266666666666666,
	"grad_norm": 1.5658316612243652,
	"learning_rate": 1.9737759919036196e-05,
	"loss": 0.6316,
	"step": 79
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 1.439375400543213,
	"learning_rate": 1.972835839772899e-05,
	"loss": 0.6616,
	"step": 80
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.483205795288086,
	"learning_rate": 1.9718793885724202e-05,
	"loss": 0.5403,
	"step": 81
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 1.778740406036377,
	"learning_rate": 1.970906656162661e-05,
	"loss": 0.7721,
	"step": 82
	},
	{
	"epoch": 0.5533333333333333,
	"grad_norm": 0.937252402305603,
	"learning_rate": 1.9699176607081287e-05,
	"loss": 0.2401,
	"step": 83
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.55841064453125,
	"learning_rate": 1.9689124206770222e-05,
	"loss": 0.5495,
	"step": 84
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 1.2646422386169434,
	"learning_rate": 1.9678909548408873e-05,
	"loss": 0.6683,
	"step": 85
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 1.0748180150985718,
	"learning_rate": 1.9668532822742642e-05,
	"loss": 0.6502,
	"step": 86
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.4940849542617798,
	"learning_rate": 1.965799422354334e-05,
	"loss": 0.6965,
	"step": 87
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 1.8773472309112549,
	"learning_rate": 1.964729394760554e-05,
	"loss": 0.9707,
	"step": 88
	},
	{
	"epoch": 0.5933333333333334,
	"grad_norm": 1.481740951538086,
	"learning_rate": 1.9636432194742935e-05,
	"loss": 0.6744,
	"step": 89
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.9039676189422607,
	"learning_rate": 1.9625409167784567e-05,
	"loss": 0.5523,
	"step": 90
	},
	{
	"epoch": 0.6066666666666667,
	"grad_norm": 2.01161789894104,
	"learning_rate": 1.961422507257108e-05,
	"loss": 0.6468,
	"step": 91
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 1.891059160232544,
	"learning_rate": 1.9602880117950853e-05,
	"loss": 0.5114,
	"step": 92
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.6588637828826904,
	"learning_rate": 1.9591374515776097e-05,
	"loss": 0.7309,
	"step": 93
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 1.320695161819458,
	"learning_rate": 1.9579708480898914e-05,
	"loss": 0.5601,
	"step": 94
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 1.2667829990386963,
	"learning_rate": 1.9567882231167272e-05,
	"loss": 0.7936,
	"step": 95
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.051637887954712,
	"learning_rate": 1.9555895987420947e-05,
	"loss": 0.3095,
	"step": 96
	},
	{
	"epoch": 0.6466666666666666,
	"grad_norm": 1.4688889980316162,
	"learning_rate": 1.954374997348739e-05,
	"loss": 0.7503,
	"step": 97
	},
	{
	"epoch": 0.6533333333333333,
	"grad_norm": 1.4855245351791382,
	"learning_rate": 1.9531444416177558e-05,
	"loss": 0.4592,
	"step": 98
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.0585805177688599,
	"learning_rate": 1.951897954528166e-05,
	"loss": 0.3554,
	"step": 99
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 1.1536904573440552,
	"learning_rate": 1.9506355593564898e-05,
	"loss": 0.3669,
	"step": 100
	},
	{
	"epoch": 0.6733333333333333,
	"grad_norm": 0.9789953827857971,
	"learning_rate": 1.949357279676308e-05,
	"loss": 0.2606,
	"step": 101
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.9956246018409729,
	"learning_rate": 1.9480631393578246e-05,
	"loss": 0.2972,
	"step": 102
	},
	{
	"epoch": 0.6866666666666666,
	"grad_norm": 0.9574293494224548,
	"learning_rate": 1.946753162567421e-05,
	"loss": 0.3348,
	"step": 103
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 1.3523496389389038,
	"learning_rate": 1.9454273737672033e-05,
	"loss": 0.5854,
	"step": 104
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.3378841876983643,
	"learning_rate": 1.9440857977145463e-05,
	"loss": 0.5229,
	"step": 105
	},
	{
	"epoch": 0.7066666666666667,
	"grad_norm": 1.2634233236312866,
	"learning_rate": 1.9427284594616315e-05,
	"loss": 0.5069,
	"step": 106
	},
	{
	"epoch": 0.7133333333333334,
	"grad_norm": 1.3043968677520752,
	"learning_rate": 1.9413553843549783e-05,
	"loss": 0.4777,
	"step": 107
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.2690622806549072,
	"learning_rate": 1.939966598034972e-05,
	"loss": 0.5222,
	"step": 108
	},
	{
	"epoch": 0.7266666666666667,
	"grad_norm": 0.7248203754425049,
	"learning_rate": 1.938562126435384e-05,
	"loss": 0.2711,
	"step": 109
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 1.478192687034607,
	"learning_rate": 1.937141995782888e-05,
	"loss": 0.6443,
	"step": 110
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.3677293062210083,
	"learning_rate": 1.935706232596569e-05,
	"loss": 0.5191,
	"step": 111
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 1.9942638874053955,
	"learning_rate": 1.9342548636874306e-05,
	"loss": 0.3518,
	"step": 112
	},
	{
	"epoch": 0.7533333333333333,
	"grad_norm": 1.235351800918579,
	"learning_rate": 1.9327879161578925e-05,
	"loss": 0.5076,
	"step": 113
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.0605601072311401,
	"learning_rate": 1.9313054174012843e-05,
	"loss": 0.2477,
	"step": 114
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 0.9347406029701233,
	"learning_rate": 1.9298073951013347e-05,
	"loss": 0.1881,
	"step": 115
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 1.2547634840011597,
	"learning_rate": 1.9282938772316546e-05,
	"loss": 0.7121,
	"step": 116
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.9678044319152832,
	"learning_rate": 1.926764892055214e-05,
	"loss": 0.5544,
	"step": 117
	},
	{
	"epoch": 0.7866666666666666,
	"grad_norm": 1.6250430345535278,
	"learning_rate": 1.925220468123815e-05,
	"loss": 0.6912,
	"step": 118
	},
	{
	"epoch": 0.7933333333333333,
	"grad_norm": 2.5969297885894775,
	"learning_rate": 1.9236606342775587e-05,
	"loss": 0.7151,
	"step": 119
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.6487793922424316,
	"learning_rate": 1.9220854196443043e-05,
	"loss": 0.6429,
	"step": 120
	},
	{
	"epoch": 0.8066666666666666,
	"grad_norm": 1.015533447265625,
	"learning_rate": 1.92049485363913e-05,
	"loss": 0.3685,
	"step": 121
	},
	{
	"epoch": 0.8133333333333334,
	"grad_norm": 1.0150421857833862,
	"learning_rate": 1.9188889659637785e-05,
	"loss": 0.3759,
	"step": 122
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.318854570388794,
	"learning_rate": 1.9172677866061055e-05,
	"loss": 0.2665,
	"step": 123
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 1.4001891613006592,
	"learning_rate": 1.9156313458395194e-05,
	"loss": 0.4919,
	"step": 124
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 1.5555373430252075,
	"learning_rate": 1.9139796742224148e-05,
	"loss": 0.6645,
	"step": 125
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.693493366241455,
	"learning_rate": 1.912312802597603e-05,
	"loss": 0.5109,
	"step": 126
	},
	{
	"epoch": 0.8466666666666667,
	"grad_norm": 1.7915582656860352,
	"learning_rate": 1.910630762091735e-05,
	"loss": 0.3969,
	"step": 127
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 2.0322561264038086,
	"learning_rate": 1.9089335841147213e-05,
	"loss": 1.0327,
	"step": 128
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.2844659090042114,
	"learning_rate": 1.9072213003591453e-05,
	"loss": 0.4539,
	"step": 129
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 1.2939919233322144,
	"learning_rate": 1.9054939427996698e-05,
	"loss": 0.2601,
	"step": 130
	},
	{
	"epoch": 0.8733333333333333,
	"grad_norm": 1.130388855934143,
	"learning_rate": 1.903751543692443e-05,
	"loss": 0.2817,
	"step": 131
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.6023472547531128,
	"learning_rate": 1.9019941355744923e-05,
	"loss": 0.5606,
	"step": 132
	},
	{
	"epoch": 0.8866666666666667,
	"grad_norm": 1.2601792812347412,
	"learning_rate": 1.900221751263121e-05,
	"loss": 0.4864,
	"step": 133
	},
	{
	"epoch": 0.8933333333333333,
	"grad_norm": 1.3938170671463013,
	"learning_rate": 1.8984344238552912e-05,
	"loss": 0.2505,
	"step": 134
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.1963953971862793,
	"learning_rate": 1.896632186727009e-05,
	"loss": 0.5056,
	"step": 135
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 1.211414098739624,
	"learning_rate": 1.8948150735327004e-05,
	"loss": 0.4258,
	"step": 136
	},
	{
	"epoch": 0.9133333333333333,
	"grad_norm": 1.3093147277832031,
	"learning_rate": 1.8929831182045816e-05,
	"loss": 0.423,
	"step": 137
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.446154236793518,
	"learning_rate": 1.891136354952026e-05,
	"loss": 0.5993,
	"step": 138
	},
	{
	"epoch": 0.9266666666666666,
	"grad_norm": 1.2222667932510376,
	"learning_rate": 1.8892748182609276e-05,
	"loss": 0.4825,
	"step": 139
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 1.3734275102615356,
	"learning_rate": 1.8873985428930523e-05,
	"loss": 0.4597,
	"step": 140
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.3745826482772827,
	"learning_rate": 1.885507563885394e-05,
	"loss": 0.3534,
	"step": 141
	},
	{
	"epoch": 0.9466666666666667,
	"grad_norm": 1.0396696329116821,
	"learning_rate": 1.883601916549516e-05,
	"loss": 0.2591,
	"step": 142
	},
	{
	"epoch": 0.9533333333333334,
	"grad_norm": 1.2262800931930542,
	"learning_rate": 1.881681636470895e-05,
	"loss": 0.6013,
	"step": 143
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.9334357976913452,
	"learning_rate": 1.879746759508254e-05,
	"loss": 0.189,
	"step": 144
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 0.9975462555885315,
	"learning_rate": 1.8777973217928948e-05,
	"loss": 0.3069,
	"step": 145
	},
	{
	"epoch": 0.9733333333333334,
	"grad_norm": 1.211124300956726,
	"learning_rate": 1.875833359728021e-05,
	"loss": 0.406,
	"step": 146
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.4741225242614746,
	"learning_rate": 1.87385490998806e-05,
	"loss": 0.5005,
	"step": 147
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 0.9569060802459717,
	"learning_rate": 1.8718620095179783e-05,
	"loss": 0.2188,
	"step": 148
	},
	{
	"epoch": 0.9933333333333333,
	"grad_norm": 1.4691638946533203,
	"learning_rate": 1.86985469553259e-05,
	"loss": 0.5834,
	"step": 149
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.1948105096817017,
	"learning_rate": 1.8678330055158625e-05,
	"loss": 0.3058,
	"step": 150
	},
	{
	"epoch": 1.0066666666666666,
	"grad_norm": 1.1320759057998657,
	"learning_rate": 1.8657969772202182e-05,
	"loss": 0.3591,
	"step": 151
	},
	{
	"epoch": 1.0133333333333334,
	"grad_norm": 0.9014932513237,
	"learning_rate": 1.863746648665827e-05,
	"loss": 0.2829,
	"step": 152
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.4449048042297363,
	"learning_rate": 1.861682058139898e-05,
	"loss": 0.5636,
	"step": 153
	},
	{
	"epoch": 1.0266666666666666,
	"grad_norm": 0.9455937743186951,
	"learning_rate": 1.8596032441959634e-05,
	"loss": 0.3461,
	"step": 154
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 1.3910088539123535,
	"learning_rate": 1.8575102456531602e-05,
	"loss": 0.6239,
	"step": 155
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.3249852657318115,
	"learning_rate": 1.8554031015955028e-05,
	"loss": 0.5565,
	"step": 156
	},
	{
	"epoch": 1.0466666666666666,
	"grad_norm": 1.2149033546447754,
	"learning_rate": 1.853281851371156e-05,
	"loss": 0.4763,
	"step": 157
	},
	{
	"epoch": 1.0533333333333332,
	"grad_norm": 1.4447301626205444,
	"learning_rate": 1.8511465345916988e-05,
	"loss": 0.4467,
	"step": 158
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.64676034450531,
	"learning_rate": 1.848997191131383e-05,
	"loss": 0.3383,
	"step": 159
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 1.7825281620025635,
	"learning_rate": 1.8468338611263923e-05,
	"loss": 0.4622,
	"step": 160
	},
	{
	"epoch": 1.0733333333333333,
	"grad_norm": 4.348494052886963,
	"learning_rate": 1.8446565849740903e-05,
	"loss": 0.3509,
	"step": 161
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.304581880569458,
	"learning_rate": 1.842465403332266e-05,
	"loss": 0.4308,
	"step": 162
	},
	{
	"epoch": 1.0866666666666667,
	"grad_norm": 2.1287167072296143,
	"learning_rate": 1.8402603571183766e-05,
	"loss": 0.4359,
	"step": 163
	},
	{
	"epoch": 1.0933333333333333,
	"grad_norm": 1.2464728355407715,
	"learning_rate": 1.838041487508781e-05,
	"loss": 0.493,
	"step": 164
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.1451174020767212,
	"learning_rate": 1.835808835937972e-05,
	"loss": 0.5766,
	"step": 165
	},
	{
	"epoch": 1.1066666666666667,
	"grad_norm": 1.1933729648590088,
	"learning_rate": 1.833562444097802e-05,
	"loss": 0.3886,
	"step": 166
	},
	{
	"epoch": 1.1133333333333333,
	"grad_norm": 0.916282594203949,
	"learning_rate": 1.831302353936708e-05,
	"loss": 0.3395,
	"step": 167
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.248387098312378,
	"learning_rate": 1.8290286076589212e-05,
	"loss": 0.3477,
	"step": 168
	},
	{
	"epoch": 1.1266666666666667,
	"grad_norm": 2.040144920349121,
	"learning_rate": 1.8267412477236855e-05,
	"loss": 0.6722,
	"step": 169
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 3.5974485874176025,
	"learning_rate": 1.824440316844461e-05,
	"loss": 0.5693,
	"step": 170
	},
	{
	"epoch": 1.1400000000000001,
	"grad_norm": 1.369241714477539,
	"learning_rate": 1.8221258579881286e-05,
	"loss": 0.6999,
	"step": 171
	},
	{
	"epoch": 1.1466666666666667,
	"grad_norm": 1.1438101530075073,
	"learning_rate": 1.8197979143741847e-05,
	"loss": 0.4588,
	"step": 172
	},
	{
	"epoch": 1.1533333333333333,
	"grad_norm": 1.1206167936325073,
	"learning_rate": 1.817456529473938e-05,
	"loss": 0.3783,
	"step": 173
	},
	{
	"epoch": 1.16,
	"grad_norm": 0.9800361394882202,
	"learning_rate": 1.815101747009694e-05,
	"loss": 0.2017,
	"step": 174
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.9270554184913635,
	"learning_rate": 1.8127336109539412e-05,
	"loss": 0.4449,
	"step": 175
	},
	{
	"epoch": 1.1733333333333333,
	"grad_norm": 1.3902397155761719,
	"learning_rate": 1.8103521655285282e-05,
	"loss": 0.3596,
	"step": 176
	},
	{
	"epoch": 1.18,
	"grad_norm": 0.6287861466407776,
	"learning_rate": 1.8079574552038397e-05,
	"loss": 0.1432,
	"step": 177
	},
	{
	"epoch": 1.1866666666666668,
	"grad_norm": 0.9718913435935974,
	"learning_rate": 1.8055495246979645e-05,
	"loss": 0.3516,
	"step": 178
	},
	{
	"epoch": 1.1933333333333334,
	"grad_norm": 0.9533777832984924,
	"learning_rate": 1.803128418975861e-05,
	"loss": 0.352,
	"step": 179
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.9674003720283508,
	"learning_rate": 1.8006941832485174e-05,
	"loss": 0.4614,
	"step": 180
	},
	{
	"epoch": 1.2066666666666666,
	"grad_norm": 1.3588773012161255,
	"learning_rate": 1.798246862972108e-05,
	"loss": 0.3159,
	"step": 181
	},
	{
	"epoch": 1.2133333333333334,
	"grad_norm": 1.5350672006607056,
	"learning_rate": 1.795786503847144e-05,
	"loss": 0.7129,
	"step": 182
	},
	{
	"epoch": 1.22,
	"grad_norm": 0.9531151056289673,
	"learning_rate": 1.7933131518176194e-05,
	"loss": 0.2486,
	"step": 183
	},
	{
	"epoch": 1.2266666666666666,
	"grad_norm": 0.45034581422805786,
	"learning_rate": 1.790826853070155e-05,
	"loss": 0.1061,
	"step": 184
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 0.9796707034111023,
	"learning_rate": 1.7883276540331333e-05,
	"loss": 0.3613,
	"step": 185
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.3566935062408447,
	"learning_rate": 1.7858156013758333e-05,
	"loss": 0.593,
	"step": 186
	},
	{
	"epoch": 1.2466666666666666,
	"grad_norm": 1.1837201118469238,
	"learning_rate": 1.783290742007559e-05,
	"loss": 0.3495,
	"step": 187
	},
	{
	"epoch": 1.2533333333333334,
	"grad_norm": 1.8410696983337402,
	"learning_rate": 1.7807531230767628e-05,
	"loss": 0.9237,
	"step": 188
	},
	{
	"epoch": 1.26,
	"grad_norm": 0.9960632920265198,
	"learning_rate": 1.7782027919701646e-05,
	"loss": 0.3333,
	"step": 189
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 1.4033161401748657,
	"learning_rate": 1.775639796311869e-05,
	"loss": 0.5075,
	"step": 190
	},
	{
	"epoch": 1.2733333333333334,
	"grad_norm": 1.4755662679672241,
	"learning_rate": 1.7730641839624738e-05,
	"loss": 0.4519,
	"step": 191
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.597719430923462,
	"learning_rate": 1.7704760030181757e-05,
	"loss": 0.5983,
	"step": 192
	},
	{
	"epoch": 1.2866666666666666,
	"grad_norm": 1.7625118494033813,
	"learning_rate": 1.7678753018098762e-05,
	"loss": 0.5879,
	"step": 193
	},
	{
	"epoch": 1.2933333333333334,
	"grad_norm": 1.2640427350997925,
	"learning_rate": 1.765262128902274e-05,
	"loss": 0.2558,
	"step": 194
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.67387855052948,
	"learning_rate": 1.7626365330929622e-05,
	"loss": 0.4961,
	"step": 195
	},
	{
	"epoch": 1.3066666666666666,
	"grad_norm": 0.45266011357307434,
	"learning_rate": 1.759998563411514e-05,
	"loss": 0.1,
	"step": 196
	},
	{
	"epoch": 1.3133333333333335,
	"grad_norm": 1.11092209815979,
	"learning_rate": 1.7573482691185696e-05,
	"loss": 0.538,
	"step": 197
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.505696177482605,
	"learning_rate": 1.7546856997049146e-05,
	"loss": 0.6605,
	"step": 198
	},
	{
	"epoch": 1.3266666666666667,
	"grad_norm": 1.3943895101547241,
	"learning_rate": 1.7520109048905568e-05,
	"loss": 0.6217,
	"step": 199
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 1.5668399333953857,
	"learning_rate": 1.7493239346237965e-05,
	"loss": 0.6787,
	"step": 200
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.3335319757461548,
	"learning_rate": 1.7466248390802964e-05,
	"loss": 0.5902,
	"step": 201
	},
	{
	"epoch": 1.3466666666666667,
	"grad_norm": 6.383098602294922,
	"learning_rate": 1.7439136686621416e-05,
	"loss": 0.4211,
	"step": 202
	},
	{
	"epoch": 1.3533333333333333,
	"grad_norm": 1.140836238861084,
	"learning_rate": 1.7411904739968995e-05,
	"loss": 0.4312,
	"step": 203
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 1.1934757232666016,
	"learning_rate": 1.7384553059366758e-05,
	"loss": 0.3965,
	"step": 204
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 1.870481014251709,
	"learning_rate": 1.735708215557163e-05,
	"loss": 0.4525,
	"step": 205
	},
	{
	"epoch": 1.3733333333333333,
	"grad_norm": 0.9946874380111694,
	"learning_rate": 1.7329492541566865e-05,
	"loss": 0.3907,
	"step": 206
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.037879228591919,
	"learning_rate": 1.7301784732552494e-05,
	"loss": 0.2094,
	"step": 207
	},
	{
	"epoch": 1.3866666666666667,
	"grad_norm": 0.8867761492729187,
	"learning_rate": 1.727395924593568e-05,
	"loss": 0.292,
	"step": 208
	},
	{
	"epoch": 1.3933333333333333,
	"grad_norm": 1.338649034500122,
	"learning_rate": 1.7246016601321047e-05,
	"loss": 0.5353,
	"step": 209
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.353572964668274,
	"learning_rate": 1.7217957320501003e-05,
	"loss": 0.5069,
	"step": 210
	},
	{
	"epoch": 1.4066666666666667,
	"grad_norm": 1.1685672998428345,
	"learning_rate": 1.7189781927445994e-05,
	"loss": 0.3327,
	"step": 211
	},
	{
	"epoch": 1.4133333333333333,
	"grad_norm": 1.3291776180267334,
	"learning_rate": 1.7161490948294687e-05,
	"loss": 0.6335,
	"step": 212
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.2127482891082764,
	"learning_rate": 1.7133084911344188e-05,
	"loss": 0.493,
	"step": 213
	},
	{
	"epoch": 1.4266666666666667,
	"grad_norm": 1.2240782976150513,
	"learning_rate": 1.710456434704015e-05,
	"loss": 0.5325,
	"step": 214
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 1.698709487915039,
	"learning_rate": 1.707592978796688e-05,
	"loss": 0.4999,
	"step": 215
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.0113152265548706,
	"learning_rate": 1.7047181768837376e-05,
	"loss": 0.2821,
	"step": 216
	},
	{
	"epoch": 1.4466666666666668,
	"grad_norm": 0.9742848873138428,
	"learning_rate": 1.7018320826483373e-05,
	"loss": 0.4345,
	"step": 217
	},
	{
	"epoch": 1.4533333333333334,
	"grad_norm": 1.7382066249847412,
	"learning_rate": 1.6989347499845284e-05,
	"loss": 0.6513,
	"step": 218
	},
	{
	"epoch": 1.46,
	"grad_norm": 1.3588602542877197,
	"learning_rate": 1.6960262329962152e-05,
	"loss": 0.662,
	"step": 219
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 1.4204033613204956,
	"learning_rate": 1.693106585996156e-05,
	"loss": 0.4216,
	"step": 220
	},
	{
	"epoch": 1.4733333333333334,
	"grad_norm": 1.6735905408859253,
	"learning_rate": 1.6901758635049464e-05,
	"loss": 0.5573,
	"step": 221
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.4119937419891357,
	"learning_rate": 1.6872341202500028e-05,
	"loss": 0.4,
	"step": 222
	},
	{
	"epoch": 1.4866666666666668,
	"grad_norm": 0.8888566493988037,
	"learning_rate": 1.6842814111645392e-05,
	"loss": 0.1802,
	"step": 223
	},
	{
	"epoch": 1.4933333333333334,
	"grad_norm": 1.1101222038269043,
	"learning_rate": 1.6813177913865436e-05,
	"loss": 0.3547,
	"step": 224
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.1994966268539429,
	"learning_rate": 1.6783433162577457e-05,
	"loss": 0.4721,
	"step": 225
	},
	{
	"epoch": 1.5066666666666668,
	"grad_norm": 0.8427855968475342,
	"learning_rate": 1.6753580413225854e-05,
	"loss": 0.3638,
	"step": 226
	},
	{
	"epoch": 1.5133333333333332,
	"grad_norm": 1.6891529560089111,
	"learning_rate": 1.6723620223271747e-05,
	"loss": 0.3422,
	"step": 227
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.614018201828003,
	"learning_rate": 1.669355315218256e-05,
	"loss": 0.5234,
	"step": 228
	},
	{
	"epoch": 1.5266666666666666,
	"grad_norm": 1.6598495244979858,
	"learning_rate": 1.6663379761421602e-05,
	"loss": 0.6544,
	"step": 229
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 1.2119078636169434,
	"learning_rate": 1.6633100614437546e-05,
	"loss": 0.4101,
	"step": 230
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.2607935667037964,
	"learning_rate": 1.660271627665393e-05,
	"loss": 0.5589,
	"step": 231
	},
	{
	"epoch": 1.5466666666666666,
	"grad_norm": 1.1111940145492554,
	"learning_rate": 1.6572227315458594e-05,
	"loss": 0.3733,
	"step": 232
	},
	{
	"epoch": 1.5533333333333332,
	"grad_norm": 1.5404767990112305,
	"learning_rate": 1.6541634300193085e-05,
	"loss": 0.3923,
	"step": 233
	},
	{
	"epoch": 1.56,
	"grad_norm": 0.8019644618034363,
	"learning_rate": 1.6510937802142023e-05,
	"loss": 0.1475,
	"step": 234
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 1.1884678602218628,
	"learning_rate": 1.6480138394522423e-05,
	"loss": 0.5737,
	"step": 235
	},
	{
	"epoch": 1.5733333333333333,
	"grad_norm": 0.7711490988731384,
	"learning_rate": 1.6449236652473023e-05,
	"loss": 0.4035,
	"step": 236
	},
	{
	"epoch": 1.58,
	"grad_norm": 0.9433121681213379,
	"learning_rate": 1.6418233153043504e-05,
	"loss": 0.2971,
	"step": 237
	},
	{
	"epoch": 1.5866666666666667,
	"grad_norm": 1.5755349397659302,
	"learning_rate": 1.6387128475183743e-05,
	"loss": 0.6917,
	"step": 238
	},
	{
	"epoch": 1.5933333333333333,
	"grad_norm": 0.8864415287971497,
	"learning_rate": 1.6355923199732988e-05,
	"loss": 0.3182,
	"step": 239
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.2354004383087158,
	"learning_rate": 1.6324617909409022e-05,
	"loss": 0.3832,
	"step": 240
	},
	{
	"epoch": 1.6066666666666667,
	"grad_norm": 1.0824851989746094,
	"learning_rate": 1.6293213188797265e-05,
	"loss": 0.5409,
	"step": 241
	},
	{
	"epoch": 1.6133333333333333,
	"grad_norm": 1.129772663116455,
	"learning_rate": 1.6261709624339876e-05,
	"loss": 0.3416,
	"step": 242
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.2783231735229492,
	"learning_rate": 1.6230107804324792e-05,
	"loss": 0.4821,
	"step": 243
	},
	{
	"epoch": 1.6266666666666667,
	"grad_norm": 0.8684279918670654,
	"learning_rate": 1.6198408318874744e-05,
	"loss": 0.3528,
	"step": 244
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 1.0495837926864624,
	"learning_rate": 1.6166611759936234e-05,
	"loss": 0.4966,
	"step": 245
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 1.158725619316101,
	"learning_rate": 1.6134718721268486e-05,
	"loss": 0.255,
	"step": 246
	},
	{
	"epoch": 1.6466666666666665,
	"grad_norm": 1.063276767730713,
	"learning_rate": 1.6102729798432362e-05,
	"loss": 0.644,
	"step": 247
	},
	{
	"epoch": 1.6533333333333333,
	"grad_norm": 0.7704464793205261,
	"learning_rate": 1.6070645588779234e-05,
	"loss": 0.2915,
	"step": 248
	},
	{
	"epoch": 1.6600000000000001,
	"grad_norm": 1.0192077159881592,
	"learning_rate": 1.603846669143982e-05,
	"loss": 0.5738,
	"step": 249
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.6719574928283691,
	"learning_rate": 1.6006193707313026e-05,
	"loss": 0.1746,
	"step": 250
	},
	{
	"epoch": 1.6733333333333333,
	"grad_norm": 0.9879522919654846,
	"learning_rate": 1.597382723905469e-05,
	"loss": 0.3991,
	"step": 251
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 1.384028673171997,
	"learning_rate": 1.5941367891066354e-05,
	"loss": 0.5644,
	"step": 252
	},
	{
	"epoch": 1.6866666666666665,
	"grad_norm": 1.8280025720596313,
	"learning_rate": 1.5908816269483965e-05,
	"loss": 0.6819,
	"step": 253
	},
	{
	"epoch": 1.6933333333333334,
	"grad_norm": 1.1063525676727295,
	"learning_rate": 1.587617298216655e-05,
	"loss": 0.4249,
	"step": 254
	},
	{
	"epoch": 1.7,
	"grad_norm": 3.4740898609161377,
	"learning_rate": 1.5843438638684888e-05,
	"loss": 0.4314,
	"step": 255
	},
	{
	"epoch": 1.7066666666666666,
	"grad_norm": 0.9208361506462097,
	"learning_rate": 1.58106138503101e-05,
	"loss": 0.2783,
	"step": 256
	},
	{
	"epoch": 1.7133333333333334,
	"grad_norm": 1.0024452209472656,
	"learning_rate": 1.5777699230002263e-05,
	"loss": 0.367,
	"step": 257
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.7223882675170898,
	"learning_rate": 1.574469539239893e-05,
	"loss": 0.4302,
	"step": 258
	},
	{
	"epoch": 1.7266666666666666,
	"grad_norm": 0.8658112287521362,
	"learning_rate": 1.5711602953803682e-05,
	"loss": 0.2135,
	"step": 259
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 1.1215999126434326,
	"learning_rate": 1.5678422532174608e-05,
	"loss": 0.4406,
	"step": 260
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.734351634979248,
	"learning_rate": 1.564515474711276e-05,
	"loss": 0.4807,
	"step": 261
	},
	{
	"epoch": 1.7466666666666666,
	"grad_norm": 1.429038643836975,
	"learning_rate": 1.56118002198506e-05,
	"loss": 0.5597,
	"step": 262
	},
	{
	"epoch": 1.7533333333333334,
	"grad_norm": 1.6158004999160767,
	"learning_rate": 1.557835957324036e-05,
	"loss": 0.6275,
	"step": 263
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.3200069665908813,
	"learning_rate": 1.554483343174247e-05,
	"loss": 0.5552,
	"step": 264
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 0.9847660064697266,
	"learning_rate": 1.5511222421413845e-05,
	"loss": 0.2985,
	"step": 265
	},
	{
	"epoch": 1.7733333333333334,
	"grad_norm": 1.8030058145523071,
	"learning_rate": 1.5477527169896228e-05,
	"loss": 0.6832,
	"step": 266
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.4984818696975708,
	"learning_rate": 1.5443748306404442e-05,
	"loss": 0.5897,
	"step": 267
	},
	{
	"epoch": 1.7866666666666666,
	"grad_norm": 1.6027628183364868,
	"learning_rate": 1.5409886461714662e-05,
	"loss": 0.6302,
	"step": 268
	},
	{
	"epoch": 1.7933333333333334,
	"grad_norm": 1.1679726839065552,
	"learning_rate": 1.5375942268152635e-05,
	"loss": 0.8119,
	"step": 269
	},
	{
	"epoch": 1.8,
	"grad_norm": 2.1344714164733887,
	"learning_rate": 1.5341916359581858e-05,
	"loss": 0.355,
	"step": 270
	},
	{
	"epoch": 1.8066666666666666,
	"grad_norm": 1.595517635345459,
	"learning_rate": 1.5307809371391747e-05,
	"loss": 0.8738,
	"step": 271
	},
	{
	"epoch": 1.8133333333333335,
	"grad_norm": 1.3305667638778687,
	"learning_rate": 1.5273621940485777e-05,
	"loss": 0.4503,
	"step": 272
	},
	{
	"epoch": 1.8199999999999998,
	"grad_norm": 0.977202296257019,
	"learning_rate": 1.5239354705269587e-05,
	"loss": 0.2329,
	"step": 273
	},
	{
	"epoch": 1.8266666666666667,
	"grad_norm": 1.3563309907913208,
	"learning_rate": 1.520500830563906e-05,
	"loss": 0.4367,
	"step": 274
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 1.2666316032409668,
	"learning_rate": 1.5170583382968363e-05,
	"loss": 0.5034,
	"step": 275
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.9950445294380188,
	"learning_rate": 1.5136080580097982e-05,
	"loss": 0.3498,
	"step": 276
	},
	{
	"epoch": 1.8466666666666667,
	"grad_norm": 1.3694396018981934,
	"learning_rate": 1.510150054132272e-05,
	"loss": 0.3353,
	"step": 277
	},
	{
	"epoch": 1.8533333333333335,
	"grad_norm": 1.4402964115142822,
	"learning_rate": 1.5066843912379649e-05,
	"loss": 0.354,
	"step": 278
	},
	{
	"epoch": 1.8599999999999999,
	"grad_norm": 1.7509251832962036,
	"learning_rate": 1.5032111340436073e-05,
	"loss": 0.4484,
	"step": 279
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 1.5764682292938232,
	"learning_rate": 1.499730347407742e-05,
	"loss": 0.5111,
	"step": 280
	},
	{
	"epoch": 1.8733333333333333,
	"grad_norm": 2.0803394317626953,
	"learning_rate": 1.496242096329516e-05,
	"loss": 0.6957,
	"step": 281
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.8646881580352783,
	"learning_rate": 1.492746445947463e-05,
	"loss": 0.7925,
	"step": 282
	},
	{
	"epoch": 1.8866666666666667,
	"grad_norm": 0.9404792785644531,
	"learning_rate": 1.4892434615382905e-05,
	"loss": 0.2242,
	"step": 283
	},
	{
	"epoch": 1.8933333333333333,
	"grad_norm": 1.6398634910583496,
	"learning_rate": 1.4857332085156591e-05,
	"loss": 0.6085,
	"step": 284
	},
	{
	"epoch": 1.9,
	"grad_norm": 1.3513060808181763,
	"learning_rate": 1.4822157524289609e-05,
	"loss": 0.4406,
	"step": 285
	},
	{
	"epoch": 1.9066666666666667,
	"grad_norm": 0.8963049650192261,
	"learning_rate": 1.478691158962096e-05,
	"loss": 0.2038,
	"step": 286
	},
	{
	"epoch": 1.9133333333333333,
	"grad_norm": 1.437309741973877,
	"learning_rate": 1.4751594939322462e-05,
	"loss": 0.3276,
	"step": 287
	},
	{
	"epoch": 1.92,
	"grad_norm": 1.9788297414779663,
	"learning_rate": 1.4716208232886447e-05,
	"loss": 1.0759,
	"step": 288
	},
	{
	"epoch": 1.9266666666666667,
	"grad_norm": 1.3424140214920044,
	"learning_rate": 1.4680752131113455e-05,
	"loss": 0.6213,
	"step": 289
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 1.2345807552337646,
	"learning_rate": 1.4645227296099902e-05,
	"loss": 0.3295,
	"step": 290
	},
	{
	"epoch": 1.94,
	"grad_norm": 1.2396150827407837,
	"learning_rate": 1.4609634391225702e-05,
	"loss": 0.4937,
	"step": 291
	},
	{
	"epoch": 1.9466666666666668,
	"grad_norm": 1.2589573860168457,
	"learning_rate": 1.4573974081141877e-05,
	"loss": 0.3115,
	"step": 292
	},
	{
	"epoch": 1.9533333333333334,
	"grad_norm": 1.3282593488693237,
	"learning_rate": 1.453824703175817e-05,
	"loss": 0.4194,
	"step": 293
	},
	{
	"epoch": 1.96,
	"grad_norm": 1.7631460428237915,
	"learning_rate": 1.4502453910230575e-05,
	"loss": 0.408,
	"step": 294
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 1.4355448484420776,
	"learning_rate": 1.4466595384948913e-05,
	"loss": 0.3947,
	"step": 295
	},
	{
	"epoch": 1.9733333333333334,
	"grad_norm": 1.1702021360397339,
	"learning_rate": 1.4430672125524327e-05,
	"loss": 0.5111,
	"step": 296
	},
	{
	"epoch": 1.98,
	"grad_norm": 0.7956981062889099,
	"learning_rate": 1.4394684802776784e-05,
	"loss": 0.2917,
	"step": 297
	},
	{
	"epoch": 1.9866666666666668,
	"grad_norm": 1.3731566667556763,
	"learning_rate": 1.4358634088722552e-05,
	"loss": 0.4538,
	"step": 298
	},
	{
	"epoch": 1.9933333333333332,
	"grad_norm": 1.1730948686599731,
	"learning_rate": 1.4322520656561652e-05,
	"loss": 0.4561,
	"step": 299
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.7473224997520447,
	"learning_rate": 1.4286345180665277e-05,
	"loss": 0.2062,
	"step": 300
	},
	{
	"epoch": 2.006666666666667,
	"grad_norm": 1.4702370166778564,
	"learning_rate": 1.4250108336563212e-05,
	"loss": 0.4982,
	"step": 301
	},
	{
	"epoch": 2.013333333333333,
	"grad_norm": 2.2533392906188965,
	"learning_rate": 1.4213810800931209e-05,
	"loss": 0.7325,
	"step": 302
	},
	{
	"epoch": 2.02,
	"grad_norm": 1.4618300199508667,
	"learning_rate": 1.4177453251578361e-05,
	"loss": 0.9485,
	"step": 303
	},
	{
	"epoch": 2.026666666666667,
	"grad_norm": 0.9844323992729187,
	"learning_rate": 1.4141036367434433e-05,
	"loss": 0.2536,
	"step": 304
	},
	{
	"epoch": 2.033333333333333,
	"grad_norm": 1.3822338581085205,
	"learning_rate": 1.4104560828537188e-05,
	"loss": 0.3164,
	"step": 305
	},
	{
	"epoch": 2.04,
	"grad_norm": 1.3014678955078125,
	"learning_rate": 1.40680273160197e-05,
	"loss": 0.4012,
	"step": 306
	},
	{
	"epoch": 2.046666666666667,
	"grad_norm": 1.521849274635315,
	"learning_rate": 1.4031436512097612e-05,
	"loss": 0.5446,
	"step": 307
	},
	{
	"epoch": 2.0533333333333332,
	"grad_norm": 1.182312250137329,
	"learning_rate": 1.3994789100056421e-05,
	"loss": 0.4388,
	"step": 308
	},
	{
	"epoch": 2.06,
	"grad_norm": 1.3692355155944824,
	"learning_rate": 1.3958085764238694e-05,
	"loss": 0.5179,
	"step": 309
	},
	{
	"epoch": 2.066666666666667,
	"grad_norm": 1.7040317058563232,
	"learning_rate": 1.3921327190031315e-05,
	"loss": 0.5444,
	"step": 310
	},
	{
	"epoch": 2.0733333333333333,
	"grad_norm": 1.5850881338119507,
	"learning_rate": 1.3884514063852661e-05,
	"loss": 0.527,
	"step": 311
	},
	{
	"epoch": 2.08,
	"grad_norm": 1.0130246877670288,
	"learning_rate": 1.3847647073139806e-05,
	"loss": 0.2265,
	"step": 312
	},
	{
	"epoch": 2.086666666666667,
	"grad_norm": 1.9094117879867554,
	"learning_rate": 1.3810726906335664e-05,
	"loss": 0.4572,
	"step": 313
	},
	{
	"epoch": 2.0933333333333333,
	"grad_norm": 1.2002707719802856,
	"learning_rate": 1.377375425287616e-05,
	"loss": 0.2674,
	"step": 314
	},
	{
	"epoch": 2.1,
	"grad_norm": 1.5485289096832275,
	"learning_rate": 1.373672980317731e-05,
	"loss": 0.563,
	"step": 315
	},
	{
	"epoch": 2.1066666666666665,
	"grad_norm": 1.884822130203247,
	"learning_rate": 1.3699654248622382e-05,
	"loss": 0.6168,
	"step": 316
	},
	{
	"epoch": 2.1133333333333333,
	"grad_norm": 1.6859358549118042,
	"learning_rate": 1.3662528281548954e-05,
	"loss": 0.5328,
	"step": 317
	},
	{
	"epoch": 2.12,
	"grad_norm": 2.261037826538086,
	"learning_rate": 1.3625352595235992e-05,
	"loss": 0.5648,
	"step": 318
	},
	{
	"epoch": 2.1266666666666665,
	"grad_norm": 1.7818392515182495,
	"learning_rate": 1.3588127883890898e-05,
	"loss": 0.5394,
	"step": 319
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 1.2540154457092285,
	"learning_rate": 1.3550854842636558e-05,
	"loss": 0.5572,
	"step": 320
	},
	{
	"epoch": 2.14,
	"grad_norm": 1.7134149074554443,
	"learning_rate": 1.3513534167498355e-05,
	"loss": 0.4855,
	"step": 321
	},
	{
	"epoch": 2.1466666666666665,
	"grad_norm": 1.232763409614563,
	"learning_rate": 1.3476166555391174e-05,
	"loss": 0.3799,
	"step": 322
	},
	{
	"epoch": 2.1533333333333333,
	"grad_norm": 1.330854058265686,
	"learning_rate": 1.3438752704106386e-05,
	"loss": 0.367,
	"step": 323
	},
	{
	"epoch": 2.16,
	"grad_norm": 1.4032166004180908,
	"learning_rate": 1.340129331229881e-05,
	"loss": 0.6345,
	"step": 324
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 1.3411375284194946,
	"learning_rate": 1.336378907947369e-05,
	"loss": 0.2647,
	"step": 325
	},
	{
	"epoch": 2.1733333333333333,
	"grad_norm": 1.103200078010559,
	"learning_rate": 1.3326240705973605e-05,
	"loss": 0.1682,
	"step": 326
	},
	{
	"epoch": 2.18,
	"grad_norm": 0.830708384513855,
	"learning_rate": 1.328864889296541e-05,
	"loss": 0.1622,
	"step": 327
	},
	{
	"epoch": 2.1866666666666665,
	"grad_norm": 1.2569397687911987,
	"learning_rate": 1.3251014342427134e-05,
	"loss": 0.3398,
	"step": 328
	},
	{
	"epoch": 2.1933333333333334,
	"grad_norm": 1.1822941303253174,
	"learning_rate": 1.3213337757134871e-05,
	"loss": 0.1937,
	"step": 329
	},
	{
	"epoch": 2.2,
	"grad_norm": 1.551056981086731,
	"learning_rate": 1.317561984064967e-05,
	"loss": 0.4919,
	"step": 330
	},
	{
	"epoch": 2.2066666666666666,
	"grad_norm": 1.3554848432540894,
	"learning_rate": 1.3137861297304367e-05,
	"loss": 0.5676,
	"step": 331
	},
	{
	"epoch": 2.2133333333333334,
	"grad_norm": 0.9740996956825256,
	"learning_rate": 1.310006283219047e-05,
	"loss": 0.3267,
	"step": 332
	},
	{
	"epoch": 2.22,
	"grad_norm": 1.5028480291366577,
	"learning_rate": 1.3062225151144964e-05,
	"loss": 0.6523,
	"step": 333
	},
	{
	"epoch": 2.2266666666666666,
	"grad_norm": 1.5713306665420532,
	"learning_rate": 1.302434896073714e-05,
	"loss": 0.3911,
	"step": 334
	},
	{
	"epoch": 2.2333333333333334,
	"grad_norm": 2.664703607559204,
	"learning_rate": 1.2986434968255413e-05,
	"loss": 0.6158,
	"step": 335
	},
	{
	"epoch": 2.24,
	"grad_norm": 1.2363102436065674,
	"learning_rate": 1.2948483881694083e-05,
	"loss": 0.3986,
	"step": 336
	},
	{
	"epoch": 2.2466666666666666,
	"grad_norm": 2.5949816703796387,
	"learning_rate": 1.2910496409740147e-05,
	"loss": 0.7931,
	"step": 337
	},
	{
	"epoch": 2.2533333333333334,
	"grad_norm": 1.4112695455551147,
	"learning_rate": 1.287247326176005e-05,
	"loss": 0.3628,
	"step": 338
	},
	{
	"epoch": 2.26,
	"grad_norm": 1.946993350982666,
	"learning_rate": 1.2834415147786434e-05,
	"loss": 0.6038,
	"step": 339
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 1.3219523429870605,
	"learning_rate": 1.2796322778504899e-05,
	"loss": 0.6566,
	"step": 340
	},
	{
	"epoch": 2.2733333333333334,
	"grad_norm": 1.262119174003601,
	"learning_rate": 1.27581968652407e-05,
	"loss": 0.2201,
	"step": 341
	},
	{
	"epoch": 2.2800000000000002,
	"grad_norm": 1.1588819026947021,
	"learning_rate": 1.2720038119945496e-05,
	"loss": 0.3104,
	"step": 342
	},
	{
	"epoch": 2.2866666666666666,
	"grad_norm": 1.4515700340270996,
	"learning_rate": 1.2681847255184035e-05,
	"loss": 0.375,
	"step": 343
	},
	{
	"epoch": 2.2933333333333334,
	"grad_norm": 1.5760196447372437,
	"learning_rate": 1.264362498412085e-05,
	"loss": 0.3785,
	"step": 344
	},
	{
	"epoch": 2.3,
	"grad_norm": 1.2922861576080322,
	"learning_rate": 1.260537202050696e-05,
	"loss": 0.5141,
	"step": 345
	},
	{
	"epoch": 2.3066666666666666,
	"grad_norm": 1.482051968574524,
	"learning_rate": 1.2567089078666517e-05,
	"loss": 0.5309,
	"step": 346
	},
	{
	"epoch": 2.3133333333333335,
	"grad_norm": 1.1617043018341064,
	"learning_rate": 1.2528776873483474e-05,
	"loss": 0.3671,
	"step": 347
	},
	{
	"epoch": 2.32,
	"grad_norm": 2.644411325454712,
	"learning_rate": 1.2490436120388249e-05,
	"loss": 0.375,
	"step": 348
	},
	{
	"epoch": 2.3266666666666667,
	"grad_norm": 0.6887607574462891,
	"learning_rate": 1.2452067535344344e-05,
	"loss": 0.1441,
	"step": 349
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 1.5477890968322754,
	"learning_rate": 1.2413671834834997e-05,
	"loss": 0.6918,
	"step": 350
	},
	{
	"epoch": 2.34,
	"grad_norm": 1.377488374710083,
	"learning_rate": 1.2375249735849785e-05,
	"loss": 0.3714,
	"step": 351
	},
	{
	"epoch": 2.3466666666666667,
	"grad_norm": 1.730989933013916,
	"learning_rate": 1.2336801955871241e-05,
	"loss": 0.2917,
	"step": 352
	},
	{
	"epoch": 2.3533333333333335,
	"grad_norm": 1.2716642618179321,
	"learning_rate": 1.2298329212861461e-05,
	"loss": 0.3776,
	"step": 353
	},
	{
	"epoch": 2.36,
	"grad_norm": 1.3299543857574463,
	"learning_rate": 1.2259832225248693e-05,
	"loss": 0.3653,
	"step": 354
	},
	{
	"epoch": 2.3666666666666667,
	"grad_norm": 1.766775369644165,
	"learning_rate": 1.222131171191392e-05,
	"loss": 0.4566,
	"step": 355
	},
	{
	"epoch": 2.3733333333333335,
	"grad_norm": 1.3671021461486816,
	"learning_rate": 1.2182768392177437e-05,
	"loss": 0.3764,
	"step": 356
	},
	{
	"epoch": 2.38,
	"grad_norm": 1.1871297359466553,
	"learning_rate": 1.2144202985785418e-05,
	"loss": 0.2786,
	"step": 357
	},
	{
	"epoch": 2.3866666666666667,
	"grad_norm": 1.684607744216919,
	"learning_rate": 1.2105616212896478e-05,
	"loss": 0.6335,
	"step": 358
	},
	{
	"epoch": 2.3933333333333335,
	"grad_norm": 1.1292977333068848,
	"learning_rate": 1.2067008794068226e-05,
	"loss": 0.2257,
	"step": 359
	},
	{
	"epoch": 2.4,
	"grad_norm": 1.4422345161437988,
	"learning_rate": 1.2028381450243798e-05,
	"loss": 0.5768,
	"step": 360
	},
	{
	"epoch": 2.4066666666666667,
	"grad_norm": 1.675971269607544,
	"learning_rate": 1.1989734902738414e-05,
	"loss": 0.8085,
	"step": 361
	},
	{
	"epoch": 2.413333333333333,
	"grad_norm": 1.3154922723770142,
	"learning_rate": 1.195106987322589e-05,
	"loss": 0.3328,
	"step": 362
	},
	{
	"epoch": 2.42,
	"grad_norm": 1.4331287145614624,
	"learning_rate": 1.1912387083725174e-05,
	"loss": 0.3854,
	"step": 363
	},
	{
	"epoch": 2.4266666666666667,
	"grad_norm": 1.7648396492004395,
	"learning_rate": 1.1873687256586856e-05,
	"loss": 0.2884,
	"step": 364
	},
	{
	"epoch": 2.4333333333333336,
	"grad_norm": 1.2717833518981934,
	"learning_rate": 1.1834971114479683e-05,
	"loss": 0.5703,
	"step": 365
	},
	{
	"epoch": 2.44,
	"grad_norm": 1.749265432357788,
	"learning_rate": 1.1796239380377064e-05,
	"loss": 0.5033,
	"step": 366
	},
	{
	"epoch": 2.4466666666666668,
	"grad_norm": 1.6598306894302368,
	"learning_rate": 1.175749277754356e-05,
	"loss": 0.5986,
	"step": 367
	},
	{
	"epoch": 2.453333333333333,
	"grad_norm": 1.461147665977478,
	"learning_rate": 1.1718732029521393e-05,
	"loss": 0.4069,
	"step": 368
	},
	{
	"epoch": 2.46,
	"grad_norm": 1.7880187034606934,
	"learning_rate": 1.1679957860116939e-05,
	"loss": 0.6559,
	"step": 369
	},
	{
	"epoch": 2.466666666666667,
	"grad_norm": 0.9079005122184753,
	"learning_rate": 1.1641170993387177e-05,
	"loss": 0.3556,
	"step": 370
	},
	{
	"epoch": 2.473333333333333,
	"grad_norm": 1.3653432130813599,
	"learning_rate": 1.1602372153626207e-05,
	"loss": 0.3396,
	"step": 371
	},
	{
	"epoch": 2.48,
	"grad_norm": 1.1392285823822021,
	"learning_rate": 1.156356206535171e-05,
	"loss": 0.3157,
	"step": 372
	},
	{
	"epoch": 2.486666666666667,
	"grad_norm": 1.6712108850479126,
	"learning_rate": 1.152474145329141e-05,
	"loss": 0.4391,
	"step": 373
	},
	{
	"epoch": 2.493333333333333,
	"grad_norm": 1.0093735456466675,
	"learning_rate": 1.148591104236956e-05,
	"loss": 0.2155,
	"step": 374
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.4134020805358887,
	"learning_rate": 1.1447071557693384e-05,
	"loss": 0.4543,
	"step": 375
	},
	{
	"epoch": 2.506666666666667,
	"grad_norm": 1.3809040784835815,
	"learning_rate": 1.1408223724539555e-05,
	"loss": 0.5361,
	"step": 376
	},
	{
	"epoch": 2.513333333333333,
	"grad_norm": 1.4754438400268555,
	"learning_rate": 1.136936826834063e-05,
	"loss": 0.6066,
	"step": 377
	},
	{
	"epoch": 2.52,
	"grad_norm": 2.5914015769958496,
	"learning_rate": 1.1330505914671535e-05,
	"loss": 0.3635,
	"step": 378
	},
	{
	"epoch": 2.5266666666666664,
	"grad_norm": 27.5980167388916,
	"learning_rate": 1.1291637389235983e-05,
	"loss": 0.5019,
	"step": 379
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 1.1598241329193115,
	"learning_rate": 1.1252763417852936e-05,
	"loss": 0.264,
	"step": 380
	},
	{
	"epoch": 2.54,
	"grad_norm": 1.512192726135254,
	"learning_rate": 1.1213884726443068e-05,
	"loss": 0.2953,
	"step": 381
	},
	{
	"epoch": 2.546666666666667,
	"grad_norm": 3.973635673522949,
	"learning_rate": 1.1175002041015171e-05,
	"loss": 0.4391,
	"step": 382
	},
	{
	"epoch": 2.5533333333333332,
	"grad_norm": 22.423179626464844,
	"learning_rate": 1.1136116087652637e-05,
	"loss": 0.5173,
	"step": 383
	},
	{
	"epoch": 2.56,
	"grad_norm": 7.488842964172363,
	"learning_rate": 1.1097227592499873e-05,
	"loss": 0.467,
	"step": 384
	},
	{
	"epoch": 2.5666666666666664,
	"grad_norm": 3.525569200515747,
	"learning_rate": 1.1058337281748759e-05,
	"loss": 0.8528,
	"step": 385
	},
	{
	"epoch": 2.5733333333333333,
	"grad_norm": 1.4925084114074707,
	"learning_rate": 1.1019445881625071e-05,
	"loss": 0.6664,
	"step": 386
	},
	{
	"epoch": 2.58,
	"grad_norm": 1.5013151168823242,
	"learning_rate": 1.0980554118374933e-05,
	"loss": 0.5361,
	"step": 387
	},
	{
	"epoch": 2.586666666666667,
	"grad_norm": 0.9918359518051147,
	"learning_rate": 1.0941662718251242e-05,
	"loss": 0.3384,
	"step": 388
	},
	{
	"epoch": 2.5933333333333333,
	"grad_norm": 1.7358088493347168,
	"learning_rate": 1.0902772407500128e-05,
	"loss": 0.5748,
	"step": 389
	},
	{
	"epoch": 2.6,
	"grad_norm": 1.6578431129455566,
	"learning_rate": 1.0863883912347368e-05,
	"loss": 0.6826,
	"step": 390
	},
	{
	"epoch": 2.6066666666666665,
	"grad_norm": 1.4427716732025146,
	"learning_rate": 1.082499795898483e-05,
	"loss": 0.4823,
	"step": 391
	},
	{
	"epoch": 2.6133333333333333,
	"grad_norm": 1.0902202129364014,
	"learning_rate": 1.0786115273556937e-05,
	"loss": 0.2488,
	"step": 392
	},
	{
	"epoch": 2.62,
	"grad_norm": 1.3405840396881104,
	"learning_rate": 1.0747236582147067e-05,
	"loss": 0.4914,
	"step": 393
	},
	{
	"epoch": 2.626666666666667,
	"grad_norm": 1.1086082458496094,
	"learning_rate": 1.070836261076402e-05,
	"loss": 0.3075,
	"step": 394
	},
	{
	"epoch": 2.6333333333333333,
	"grad_norm": 2.0136094093322754,
	"learning_rate": 1.066949408532847e-05,
	"loss": 0.5934,
	"step": 395
	},
	{
	"epoch": 2.64,
	"grad_norm": 1.2072879076004028,
	"learning_rate": 1.0630631731659373e-05,
	"loss": 0.5477,
	"step": 396
	},
	{
	"epoch": 2.6466666666666665,
	"grad_norm": 0.8952162265777588,
	"learning_rate": 1.0591776275460451e-05,
	"loss": 0.2464,
	"step": 397
	},
	{
	"epoch": 2.6533333333333333,
	"grad_norm": 1.2537075281143188,
	"learning_rate": 1.055292844230662e-05,
	"loss": 0.3748,
	"step": 398
	},
	{
	"epoch": 2.66,
	"grad_norm": 1.2542909383773804,
	"learning_rate": 1.0514088957630441e-05,
	"loss": 0.3341,
	"step": 399
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 1.4922471046447754,
	"learning_rate": 1.0475258546708593e-05,
	"loss": 0.6402,
	"step": 400
	},
	{
	"epoch": 2.6733333333333333,
	"grad_norm": 0.8682767152786255,
	"learning_rate": 1.0436437934648296e-05,
	"loss": 0.2332,
	"step": 401
	},
	{
	"epoch": 2.68,
	"grad_norm": 1.1290216445922852,
	"learning_rate": 1.0397627846373794e-05,
	"loss": 0.2642,
	"step": 402
	},
	{
	"epoch": 2.6866666666666665,
	"grad_norm": 0.9641014933586121,
	"learning_rate": 1.0358829006612828e-05,
	"loss": 0.1645,
	"step": 403
	},
	{
	"epoch": 2.6933333333333334,
	"grad_norm": 1.260378122329712,
	"learning_rate": 1.0320042139883069e-05,
	"loss": 0.5079,
	"step": 404
	},
	{
	"epoch": 2.7,
	"grad_norm": 1.3906245231628418,
	"learning_rate": 1.0281267970478608e-05,
	"loss": 0.4817,
	"step": 405
	},
	{
	"epoch": 2.7066666666666666,
	"grad_norm": 1.1177834272384644,
	"learning_rate": 1.0242507222456446e-05,
	"loss": 0.2653,
	"step": 406
	},
	{
	"epoch": 2.7133333333333334,
	"grad_norm": 1.3878509998321533,
	"learning_rate": 1.0203760619622944e-05,
	"loss": 0.6585,
	"step": 407
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 1.9874647855758667,
	"learning_rate": 1.016502888552032e-05,
	"loss": 0.9263,
	"step": 408
	},
	{
	"epoch": 2.7266666666666666,
	"grad_norm": 0.9233214855194092,
	"learning_rate": 1.0126312743413146e-05,
	"loss": 0.3941,
	"step": 409
	},
	{
	"epoch": 2.7333333333333334,
	"grad_norm": 0.6271530389785767,
	"learning_rate": 1.0087612916274827e-05,
	"loss": 0.1383,
	"step": 410
	},
	{
	"epoch": 2.74,
	"grad_norm": 1.5185457468032837,
	"learning_rate": 1.0048930126774112e-05,
	"loss": 0.4791,
	"step": 411
	},
	{
	"epoch": 2.7466666666666666,
	"grad_norm": 1.0689821243286133,
	"learning_rate": 1.001026509726159e-05,
	"loss": 0.2481,
	"step": 412
	},
	{
	"epoch": 2.7533333333333334,
	"grad_norm": 0.5559907555580139,
	"learning_rate": 9.971618549756203e-06,
	"loss": 0.1159,
	"step": 413
	},
	{
	"epoch": 2.76,
	"grad_norm": 0.8540818095207214,
	"learning_rate": 9.932991205931777e-06,
	"loss": 0.271,
	"step": 414
	},
	{
	"epoch": 2.7666666666666666,
	"grad_norm": 0.8246598243713379,
	"learning_rate": 9.894383787103525e-06,
	"loss": 0.3051,
	"step": 415
	},
	{
	"epoch": 2.7733333333333334,
	"grad_norm": 1.019100308418274,
	"learning_rate": 9.855797014214583e-06,
	"loss": 0.2954,
	"step": 416
	},
	{
	"epoch": 2.7800000000000002,
	"grad_norm": 1.2697210311889648,
	"learning_rate": 9.817231607822565e-06,
	"loss": 0.4386,
	"step": 417
	},
	{
	"epoch": 2.7866666666666666,
	"grad_norm": 0.604729413986206,
	"learning_rate": 9.778688288086084e-06,
	"loss": 0.182,
	"step": 418
	},
	{
	"epoch": 2.7933333333333334,
	"grad_norm": 0.758552074432373,
	"learning_rate": 9.740167774751308e-06,
	"loss": 0.2463,
	"step": 419
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.0425121784210205,
	"learning_rate": 9.701670787138541e-06,
	"loss": 0.3408,
	"step": 420
	},
	{
	"epoch": 2.8066666666666666,
	"grad_norm": 1.4029688835144043,
	"learning_rate": 9.663198044128764e-06,
	"loss": 0.4963,
	"step": 421
	},
	{
	"epoch": 2.8133333333333335,
	"grad_norm": 1.0565751791000366,
	"learning_rate": 9.624750264150218e-06,
	"loss": 0.464,
	"step": 422
	},
	{
	"epoch": 2.82,
	"grad_norm": 1.4994906187057495,
	"learning_rate": 9.586328165165006e-06,
	"loss": 0.4685,
	"step": 423
	},
	{
	"epoch": 2.8266666666666667,
	"grad_norm": 1.6354223489761353,
	"learning_rate": 9.547932464655656e-06,
	"loss": 0.6198,
	"step": 424
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 0.9175460934638977,
	"learning_rate": 9.509563879611754e-06,
	"loss": 0.2814,
	"step": 425
	},
	{
	"epoch": 2.84,
	"grad_norm": 1.322573184967041,
	"learning_rate": 9.471223126516529e-06,
	"loss": 0.6169,
	"step": 426
	},
	{
	"epoch": 2.8466666666666667,
	"grad_norm": 1.3356101512908936,
	"learning_rate": 9.432910921333485e-06,
	"loss": 0.4999,
	"step": 427
	},
	{
	"epoch": 2.8533333333333335,
	"grad_norm": 1.3007878065109253,
	"learning_rate": 9.394627979493042e-06,
	"loss": 0.6857,
	"step": 428
	},
	{
	"epoch": 2.86,
	"grad_norm": 1.3256639242172241,
	"learning_rate": 9.356375015879156e-06,
	"loss": 0.7061,
	"step": 429
	},
	{
	"epoch": 2.8666666666666667,
	"grad_norm": 1.3235509395599365,
	"learning_rate": 9.318152744815971e-06,
	"loss": 0.508,
	"step": 430
	},
	{
	"epoch": 2.873333333333333,
	"grad_norm": 1.214378833770752,
	"learning_rate": 9.279961880054509e-06,
	"loss": 0.4439,
	"step": 431
	},
	{
	"epoch": 2.88,
	"grad_norm": 1.6435545682907104,
	"learning_rate": 9.241803134759301e-06,
	"loss": 0.4739,
	"step": 432
	},
	{
	"epoch": 2.8866666666666667,
	"grad_norm": 1.198081612586975,
	"learning_rate": 9.203677221495104e-06,
	"loss": 0.482,
	"step": 433
	},
	{
	"epoch": 2.8933333333333335,
	"grad_norm": 1.0145066976547241,
	"learning_rate": 9.165584852213567e-06,
	"loss": 0.291,
	"step": 434
	},
	{
	"epoch": 2.9,
	"grad_norm": 1.1571218967437744,
	"learning_rate": 9.127526738239954e-06,
	"loss": 0.3399,
	"step": 435
	},
	{
	"epoch": 2.9066666666666667,
	"grad_norm": 1.5985193252563477,
	"learning_rate": 9.089503590259856e-06,
	"loss": 0.4166,
	"step": 436
	},
	{
	"epoch": 2.913333333333333,
	"grad_norm": 1.3233163356781006,
	"learning_rate": 9.05151611830592e-06,
	"loss": 0.3521,
	"step": 437
	},
	{
	"epoch": 2.92,
	"grad_norm": 1.175849199295044,
	"learning_rate": 9.013565031744591e-06,
	"loss": 0.2808,
	"step": 438
	},
	{
	"epoch": 2.9266666666666667,
	"grad_norm": 1.094506859779358,
	"learning_rate": 8.97565103926286e-06,
	"loss": 0.3877,
	"step": 439
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 1.6014549732208252,
	"learning_rate": 8.937774848855039e-06,
	"loss": 0.8784,
	"step": 440
	},
	{
	"epoch": 2.94,
	"grad_norm": 1.521243929862976,
	"learning_rate": 8.899937167809531e-06,
	"loss": 0.3261,
	"step": 441
	},
	{
	"epoch": 2.9466666666666668,
	"grad_norm": 0.7121770977973938,
	"learning_rate": 8.862138702695638e-06,
	"loss": 0.198,
	"step": 442
	},
	{
	"epoch": 2.953333333333333,
	"grad_norm": 1.736828327178955,
	"learning_rate": 8.824380159350331e-06,
	"loss": 0.3529,
	"step": 443
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.8017225861549377,
	"learning_rate": 8.78666224286513e-06,
	"loss": 0.2061,
	"step": 444
	},
	{
	"epoch": 2.966666666666667,
	"grad_norm": 0.7904080152511597,
	"learning_rate": 8.74898565757287e-06,
	"loss": 0.233,
	"step": 445
	},
	{
	"epoch": 2.9733333333333336,
	"grad_norm": 1.1955089569091797,
	"learning_rate": 8.711351107034592e-06,
	"loss": 0.4218,
	"step": 446
	},
	{
	"epoch": 2.98,
	"grad_norm": 1.5457146167755127,
	"learning_rate": 8.673759294026398e-06,
	"loss": 0.6544,
	"step": 447
	},
	{
	"epoch": 2.986666666666667,
	"grad_norm": 1.797101616859436,
	"learning_rate": 8.636210920526316e-06,
	"loss": 0.608,
	"step": 448
	},
	{
	"epoch": 2.993333333333333,
	"grad_norm": 1.7683017253875732,
	"learning_rate": 8.598706687701192e-06,
	"loss": 0.3743,
	"step": 449
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.03306245803833,
	"learning_rate": 8.561247295893619e-06,
	"loss": 0.4658,
	"step": 450
	},
	{
	"epoch": 3.006666666666667,
	"grad_norm": 1.5889688730239868,
	"learning_rate": 8.523833444608829e-06,
	"loss": 0.4378,
	"step": 451
	},
	{
	"epoch": 3.013333333333333,
	"grad_norm": 1.2329561710357666,
	"learning_rate": 8.486465832501646e-06,
	"loss": 0.5694,
	"step": 452
	},
	{
	"epoch": 3.02,
	"grad_norm": 0.9243837594985962,
	"learning_rate": 8.449145157363446e-06,
	"loss": 0.2193,
	"step": 453
	},
	{
	"epoch": 3.026666666666667,
	"grad_norm": 1.3126856088638306,
	"learning_rate": 8.411872116109103e-06,
	"loss": 0.3749,
	"step": 454
	},
	{
	"epoch": 3.033333333333333,
	"grad_norm": 4.9260172843933105,
	"learning_rate": 8.374647404764011e-06,
	"loss": 0.799,
	"step": 455
	},
	{
	"epoch": 3.04,
	"grad_norm": 1.811789631843567,
	"learning_rate": 8.337471718451047e-06,
	"loss": 0.5854,
	"step": 456
	},
	{
	"epoch": 3.046666666666667,
	"grad_norm": 1.3995670080184937,
	"learning_rate": 8.300345751377619e-06,
	"loss": 0.5222,
	"step": 457
	},
	{
	"epoch": 3.0533333333333332,
	"grad_norm": 1.1551918983459473,
	"learning_rate": 8.263270196822695e-06,
	"loss": 0.5921,
	"step": 458
	},
	{
	"epoch": 3.06,
	"grad_norm": 2.39064884185791,
	"learning_rate": 8.226245747123848e-06,
	"loss": 0.7184,
	"step": 459
	},
	{
	"epoch": 3.066666666666667,
	"grad_norm": 1.081977128982544,
	"learning_rate": 8.189273093664337e-06,
	"loss": 0.3812,
	"step": 460
	},
	{
	"epoch": 3.0733333333333333,
	"grad_norm": 1.8248965740203857,
	"learning_rate": 8.152352926860196e-06,
	"loss": 0.821,
	"step": 461
	},
	{
	"epoch": 3.08,
	"grad_norm": 1.4115440845489502,
	"learning_rate": 8.115485936147343e-06,
	"loss": 0.5272,
	"step": 462
	},
	{
	"epoch": 3.086666666666667,
	"grad_norm": 1.4327605962753296,
	"learning_rate": 8.078672809968689e-06,
	"loss": 0.3913,
	"step": 463
	},
	{
	"epoch": 3.0933333333333333,
	"grad_norm": 1.493831753730774,
	"learning_rate": 8.04191423576131e-06,
	"loss": 0.2475,
	"step": 464
	},
	{
	"epoch": 3.1,
	"grad_norm": 1.761871099472046,
	"learning_rate": 8.005210899943584e-06,
	"loss": 0.7439,
	"step": 465
	},
	{
	"epoch": 3.1066666666666665,
	"grad_norm": 1.76626455783844,
	"learning_rate": 7.96856348790239e-06,
	"loss": 0.2467,
	"step": 466
	},
	{
	"epoch": 3.1133333333333333,
	"grad_norm": 1.0549607276916504,
	"learning_rate": 7.931972683980302e-06,
	"loss": 0.2511,
	"step": 467
	},
	{
	"epoch": 3.12,
	"grad_norm": 1.141783356666565,
	"learning_rate": 7.895439171462813e-06,
	"loss": 0.2277,
	"step": 468
	},
	{
	"epoch": 3.1266666666666665,
	"grad_norm": 1.5863436460494995,
	"learning_rate": 7.85896363256557e-06,
	"loss": 0.6327,
	"step": 469
	},
	{
	"epoch": 3.1333333333333333,
	"grad_norm": 1.0976667404174805,
	"learning_rate": 7.822546748421642e-06,
	"loss": 0.234,
	"step": 470
	},
	{
	"epoch": 3.14,
	"grad_norm": 1.4860919713974,
	"learning_rate": 7.786189199068792e-06,
	"loss": 0.6891,
	"step": 471
	},
	{
	"epoch": 3.1466666666666665,
	"grad_norm": 0.7435470223426819,
	"learning_rate": 7.749891663436793e-06,
	"loss": 0.2411,
	"step": 472
	},
	{
	"epoch": 3.1533333333333333,
	"grad_norm": 4.428133010864258,
	"learning_rate": 7.713654819334729e-06,
	"loss": 0.4466,
	"step": 473
	},
	{
	"epoch": 3.16,
	"grad_norm": 1.174668550491333,
	"learning_rate": 7.677479343438351e-06,
	"loss": 0.5557,
	"step": 474
	},
	{
	"epoch": 3.1666666666666665,
	"grad_norm": 0.9828451871871948,
	"learning_rate": 7.641365911277452e-06,
	"loss": 0.2084,
	"step": 475
	},
	{
	"epoch": 3.1733333333333333,
	"grad_norm": 1.3933385610580444,
	"learning_rate": 7.6053151972232176e-06,
	"loss": 0.4478,
	"step": 476
	},
	{
	"epoch": 3.18,
	"grad_norm": 0.8962238430976868,
	"learning_rate": 7.569327874475676e-06,
	"loss": 0.227,
	"step": 477
	},
	{
	"epoch": 3.1866666666666665,
	"grad_norm": 1.3221912384033203,
	"learning_rate": 7.533404615051087e-06,
	"loss": 0.6136,
	"step": 478
	},
	{
	"epoch": 3.1933333333333334,
	"grad_norm": 1.0276908874511719,
	"learning_rate": 7.497546089769425e-06,
	"loss": 0.503,
	"step": 479
	},
	{
	"epoch": 3.2,
	"grad_norm": 2.4918477535247803,
	"learning_rate": 7.461752968241833e-06,
	"loss": 0.5958,
	"step": 480
	},
	{
	"epoch": 3.2066666666666666,
	"grad_norm": 1.168184757232666,
	"learning_rate": 7.426025918858124e-06,
	"loss": 0.3046,
	"step": 481
	},
	{
	"epoch": 3.2133333333333334,
	"grad_norm": 1.3157926797866821,
	"learning_rate": 7.390365608774302e-06,
	"loss": 0.3903,
	"step": 482
	},
	{
	"epoch": 3.22,
	"grad_norm": 1.9632258415222168,
	"learning_rate": 7.354772703900101e-06,
	"loss": 0.6696,
	"step": 483
	},
	{
	"epoch": 3.2266666666666666,
	"grad_norm": 1.479067087173462,
	"learning_rate": 7.319247868886548e-06,
	"loss": 0.4173,
	"step": 484
	},
	{
	"epoch": 3.2333333333333334,
	"grad_norm": 1.6428669691085815,
	"learning_rate": 7.283791767113557e-06,
	"loss": 0.4193,
	"step": 485
	},
	{
	"epoch": 3.24,
	"grad_norm": 1.5472806692123413,
	"learning_rate": 7.248405060677543e-06,
	"loss": 0.3571,
	"step": 486
	},
	{
	"epoch": 3.2466666666666666,
	"grad_norm": 1.653496503829956,
	"learning_rate": 7.2130884103790436e-06,
	"loss": 0.5062,
	"step": 487
	},
	{
	"epoch": 3.2533333333333334,
	"grad_norm": 1.4190384149551392,
	"learning_rate": 7.177842475710395e-06,
	"loss": 0.4817,
	"step": 488
	},
	{
	"epoch": 3.26,
	"grad_norm": 1.7448099851608276,
	"learning_rate": 7.142667914843413e-06,
	"loss": 0.6035,
	"step": 489
	},
	{
	"epoch": 3.2666666666666666,
	"grad_norm": 3.215625524520874,
	"learning_rate": 7.107565384617097e-06,
	"loss": 0.5041,
	"step": 490
	},
	{
	"epoch": 3.2733333333333334,
	"grad_norm": 1.41063392162323,
	"learning_rate": 7.072535540525374e-06,
	"loss": 0.5266,
	"step": 491
	},
	{
	"epoch": 3.2800000000000002,
	"grad_norm": 1.3160585165023804,
	"learning_rate": 7.0375790367048466e-06,
	"loss": 0.266,
	"step": 492
	},
	{
	"epoch": 3.2866666666666666,
	"grad_norm": 1.9032337665557861,
	"learning_rate": 7.002696525922579e-06,
	"loss": 0.7686,
	"step": 493
	},
	{
	"epoch": 3.2933333333333334,
	"grad_norm": 1.593665361404419,
	"learning_rate": 6.96788865956393e-06,
	"loss": 0.3888,
	"step": 494
	},
	{
	"epoch": 3.3,
	"grad_norm": 2.1388587951660156,
	"learning_rate": 6.933156087620352e-06,
	"loss": 0.9322,
	"step": 495
	},
	{
	"epoch": 3.3066666666666666,
	"grad_norm": 1.3527288436889648,
	"learning_rate": 6.898499458677281e-06,
	"loss": 0.3768,
	"step": 496
	},
	{
	"epoch": 3.3133333333333335,
	"grad_norm": 2.0020318031311035,
	"learning_rate": 6.863919419902019e-06,
	"loss": 0.6772,
	"step": 497
	},
	{
	"epoch": 3.32,
	"grad_norm": 1.247876763343811,
	"learning_rate": 6.829416617031642e-06,
	"loss": 0.5892,
	"step": 498
	},
	{
	"epoch": 3.3266666666666667,
	"grad_norm": 1.814934253692627,
	"learning_rate": 6.794991694360942e-06,
	"loss": 0.5612,
	"step": 499
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 0.9168113470077515,
	"learning_rate": 6.760645294730414e-06,
	"loss": 0.2612,
	"step": 500
	},
	{
	"epoch": 3.34,
	"grad_norm": 1.3208444118499756,
	"learning_rate": 6.726378059514227e-06,
	"loss": 0.414,
	"step": 501
	},
	{
	"epoch": 3.3466666666666667,
	"grad_norm": 1.4437954425811768,
	"learning_rate": 6.692190628608255e-06,
	"loss": 0.5539,
	"step": 502
	},
	{
	"epoch": 3.3533333333333335,
	"grad_norm": 0.7737306952476501,
	"learning_rate": 6.658083640418145e-06,
	"loss": 0.2847,
	"step": 503
	},
	{
	"epoch": 3.36,
	"grad_norm": 1.5918776988983154,
	"learning_rate": 6.624057731847367e-06,
	"loss": 0.3756,
	"step": 504
	},
	{
	"epoch": 3.3666666666666667,
	"grad_norm": 1.719836711883545,
	"learning_rate": 6.590113538285341e-06,
	"loss": 0.5776,
	"step": 505
	},
	{
	"epoch": 3.3733333333333335,
	"grad_norm": 1.6654049158096313,
	"learning_rate": 6.556251693595565e-06,
	"loss": 0.4842,
	"step": 506
	},
	{
	"epoch": 3.38,
	"grad_norm": 1.5979913473129272,
	"learning_rate": 6.522472830103777e-06,
	"loss": 0.6191,
	"step": 507
	},
	{
	"epoch": 3.3866666666666667,
	"grad_norm": 1.221519112586975,
	"learning_rate": 6.488777578586158e-06,
	"loss": 0.2814,
	"step": 508
	},
	{
	"epoch": 3.3933333333333335,
	"grad_norm": 1.6397613286972046,
	"learning_rate": 6.455166568257536e-06,
	"loss": 0.5886,
	"step": 509
	},
	{
	"epoch": 3.4,
	"grad_norm": 3.443509340286255,
	"learning_rate": 6.421640426759643e-06,
	"loss": 0.2309,
	"step": 510
	},
	{
	"epoch": 3.4066666666666667,
	"grad_norm": 1.7111133337020874,
	"learning_rate": 6.388199780149407e-06,
	"loss": 0.5086,
	"step": 511
	},
	{
	"epoch": 3.413333333333333,
	"grad_norm": 2.0990231037139893,
	"learning_rate": 6.354845252887237e-06,
	"loss": 0.5625,
	"step": 512
	},
	{
	"epoch": 3.42,
	"grad_norm": 1.8440994024276733,
	"learning_rate": 6.321577467825392e-06,
	"loss": 0.6003,
	"step": 513
	},
	{
	"epoch": 3.4266666666666667,
	"grad_norm": 1.2410833835601807,
	"learning_rate": 6.2883970461963205e-06,
	"loss": 0.2431,
	"step": 514
	},
	{
	"epoch": 3.4333333333333336,
	"grad_norm": 1.1713411808013916,
	"learning_rate": 6.255304607601074e-06,
	"loss": 0.3112,
	"step": 515
	},
	{
	"epoch": 3.44,
	"grad_norm": 1.2038061618804932,
	"learning_rate": 6.222300769997742e-06,
	"loss": 0.2356,
	"step": 516
	},
	{
	"epoch": 3.4466666666666668,
	"grad_norm": 1.1006757020950317,
	"learning_rate": 6.189386149689904e-06,
	"loss": 0.522,
	"step": 517
	},
	{
	"epoch": 3.453333333333333,
	"grad_norm": 1.234704852104187,
	"learning_rate": 6.156561361315116e-06,
	"loss": 0.2775,
	"step": 518
	},
	{
	"epoch": 3.46,
	"grad_norm": 0.9400473833084106,
	"learning_rate": 6.123827017833454e-06,
	"loss": 0.2752,
	"step": 519
	},
	{
	"epoch": 3.466666666666667,
	"grad_norm": 1.6344656944274902,
	"learning_rate": 6.091183730516041e-06,
	"loss": 0.8672,
	"step": 520
	},
	{
	"epoch": 3.473333333333333,
	"grad_norm": 1.0745573043823242,
	"learning_rate": 6.058632108933646e-06,
	"loss": 0.255,
	"step": 521
	},
	{
	"epoch": 3.48,
	"grad_norm": 0.8348417282104492,
	"learning_rate": 6.02617276094531e-06,
	"loss": 0.2658,
	"step": 522
	},
	{
	"epoch": 3.486666666666667,
	"grad_norm": 1.0123889446258545,
	"learning_rate": 5.993806292686975e-06,
	"loss": 0.3018,
	"step": 523
	},
	{
	"epoch": 3.493333333333333,
	"grad_norm": 1.6308914422988892,
	"learning_rate": 5.9615333085601816e-06,
	"loss": 0.5474,
	"step": 524
	},
	{
	"epoch": 3.5,
	"grad_norm": 1.3122121095657349,
	"learning_rate": 5.929354411220771e-06,
	"loss": 0.5754,
	"step": 525
	},
	{
	"epoch": 3.506666666666667,
	"grad_norm": 1.2715647220611572,
	"learning_rate": 5.897270201567638e-06,
	"loss": 0.296,
	"step": 526
	},
	{
	"epoch": 3.513333333333333,
	"grad_norm": 1.1369949579238892,
	"learning_rate": 5.865281278731516e-06,
	"loss": 0.1938,
	"step": 527
	},
	{
	"epoch": 3.52,
	"grad_norm": 1.461135745048523,
	"learning_rate": 5.833388240063771e-06,
	"loss": 0.5822,
	"step": 528
	},
	{
	"epoch": 3.5266666666666664,
	"grad_norm": 1.6529327630996704,
	"learning_rate": 5.801591681125258e-06,
	"loss": 0.3641,
	"step": 529
	},
	{
	"epoch": 3.533333333333333,
	"grad_norm": 1.39845871925354,
	"learning_rate": 5.769892195675208e-06,
	"loss": 0.6383,
	"step": 530
	},
	{
	"epoch": 3.54,
	"grad_norm": 1.0760791301727295,
	"learning_rate": 5.738290375660125e-06,
	"loss": 0.1791,
	"step": 531
	},
	{
	"epoch": 3.546666666666667,
	"grad_norm": 1.692541241645813,
	"learning_rate": 5.706786811202738e-06,
	"loss": 0.3221,
	"step": 532
	},
	{
	"epoch": 3.5533333333333332,
	"grad_norm": 1.1036595106124878,
	"learning_rate": 5.675382090590981e-06,
	"loss": 0.2823,
	"step": 533
	},
	{
	"epoch": 3.56,
	"grad_norm": 2.0926828384399414,
	"learning_rate": 5.644076800267014e-06,
	"loss": 0.3489,
	"step": 534
	},
	{
	"epoch": 3.5666666666666664,
	"grad_norm": 0.9293984770774841,
	"learning_rate": 5.612871524816262e-06,
	"loss": 0.319,
	"step": 535
	},
	{
	"epoch": 3.5733333333333333,
	"grad_norm": 1.2874233722686768,
	"learning_rate": 5.5817668469565025e-06,
	"loss": 0.3866,
	"step": 536
	},
	{
	"epoch": 3.58,
	"grad_norm": 1.6778782606124878,
	"learning_rate": 5.550763347526982e-06,
	"loss": 0.477,
	"step": 537
	},
	{
	"epoch": 3.586666666666667,
	"grad_norm": 0.9787458777427673,
	"learning_rate": 5.519861605477581e-06,
	"loss": 0.2394,
	"step": 538
	},
	{
	"epoch": 3.5933333333333333,
	"grad_norm": 1.3014516830444336,
	"learning_rate": 5.489062197857984e-06,
	"loss": 0.3652,
	"step": 539
	},
	{
	"epoch": 3.6,
	"grad_norm": 1.2679635286331177,
	"learning_rate": 5.458365699806917e-06,
	"loss": 0.4789,
	"step": 540
	},
	{
	"epoch": 3.6066666666666665,
	"grad_norm": 1.213794231414795,
	"learning_rate": 5.427772684541408e-06,
	"loss": 0.4622,
	"step": 541
	},
	{
	"epoch": 3.6133333333333333,
	"grad_norm": 1.1161813735961914,
	"learning_rate": 5.397283723346074e-06,
	"loss": 0.2626,
	"step": 542
	},
	{
	"epoch": 3.62,
	"grad_norm": 1.1844446659088135,
	"learning_rate": 5.366899385562456e-06,
	"loss": 0.2604,
	"step": 543
	},
	{
	"epoch": 3.626666666666667,
	"grad_norm": 0.8947194814682007,
	"learning_rate": 5.3366202385784005e-06,
	"loss": 0.1885,
	"step": 544
	},
	{
	"epoch": 3.6333333333333333,
	"grad_norm": 1.2822984457015991,
	"learning_rate": 5.30644684781744e-06,
	"loss": 0.4128,
	"step": 545
	},
	{
	"epoch": 3.64,
	"grad_norm": 1.170116901397705,
	"learning_rate": 5.276379776728257e-06,
	"loss": 0.2597,
	"step": 546
	},
	{
	"epoch": 3.6466666666666665,
	"grad_norm": 1.3510268926620483,
	"learning_rate": 5.24641958677415e-06,
	"loss": 0.7202,
	"step": 547
	},
	{
	"epoch": 3.6533333333333333,
	"grad_norm": 1.2227978706359863,
	"learning_rate": 5.216566837422544e-06,
	"loss": 0.2967,
	"step": 548
	},
	{
	"epoch": 3.66,
	"grad_norm": 1.0847147703170776,
	"learning_rate": 5.186822086134566e-06,
	"loss": 0.3016,
	"step": 549
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 1.683333396911621,
	"learning_rate": 5.157185888354612e-06,
	"loss": 0.7797,
	"step": 550
	},
	{
	"epoch": 3.6733333333333333,
	"grad_norm": 1.3969520330429077,
	"learning_rate": 5.127658797499977e-06,
	"loss": 0.686,
	"step": 551
	},
	{
	"epoch": 3.68,
	"grad_norm": 1.5366076231002808,
	"learning_rate": 5.098241364950538e-06,
	"loss": 0.4191,
	"step": 552
	},
	{
	"epoch": 3.6866666666666665,
	"grad_norm": 0.7615384459495544,
	"learning_rate": 5.068934140038444e-06,
	"loss": 0.1628,
	"step": 553
	},
	{
	"epoch": 3.6933333333333334,
	"grad_norm": 0.9901170134544373,
	"learning_rate": 5.0397376700378495e-06,
	"loss": 0.1854,
	"step": 554
	},
	{
	"epoch": 3.7,
	"grad_norm": 1.3659517765045166,
	"learning_rate": 5.01065250015472e-06,
	"loss": 0.6739,
	"step": 555
	},
	{
	"epoch": 3.7066666666666666,
	"grad_norm": 1.0953928232192993,
	"learning_rate": 4.981679173516627e-06,
	"loss": 0.2997,
	"step": 556
	},
	{
	"epoch": 3.7133333333333334,
	"grad_norm": 1.2342252731323242,
	"learning_rate": 4.952818231162622e-06,
	"loss": 0.3711,
	"step": 557
	},
	{
	"epoch": 3.7199999999999998,
	"grad_norm": 1.350342869758606,
	"learning_rate": 4.924070212033122e-06,
	"loss": 0.4404,
	"step": 558
	},
	{
	"epoch": 3.7266666666666666,
	"grad_norm": 2.475033760070801,
	"learning_rate": 4.895435652959852e-06,
	"loss": 0.4877,
	"step": 559
	},
	{
	"epoch": 3.7333333333333334,
	"grad_norm": 1.4326213598251343,
	"learning_rate": 4.866915088655814e-06,
	"loss": 0.3355,
	"step": 560
	},
	{
	"epoch": 3.74,
	"grad_norm": 1.1125874519348145,
	"learning_rate": 4.838509051705317e-06,
	"loss": 0.3048,
	"step": 561
	},
	{
	"epoch": 3.7466666666666666,
	"grad_norm": 1.303355097770691,
	"learning_rate": 4.810218072554012e-06,
	"loss": 0.5403,
	"step": 562
	},
	{
	"epoch": 3.7533333333333334,
	"grad_norm": 3.008938789367676,
	"learning_rate": 4.7820426794989994e-06,
	"loss": 0.4871,
	"step": 563
	},
	{
	"epoch": 3.76,
	"grad_norm": 0.9627671241760254,
	"learning_rate": 4.7539833986789594e-06,
	"loss": 0.3037,
	"step": 564
	},
	{
	"epoch": 3.7666666666666666,
	"grad_norm": 0.6086631417274475,
	"learning_rate": 4.726040754064324e-06,
	"loss": 0.1383,
	"step": 565
	},
	{
	"epoch": 3.7733333333333334,
	"grad_norm": 1.2451680898666382,
	"learning_rate": 4.698215267447506e-06,
	"loss": 0.3843,
	"step": 566
	},
	{
	"epoch": 3.7800000000000002,
	"grad_norm": 1.0320932865142822,
	"learning_rate": 4.6705074584331355e-06,
	"loss": 0.325,
	"step": 567
	},
	{
	"epoch": 3.7866666666666666,
	"grad_norm": 1.2940720319747925,
	"learning_rate": 4.642917844428376e-06,
	"loss": 0.4929,
	"step": 568
	},
	{
	"epoch": 3.7933333333333334,
	"grad_norm": 0.6670101881027222,
	"learning_rate": 4.615446940633247e-06,
	"loss": 0.1388,
	"step": 569
	},
	{
	"epoch": 3.8,
	"grad_norm": 1.3660937547683716,
	"learning_rate": 4.588095260031007e-06,
	"loss": 0.3894,
	"step": 570
	},
	{
	"epoch": 3.8066666666666666,
	"grad_norm": 0.9112516045570374,
	"learning_rate": 4.560863313378588e-06,
	"loss": 0.4541,
	"step": 571
	},
	{
	"epoch": 3.8133333333333335,
	"grad_norm": 1.1540873050689697,
	"learning_rate": 4.53375160919704e-06,
	"loss": 0.4801,
	"step": 572
	},
	{
	"epoch": 3.82,
	"grad_norm": 1.5096888542175293,
	"learning_rate": 4.506760653762036e-06,
	"loss": 0.3607,
	"step": 573
	},
	{
	"epoch": 3.8266666666666667,
	"grad_norm": 1.3884817361831665,
	"learning_rate": 4.4798909510944365e-06,
	"loss": 0.6647,
	"step": 574
	},
	{
	"epoch": 3.8333333333333335,
	"grad_norm": 1.4854823350906372,
	"learning_rate": 4.4531430029508585e-06,
	"loss": 0.3727,
	"step": 575
	},
	{
	"epoch": 3.84,
	"grad_norm": 1.3827471733093262,
	"learning_rate": 4.4265173088143065e-06,
	"loss": 0.4973,
	"step": 576
	},
	{
	"epoch": 3.8466666666666667,
	"grad_norm": 1.3074723482131958,
	"learning_rate": 4.400014365884863e-06,
	"loss": 0.2892,
	"step": 577
	},
	{
	"epoch": 3.8533333333333335,
	"grad_norm": 1.4479936361312866,
	"learning_rate": 4.37363466907038e-06,
	"loss": 0.3476,
	"step": 578
	},
	{
	"epoch": 3.86,
	"grad_norm": 1.3634988069534302,
	"learning_rate": 4.347378710977261e-06,
	"loss": 0.5382,
	"step": 579
	},
	{
	"epoch": 3.8666666666666667,
	"grad_norm": 1.4852162599563599,
	"learning_rate": 4.3212469819012425e-06,
	"loss": 0.5617,
	"step": 580
	},
	{
	"epoch": 3.873333333333333,
	"grad_norm": 1.0422636270523071,
	"learning_rate": 4.295239969818244e-06,
	"loss": 0.1996,
	"step": 581
	},
	{
	"epoch": 3.88,
	"grad_norm": 0.9663172960281372,
	"learning_rate": 4.269358160375268e-06,
	"loss": 0.3191,
	"step": 582
	},
	{
	"epoch": 3.8866666666666667,
	"grad_norm": 1.2019636631011963,
	"learning_rate": 4.243602036881312e-06,
	"loss": 0.378,
	"step": 583
	},
	{
	"epoch": 3.8933333333333335,
	"grad_norm": 1.286968469619751,
	"learning_rate": 4.2179720802983534e-06,
	"loss": 0.4823,
	"step": 584
	},
	{
	"epoch": 3.9,
	"grad_norm": 1.5564239025115967,
	"learning_rate": 4.192468769232375e-06,
	"loss": 0.5717,
	"step": 585
	},
	{
	"epoch": 3.9066666666666667,
	"grad_norm": 0.8727124333381653,
	"learning_rate": 4.167092579924414e-06,
	"loss": 0.3884,
	"step": 586
	},
	{
	"epoch": 3.913333333333333,
	"grad_norm": 1.3296633958816528,
	"learning_rate": 4.1418439862416695e-06,
	"loss": 0.2578,
	"step": 587
	},
	{
	"epoch": 3.92,
	"grad_norm": 0.9148731827735901,
	"learning_rate": 4.116723459668671e-06,
	"loss": 0.3557,
	"step": 588
	},
	{
	"epoch": 3.9266666666666667,
	"grad_norm": 1.3181500434875488,
	"learning_rate": 4.091731469298454e-06,
	"loss": 0.3736,
	"step": 589
	},
	{
	"epoch": 3.9333333333333336,
	"grad_norm": 1.6612805128097534,
	"learning_rate": 4.066868481823808e-06,
	"loss": 0.5731,
	"step": 590
	},
	{
	"epoch": 3.94,
	"grad_norm": 0.894189715385437,
	"learning_rate": 4.042134961528563e-06,
	"loss": 0.3085,
	"step": 591
	},
	{
	"epoch": 3.9466666666666668,
	"grad_norm": 1.26560378074646,
	"learning_rate": 4.017531370278922e-06,
	"loss": 0.3202,
	"step": 592
	},
	{
	"epoch": 3.953333333333333,
	"grad_norm": 1.175733208656311,
	"learning_rate": 3.99305816751483e-06,
	"loss": 0.3671,
	"step": 593
	},
	{
	"epoch": 3.96,
	"grad_norm": 1.1619269847869873,
	"learning_rate": 3.968715810241396e-06,
	"loss": 0.4029,
	"step": 594
	},
	{
	"epoch": 3.966666666666667,
	"grad_norm": 1.7974544763565063,
	"learning_rate": 3.9445047530203575e-06,
	"loss": 0.5174,
	"step": 595
	},
	{
	"epoch": 3.9733333333333336,
	"grad_norm": 1.4101741313934326,
	"learning_rate": 3.920425447961606e-06,
	"loss": 0.2974,
	"step": 596
	},
	{
	"epoch": 3.98,
	"grad_norm": 1.0057168006896973,
	"learning_rate": 3.896478344714722e-06,
	"loss": 0.2508,
	"step": 597
	},
	{
	"epoch": 3.986666666666667,
	"grad_norm": 1.7521125078201294,
	"learning_rate": 3.872663890460593e-06,
	"loss": 0.7125,
	"step": 598
	},
	{
	"epoch": 3.993333333333333,
	"grad_norm": 1.1852591037750244,
	"learning_rate": 3.848982529903065e-06,
	"loss": 0.2022,
	"step": 599
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.8429129123687744,
	"learning_rate": 3.825434705260623e-06,
	"loss": 0.2263,
	"step": 600
	},
	{
	"epoch": 4.006666666666667,
	"grad_norm": 1.2853399515151978,
	"learning_rate": 3.802020856258155e-06,
	"loss": 0.3568,
	"step": 601
	},
	{
	"epoch": 4.013333333333334,
	"grad_norm": 1.284716010093689,
	"learning_rate": 3.778741420118719e-06,
	"loss": 0.3047,
	"step": 602
	},
	{
	"epoch": 4.02,
	"grad_norm": 1.6293946504592896,
	"learning_rate": 3.7555968315553916e-06,
	"loss": 0.6352,
	"step": 603
	},
	{
	"epoch": 4.026666666666666,
	"grad_norm": 1.3592982292175293,
	"learning_rate": 3.732587522763148e-06,
	"loss": 0.4972,
	"step": 604
	},
	{
	"epoch": 4.033333333333333,
	"grad_norm": 0.7168772220611572,
	"learning_rate": 3.709713923410793e-06,
	"loss": 0.1539,
	"step": 605
	},
	{
	"epoch": 4.04,
	"grad_norm": 0.8747243881225586,
	"learning_rate": 3.686976460632924e-06,
	"loss": 0.2995,
	"step": 606
	},
	{
	"epoch": 4.046666666666667,
	"grad_norm": 1.47053861618042,
	"learning_rate": 3.6643755590219796e-06,
	"loss": 0.3373,
	"step": 607
	},
	{
	"epoch": 4.053333333333334,
	"grad_norm": 1.6070635318756104,
	"learning_rate": 3.6419116406202883e-06,
	"loss": 0.7124,
	"step": 608
	},
	{
	"epoch": 4.06,
	"grad_norm": 1.4459311962127686,
	"learning_rate": 3.619585124912195e-06,
	"loss": 0.8205,
	"step": 609
	},
	{
	"epoch": 4.066666666666666,
	"grad_norm": 1.3801395893096924,
	"learning_rate": 3.597396428816236e-06,
	"loss": 0.4101,
	"step": 610
	},
	{
	"epoch": 4.073333333333333,
	"grad_norm": 1.5872927904129028,
	"learning_rate": 3.575345966677339e-06,
	"loss": 0.54,
	"step": 611
	},
	{
	"epoch": 4.08,
	"grad_norm": 1.1149475574493408,
	"learning_rate": 3.5534341502590995e-06,
	"loss": 0.2603,
	"step": 612
	},
	{
	"epoch": 4.086666666666667,
	"grad_norm": 1.1735680103302002,
	"learning_rate": 3.5316613887360794e-06,
	"loss": 0.3277,
	"step": 613
	},
	{
	"epoch": 4.093333333333334,
	"grad_norm": 1.1807669401168823,
	"learning_rate": 3.5100280886861713e-06,
	"loss": 0.349,
	"step": 614
	},
	{
	"epoch": 4.1,
	"grad_norm": 1.2858244180679321,
	"learning_rate": 3.4885346540830154e-06,
	"loss": 0.4824,
	"step": 615
	},
	{
	"epoch": 4.1066666666666665,
	"grad_norm": 1.3448548316955566,
	"learning_rate": 3.46718148628844e-06,
	"loss": 0.6582,
	"step": 616
	},
	{
	"epoch": 4.113333333333333,
	"grad_norm": 2.794578790664673,
	"learning_rate": 3.445968984044972e-06,
	"loss": 0.7599,
	"step": 617
	},
	{
	"epoch": 4.12,
	"grad_norm": 1.1659574508666992,
	"learning_rate": 3.4248975434684004e-06,
	"loss": 0.2854,
	"step": 618
	},
	{
	"epoch": 4.126666666666667,
	"grad_norm": 0.9521848559379578,
	"learning_rate": 3.403967558040367e-06,
	"loss": 0.4499,
	"step": 619
	},
	{
	"epoch": 4.133333333333334,
	"grad_norm": 0.8292222619056702,
	"learning_rate": 3.383179418601024e-06,
	"loss": 0.2096,
	"step": 620
	},
	{
	"epoch": 4.14,
	"grad_norm": 1.1031184196472168,
	"learning_rate": 3.3625335133417337e-06,
	"loss": 0.332,
	"step": 621
	},
	{
	"epoch": 4.1466666666666665,
	"grad_norm": 1.7812882661819458,
	"learning_rate": 3.34203022779782e-06,
	"loss": 0.3759,
	"step": 622
	},
	{
	"epoch": 4.153333333333333,
	"grad_norm": 1.1715418100357056,
	"learning_rate": 3.321669944841377e-06,
	"loss": 0.2522,
	"step": 623
	},
	{
	"epoch": 4.16,
	"grad_norm": 1.2465636730194092,
	"learning_rate": 3.301453044674106e-06,
	"loss": 0.2774,
	"step": 624
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 1.8948891162872314,
	"learning_rate": 3.281379904820219e-06,
	"loss": 0.7832,
	"step": 625
	},
	{
	"epoch": 4.173333333333334,
	"grad_norm": 1.8957587480545044,
	"learning_rate": 3.261450900119401e-06,
	"loss": 0.7166,
	"step": 626
	},
	{
	"epoch": 4.18,
	"grad_norm": 1.3086090087890625,
	"learning_rate": 3.2416664027197935e-06,
	"loss": 0.4382,
	"step": 627
	},
	{
	"epoch": 4.1866666666666665,
	"grad_norm": 1.1486830711364746,
	"learning_rate": 3.2220267820710544e-06,
	"loss": 0.3108,
	"step": 628
	},
	{
	"epoch": 4.193333333333333,
	"grad_norm": 1.371157169342041,
	"learning_rate": 3.2025324049174613e-06,
	"loss": 0.4944,
	"step": 629
	},
	{
	"epoch": 4.2,
	"grad_norm": 1.1694400310516357,
	"learning_rate": 3.183183635291054e-06,
	"loss": 0.2286,
	"step": 630
	},
	{
	"epoch": 4.206666666666667,
	"grad_norm": 1.0180890560150146,
	"learning_rate": 3.1639808345048425e-06,
	"loss": 0.3435,
	"step": 631
	},
	{
	"epoch": 4.213333333333333,
	"grad_norm": 1.867078423500061,
	"learning_rate": 3.1449243611460657e-06,
	"loss": 0.7808,
	"step": 632
	},
	{
	"epoch": 4.22,
	"grad_norm": 1.7380026578903198,
	"learning_rate": 3.126014571069479e-06,
	"loss": 0.844,
	"step": 633
	},
	{
	"epoch": 4.226666666666667,
	"grad_norm": 1.4347327947616577,
	"learning_rate": 3.1072518173907277e-06,
	"loss": 0.6694,
	"step": 634
	},
	{
	"epoch": 4.233333333333333,
	"grad_norm": 1.4206736087799072,
	"learning_rate": 3.0886364504797407e-06,
	"loss": 0.387,
	"step": 635
	},
	{
	"epoch": 4.24,
	"grad_norm": 0.792955756187439,
	"learning_rate": 3.0701688179541857e-06,
	"loss": 0.1755,
	"step": 636
	},
	{
	"epoch": 4.246666666666667,
	"grad_norm": 1.453861117362976,
	"learning_rate": 3.051849264672996e-06,
	"loss": 0.5212,
	"step": 637
	},
	{
	"epoch": 4.253333333333333,
	"grad_norm": 1.0745089054107666,
	"learning_rate": 3.0336781327299105e-06,
	"loss": 0.2214,
	"step": 638
	},
	{
	"epoch": 4.26,
	"grad_norm": 1.3397624492645264,
	"learning_rate": 3.0156557614470912e-06,
	"loss": 0.3879,
	"step": 639
	},
	{
	"epoch": 4.266666666666667,
	"grad_norm": 1.5081578493118286,
	"learning_rate": 2.9977824873687943e-06,
	"loss": 0.5862,
	"step": 640
	},
	{
	"epoch": 4.273333333333333,
	"grad_norm": 1.453550100326538,
	"learning_rate": 2.98005864425508e-06,
	"loss": 0.4981,
	"step": 641
	},
	{
	"epoch": 4.28,
	"grad_norm": 1.5029710531234741,
	"learning_rate": 2.9624845630755744e-06,
	"loss": 0.5053,
	"step": 642
	},
	{
	"epoch": 4.286666666666667,
	"grad_norm": 1.6604195833206177,
	"learning_rate": 2.945060572003303e-06,
	"loss": 0.4623,
	"step": 643
	},
	{
	"epoch": 4.293333333333333,
	"grad_norm": 1.6119710206985474,
	"learning_rate": 2.92778699640855e-06,
	"loss": 0.6292,
	"step": 644
	},
	{
	"epoch": 4.3,
	"grad_norm": 1.020081639289856,
	"learning_rate": 2.9106641588527874e-06,
	"loss": 0.2664,
	"step": 645
	},
	{
	"epoch": 4.306666666666667,
	"grad_norm": 1.4827642440795898,
	"learning_rate": 2.8936923790826517e-06,
	"loss": 0.5484,
	"step": 646
	},
	{
	"epoch": 4.3133333333333335,
	"grad_norm": 1.4749743938446045,
	"learning_rate": 2.8768719740239724e-06,
	"loss": 0.6281,
	"step": 647
	},
	{
	"epoch": 4.32,
	"grad_norm": 1.336064338684082,
	"learning_rate": 2.8602032577758542e-06,
	"loss": 0.2808,
	"step": 648
	}
	],
	"logging_steps": 1.0,
	"max_steps": 750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 108,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.505549915772158e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}