lavida-llada-reason / trainer_state.json
hbXNov's picture
Add files using upload-large-folder tool
246b218 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 4.32,
"eval_steps": 500,
"global_step": 648,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.006666666666666667,
"grad_norm": 2.1375420093536377,
"learning_rate": 8.695652173913044e-07,
"loss": 0.6337,
"step": 1
},
{
"epoch": 0.013333333333333334,
"grad_norm": 1.3867141008377075,
"learning_rate": 1.7391304347826088e-06,
"loss": 0.4949,
"step": 2
},
{
"epoch": 0.02,
"grad_norm": 2.0555808544158936,
"learning_rate": 2.6086956521739132e-06,
"loss": 0.8126,
"step": 3
},
{
"epoch": 0.02666666666666667,
"grad_norm": 2.612351179122925,
"learning_rate": 3.4782608695652175e-06,
"loss": 0.7339,
"step": 4
},
{
"epoch": 0.03333333333333333,
"grad_norm": 1.3486746549606323,
"learning_rate": 4.347826086956522e-06,
"loss": 0.2616,
"step": 5
},
{
"epoch": 0.04,
"grad_norm": 1.0544432401657104,
"learning_rate": 5.2173913043478265e-06,
"loss": 0.3067,
"step": 6
},
{
"epoch": 0.04666666666666667,
"grad_norm": 1.7482120990753174,
"learning_rate": 6.086956521739132e-06,
"loss": 0.5077,
"step": 7
},
{
"epoch": 0.05333333333333334,
"grad_norm": 1.1587380170822144,
"learning_rate": 6.956521739130435e-06,
"loss": 0.3569,
"step": 8
},
{
"epoch": 0.06,
"grad_norm": 0.9702258706092834,
"learning_rate": 7.82608695652174e-06,
"loss": 0.2481,
"step": 9
},
{
"epoch": 0.06666666666666667,
"grad_norm": 2.1485090255737305,
"learning_rate": 8.695652173913044e-06,
"loss": 0.8677,
"step": 10
},
{
"epoch": 0.07333333333333333,
"grad_norm": 1.8601247072219849,
"learning_rate": 9.565217391304349e-06,
"loss": 0.7287,
"step": 11
},
{
"epoch": 0.08,
"grad_norm": 0.7620797753334045,
"learning_rate": 1.0434782608695653e-05,
"loss": 0.2058,
"step": 12
},
{
"epoch": 0.08666666666666667,
"grad_norm": 1.5065464973449707,
"learning_rate": 1.1304347826086957e-05,
"loss": 0.3753,
"step": 13
},
{
"epoch": 0.09333333333333334,
"grad_norm": 2.2056727409362793,
"learning_rate": 1.2173913043478263e-05,
"loss": 0.5868,
"step": 14
},
{
"epoch": 0.1,
"grad_norm": 1.4034738540649414,
"learning_rate": 1.3043478260869566e-05,
"loss": 0.4816,
"step": 15
},
{
"epoch": 0.10666666666666667,
"grad_norm": 1.3337379693984985,
"learning_rate": 1.391304347826087e-05,
"loss": 0.3676,
"step": 16
},
{
"epoch": 0.11333333333333333,
"grad_norm": 1.246992588043213,
"learning_rate": 1.4782608695652174e-05,
"loss": 0.5706,
"step": 17
},
{
"epoch": 0.12,
"grad_norm": 1.2821959257125854,
"learning_rate": 1.565217391304348e-05,
"loss": 0.3634,
"step": 18
},
{
"epoch": 0.12666666666666668,
"grad_norm": 1.5053499937057495,
"learning_rate": 1.6521739130434785e-05,
"loss": 0.5677,
"step": 19
},
{
"epoch": 0.13333333333333333,
"grad_norm": 1.814946174621582,
"learning_rate": 1.739130434782609e-05,
"loss": 0.3515,
"step": 20
},
{
"epoch": 0.14,
"grad_norm": 1.469709873199463,
"learning_rate": 1.8260869565217393e-05,
"loss": 0.4288,
"step": 21
},
{
"epoch": 0.14666666666666667,
"grad_norm": 2.078496217727661,
"learning_rate": 1.9130434782608697e-05,
"loss": 0.5581,
"step": 22
},
{
"epoch": 0.15333333333333332,
"grad_norm": 0.9332765340805054,
"learning_rate": 2e-05,
"loss": 0.2232,
"step": 23
},
{
"epoch": 0.16,
"grad_norm": 2.065216064453125,
"learning_rate": 1.999991596837507e-05,
"loss": 0.615,
"step": 24
},
{
"epoch": 0.16666666666666666,
"grad_norm": 1.0639126300811768,
"learning_rate": 1.999966387506947e-05,
"loss": 0.4299,
"step": 25
},
{
"epoch": 0.17333333333333334,
"grad_norm": 1.2220447063446045,
"learning_rate": 1.9999243724790705e-05,
"loss": 0.333,
"step": 26
},
{
"epoch": 0.18,
"grad_norm": 1.0556367635726929,
"learning_rate": 1.9998655525384534e-05,
"loss": 0.2706,
"step": 27
},
{
"epoch": 0.18666666666666668,
"grad_norm": 1.2605373859405518,
"learning_rate": 1.999789928783482e-05,
"loss": 0.3138,
"step": 28
},
{
"epoch": 0.19333333333333333,
"grad_norm": 1.5340529680252075,
"learning_rate": 1.9996975026263304e-05,
"loss": 0.2929,
"step": 29
},
{
"epoch": 0.2,
"grad_norm": 1.2613033056259155,
"learning_rate": 1.9995882757929367e-05,
"loss": 0.4769,
"step": 30
},
{
"epoch": 0.20666666666666667,
"grad_norm": 1.3187987804412842,
"learning_rate": 1.9994622503229694e-05,
"loss": 0.3597,
"step": 31
},
{
"epoch": 0.21333333333333335,
"grad_norm": 1.2319542169570923,
"learning_rate": 1.9993194285697898e-05,
"loss": 0.394,
"step": 32
},
{
"epoch": 0.22,
"grad_norm": 1.3756078481674194,
"learning_rate": 1.9991598132004072e-05,
"loss": 0.4712,
"step": 33
},
{
"epoch": 0.22666666666666666,
"grad_norm": 1.537395715713501,
"learning_rate": 1.998983407195431e-05,
"loss": 0.7394,
"step": 34
},
{
"epoch": 0.23333333333333334,
"grad_norm": 2.503176212310791,
"learning_rate": 1.9987902138490118e-05,
"loss": 0.7219,
"step": 35
},
{
"epoch": 0.24,
"grad_norm": 2.753596544265747,
"learning_rate": 1.9985802367687844e-05,
"loss": 0.7032,
"step": 36
},
{
"epoch": 0.24666666666666667,
"grad_norm": 1.8421489000320435,
"learning_rate": 1.9983534798757964e-05,
"loss": 0.6088,
"step": 37
},
{
"epoch": 0.25333333333333335,
"grad_norm": 1.8208023309707642,
"learning_rate": 1.9981099474044362e-05,
"loss": 0.4845,
"step": 38
},
{
"epoch": 0.26,
"grad_norm": 1.356024146080017,
"learning_rate": 1.997849643902355e-05,
"loss": 0.487,
"step": 39
},
{
"epoch": 0.26666666666666666,
"grad_norm": 1.470805048942566,
"learning_rate": 1.997572574230381e-05,
"loss": 0.54,
"step": 40
},
{
"epoch": 0.2733333333333333,
"grad_norm": 1.4851891994476318,
"learning_rate": 1.9972787435624282e-05,
"loss": 0.4076,
"step": 41
},
{
"epoch": 0.28,
"grad_norm": 0.803066074848175,
"learning_rate": 1.996968157385401e-05,
"loss": 0.1891,
"step": 42
},
{
"epoch": 0.2866666666666667,
"grad_norm": 1.5581703186035156,
"learning_rate": 1.996640821499091e-05,
"loss": 0.3365,
"step": 43
},
{
"epoch": 0.29333333333333333,
"grad_norm": 1.6261980533599854,
"learning_rate": 1.9962967420160683e-05,
"loss": 0.4267,
"step": 44
},
{
"epoch": 0.3,
"grad_norm": 1.4385892152786255,
"learning_rate": 1.9959359253615676e-05,
"loss": 0.3899,
"step": 45
},
{
"epoch": 0.30666666666666664,
"grad_norm": 1.3031079769134521,
"learning_rate": 1.9955583782733693e-05,
"loss": 0.4338,
"step": 46
},
{
"epoch": 0.31333333333333335,
"grad_norm": 1.2695931196212769,
"learning_rate": 1.9951641078016725e-05,
"loss": 0.6285,
"step": 47
},
{
"epoch": 0.32,
"grad_norm": 1.1178261041641235,
"learning_rate": 1.994753121308963e-05,
"loss": 0.4285,
"step": 48
},
{
"epoch": 0.32666666666666666,
"grad_norm": 1.6929885149002075,
"learning_rate": 1.9943254264698775e-05,
"loss": 0.4132,
"step": 49
},
{
"epoch": 0.3333333333333333,
"grad_norm": 0.9805382490158081,
"learning_rate": 1.9938810312710585e-05,
"loss": 0.3083,
"step": 50
},
{
"epoch": 0.34,
"grad_norm": 0.9645007848739624,
"learning_rate": 1.993419944011006e-05,
"loss": 0.1915,
"step": 51
},
{
"epoch": 0.3466666666666667,
"grad_norm": 1.752095103263855,
"learning_rate": 1.992942173299923e-05,
"loss": 0.4278,
"step": 52
},
{
"epoch": 0.35333333333333333,
"grad_norm": 1.3025977611541748,
"learning_rate": 1.9924477280595533e-05,
"loss": 0.3838,
"step": 53
},
{
"epoch": 0.36,
"grad_norm": 1.117335557937622,
"learning_rate": 1.9919366175230163e-05,
"loss": 0.392,
"step": 54
},
{
"epoch": 0.36666666666666664,
"grad_norm": 1.9283711910247803,
"learning_rate": 1.9914088512346344e-05,
"loss": 0.632,
"step": 55
},
{
"epoch": 0.37333333333333335,
"grad_norm": 1.0203382968902588,
"learning_rate": 1.9908644390497535e-05,
"loss": 0.205,
"step": 56
},
{
"epoch": 0.38,
"grad_norm": 0.7649632692337036,
"learning_rate": 1.9903033911345607e-05,
"loss": 0.2475,
"step": 57
},
{
"epoch": 0.38666666666666666,
"grad_norm": 1.1519532203674316,
"learning_rate": 1.9897257179658936e-05,
"loss": 0.4095,
"step": 58
},
{
"epoch": 0.3933333333333333,
"grad_norm": 1.232419729232788,
"learning_rate": 1.9891314303310435e-05,
"loss": 0.4682,
"step": 59
},
{
"epoch": 0.4,
"grad_norm": 1.3041213750839233,
"learning_rate": 1.9885205393275572e-05,
"loss": 0.5696,
"step": 60
},
{
"epoch": 0.4066666666666667,
"grad_norm": 1.5985859632492065,
"learning_rate": 1.9878930563630257e-05,
"loss": 0.3258,
"step": 61
},
{
"epoch": 0.41333333333333333,
"grad_norm": 1.4802793264389038,
"learning_rate": 1.9872489931548743e-05,
"loss": 0.4622,
"step": 62
},
{
"epoch": 0.42,
"grad_norm": 1.4201364517211914,
"learning_rate": 1.9865883617301433e-05,
"loss": 0.3725,
"step": 63
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.6913735270500183,
"learning_rate": 1.9859111744252615e-05,
"loss": 0.3119,
"step": 64
},
{
"epoch": 0.43333333333333335,
"grad_norm": 1.1920121908187866,
"learning_rate": 1.9852174438858177e-05,
"loss": 0.3138,
"step": 65
},
{
"epoch": 0.44,
"grad_norm": 1.9476704597473145,
"learning_rate": 1.9845071830663237e-05,
"loss": 0.6468,
"step": 66
},
{
"epoch": 0.44666666666666666,
"grad_norm": 1.4647783041000366,
"learning_rate": 1.9837804052299737e-05,
"loss": 0.5353,
"step": 67
},
{
"epoch": 0.4533333333333333,
"grad_norm": 1.4652175903320312,
"learning_rate": 1.9830371239483942e-05,
"loss": 0.5751,
"step": 68
},
{
"epoch": 0.46,
"grad_norm": 1.1322413682937622,
"learning_rate": 1.9822773531013932e-05,
"loss": 0.3728,
"step": 69
},
{
"epoch": 0.4666666666666667,
"grad_norm": 1.4815658330917358,
"learning_rate": 1.9815011068766996e-05,
"loss": 0.5075,
"step": 70
},
{
"epoch": 0.47333333333333333,
"grad_norm": 1.5985065698623657,
"learning_rate": 1.9807083997696977e-05,
"loss": 0.3835,
"step": 71
},
{
"epoch": 0.48,
"grad_norm": 1.1205939054489136,
"learning_rate": 1.979899246583158e-05,
"loss": 0.5067,
"step": 72
},
{
"epoch": 0.4866666666666667,
"grad_norm": 0.9271765947341919,
"learning_rate": 1.9790736624269596e-05,
"loss": 0.2899,
"step": 73
},
{
"epoch": 0.49333333333333335,
"grad_norm": 1.379699468612671,
"learning_rate": 1.9782316627178088e-05,
"loss": 0.5131,
"step": 74
},
{
"epoch": 0.5,
"grad_norm": 1.1322109699249268,
"learning_rate": 1.977373263178951e-05,
"loss": 0.4466,
"step": 75
},
{
"epoch": 0.5066666666666667,
"grad_norm": 1.5308328866958618,
"learning_rate": 1.9764984798398773e-05,
"loss": 0.5935,
"step": 76
},
{
"epoch": 0.5133333333333333,
"grad_norm": 1.3057100772857666,
"learning_rate": 1.9756073290360236e-05,
"loss": 0.3564,
"step": 77
},
{
"epoch": 0.52,
"grad_norm": 1.281868815422058,
"learning_rate": 1.9746998274084683e-05,
"loss": 0.3617,
"step": 78
},
{
"epoch": 0.5266666666666666,
"grad_norm": 1.5658316612243652,
"learning_rate": 1.9737759919036196e-05,
"loss": 0.6316,
"step": 79
},
{
"epoch": 0.5333333333333333,
"grad_norm": 1.439375400543213,
"learning_rate": 1.972835839772899e-05,
"loss": 0.6616,
"step": 80
},
{
"epoch": 0.54,
"grad_norm": 1.483205795288086,
"learning_rate": 1.9718793885724202e-05,
"loss": 0.5403,
"step": 81
},
{
"epoch": 0.5466666666666666,
"grad_norm": 1.778740406036377,
"learning_rate": 1.970906656162661e-05,
"loss": 0.7721,
"step": 82
},
{
"epoch": 0.5533333333333333,
"grad_norm": 0.937252402305603,
"learning_rate": 1.9699176607081287e-05,
"loss": 0.2401,
"step": 83
},
{
"epoch": 0.56,
"grad_norm": 1.55841064453125,
"learning_rate": 1.9689124206770222e-05,
"loss": 0.5495,
"step": 84
},
{
"epoch": 0.5666666666666667,
"grad_norm": 1.2646422386169434,
"learning_rate": 1.9678909548408873e-05,
"loss": 0.6683,
"step": 85
},
{
"epoch": 0.5733333333333334,
"grad_norm": 1.0748180150985718,
"learning_rate": 1.9668532822742642e-05,
"loss": 0.6502,
"step": 86
},
{
"epoch": 0.58,
"grad_norm": 1.4940849542617798,
"learning_rate": 1.965799422354334e-05,
"loss": 0.6965,
"step": 87
},
{
"epoch": 0.5866666666666667,
"grad_norm": 1.8773472309112549,
"learning_rate": 1.964729394760554e-05,
"loss": 0.9707,
"step": 88
},
{
"epoch": 0.5933333333333334,
"grad_norm": 1.481740951538086,
"learning_rate": 1.9636432194742935e-05,
"loss": 0.6744,
"step": 89
},
{
"epoch": 0.6,
"grad_norm": 1.9039676189422607,
"learning_rate": 1.9625409167784567e-05,
"loss": 0.5523,
"step": 90
},
{
"epoch": 0.6066666666666667,
"grad_norm": 2.01161789894104,
"learning_rate": 1.961422507257108e-05,
"loss": 0.6468,
"step": 91
},
{
"epoch": 0.6133333333333333,
"grad_norm": 1.891059160232544,
"learning_rate": 1.9602880117950853e-05,
"loss": 0.5114,
"step": 92
},
{
"epoch": 0.62,
"grad_norm": 1.6588637828826904,
"learning_rate": 1.9591374515776097e-05,
"loss": 0.7309,
"step": 93
},
{
"epoch": 0.6266666666666667,
"grad_norm": 1.320695161819458,
"learning_rate": 1.9579708480898914e-05,
"loss": 0.5601,
"step": 94
},
{
"epoch": 0.6333333333333333,
"grad_norm": 1.2667829990386963,
"learning_rate": 1.9567882231167272e-05,
"loss": 0.7936,
"step": 95
},
{
"epoch": 0.64,
"grad_norm": 1.051637887954712,
"learning_rate": 1.9555895987420947e-05,
"loss": 0.3095,
"step": 96
},
{
"epoch": 0.6466666666666666,
"grad_norm": 1.4688889980316162,
"learning_rate": 1.954374997348739e-05,
"loss": 0.7503,
"step": 97
},
{
"epoch": 0.6533333333333333,
"grad_norm": 1.4855245351791382,
"learning_rate": 1.9531444416177558e-05,
"loss": 0.4592,
"step": 98
},
{
"epoch": 0.66,
"grad_norm": 1.0585805177688599,
"learning_rate": 1.951897954528166e-05,
"loss": 0.3554,
"step": 99
},
{
"epoch": 0.6666666666666666,
"grad_norm": 1.1536904573440552,
"learning_rate": 1.9506355593564898e-05,
"loss": 0.3669,
"step": 100
},
{
"epoch": 0.6733333333333333,
"grad_norm": 0.9789953827857971,
"learning_rate": 1.949357279676308e-05,
"loss": 0.2606,
"step": 101
},
{
"epoch": 0.68,
"grad_norm": 0.9956246018409729,
"learning_rate": 1.9480631393578246e-05,
"loss": 0.2972,
"step": 102
},
{
"epoch": 0.6866666666666666,
"grad_norm": 0.9574293494224548,
"learning_rate": 1.946753162567421e-05,
"loss": 0.3348,
"step": 103
},
{
"epoch": 0.6933333333333334,
"grad_norm": 1.3523496389389038,
"learning_rate": 1.9454273737672033e-05,
"loss": 0.5854,
"step": 104
},
{
"epoch": 0.7,
"grad_norm": 1.3378841876983643,
"learning_rate": 1.9440857977145463e-05,
"loss": 0.5229,
"step": 105
},
{
"epoch": 0.7066666666666667,
"grad_norm": 1.2634233236312866,
"learning_rate": 1.9427284594616315e-05,
"loss": 0.5069,
"step": 106
},
{
"epoch": 0.7133333333333334,
"grad_norm": 1.3043968677520752,
"learning_rate": 1.9413553843549783e-05,
"loss": 0.4777,
"step": 107
},
{
"epoch": 0.72,
"grad_norm": 1.2690622806549072,
"learning_rate": 1.939966598034972e-05,
"loss": 0.5222,
"step": 108
},
{
"epoch": 0.7266666666666667,
"grad_norm": 0.7248203754425049,
"learning_rate": 1.938562126435384e-05,
"loss": 0.2711,
"step": 109
},
{
"epoch": 0.7333333333333333,
"grad_norm": 1.478192687034607,
"learning_rate": 1.937141995782888e-05,
"loss": 0.6443,
"step": 110
},
{
"epoch": 0.74,
"grad_norm": 1.3677293062210083,
"learning_rate": 1.935706232596569e-05,
"loss": 0.5191,
"step": 111
},
{
"epoch": 0.7466666666666667,
"grad_norm": 1.9942638874053955,
"learning_rate": 1.9342548636874306e-05,
"loss": 0.3518,
"step": 112
},
{
"epoch": 0.7533333333333333,
"grad_norm": 1.235351800918579,
"learning_rate": 1.9327879161578925e-05,
"loss": 0.5076,
"step": 113
},
{
"epoch": 0.76,
"grad_norm": 1.0605601072311401,
"learning_rate": 1.9313054174012843e-05,
"loss": 0.2477,
"step": 114
},
{
"epoch": 0.7666666666666667,
"grad_norm": 0.9347406029701233,
"learning_rate": 1.9298073951013347e-05,
"loss": 0.1881,
"step": 115
},
{
"epoch": 0.7733333333333333,
"grad_norm": 1.2547634840011597,
"learning_rate": 1.9282938772316546e-05,
"loss": 0.7121,
"step": 116
},
{
"epoch": 0.78,
"grad_norm": 1.9678044319152832,
"learning_rate": 1.926764892055214e-05,
"loss": 0.5544,
"step": 117
},
{
"epoch": 0.7866666666666666,
"grad_norm": 1.6250430345535278,
"learning_rate": 1.925220468123815e-05,
"loss": 0.6912,
"step": 118
},
{
"epoch": 0.7933333333333333,
"grad_norm": 2.5969297885894775,
"learning_rate": 1.9236606342775587e-05,
"loss": 0.7151,
"step": 119
},
{
"epoch": 0.8,
"grad_norm": 1.6487793922424316,
"learning_rate": 1.9220854196443043e-05,
"loss": 0.6429,
"step": 120
},
{
"epoch": 0.8066666666666666,
"grad_norm": 1.015533447265625,
"learning_rate": 1.92049485363913e-05,
"loss": 0.3685,
"step": 121
},
{
"epoch": 0.8133333333333334,
"grad_norm": 1.0150421857833862,
"learning_rate": 1.9188889659637785e-05,
"loss": 0.3759,
"step": 122
},
{
"epoch": 0.82,
"grad_norm": 1.318854570388794,
"learning_rate": 1.9172677866061055e-05,
"loss": 0.2665,
"step": 123
},
{
"epoch": 0.8266666666666667,
"grad_norm": 1.4001891613006592,
"learning_rate": 1.9156313458395194e-05,
"loss": 0.4919,
"step": 124
},
{
"epoch": 0.8333333333333334,
"grad_norm": 1.5555373430252075,
"learning_rate": 1.9139796742224148e-05,
"loss": 0.6645,
"step": 125
},
{
"epoch": 0.84,
"grad_norm": 1.693493366241455,
"learning_rate": 1.912312802597603e-05,
"loss": 0.5109,
"step": 126
},
{
"epoch": 0.8466666666666667,
"grad_norm": 1.7915582656860352,
"learning_rate": 1.910630762091735e-05,
"loss": 0.3969,
"step": 127
},
{
"epoch": 0.8533333333333334,
"grad_norm": 2.0322561264038086,
"learning_rate": 1.9089335841147213e-05,
"loss": 1.0327,
"step": 128
},
{
"epoch": 0.86,
"grad_norm": 1.2844659090042114,
"learning_rate": 1.9072213003591453e-05,
"loss": 0.4539,
"step": 129
},
{
"epoch": 0.8666666666666667,
"grad_norm": 1.2939919233322144,
"learning_rate": 1.9054939427996698e-05,
"loss": 0.2601,
"step": 130
},
{
"epoch": 0.8733333333333333,
"grad_norm": 1.130388855934143,
"learning_rate": 1.903751543692443e-05,
"loss": 0.2817,
"step": 131
},
{
"epoch": 0.88,
"grad_norm": 1.6023472547531128,
"learning_rate": 1.9019941355744923e-05,
"loss": 0.5606,
"step": 132
},
{
"epoch": 0.8866666666666667,
"grad_norm": 1.2601792812347412,
"learning_rate": 1.900221751263121e-05,
"loss": 0.4864,
"step": 133
},
{
"epoch": 0.8933333333333333,
"grad_norm": 1.3938170671463013,
"learning_rate": 1.8984344238552912e-05,
"loss": 0.2505,
"step": 134
},
{
"epoch": 0.9,
"grad_norm": 1.1963953971862793,
"learning_rate": 1.896632186727009e-05,
"loss": 0.5056,
"step": 135
},
{
"epoch": 0.9066666666666666,
"grad_norm": 1.211414098739624,
"learning_rate": 1.8948150735327004e-05,
"loss": 0.4258,
"step": 136
},
{
"epoch": 0.9133333333333333,
"grad_norm": 1.3093147277832031,
"learning_rate": 1.8929831182045816e-05,
"loss": 0.423,
"step": 137
},
{
"epoch": 0.92,
"grad_norm": 1.446154236793518,
"learning_rate": 1.891136354952026e-05,
"loss": 0.5993,
"step": 138
},
{
"epoch": 0.9266666666666666,
"grad_norm": 1.2222667932510376,
"learning_rate": 1.8892748182609276e-05,
"loss": 0.4825,
"step": 139
},
{
"epoch": 0.9333333333333333,
"grad_norm": 1.3734275102615356,
"learning_rate": 1.8873985428930523e-05,
"loss": 0.4597,
"step": 140
},
{
"epoch": 0.94,
"grad_norm": 1.3745826482772827,
"learning_rate": 1.885507563885394e-05,
"loss": 0.3534,
"step": 141
},
{
"epoch": 0.9466666666666667,
"grad_norm": 1.0396696329116821,
"learning_rate": 1.883601916549516e-05,
"loss": 0.2591,
"step": 142
},
{
"epoch": 0.9533333333333334,
"grad_norm": 1.2262800931930542,
"learning_rate": 1.881681636470895e-05,
"loss": 0.6013,
"step": 143
},
{
"epoch": 0.96,
"grad_norm": 0.9334357976913452,
"learning_rate": 1.879746759508254e-05,
"loss": 0.189,
"step": 144
},
{
"epoch": 0.9666666666666667,
"grad_norm": 0.9975462555885315,
"learning_rate": 1.8777973217928948e-05,
"loss": 0.3069,
"step": 145
},
{
"epoch": 0.9733333333333334,
"grad_norm": 1.211124300956726,
"learning_rate": 1.875833359728021e-05,
"loss": 0.406,
"step": 146
},
{
"epoch": 0.98,
"grad_norm": 1.4741225242614746,
"learning_rate": 1.87385490998806e-05,
"loss": 0.5005,
"step": 147
},
{
"epoch": 0.9866666666666667,
"grad_norm": 0.9569060802459717,
"learning_rate": 1.8718620095179783e-05,
"loss": 0.2188,
"step": 148
},
{
"epoch": 0.9933333333333333,
"grad_norm": 1.4691638946533203,
"learning_rate": 1.86985469553259e-05,
"loss": 0.5834,
"step": 149
},
{
"epoch": 1.0,
"grad_norm": 1.1948105096817017,
"learning_rate": 1.8678330055158625e-05,
"loss": 0.3058,
"step": 150
},
{
"epoch": 1.0066666666666666,
"grad_norm": 1.1320759057998657,
"learning_rate": 1.8657969772202182e-05,
"loss": 0.3591,
"step": 151
},
{
"epoch": 1.0133333333333334,
"grad_norm": 0.9014932513237,
"learning_rate": 1.863746648665827e-05,
"loss": 0.2829,
"step": 152
},
{
"epoch": 1.02,
"grad_norm": 1.4449048042297363,
"learning_rate": 1.861682058139898e-05,
"loss": 0.5636,
"step": 153
},
{
"epoch": 1.0266666666666666,
"grad_norm": 0.9455937743186951,
"learning_rate": 1.8596032441959634e-05,
"loss": 0.3461,
"step": 154
},
{
"epoch": 1.0333333333333334,
"grad_norm": 1.3910088539123535,
"learning_rate": 1.8575102456531602e-05,
"loss": 0.6239,
"step": 155
},
{
"epoch": 1.04,
"grad_norm": 1.3249852657318115,
"learning_rate": 1.8554031015955028e-05,
"loss": 0.5565,
"step": 156
},
{
"epoch": 1.0466666666666666,
"grad_norm": 1.2149033546447754,
"learning_rate": 1.853281851371156e-05,
"loss": 0.4763,
"step": 157
},
{
"epoch": 1.0533333333333332,
"grad_norm": 1.4447301626205444,
"learning_rate": 1.8511465345916988e-05,
"loss": 0.4467,
"step": 158
},
{
"epoch": 1.06,
"grad_norm": 1.64676034450531,
"learning_rate": 1.848997191131383e-05,
"loss": 0.3383,
"step": 159
},
{
"epoch": 1.0666666666666667,
"grad_norm": 1.7825281620025635,
"learning_rate": 1.8468338611263923e-05,
"loss": 0.4622,
"step": 160
},
{
"epoch": 1.0733333333333333,
"grad_norm": 4.348494052886963,
"learning_rate": 1.8446565849740903e-05,
"loss": 0.3509,
"step": 161
},
{
"epoch": 1.08,
"grad_norm": 1.304581880569458,
"learning_rate": 1.842465403332266e-05,
"loss": 0.4308,
"step": 162
},
{
"epoch": 1.0866666666666667,
"grad_norm": 2.1287167072296143,
"learning_rate": 1.8402603571183766e-05,
"loss": 0.4359,
"step": 163
},
{
"epoch": 1.0933333333333333,
"grad_norm": 1.2464728355407715,
"learning_rate": 1.838041487508781e-05,
"loss": 0.493,
"step": 164
},
{
"epoch": 1.1,
"grad_norm": 1.1451174020767212,
"learning_rate": 1.835808835937972e-05,
"loss": 0.5766,
"step": 165
},
{
"epoch": 1.1066666666666667,
"grad_norm": 1.1933729648590088,
"learning_rate": 1.833562444097802e-05,
"loss": 0.3886,
"step": 166
},
{
"epoch": 1.1133333333333333,
"grad_norm": 0.916282594203949,
"learning_rate": 1.831302353936708e-05,
"loss": 0.3395,
"step": 167
},
{
"epoch": 1.12,
"grad_norm": 1.248387098312378,
"learning_rate": 1.8290286076589212e-05,
"loss": 0.3477,
"step": 168
},
{
"epoch": 1.1266666666666667,
"grad_norm": 2.040144920349121,
"learning_rate": 1.8267412477236855e-05,
"loss": 0.6722,
"step": 169
},
{
"epoch": 1.1333333333333333,
"grad_norm": 3.5974485874176025,
"learning_rate": 1.824440316844461e-05,
"loss": 0.5693,
"step": 170
},
{
"epoch": 1.1400000000000001,
"grad_norm": 1.369241714477539,
"learning_rate": 1.8221258579881286e-05,
"loss": 0.6999,
"step": 171
},
{
"epoch": 1.1466666666666667,
"grad_norm": 1.1438101530075073,
"learning_rate": 1.8197979143741847e-05,
"loss": 0.4588,
"step": 172
},
{
"epoch": 1.1533333333333333,
"grad_norm": 1.1206167936325073,
"learning_rate": 1.817456529473938e-05,
"loss": 0.3783,
"step": 173
},
{
"epoch": 1.16,
"grad_norm": 0.9800361394882202,
"learning_rate": 1.815101747009694e-05,
"loss": 0.2017,
"step": 174
},
{
"epoch": 1.1666666666666667,
"grad_norm": 0.9270554184913635,
"learning_rate": 1.8127336109539412e-05,
"loss": 0.4449,
"step": 175
},
{
"epoch": 1.1733333333333333,
"grad_norm": 1.3902397155761719,
"learning_rate": 1.8103521655285282e-05,
"loss": 0.3596,
"step": 176
},
{
"epoch": 1.18,
"grad_norm": 0.6287861466407776,
"learning_rate": 1.8079574552038397e-05,
"loss": 0.1432,
"step": 177
},
{
"epoch": 1.1866666666666668,
"grad_norm": 0.9718913435935974,
"learning_rate": 1.8055495246979645e-05,
"loss": 0.3516,
"step": 178
},
{
"epoch": 1.1933333333333334,
"grad_norm": 0.9533777832984924,
"learning_rate": 1.803128418975861e-05,
"loss": 0.352,
"step": 179
},
{
"epoch": 1.2,
"grad_norm": 0.9674003720283508,
"learning_rate": 1.8006941832485174e-05,
"loss": 0.4614,
"step": 180
},
{
"epoch": 1.2066666666666666,
"grad_norm": 1.3588773012161255,
"learning_rate": 1.798246862972108e-05,
"loss": 0.3159,
"step": 181
},
{
"epoch": 1.2133333333333334,
"grad_norm": 1.5350672006607056,
"learning_rate": 1.795786503847144e-05,
"loss": 0.7129,
"step": 182
},
{
"epoch": 1.22,
"grad_norm": 0.9531151056289673,
"learning_rate": 1.7933131518176194e-05,
"loss": 0.2486,
"step": 183
},
{
"epoch": 1.2266666666666666,
"grad_norm": 0.45034581422805786,
"learning_rate": 1.790826853070155e-05,
"loss": 0.1061,
"step": 184
},
{
"epoch": 1.2333333333333334,
"grad_norm": 0.9796707034111023,
"learning_rate": 1.7883276540331333e-05,
"loss": 0.3613,
"step": 185
},
{
"epoch": 1.24,
"grad_norm": 1.3566935062408447,
"learning_rate": 1.7858156013758333e-05,
"loss": 0.593,
"step": 186
},
{
"epoch": 1.2466666666666666,
"grad_norm": 1.1837201118469238,
"learning_rate": 1.783290742007559e-05,
"loss": 0.3495,
"step": 187
},
{
"epoch": 1.2533333333333334,
"grad_norm": 1.8410696983337402,
"learning_rate": 1.7807531230767628e-05,
"loss": 0.9237,
"step": 188
},
{
"epoch": 1.26,
"grad_norm": 0.9960632920265198,
"learning_rate": 1.7782027919701646e-05,
"loss": 0.3333,
"step": 189
},
{
"epoch": 1.2666666666666666,
"grad_norm": 1.4033161401748657,
"learning_rate": 1.775639796311869e-05,
"loss": 0.5075,
"step": 190
},
{
"epoch": 1.2733333333333334,
"grad_norm": 1.4755662679672241,
"learning_rate": 1.7730641839624738e-05,
"loss": 0.4519,
"step": 191
},
{
"epoch": 1.28,
"grad_norm": 1.597719430923462,
"learning_rate": 1.7704760030181757e-05,
"loss": 0.5983,
"step": 192
},
{
"epoch": 1.2866666666666666,
"grad_norm": 1.7625118494033813,
"learning_rate": 1.7678753018098762e-05,
"loss": 0.5879,
"step": 193
},
{
"epoch": 1.2933333333333334,
"grad_norm": 1.2640427350997925,
"learning_rate": 1.765262128902274e-05,
"loss": 0.2558,
"step": 194
},
{
"epoch": 1.3,
"grad_norm": 1.67387855052948,
"learning_rate": 1.7626365330929622e-05,
"loss": 0.4961,
"step": 195
},
{
"epoch": 1.3066666666666666,
"grad_norm": 0.45266011357307434,
"learning_rate": 1.759998563411514e-05,
"loss": 0.1,
"step": 196
},
{
"epoch": 1.3133333333333335,
"grad_norm": 1.11092209815979,
"learning_rate": 1.7573482691185696e-05,
"loss": 0.538,
"step": 197
},
{
"epoch": 1.32,
"grad_norm": 1.505696177482605,
"learning_rate": 1.7546856997049146e-05,
"loss": 0.6605,
"step": 198
},
{
"epoch": 1.3266666666666667,
"grad_norm": 1.3943895101547241,
"learning_rate": 1.7520109048905568e-05,
"loss": 0.6217,
"step": 199
},
{
"epoch": 1.3333333333333333,
"grad_norm": 1.5668399333953857,
"learning_rate": 1.7493239346237965e-05,
"loss": 0.6787,
"step": 200
},
{
"epoch": 1.34,
"grad_norm": 1.3335319757461548,
"learning_rate": 1.7466248390802964e-05,
"loss": 0.5902,
"step": 201
},
{
"epoch": 1.3466666666666667,
"grad_norm": 6.383098602294922,
"learning_rate": 1.7439136686621416e-05,
"loss": 0.4211,
"step": 202
},
{
"epoch": 1.3533333333333333,
"grad_norm": 1.140836238861084,
"learning_rate": 1.7411904739968995e-05,
"loss": 0.4312,
"step": 203
},
{
"epoch": 1.3599999999999999,
"grad_norm": 1.1934757232666016,
"learning_rate": 1.7384553059366758e-05,
"loss": 0.3965,
"step": 204
},
{
"epoch": 1.3666666666666667,
"grad_norm": 1.870481014251709,
"learning_rate": 1.735708215557163e-05,
"loss": 0.4525,
"step": 205
},
{
"epoch": 1.3733333333333333,
"grad_norm": 0.9946874380111694,
"learning_rate": 1.7329492541566865e-05,
"loss": 0.3907,
"step": 206
},
{
"epoch": 1.38,
"grad_norm": 1.037879228591919,
"learning_rate": 1.7301784732552494e-05,
"loss": 0.2094,
"step": 207
},
{
"epoch": 1.3866666666666667,
"grad_norm": 0.8867761492729187,
"learning_rate": 1.727395924593568e-05,
"loss": 0.292,
"step": 208
},
{
"epoch": 1.3933333333333333,
"grad_norm": 1.338649034500122,
"learning_rate": 1.7246016601321047e-05,
"loss": 0.5353,
"step": 209
},
{
"epoch": 1.4,
"grad_norm": 1.353572964668274,
"learning_rate": 1.7217957320501003e-05,
"loss": 0.5069,
"step": 210
},
{
"epoch": 1.4066666666666667,
"grad_norm": 1.1685672998428345,
"learning_rate": 1.7189781927445994e-05,
"loss": 0.3327,
"step": 211
},
{
"epoch": 1.4133333333333333,
"grad_norm": 1.3291776180267334,
"learning_rate": 1.7161490948294687e-05,
"loss": 0.6335,
"step": 212
},
{
"epoch": 1.42,
"grad_norm": 1.2127482891082764,
"learning_rate": 1.7133084911344188e-05,
"loss": 0.493,
"step": 213
},
{
"epoch": 1.4266666666666667,
"grad_norm": 1.2240782976150513,
"learning_rate": 1.710456434704015e-05,
"loss": 0.5325,
"step": 214
},
{
"epoch": 1.4333333333333333,
"grad_norm": 1.698709487915039,
"learning_rate": 1.707592978796688e-05,
"loss": 0.4999,
"step": 215
},
{
"epoch": 1.44,
"grad_norm": 1.0113152265548706,
"learning_rate": 1.7047181768837376e-05,
"loss": 0.2821,
"step": 216
},
{
"epoch": 1.4466666666666668,
"grad_norm": 0.9742848873138428,
"learning_rate": 1.7018320826483373e-05,
"loss": 0.4345,
"step": 217
},
{
"epoch": 1.4533333333333334,
"grad_norm": 1.7382066249847412,
"learning_rate": 1.6989347499845284e-05,
"loss": 0.6513,
"step": 218
},
{
"epoch": 1.46,
"grad_norm": 1.3588602542877197,
"learning_rate": 1.6960262329962152e-05,
"loss": 0.662,
"step": 219
},
{
"epoch": 1.4666666666666668,
"grad_norm": 1.4204033613204956,
"learning_rate": 1.693106585996156e-05,
"loss": 0.4216,
"step": 220
},
{
"epoch": 1.4733333333333334,
"grad_norm": 1.6735905408859253,
"learning_rate": 1.6901758635049464e-05,
"loss": 0.5573,
"step": 221
},
{
"epoch": 1.48,
"grad_norm": 1.4119937419891357,
"learning_rate": 1.6872341202500028e-05,
"loss": 0.4,
"step": 222
},
{
"epoch": 1.4866666666666668,
"grad_norm": 0.8888566493988037,
"learning_rate": 1.6842814111645392e-05,
"loss": 0.1802,
"step": 223
},
{
"epoch": 1.4933333333333334,
"grad_norm": 1.1101222038269043,
"learning_rate": 1.6813177913865436e-05,
"loss": 0.3547,
"step": 224
},
{
"epoch": 1.5,
"grad_norm": 1.1994966268539429,
"learning_rate": 1.6783433162577457e-05,
"loss": 0.4721,
"step": 225
},
{
"epoch": 1.5066666666666668,
"grad_norm": 0.8427855968475342,
"learning_rate": 1.6753580413225854e-05,
"loss": 0.3638,
"step": 226
},
{
"epoch": 1.5133333333333332,
"grad_norm": 1.6891529560089111,
"learning_rate": 1.6723620223271747e-05,
"loss": 0.3422,
"step": 227
},
{
"epoch": 1.52,
"grad_norm": 1.614018201828003,
"learning_rate": 1.669355315218256e-05,
"loss": 0.5234,
"step": 228
},
{
"epoch": 1.5266666666666666,
"grad_norm": 1.6598495244979858,
"learning_rate": 1.6663379761421602e-05,
"loss": 0.6544,
"step": 229
},
{
"epoch": 1.5333333333333332,
"grad_norm": 1.2119078636169434,
"learning_rate": 1.6633100614437546e-05,
"loss": 0.4101,
"step": 230
},
{
"epoch": 1.54,
"grad_norm": 1.2607935667037964,
"learning_rate": 1.660271627665393e-05,
"loss": 0.5589,
"step": 231
},
{
"epoch": 1.5466666666666666,
"grad_norm": 1.1111940145492554,
"learning_rate": 1.6572227315458594e-05,
"loss": 0.3733,
"step": 232
},
{
"epoch": 1.5533333333333332,
"grad_norm": 1.5404767990112305,
"learning_rate": 1.6541634300193085e-05,
"loss": 0.3923,
"step": 233
},
{
"epoch": 1.56,
"grad_norm": 0.8019644618034363,
"learning_rate": 1.6510937802142023e-05,
"loss": 0.1475,
"step": 234
},
{
"epoch": 1.5666666666666667,
"grad_norm": 1.1884678602218628,
"learning_rate": 1.6480138394522423e-05,
"loss": 0.5737,
"step": 235
},
{
"epoch": 1.5733333333333333,
"grad_norm": 0.7711490988731384,
"learning_rate": 1.6449236652473023e-05,
"loss": 0.4035,
"step": 236
},
{
"epoch": 1.58,
"grad_norm": 0.9433121681213379,
"learning_rate": 1.6418233153043504e-05,
"loss": 0.2971,
"step": 237
},
{
"epoch": 1.5866666666666667,
"grad_norm": 1.5755349397659302,
"learning_rate": 1.6387128475183743e-05,
"loss": 0.6917,
"step": 238
},
{
"epoch": 1.5933333333333333,
"grad_norm": 0.8864415287971497,
"learning_rate": 1.6355923199732988e-05,
"loss": 0.3182,
"step": 239
},
{
"epoch": 1.6,
"grad_norm": 1.2354004383087158,
"learning_rate": 1.6324617909409022e-05,
"loss": 0.3832,
"step": 240
},
{
"epoch": 1.6066666666666667,
"grad_norm": 1.0824851989746094,
"learning_rate": 1.6293213188797265e-05,
"loss": 0.5409,
"step": 241
},
{
"epoch": 1.6133333333333333,
"grad_norm": 1.129772663116455,
"learning_rate": 1.6261709624339876e-05,
"loss": 0.3416,
"step": 242
},
{
"epoch": 1.62,
"grad_norm": 1.2783231735229492,
"learning_rate": 1.6230107804324792e-05,
"loss": 0.4821,
"step": 243
},
{
"epoch": 1.6266666666666667,
"grad_norm": 0.8684279918670654,
"learning_rate": 1.6198408318874744e-05,
"loss": 0.3528,
"step": 244
},
{
"epoch": 1.6333333333333333,
"grad_norm": 1.0495837926864624,
"learning_rate": 1.6166611759936234e-05,
"loss": 0.4966,
"step": 245
},
{
"epoch": 1.6400000000000001,
"grad_norm": 1.158725619316101,
"learning_rate": 1.6134718721268486e-05,
"loss": 0.255,
"step": 246
},
{
"epoch": 1.6466666666666665,
"grad_norm": 1.063276767730713,
"learning_rate": 1.6102729798432362e-05,
"loss": 0.644,
"step": 247
},
{
"epoch": 1.6533333333333333,
"grad_norm": 0.7704464793205261,
"learning_rate": 1.6070645588779234e-05,
"loss": 0.2915,
"step": 248
},
{
"epoch": 1.6600000000000001,
"grad_norm": 1.0192077159881592,
"learning_rate": 1.603846669143982e-05,
"loss": 0.5738,
"step": 249
},
{
"epoch": 1.6666666666666665,
"grad_norm": 0.6719574928283691,
"learning_rate": 1.6006193707313026e-05,
"loss": 0.1746,
"step": 250
},
{
"epoch": 1.6733333333333333,
"grad_norm": 0.9879522919654846,
"learning_rate": 1.597382723905469e-05,
"loss": 0.3991,
"step": 251
},
{
"epoch": 1.6800000000000002,
"grad_norm": 1.384028673171997,
"learning_rate": 1.5941367891066354e-05,
"loss": 0.5644,
"step": 252
},
{
"epoch": 1.6866666666666665,
"grad_norm": 1.8280025720596313,
"learning_rate": 1.5908816269483965e-05,
"loss": 0.6819,
"step": 253
},
{
"epoch": 1.6933333333333334,
"grad_norm": 1.1063525676727295,
"learning_rate": 1.587617298216655e-05,
"loss": 0.4249,
"step": 254
},
{
"epoch": 1.7,
"grad_norm": 3.4740898609161377,
"learning_rate": 1.5843438638684888e-05,
"loss": 0.4314,
"step": 255
},
{
"epoch": 1.7066666666666666,
"grad_norm": 0.9208361506462097,
"learning_rate": 1.58106138503101e-05,
"loss": 0.2783,
"step": 256
},
{
"epoch": 1.7133333333333334,
"grad_norm": 1.0024452209472656,
"learning_rate": 1.5777699230002263e-05,
"loss": 0.367,
"step": 257
},
{
"epoch": 1.72,
"grad_norm": 1.7223882675170898,
"learning_rate": 1.574469539239893e-05,
"loss": 0.4302,
"step": 258
},
{
"epoch": 1.7266666666666666,
"grad_norm": 0.8658112287521362,
"learning_rate": 1.5711602953803682e-05,
"loss": 0.2135,
"step": 259
},
{
"epoch": 1.7333333333333334,
"grad_norm": 1.1215999126434326,
"learning_rate": 1.5678422532174608e-05,
"loss": 0.4406,
"step": 260
},
{
"epoch": 1.74,
"grad_norm": 1.734351634979248,
"learning_rate": 1.564515474711276e-05,
"loss": 0.4807,
"step": 261
},
{
"epoch": 1.7466666666666666,
"grad_norm": 1.429038643836975,
"learning_rate": 1.56118002198506e-05,
"loss": 0.5597,
"step": 262
},
{
"epoch": 1.7533333333333334,
"grad_norm": 1.6158004999160767,
"learning_rate": 1.557835957324036e-05,
"loss": 0.6275,
"step": 263
},
{
"epoch": 1.76,
"grad_norm": 1.3200069665908813,
"learning_rate": 1.554483343174247e-05,
"loss": 0.5552,
"step": 264
},
{
"epoch": 1.7666666666666666,
"grad_norm": 0.9847660064697266,
"learning_rate": 1.5511222421413845e-05,
"loss": 0.2985,
"step": 265
},
{
"epoch": 1.7733333333333334,
"grad_norm": 1.8030058145523071,
"learning_rate": 1.5477527169896228e-05,
"loss": 0.6832,
"step": 266
},
{
"epoch": 1.78,
"grad_norm": 1.4984818696975708,
"learning_rate": 1.5443748306404442e-05,
"loss": 0.5897,
"step": 267
},
{
"epoch": 1.7866666666666666,
"grad_norm": 1.6027628183364868,
"learning_rate": 1.5409886461714662e-05,
"loss": 0.6302,
"step": 268
},
{
"epoch": 1.7933333333333334,
"grad_norm": 1.1679726839065552,
"learning_rate": 1.5375942268152635e-05,
"loss": 0.8119,
"step": 269
},
{
"epoch": 1.8,
"grad_norm": 2.1344714164733887,
"learning_rate": 1.5341916359581858e-05,
"loss": 0.355,
"step": 270
},
{
"epoch": 1.8066666666666666,
"grad_norm": 1.595517635345459,
"learning_rate": 1.5307809371391747e-05,
"loss": 0.8738,
"step": 271
},
{
"epoch": 1.8133333333333335,
"grad_norm": 1.3305667638778687,
"learning_rate": 1.5273621940485777e-05,
"loss": 0.4503,
"step": 272
},
{
"epoch": 1.8199999999999998,
"grad_norm": 0.977202296257019,
"learning_rate": 1.5239354705269587e-05,
"loss": 0.2329,
"step": 273
},
{
"epoch": 1.8266666666666667,
"grad_norm": 1.3563309907913208,
"learning_rate": 1.520500830563906e-05,
"loss": 0.4367,
"step": 274
},
{
"epoch": 1.8333333333333335,
"grad_norm": 1.2666316032409668,
"learning_rate": 1.5170583382968363e-05,
"loss": 0.5034,
"step": 275
},
{
"epoch": 1.8399999999999999,
"grad_norm": 0.9950445294380188,
"learning_rate": 1.5136080580097982e-05,
"loss": 0.3498,
"step": 276
},
{
"epoch": 1.8466666666666667,
"grad_norm": 1.3694396018981934,
"learning_rate": 1.510150054132272e-05,
"loss": 0.3353,
"step": 277
},
{
"epoch": 1.8533333333333335,
"grad_norm": 1.4402964115142822,
"learning_rate": 1.5066843912379649e-05,
"loss": 0.354,
"step": 278
},
{
"epoch": 1.8599999999999999,
"grad_norm": 1.7509251832962036,
"learning_rate": 1.5032111340436073e-05,
"loss": 0.4484,
"step": 279
},
{
"epoch": 1.8666666666666667,
"grad_norm": 1.5764682292938232,
"learning_rate": 1.499730347407742e-05,
"loss": 0.5111,
"step": 280
},
{
"epoch": 1.8733333333333333,
"grad_norm": 2.0803394317626953,
"learning_rate": 1.496242096329516e-05,
"loss": 0.6957,
"step": 281
},
{
"epoch": 1.88,
"grad_norm": 1.8646881580352783,
"learning_rate": 1.492746445947463e-05,
"loss": 0.7925,
"step": 282
},
{
"epoch": 1.8866666666666667,
"grad_norm": 0.9404792785644531,
"learning_rate": 1.4892434615382905e-05,
"loss": 0.2242,
"step": 283
},
{
"epoch": 1.8933333333333333,
"grad_norm": 1.6398634910583496,
"learning_rate": 1.4857332085156591e-05,
"loss": 0.6085,
"step": 284
},
{
"epoch": 1.9,
"grad_norm": 1.3513060808181763,
"learning_rate": 1.4822157524289609e-05,
"loss": 0.4406,
"step": 285
},
{
"epoch": 1.9066666666666667,
"grad_norm": 0.8963049650192261,
"learning_rate": 1.478691158962096e-05,
"loss": 0.2038,
"step": 286
},
{
"epoch": 1.9133333333333333,
"grad_norm": 1.437309741973877,
"learning_rate": 1.4751594939322462e-05,
"loss": 0.3276,
"step": 287
},
{
"epoch": 1.92,
"grad_norm": 1.9788297414779663,
"learning_rate": 1.4716208232886447e-05,
"loss": 1.0759,
"step": 288
},
{
"epoch": 1.9266666666666667,
"grad_norm": 1.3424140214920044,
"learning_rate": 1.4680752131113455e-05,
"loss": 0.6213,
"step": 289
},
{
"epoch": 1.9333333333333333,
"grad_norm": 1.2345807552337646,
"learning_rate": 1.4645227296099902e-05,
"loss": 0.3295,
"step": 290
},
{
"epoch": 1.94,
"grad_norm": 1.2396150827407837,
"learning_rate": 1.4609634391225702e-05,
"loss": 0.4937,
"step": 291
},
{
"epoch": 1.9466666666666668,
"grad_norm": 1.2589573860168457,
"learning_rate": 1.4573974081141877e-05,
"loss": 0.3115,
"step": 292
},
{
"epoch": 1.9533333333333334,
"grad_norm": 1.3282593488693237,
"learning_rate": 1.453824703175817e-05,
"loss": 0.4194,
"step": 293
},
{
"epoch": 1.96,
"grad_norm": 1.7631460428237915,
"learning_rate": 1.4502453910230575e-05,
"loss": 0.408,
"step": 294
},
{
"epoch": 1.9666666666666668,
"grad_norm": 1.4355448484420776,
"learning_rate": 1.4466595384948913e-05,
"loss": 0.3947,
"step": 295
},
{
"epoch": 1.9733333333333334,
"grad_norm": 1.1702021360397339,
"learning_rate": 1.4430672125524327e-05,
"loss": 0.5111,
"step": 296
},
{
"epoch": 1.98,
"grad_norm": 0.7956981062889099,
"learning_rate": 1.4394684802776784e-05,
"loss": 0.2917,
"step": 297
},
{
"epoch": 1.9866666666666668,
"grad_norm": 1.3731566667556763,
"learning_rate": 1.4358634088722552e-05,
"loss": 0.4538,
"step": 298
},
{
"epoch": 1.9933333333333332,
"grad_norm": 1.1730948686599731,
"learning_rate": 1.4322520656561652e-05,
"loss": 0.4561,
"step": 299
},
{
"epoch": 2.0,
"grad_norm": 0.7473224997520447,
"learning_rate": 1.4286345180665277e-05,
"loss": 0.2062,
"step": 300
},
{
"epoch": 2.006666666666667,
"grad_norm": 1.4702370166778564,
"learning_rate": 1.4250108336563212e-05,
"loss": 0.4982,
"step": 301
},
{
"epoch": 2.013333333333333,
"grad_norm": 2.2533392906188965,
"learning_rate": 1.4213810800931209e-05,
"loss": 0.7325,
"step": 302
},
{
"epoch": 2.02,
"grad_norm": 1.4618300199508667,
"learning_rate": 1.4177453251578361e-05,
"loss": 0.9485,
"step": 303
},
{
"epoch": 2.026666666666667,
"grad_norm": 0.9844323992729187,
"learning_rate": 1.4141036367434433e-05,
"loss": 0.2536,
"step": 304
},
{
"epoch": 2.033333333333333,
"grad_norm": 1.3822338581085205,
"learning_rate": 1.4104560828537188e-05,
"loss": 0.3164,
"step": 305
},
{
"epoch": 2.04,
"grad_norm": 1.3014678955078125,
"learning_rate": 1.40680273160197e-05,
"loss": 0.4012,
"step": 306
},
{
"epoch": 2.046666666666667,
"grad_norm": 1.521849274635315,
"learning_rate": 1.4031436512097612e-05,
"loss": 0.5446,
"step": 307
},
{
"epoch": 2.0533333333333332,
"grad_norm": 1.182312250137329,
"learning_rate": 1.3994789100056421e-05,
"loss": 0.4388,
"step": 308
},
{
"epoch": 2.06,
"grad_norm": 1.3692355155944824,
"learning_rate": 1.3958085764238694e-05,
"loss": 0.5179,
"step": 309
},
{
"epoch": 2.066666666666667,
"grad_norm": 1.7040317058563232,
"learning_rate": 1.3921327190031315e-05,
"loss": 0.5444,
"step": 310
},
{
"epoch": 2.0733333333333333,
"grad_norm": 1.5850881338119507,
"learning_rate": 1.3884514063852661e-05,
"loss": 0.527,
"step": 311
},
{
"epoch": 2.08,
"grad_norm": 1.0130246877670288,
"learning_rate": 1.3847647073139806e-05,
"loss": 0.2265,
"step": 312
},
{
"epoch": 2.086666666666667,
"grad_norm": 1.9094117879867554,
"learning_rate": 1.3810726906335664e-05,
"loss": 0.4572,
"step": 313
},
{
"epoch": 2.0933333333333333,
"grad_norm": 1.2002707719802856,
"learning_rate": 1.377375425287616e-05,
"loss": 0.2674,
"step": 314
},
{
"epoch": 2.1,
"grad_norm": 1.5485289096832275,
"learning_rate": 1.373672980317731e-05,
"loss": 0.563,
"step": 315
},
{
"epoch": 2.1066666666666665,
"grad_norm": 1.884822130203247,
"learning_rate": 1.3699654248622382e-05,
"loss": 0.6168,
"step": 316
},
{
"epoch": 2.1133333333333333,
"grad_norm": 1.6859358549118042,
"learning_rate": 1.3662528281548954e-05,
"loss": 0.5328,
"step": 317
},
{
"epoch": 2.12,
"grad_norm": 2.261037826538086,
"learning_rate": 1.3625352595235992e-05,
"loss": 0.5648,
"step": 318
},
{
"epoch": 2.1266666666666665,
"grad_norm": 1.7818392515182495,
"learning_rate": 1.3588127883890898e-05,
"loss": 0.5394,
"step": 319
},
{
"epoch": 2.1333333333333333,
"grad_norm": 1.2540154457092285,
"learning_rate": 1.3550854842636558e-05,
"loss": 0.5572,
"step": 320
},
{
"epoch": 2.14,
"grad_norm": 1.7134149074554443,
"learning_rate": 1.3513534167498355e-05,
"loss": 0.4855,
"step": 321
},
{
"epoch": 2.1466666666666665,
"grad_norm": 1.232763409614563,
"learning_rate": 1.3476166555391174e-05,
"loss": 0.3799,
"step": 322
},
{
"epoch": 2.1533333333333333,
"grad_norm": 1.330854058265686,
"learning_rate": 1.3438752704106386e-05,
"loss": 0.367,
"step": 323
},
{
"epoch": 2.16,
"grad_norm": 1.4032166004180908,
"learning_rate": 1.340129331229881e-05,
"loss": 0.6345,
"step": 324
},
{
"epoch": 2.1666666666666665,
"grad_norm": 1.3411375284194946,
"learning_rate": 1.336378907947369e-05,
"loss": 0.2647,
"step": 325
},
{
"epoch": 2.1733333333333333,
"grad_norm": 1.103200078010559,
"learning_rate": 1.3326240705973605e-05,
"loss": 0.1682,
"step": 326
},
{
"epoch": 2.18,
"grad_norm": 0.830708384513855,
"learning_rate": 1.328864889296541e-05,
"loss": 0.1622,
"step": 327
},
{
"epoch": 2.1866666666666665,
"grad_norm": 1.2569397687911987,
"learning_rate": 1.3251014342427134e-05,
"loss": 0.3398,
"step": 328
},
{
"epoch": 2.1933333333333334,
"grad_norm": 1.1822941303253174,
"learning_rate": 1.3213337757134871e-05,
"loss": 0.1937,
"step": 329
},
{
"epoch": 2.2,
"grad_norm": 1.551056981086731,
"learning_rate": 1.317561984064967e-05,
"loss": 0.4919,
"step": 330
},
{
"epoch": 2.2066666666666666,
"grad_norm": 1.3554848432540894,
"learning_rate": 1.3137861297304367e-05,
"loss": 0.5676,
"step": 331
},
{
"epoch": 2.2133333333333334,
"grad_norm": 0.9740996956825256,
"learning_rate": 1.310006283219047e-05,
"loss": 0.3267,
"step": 332
},
{
"epoch": 2.22,
"grad_norm": 1.5028480291366577,
"learning_rate": 1.3062225151144964e-05,
"loss": 0.6523,
"step": 333
},
{
"epoch": 2.2266666666666666,
"grad_norm": 1.5713306665420532,
"learning_rate": 1.302434896073714e-05,
"loss": 0.3911,
"step": 334
},
{
"epoch": 2.2333333333333334,
"grad_norm": 2.664703607559204,
"learning_rate": 1.2986434968255413e-05,
"loss": 0.6158,
"step": 335
},
{
"epoch": 2.24,
"grad_norm": 1.2363102436065674,
"learning_rate": 1.2948483881694083e-05,
"loss": 0.3986,
"step": 336
},
{
"epoch": 2.2466666666666666,
"grad_norm": 2.5949816703796387,
"learning_rate": 1.2910496409740147e-05,
"loss": 0.7931,
"step": 337
},
{
"epoch": 2.2533333333333334,
"grad_norm": 1.4112695455551147,
"learning_rate": 1.287247326176005e-05,
"loss": 0.3628,
"step": 338
},
{
"epoch": 2.26,
"grad_norm": 1.946993350982666,
"learning_rate": 1.2834415147786434e-05,
"loss": 0.6038,
"step": 339
},
{
"epoch": 2.2666666666666666,
"grad_norm": 1.3219523429870605,
"learning_rate": 1.2796322778504899e-05,
"loss": 0.6566,
"step": 340
},
{
"epoch": 2.2733333333333334,
"grad_norm": 1.262119174003601,
"learning_rate": 1.27581968652407e-05,
"loss": 0.2201,
"step": 341
},
{
"epoch": 2.2800000000000002,
"grad_norm": 1.1588819026947021,
"learning_rate": 1.2720038119945496e-05,
"loss": 0.3104,
"step": 342
},
{
"epoch": 2.2866666666666666,
"grad_norm": 1.4515700340270996,
"learning_rate": 1.2681847255184035e-05,
"loss": 0.375,
"step": 343
},
{
"epoch": 2.2933333333333334,
"grad_norm": 1.5760196447372437,
"learning_rate": 1.264362498412085e-05,
"loss": 0.3785,
"step": 344
},
{
"epoch": 2.3,
"grad_norm": 1.2922861576080322,
"learning_rate": 1.260537202050696e-05,
"loss": 0.5141,
"step": 345
},
{
"epoch": 2.3066666666666666,
"grad_norm": 1.482051968574524,
"learning_rate": 1.2567089078666517e-05,
"loss": 0.5309,
"step": 346
},
{
"epoch": 2.3133333333333335,
"grad_norm": 1.1617043018341064,
"learning_rate": 1.2528776873483474e-05,
"loss": 0.3671,
"step": 347
},
{
"epoch": 2.32,
"grad_norm": 2.644411325454712,
"learning_rate": 1.2490436120388249e-05,
"loss": 0.375,
"step": 348
},
{
"epoch": 2.3266666666666667,
"grad_norm": 0.6887607574462891,
"learning_rate": 1.2452067535344344e-05,
"loss": 0.1441,
"step": 349
},
{
"epoch": 2.3333333333333335,
"grad_norm": 1.5477890968322754,
"learning_rate": 1.2413671834834997e-05,
"loss": 0.6918,
"step": 350
},
{
"epoch": 2.34,
"grad_norm": 1.377488374710083,
"learning_rate": 1.2375249735849785e-05,
"loss": 0.3714,
"step": 351
},
{
"epoch": 2.3466666666666667,
"grad_norm": 1.730989933013916,
"learning_rate": 1.2336801955871241e-05,
"loss": 0.2917,
"step": 352
},
{
"epoch": 2.3533333333333335,
"grad_norm": 1.2716642618179321,
"learning_rate": 1.2298329212861461e-05,
"loss": 0.3776,
"step": 353
},
{
"epoch": 2.36,
"grad_norm": 1.3299543857574463,
"learning_rate": 1.2259832225248693e-05,
"loss": 0.3653,
"step": 354
},
{
"epoch": 2.3666666666666667,
"grad_norm": 1.766775369644165,
"learning_rate": 1.222131171191392e-05,
"loss": 0.4566,
"step": 355
},
{
"epoch": 2.3733333333333335,
"grad_norm": 1.3671021461486816,
"learning_rate": 1.2182768392177437e-05,
"loss": 0.3764,
"step": 356
},
{
"epoch": 2.38,
"grad_norm": 1.1871297359466553,
"learning_rate": 1.2144202985785418e-05,
"loss": 0.2786,
"step": 357
},
{
"epoch": 2.3866666666666667,
"grad_norm": 1.684607744216919,
"learning_rate": 1.2105616212896478e-05,
"loss": 0.6335,
"step": 358
},
{
"epoch": 2.3933333333333335,
"grad_norm": 1.1292977333068848,
"learning_rate": 1.2067008794068226e-05,
"loss": 0.2257,
"step": 359
},
{
"epoch": 2.4,
"grad_norm": 1.4422345161437988,
"learning_rate": 1.2028381450243798e-05,
"loss": 0.5768,
"step": 360
},
{
"epoch": 2.4066666666666667,
"grad_norm": 1.675971269607544,
"learning_rate": 1.1989734902738414e-05,
"loss": 0.8085,
"step": 361
},
{
"epoch": 2.413333333333333,
"grad_norm": 1.3154922723770142,
"learning_rate": 1.195106987322589e-05,
"loss": 0.3328,
"step": 362
},
{
"epoch": 2.42,
"grad_norm": 1.4331287145614624,
"learning_rate": 1.1912387083725174e-05,
"loss": 0.3854,
"step": 363
},
{
"epoch": 2.4266666666666667,
"grad_norm": 1.7648396492004395,
"learning_rate": 1.1873687256586856e-05,
"loss": 0.2884,
"step": 364
},
{
"epoch": 2.4333333333333336,
"grad_norm": 1.2717833518981934,
"learning_rate": 1.1834971114479683e-05,
"loss": 0.5703,
"step": 365
},
{
"epoch": 2.44,
"grad_norm": 1.749265432357788,
"learning_rate": 1.1796239380377064e-05,
"loss": 0.5033,
"step": 366
},
{
"epoch": 2.4466666666666668,
"grad_norm": 1.6598306894302368,
"learning_rate": 1.175749277754356e-05,
"loss": 0.5986,
"step": 367
},
{
"epoch": 2.453333333333333,
"grad_norm": 1.461147665977478,
"learning_rate": 1.1718732029521393e-05,
"loss": 0.4069,
"step": 368
},
{
"epoch": 2.46,
"grad_norm": 1.7880187034606934,
"learning_rate": 1.1679957860116939e-05,
"loss": 0.6559,
"step": 369
},
{
"epoch": 2.466666666666667,
"grad_norm": 0.9079005122184753,
"learning_rate": 1.1641170993387177e-05,
"loss": 0.3556,
"step": 370
},
{
"epoch": 2.473333333333333,
"grad_norm": 1.3653432130813599,
"learning_rate": 1.1602372153626207e-05,
"loss": 0.3396,
"step": 371
},
{
"epoch": 2.48,
"grad_norm": 1.1392285823822021,
"learning_rate": 1.156356206535171e-05,
"loss": 0.3157,
"step": 372
},
{
"epoch": 2.486666666666667,
"grad_norm": 1.6712108850479126,
"learning_rate": 1.152474145329141e-05,
"loss": 0.4391,
"step": 373
},
{
"epoch": 2.493333333333333,
"grad_norm": 1.0093735456466675,
"learning_rate": 1.148591104236956e-05,
"loss": 0.2155,
"step": 374
},
{
"epoch": 2.5,
"grad_norm": 1.4134020805358887,
"learning_rate": 1.1447071557693384e-05,
"loss": 0.4543,
"step": 375
},
{
"epoch": 2.506666666666667,
"grad_norm": 1.3809040784835815,
"learning_rate": 1.1408223724539555e-05,
"loss": 0.5361,
"step": 376
},
{
"epoch": 2.513333333333333,
"grad_norm": 1.4754438400268555,
"learning_rate": 1.136936826834063e-05,
"loss": 0.6066,
"step": 377
},
{
"epoch": 2.52,
"grad_norm": 2.5914015769958496,
"learning_rate": 1.1330505914671535e-05,
"loss": 0.3635,
"step": 378
},
{
"epoch": 2.5266666666666664,
"grad_norm": 27.5980167388916,
"learning_rate": 1.1291637389235983e-05,
"loss": 0.5019,
"step": 379
},
{
"epoch": 2.533333333333333,
"grad_norm": 1.1598241329193115,
"learning_rate": 1.1252763417852936e-05,
"loss": 0.264,
"step": 380
},
{
"epoch": 2.54,
"grad_norm": 1.512192726135254,
"learning_rate": 1.1213884726443068e-05,
"loss": 0.2953,
"step": 381
},
{
"epoch": 2.546666666666667,
"grad_norm": 3.973635673522949,
"learning_rate": 1.1175002041015171e-05,
"loss": 0.4391,
"step": 382
},
{
"epoch": 2.5533333333333332,
"grad_norm": 22.423179626464844,
"learning_rate": 1.1136116087652637e-05,
"loss": 0.5173,
"step": 383
},
{
"epoch": 2.56,
"grad_norm": 7.488842964172363,
"learning_rate": 1.1097227592499873e-05,
"loss": 0.467,
"step": 384
},
{
"epoch": 2.5666666666666664,
"grad_norm": 3.525569200515747,
"learning_rate": 1.1058337281748759e-05,
"loss": 0.8528,
"step": 385
},
{
"epoch": 2.5733333333333333,
"grad_norm": 1.4925084114074707,
"learning_rate": 1.1019445881625071e-05,
"loss": 0.6664,
"step": 386
},
{
"epoch": 2.58,
"grad_norm": 1.5013151168823242,
"learning_rate": 1.0980554118374933e-05,
"loss": 0.5361,
"step": 387
},
{
"epoch": 2.586666666666667,
"grad_norm": 0.9918359518051147,
"learning_rate": 1.0941662718251242e-05,
"loss": 0.3384,
"step": 388
},
{
"epoch": 2.5933333333333333,
"grad_norm": 1.7358088493347168,
"learning_rate": 1.0902772407500128e-05,
"loss": 0.5748,
"step": 389
},
{
"epoch": 2.6,
"grad_norm": 1.6578431129455566,
"learning_rate": 1.0863883912347368e-05,
"loss": 0.6826,
"step": 390
},
{
"epoch": 2.6066666666666665,
"grad_norm": 1.4427716732025146,
"learning_rate": 1.082499795898483e-05,
"loss": 0.4823,
"step": 391
},
{
"epoch": 2.6133333333333333,
"grad_norm": 1.0902202129364014,
"learning_rate": 1.0786115273556937e-05,
"loss": 0.2488,
"step": 392
},
{
"epoch": 2.62,
"grad_norm": 1.3405840396881104,
"learning_rate": 1.0747236582147067e-05,
"loss": 0.4914,
"step": 393
},
{
"epoch": 2.626666666666667,
"grad_norm": 1.1086082458496094,
"learning_rate": 1.070836261076402e-05,
"loss": 0.3075,
"step": 394
},
{
"epoch": 2.6333333333333333,
"grad_norm": 2.0136094093322754,
"learning_rate": 1.066949408532847e-05,
"loss": 0.5934,
"step": 395
},
{
"epoch": 2.64,
"grad_norm": 1.2072879076004028,
"learning_rate": 1.0630631731659373e-05,
"loss": 0.5477,
"step": 396
},
{
"epoch": 2.6466666666666665,
"grad_norm": 0.8952162265777588,
"learning_rate": 1.0591776275460451e-05,
"loss": 0.2464,
"step": 397
},
{
"epoch": 2.6533333333333333,
"grad_norm": 1.2537075281143188,
"learning_rate": 1.055292844230662e-05,
"loss": 0.3748,
"step": 398
},
{
"epoch": 2.66,
"grad_norm": 1.2542909383773804,
"learning_rate": 1.0514088957630441e-05,
"loss": 0.3341,
"step": 399
},
{
"epoch": 2.6666666666666665,
"grad_norm": 1.4922471046447754,
"learning_rate": 1.0475258546708593e-05,
"loss": 0.6402,
"step": 400
},
{
"epoch": 2.6733333333333333,
"grad_norm": 0.8682767152786255,
"learning_rate": 1.0436437934648296e-05,
"loss": 0.2332,
"step": 401
},
{
"epoch": 2.68,
"grad_norm": 1.1290216445922852,
"learning_rate": 1.0397627846373794e-05,
"loss": 0.2642,
"step": 402
},
{
"epoch": 2.6866666666666665,
"grad_norm": 0.9641014933586121,
"learning_rate": 1.0358829006612828e-05,
"loss": 0.1645,
"step": 403
},
{
"epoch": 2.6933333333333334,
"grad_norm": 1.260378122329712,
"learning_rate": 1.0320042139883069e-05,
"loss": 0.5079,
"step": 404
},
{
"epoch": 2.7,
"grad_norm": 1.3906245231628418,
"learning_rate": 1.0281267970478608e-05,
"loss": 0.4817,
"step": 405
},
{
"epoch": 2.7066666666666666,
"grad_norm": 1.1177834272384644,
"learning_rate": 1.0242507222456446e-05,
"loss": 0.2653,
"step": 406
},
{
"epoch": 2.7133333333333334,
"grad_norm": 1.3878509998321533,
"learning_rate": 1.0203760619622944e-05,
"loss": 0.6585,
"step": 407
},
{
"epoch": 2.7199999999999998,
"grad_norm": 1.9874647855758667,
"learning_rate": 1.016502888552032e-05,
"loss": 0.9263,
"step": 408
},
{
"epoch": 2.7266666666666666,
"grad_norm": 0.9233214855194092,
"learning_rate": 1.0126312743413146e-05,
"loss": 0.3941,
"step": 409
},
{
"epoch": 2.7333333333333334,
"grad_norm": 0.6271530389785767,
"learning_rate": 1.0087612916274827e-05,
"loss": 0.1383,
"step": 410
},
{
"epoch": 2.74,
"grad_norm": 1.5185457468032837,
"learning_rate": 1.0048930126774112e-05,
"loss": 0.4791,
"step": 411
},
{
"epoch": 2.7466666666666666,
"grad_norm": 1.0689821243286133,
"learning_rate": 1.001026509726159e-05,
"loss": 0.2481,
"step": 412
},
{
"epoch": 2.7533333333333334,
"grad_norm": 0.5559907555580139,
"learning_rate": 9.971618549756203e-06,
"loss": 0.1159,
"step": 413
},
{
"epoch": 2.76,
"grad_norm": 0.8540818095207214,
"learning_rate": 9.932991205931777e-06,
"loss": 0.271,
"step": 414
},
{
"epoch": 2.7666666666666666,
"grad_norm": 0.8246598243713379,
"learning_rate": 9.894383787103525e-06,
"loss": 0.3051,
"step": 415
},
{
"epoch": 2.7733333333333334,
"grad_norm": 1.019100308418274,
"learning_rate": 9.855797014214583e-06,
"loss": 0.2954,
"step": 416
},
{
"epoch": 2.7800000000000002,
"grad_norm": 1.2697210311889648,
"learning_rate": 9.817231607822565e-06,
"loss": 0.4386,
"step": 417
},
{
"epoch": 2.7866666666666666,
"grad_norm": 0.604729413986206,
"learning_rate": 9.778688288086084e-06,
"loss": 0.182,
"step": 418
},
{
"epoch": 2.7933333333333334,
"grad_norm": 0.758552074432373,
"learning_rate": 9.740167774751308e-06,
"loss": 0.2463,
"step": 419
},
{
"epoch": 2.8,
"grad_norm": 1.0425121784210205,
"learning_rate": 9.701670787138541e-06,
"loss": 0.3408,
"step": 420
},
{
"epoch": 2.8066666666666666,
"grad_norm": 1.4029688835144043,
"learning_rate": 9.663198044128764e-06,
"loss": 0.4963,
"step": 421
},
{
"epoch": 2.8133333333333335,
"grad_norm": 1.0565751791000366,
"learning_rate": 9.624750264150218e-06,
"loss": 0.464,
"step": 422
},
{
"epoch": 2.82,
"grad_norm": 1.4994906187057495,
"learning_rate": 9.586328165165006e-06,
"loss": 0.4685,
"step": 423
},
{
"epoch": 2.8266666666666667,
"grad_norm": 1.6354223489761353,
"learning_rate": 9.547932464655656e-06,
"loss": 0.6198,
"step": 424
},
{
"epoch": 2.8333333333333335,
"grad_norm": 0.9175460934638977,
"learning_rate": 9.509563879611754e-06,
"loss": 0.2814,
"step": 425
},
{
"epoch": 2.84,
"grad_norm": 1.322573184967041,
"learning_rate": 9.471223126516529e-06,
"loss": 0.6169,
"step": 426
},
{
"epoch": 2.8466666666666667,
"grad_norm": 1.3356101512908936,
"learning_rate": 9.432910921333485e-06,
"loss": 0.4999,
"step": 427
},
{
"epoch": 2.8533333333333335,
"grad_norm": 1.3007878065109253,
"learning_rate": 9.394627979493042e-06,
"loss": 0.6857,
"step": 428
},
{
"epoch": 2.86,
"grad_norm": 1.3256639242172241,
"learning_rate": 9.356375015879156e-06,
"loss": 0.7061,
"step": 429
},
{
"epoch": 2.8666666666666667,
"grad_norm": 1.3235509395599365,
"learning_rate": 9.318152744815971e-06,
"loss": 0.508,
"step": 430
},
{
"epoch": 2.873333333333333,
"grad_norm": 1.214378833770752,
"learning_rate": 9.279961880054509e-06,
"loss": 0.4439,
"step": 431
},
{
"epoch": 2.88,
"grad_norm": 1.6435545682907104,
"learning_rate": 9.241803134759301e-06,
"loss": 0.4739,
"step": 432
},
{
"epoch": 2.8866666666666667,
"grad_norm": 1.198081612586975,
"learning_rate": 9.203677221495104e-06,
"loss": 0.482,
"step": 433
},
{
"epoch": 2.8933333333333335,
"grad_norm": 1.0145066976547241,
"learning_rate": 9.165584852213567e-06,
"loss": 0.291,
"step": 434
},
{
"epoch": 2.9,
"grad_norm": 1.1571218967437744,
"learning_rate": 9.127526738239954e-06,
"loss": 0.3399,
"step": 435
},
{
"epoch": 2.9066666666666667,
"grad_norm": 1.5985193252563477,
"learning_rate": 9.089503590259856e-06,
"loss": 0.4166,
"step": 436
},
{
"epoch": 2.913333333333333,
"grad_norm": 1.3233163356781006,
"learning_rate": 9.05151611830592e-06,
"loss": 0.3521,
"step": 437
},
{
"epoch": 2.92,
"grad_norm": 1.175849199295044,
"learning_rate": 9.013565031744591e-06,
"loss": 0.2808,
"step": 438
},
{
"epoch": 2.9266666666666667,
"grad_norm": 1.094506859779358,
"learning_rate": 8.97565103926286e-06,
"loss": 0.3877,
"step": 439
},
{
"epoch": 2.9333333333333336,
"grad_norm": 1.6014549732208252,
"learning_rate": 8.937774848855039e-06,
"loss": 0.8784,
"step": 440
},
{
"epoch": 2.94,
"grad_norm": 1.521243929862976,
"learning_rate": 8.899937167809531e-06,
"loss": 0.3261,
"step": 441
},
{
"epoch": 2.9466666666666668,
"grad_norm": 0.7121770977973938,
"learning_rate": 8.862138702695638e-06,
"loss": 0.198,
"step": 442
},
{
"epoch": 2.953333333333333,
"grad_norm": 1.736828327178955,
"learning_rate": 8.824380159350331e-06,
"loss": 0.3529,
"step": 443
},
{
"epoch": 2.96,
"grad_norm": 0.8017225861549377,
"learning_rate": 8.78666224286513e-06,
"loss": 0.2061,
"step": 444
},
{
"epoch": 2.966666666666667,
"grad_norm": 0.7904080152511597,
"learning_rate": 8.74898565757287e-06,
"loss": 0.233,
"step": 445
},
{
"epoch": 2.9733333333333336,
"grad_norm": 1.1955089569091797,
"learning_rate": 8.711351107034592e-06,
"loss": 0.4218,
"step": 446
},
{
"epoch": 2.98,
"grad_norm": 1.5457146167755127,
"learning_rate": 8.673759294026398e-06,
"loss": 0.6544,
"step": 447
},
{
"epoch": 2.986666666666667,
"grad_norm": 1.797101616859436,
"learning_rate": 8.636210920526316e-06,
"loss": 0.608,
"step": 448
},
{
"epoch": 2.993333333333333,
"grad_norm": 1.7683017253875732,
"learning_rate": 8.598706687701192e-06,
"loss": 0.3743,
"step": 449
},
{
"epoch": 3.0,
"grad_norm": 1.03306245803833,
"learning_rate": 8.561247295893619e-06,
"loss": 0.4658,
"step": 450
},
{
"epoch": 3.006666666666667,
"grad_norm": 1.5889688730239868,
"learning_rate": 8.523833444608829e-06,
"loss": 0.4378,
"step": 451
},
{
"epoch": 3.013333333333333,
"grad_norm": 1.2329561710357666,
"learning_rate": 8.486465832501646e-06,
"loss": 0.5694,
"step": 452
},
{
"epoch": 3.02,
"grad_norm": 0.9243837594985962,
"learning_rate": 8.449145157363446e-06,
"loss": 0.2193,
"step": 453
},
{
"epoch": 3.026666666666667,
"grad_norm": 1.3126856088638306,
"learning_rate": 8.411872116109103e-06,
"loss": 0.3749,
"step": 454
},
{
"epoch": 3.033333333333333,
"grad_norm": 4.9260172843933105,
"learning_rate": 8.374647404764011e-06,
"loss": 0.799,
"step": 455
},
{
"epoch": 3.04,
"grad_norm": 1.811789631843567,
"learning_rate": 8.337471718451047e-06,
"loss": 0.5854,
"step": 456
},
{
"epoch": 3.046666666666667,
"grad_norm": 1.3995670080184937,
"learning_rate": 8.300345751377619e-06,
"loss": 0.5222,
"step": 457
},
{
"epoch": 3.0533333333333332,
"grad_norm": 1.1551918983459473,
"learning_rate": 8.263270196822695e-06,
"loss": 0.5921,
"step": 458
},
{
"epoch": 3.06,
"grad_norm": 2.39064884185791,
"learning_rate": 8.226245747123848e-06,
"loss": 0.7184,
"step": 459
},
{
"epoch": 3.066666666666667,
"grad_norm": 1.081977128982544,
"learning_rate": 8.189273093664337e-06,
"loss": 0.3812,
"step": 460
},
{
"epoch": 3.0733333333333333,
"grad_norm": 1.8248965740203857,
"learning_rate": 8.152352926860196e-06,
"loss": 0.821,
"step": 461
},
{
"epoch": 3.08,
"grad_norm": 1.4115440845489502,
"learning_rate": 8.115485936147343e-06,
"loss": 0.5272,
"step": 462
},
{
"epoch": 3.086666666666667,
"grad_norm": 1.4327605962753296,
"learning_rate": 8.078672809968689e-06,
"loss": 0.3913,
"step": 463
},
{
"epoch": 3.0933333333333333,
"grad_norm": 1.493831753730774,
"learning_rate": 8.04191423576131e-06,
"loss": 0.2475,
"step": 464
},
{
"epoch": 3.1,
"grad_norm": 1.761871099472046,
"learning_rate": 8.005210899943584e-06,
"loss": 0.7439,
"step": 465
},
{
"epoch": 3.1066666666666665,
"grad_norm": 1.76626455783844,
"learning_rate": 7.96856348790239e-06,
"loss": 0.2467,
"step": 466
},
{
"epoch": 3.1133333333333333,
"grad_norm": 1.0549607276916504,
"learning_rate": 7.931972683980302e-06,
"loss": 0.2511,
"step": 467
},
{
"epoch": 3.12,
"grad_norm": 1.141783356666565,
"learning_rate": 7.895439171462813e-06,
"loss": 0.2277,
"step": 468
},
{
"epoch": 3.1266666666666665,
"grad_norm": 1.5863436460494995,
"learning_rate": 7.85896363256557e-06,
"loss": 0.6327,
"step": 469
},
{
"epoch": 3.1333333333333333,
"grad_norm": 1.0976667404174805,
"learning_rate": 7.822546748421642e-06,
"loss": 0.234,
"step": 470
},
{
"epoch": 3.14,
"grad_norm": 1.4860919713974,
"learning_rate": 7.786189199068792e-06,
"loss": 0.6891,
"step": 471
},
{
"epoch": 3.1466666666666665,
"grad_norm": 0.7435470223426819,
"learning_rate": 7.749891663436793e-06,
"loss": 0.2411,
"step": 472
},
{
"epoch": 3.1533333333333333,
"grad_norm": 4.428133010864258,
"learning_rate": 7.713654819334729e-06,
"loss": 0.4466,
"step": 473
},
{
"epoch": 3.16,
"grad_norm": 1.174668550491333,
"learning_rate": 7.677479343438351e-06,
"loss": 0.5557,
"step": 474
},
{
"epoch": 3.1666666666666665,
"grad_norm": 0.9828451871871948,
"learning_rate": 7.641365911277452e-06,
"loss": 0.2084,
"step": 475
},
{
"epoch": 3.1733333333333333,
"grad_norm": 1.3933385610580444,
"learning_rate": 7.6053151972232176e-06,
"loss": 0.4478,
"step": 476
},
{
"epoch": 3.18,
"grad_norm": 0.8962238430976868,
"learning_rate": 7.569327874475676e-06,
"loss": 0.227,
"step": 477
},
{
"epoch": 3.1866666666666665,
"grad_norm": 1.3221912384033203,
"learning_rate": 7.533404615051087e-06,
"loss": 0.6136,
"step": 478
},
{
"epoch": 3.1933333333333334,
"grad_norm": 1.0276908874511719,
"learning_rate": 7.497546089769425e-06,
"loss": 0.503,
"step": 479
},
{
"epoch": 3.2,
"grad_norm": 2.4918477535247803,
"learning_rate": 7.461752968241833e-06,
"loss": 0.5958,
"step": 480
},
{
"epoch": 3.2066666666666666,
"grad_norm": 1.168184757232666,
"learning_rate": 7.426025918858124e-06,
"loss": 0.3046,
"step": 481
},
{
"epoch": 3.2133333333333334,
"grad_norm": 1.3157926797866821,
"learning_rate": 7.390365608774302e-06,
"loss": 0.3903,
"step": 482
},
{
"epoch": 3.22,
"grad_norm": 1.9632258415222168,
"learning_rate": 7.354772703900101e-06,
"loss": 0.6696,
"step": 483
},
{
"epoch": 3.2266666666666666,
"grad_norm": 1.479067087173462,
"learning_rate": 7.319247868886548e-06,
"loss": 0.4173,
"step": 484
},
{
"epoch": 3.2333333333333334,
"grad_norm": 1.6428669691085815,
"learning_rate": 7.283791767113557e-06,
"loss": 0.4193,
"step": 485
},
{
"epoch": 3.24,
"grad_norm": 1.5472806692123413,
"learning_rate": 7.248405060677543e-06,
"loss": 0.3571,
"step": 486
},
{
"epoch": 3.2466666666666666,
"grad_norm": 1.653496503829956,
"learning_rate": 7.2130884103790436e-06,
"loss": 0.5062,
"step": 487
},
{
"epoch": 3.2533333333333334,
"grad_norm": 1.4190384149551392,
"learning_rate": 7.177842475710395e-06,
"loss": 0.4817,
"step": 488
},
{
"epoch": 3.26,
"grad_norm": 1.7448099851608276,
"learning_rate": 7.142667914843413e-06,
"loss": 0.6035,
"step": 489
},
{
"epoch": 3.2666666666666666,
"grad_norm": 3.215625524520874,
"learning_rate": 7.107565384617097e-06,
"loss": 0.5041,
"step": 490
},
{
"epoch": 3.2733333333333334,
"grad_norm": 1.41063392162323,
"learning_rate": 7.072535540525374e-06,
"loss": 0.5266,
"step": 491
},
{
"epoch": 3.2800000000000002,
"grad_norm": 1.3160585165023804,
"learning_rate": 7.0375790367048466e-06,
"loss": 0.266,
"step": 492
},
{
"epoch": 3.2866666666666666,
"grad_norm": 1.9032337665557861,
"learning_rate": 7.002696525922579e-06,
"loss": 0.7686,
"step": 493
},
{
"epoch": 3.2933333333333334,
"grad_norm": 1.593665361404419,
"learning_rate": 6.96788865956393e-06,
"loss": 0.3888,
"step": 494
},
{
"epoch": 3.3,
"grad_norm": 2.1388587951660156,
"learning_rate": 6.933156087620352e-06,
"loss": 0.9322,
"step": 495
},
{
"epoch": 3.3066666666666666,
"grad_norm": 1.3527288436889648,
"learning_rate": 6.898499458677281e-06,
"loss": 0.3768,
"step": 496
},
{
"epoch": 3.3133333333333335,
"grad_norm": 2.0020318031311035,
"learning_rate": 6.863919419902019e-06,
"loss": 0.6772,
"step": 497
},
{
"epoch": 3.32,
"grad_norm": 1.247876763343811,
"learning_rate": 6.829416617031642e-06,
"loss": 0.5892,
"step": 498
},
{
"epoch": 3.3266666666666667,
"grad_norm": 1.814934253692627,
"learning_rate": 6.794991694360942e-06,
"loss": 0.5612,
"step": 499
},
{
"epoch": 3.3333333333333335,
"grad_norm": 0.9168113470077515,
"learning_rate": 6.760645294730414e-06,
"loss": 0.2612,
"step": 500
},
{
"epoch": 3.34,
"grad_norm": 1.3208444118499756,
"learning_rate": 6.726378059514227e-06,
"loss": 0.414,
"step": 501
},
{
"epoch": 3.3466666666666667,
"grad_norm": 1.4437954425811768,
"learning_rate": 6.692190628608255e-06,
"loss": 0.5539,
"step": 502
},
{
"epoch": 3.3533333333333335,
"grad_norm": 0.7737306952476501,
"learning_rate": 6.658083640418145e-06,
"loss": 0.2847,
"step": 503
},
{
"epoch": 3.36,
"grad_norm": 1.5918776988983154,
"learning_rate": 6.624057731847367e-06,
"loss": 0.3756,
"step": 504
},
{
"epoch": 3.3666666666666667,
"grad_norm": 1.719836711883545,
"learning_rate": 6.590113538285341e-06,
"loss": 0.5776,
"step": 505
},
{
"epoch": 3.3733333333333335,
"grad_norm": 1.6654049158096313,
"learning_rate": 6.556251693595565e-06,
"loss": 0.4842,
"step": 506
},
{
"epoch": 3.38,
"grad_norm": 1.5979913473129272,
"learning_rate": 6.522472830103777e-06,
"loss": 0.6191,
"step": 507
},
{
"epoch": 3.3866666666666667,
"grad_norm": 1.221519112586975,
"learning_rate": 6.488777578586158e-06,
"loss": 0.2814,
"step": 508
},
{
"epoch": 3.3933333333333335,
"grad_norm": 1.6397613286972046,
"learning_rate": 6.455166568257536e-06,
"loss": 0.5886,
"step": 509
},
{
"epoch": 3.4,
"grad_norm": 3.443509340286255,
"learning_rate": 6.421640426759643e-06,
"loss": 0.2309,
"step": 510
},
{
"epoch": 3.4066666666666667,
"grad_norm": 1.7111133337020874,
"learning_rate": 6.388199780149407e-06,
"loss": 0.5086,
"step": 511
},
{
"epoch": 3.413333333333333,
"grad_norm": 2.0990231037139893,
"learning_rate": 6.354845252887237e-06,
"loss": 0.5625,
"step": 512
},
{
"epoch": 3.42,
"grad_norm": 1.8440994024276733,
"learning_rate": 6.321577467825392e-06,
"loss": 0.6003,
"step": 513
},
{
"epoch": 3.4266666666666667,
"grad_norm": 1.2410833835601807,
"learning_rate": 6.2883970461963205e-06,
"loss": 0.2431,
"step": 514
},
{
"epoch": 3.4333333333333336,
"grad_norm": 1.1713411808013916,
"learning_rate": 6.255304607601074e-06,
"loss": 0.3112,
"step": 515
},
{
"epoch": 3.44,
"grad_norm": 1.2038061618804932,
"learning_rate": 6.222300769997742e-06,
"loss": 0.2356,
"step": 516
},
{
"epoch": 3.4466666666666668,
"grad_norm": 1.1006757020950317,
"learning_rate": 6.189386149689904e-06,
"loss": 0.522,
"step": 517
},
{
"epoch": 3.453333333333333,
"grad_norm": 1.234704852104187,
"learning_rate": 6.156561361315116e-06,
"loss": 0.2775,
"step": 518
},
{
"epoch": 3.46,
"grad_norm": 0.9400473833084106,
"learning_rate": 6.123827017833454e-06,
"loss": 0.2752,
"step": 519
},
{
"epoch": 3.466666666666667,
"grad_norm": 1.6344656944274902,
"learning_rate": 6.091183730516041e-06,
"loss": 0.8672,
"step": 520
},
{
"epoch": 3.473333333333333,
"grad_norm": 1.0745573043823242,
"learning_rate": 6.058632108933646e-06,
"loss": 0.255,
"step": 521
},
{
"epoch": 3.48,
"grad_norm": 0.8348417282104492,
"learning_rate": 6.02617276094531e-06,
"loss": 0.2658,
"step": 522
},
{
"epoch": 3.486666666666667,
"grad_norm": 1.0123889446258545,
"learning_rate": 5.993806292686975e-06,
"loss": 0.3018,
"step": 523
},
{
"epoch": 3.493333333333333,
"grad_norm": 1.6308914422988892,
"learning_rate": 5.9615333085601816e-06,
"loss": 0.5474,
"step": 524
},
{
"epoch": 3.5,
"grad_norm": 1.3122121095657349,
"learning_rate": 5.929354411220771e-06,
"loss": 0.5754,
"step": 525
},
{
"epoch": 3.506666666666667,
"grad_norm": 1.2715647220611572,
"learning_rate": 5.897270201567638e-06,
"loss": 0.296,
"step": 526
},
{
"epoch": 3.513333333333333,
"grad_norm": 1.1369949579238892,
"learning_rate": 5.865281278731516e-06,
"loss": 0.1938,
"step": 527
},
{
"epoch": 3.52,
"grad_norm": 1.461135745048523,
"learning_rate": 5.833388240063771e-06,
"loss": 0.5822,
"step": 528
},
{
"epoch": 3.5266666666666664,
"grad_norm": 1.6529327630996704,
"learning_rate": 5.801591681125258e-06,
"loss": 0.3641,
"step": 529
},
{
"epoch": 3.533333333333333,
"grad_norm": 1.39845871925354,
"learning_rate": 5.769892195675208e-06,
"loss": 0.6383,
"step": 530
},
{
"epoch": 3.54,
"grad_norm": 1.0760791301727295,
"learning_rate": 5.738290375660125e-06,
"loss": 0.1791,
"step": 531
},
{
"epoch": 3.546666666666667,
"grad_norm": 1.692541241645813,
"learning_rate": 5.706786811202738e-06,
"loss": 0.3221,
"step": 532
},
{
"epoch": 3.5533333333333332,
"grad_norm": 1.1036595106124878,
"learning_rate": 5.675382090590981e-06,
"loss": 0.2823,
"step": 533
},
{
"epoch": 3.56,
"grad_norm": 2.0926828384399414,
"learning_rate": 5.644076800267014e-06,
"loss": 0.3489,
"step": 534
},
{
"epoch": 3.5666666666666664,
"grad_norm": 0.9293984770774841,
"learning_rate": 5.612871524816262e-06,
"loss": 0.319,
"step": 535
},
{
"epoch": 3.5733333333333333,
"grad_norm": 1.2874233722686768,
"learning_rate": 5.5817668469565025e-06,
"loss": 0.3866,
"step": 536
},
{
"epoch": 3.58,
"grad_norm": 1.6778782606124878,
"learning_rate": 5.550763347526982e-06,
"loss": 0.477,
"step": 537
},
{
"epoch": 3.586666666666667,
"grad_norm": 0.9787458777427673,
"learning_rate": 5.519861605477581e-06,
"loss": 0.2394,
"step": 538
},
{
"epoch": 3.5933333333333333,
"grad_norm": 1.3014516830444336,
"learning_rate": 5.489062197857984e-06,
"loss": 0.3652,
"step": 539
},
{
"epoch": 3.6,
"grad_norm": 1.2679635286331177,
"learning_rate": 5.458365699806917e-06,
"loss": 0.4789,
"step": 540
},
{
"epoch": 3.6066666666666665,
"grad_norm": 1.213794231414795,
"learning_rate": 5.427772684541408e-06,
"loss": 0.4622,
"step": 541
},
{
"epoch": 3.6133333333333333,
"grad_norm": 1.1161813735961914,
"learning_rate": 5.397283723346074e-06,
"loss": 0.2626,
"step": 542
},
{
"epoch": 3.62,
"grad_norm": 1.1844446659088135,
"learning_rate": 5.366899385562456e-06,
"loss": 0.2604,
"step": 543
},
{
"epoch": 3.626666666666667,
"grad_norm": 0.8947194814682007,
"learning_rate": 5.3366202385784005e-06,
"loss": 0.1885,
"step": 544
},
{
"epoch": 3.6333333333333333,
"grad_norm": 1.2822984457015991,
"learning_rate": 5.30644684781744e-06,
"loss": 0.4128,
"step": 545
},
{
"epoch": 3.64,
"grad_norm": 1.170116901397705,
"learning_rate": 5.276379776728257e-06,
"loss": 0.2597,
"step": 546
},
{
"epoch": 3.6466666666666665,
"grad_norm": 1.3510268926620483,
"learning_rate": 5.24641958677415e-06,
"loss": 0.7202,
"step": 547
},
{
"epoch": 3.6533333333333333,
"grad_norm": 1.2227978706359863,
"learning_rate": 5.216566837422544e-06,
"loss": 0.2967,
"step": 548
},
{
"epoch": 3.66,
"grad_norm": 1.0847147703170776,
"learning_rate": 5.186822086134566e-06,
"loss": 0.3016,
"step": 549
},
{
"epoch": 3.6666666666666665,
"grad_norm": 1.683333396911621,
"learning_rate": 5.157185888354612e-06,
"loss": 0.7797,
"step": 550
},
{
"epoch": 3.6733333333333333,
"grad_norm": 1.3969520330429077,
"learning_rate": 5.127658797499977e-06,
"loss": 0.686,
"step": 551
},
{
"epoch": 3.68,
"grad_norm": 1.5366076231002808,
"learning_rate": 5.098241364950538e-06,
"loss": 0.4191,
"step": 552
},
{
"epoch": 3.6866666666666665,
"grad_norm": 0.7615384459495544,
"learning_rate": 5.068934140038444e-06,
"loss": 0.1628,
"step": 553
},
{
"epoch": 3.6933333333333334,
"grad_norm": 0.9901170134544373,
"learning_rate": 5.0397376700378495e-06,
"loss": 0.1854,
"step": 554
},
{
"epoch": 3.7,
"grad_norm": 1.3659517765045166,
"learning_rate": 5.01065250015472e-06,
"loss": 0.6739,
"step": 555
},
{
"epoch": 3.7066666666666666,
"grad_norm": 1.0953928232192993,
"learning_rate": 4.981679173516627e-06,
"loss": 0.2997,
"step": 556
},
{
"epoch": 3.7133333333333334,
"grad_norm": 1.2342252731323242,
"learning_rate": 4.952818231162622e-06,
"loss": 0.3711,
"step": 557
},
{
"epoch": 3.7199999999999998,
"grad_norm": 1.350342869758606,
"learning_rate": 4.924070212033122e-06,
"loss": 0.4404,
"step": 558
},
{
"epoch": 3.7266666666666666,
"grad_norm": 2.475033760070801,
"learning_rate": 4.895435652959852e-06,
"loss": 0.4877,
"step": 559
},
{
"epoch": 3.7333333333333334,
"grad_norm": 1.4326213598251343,
"learning_rate": 4.866915088655814e-06,
"loss": 0.3355,
"step": 560
},
{
"epoch": 3.74,
"grad_norm": 1.1125874519348145,
"learning_rate": 4.838509051705317e-06,
"loss": 0.3048,
"step": 561
},
{
"epoch": 3.7466666666666666,
"grad_norm": 1.303355097770691,
"learning_rate": 4.810218072554012e-06,
"loss": 0.5403,
"step": 562
},
{
"epoch": 3.7533333333333334,
"grad_norm": 3.008938789367676,
"learning_rate": 4.7820426794989994e-06,
"loss": 0.4871,
"step": 563
},
{
"epoch": 3.76,
"grad_norm": 0.9627671241760254,
"learning_rate": 4.7539833986789594e-06,
"loss": 0.3037,
"step": 564
},
{
"epoch": 3.7666666666666666,
"grad_norm": 0.6086631417274475,
"learning_rate": 4.726040754064324e-06,
"loss": 0.1383,
"step": 565
},
{
"epoch": 3.7733333333333334,
"grad_norm": 1.2451680898666382,
"learning_rate": 4.698215267447506e-06,
"loss": 0.3843,
"step": 566
},
{
"epoch": 3.7800000000000002,
"grad_norm": 1.0320932865142822,
"learning_rate": 4.6705074584331355e-06,
"loss": 0.325,
"step": 567
},
{
"epoch": 3.7866666666666666,
"grad_norm": 1.2940720319747925,
"learning_rate": 4.642917844428376e-06,
"loss": 0.4929,
"step": 568
},
{
"epoch": 3.7933333333333334,
"grad_norm": 0.6670101881027222,
"learning_rate": 4.615446940633247e-06,
"loss": 0.1388,
"step": 569
},
{
"epoch": 3.8,
"grad_norm": 1.3660937547683716,
"learning_rate": 4.588095260031007e-06,
"loss": 0.3894,
"step": 570
},
{
"epoch": 3.8066666666666666,
"grad_norm": 0.9112516045570374,
"learning_rate": 4.560863313378588e-06,
"loss": 0.4541,
"step": 571
},
{
"epoch": 3.8133333333333335,
"grad_norm": 1.1540873050689697,
"learning_rate": 4.53375160919704e-06,
"loss": 0.4801,
"step": 572
},
{
"epoch": 3.82,
"grad_norm": 1.5096888542175293,
"learning_rate": 4.506760653762036e-06,
"loss": 0.3607,
"step": 573
},
{
"epoch": 3.8266666666666667,
"grad_norm": 1.3884817361831665,
"learning_rate": 4.4798909510944365e-06,
"loss": 0.6647,
"step": 574
},
{
"epoch": 3.8333333333333335,
"grad_norm": 1.4854823350906372,
"learning_rate": 4.4531430029508585e-06,
"loss": 0.3727,
"step": 575
},
{
"epoch": 3.84,
"grad_norm": 1.3827471733093262,
"learning_rate": 4.4265173088143065e-06,
"loss": 0.4973,
"step": 576
},
{
"epoch": 3.8466666666666667,
"grad_norm": 1.3074723482131958,
"learning_rate": 4.400014365884863e-06,
"loss": 0.2892,
"step": 577
},
{
"epoch": 3.8533333333333335,
"grad_norm": 1.4479936361312866,
"learning_rate": 4.37363466907038e-06,
"loss": 0.3476,
"step": 578
},
{
"epoch": 3.86,
"grad_norm": 1.3634988069534302,
"learning_rate": 4.347378710977261e-06,
"loss": 0.5382,
"step": 579
},
{
"epoch": 3.8666666666666667,
"grad_norm": 1.4852162599563599,
"learning_rate": 4.3212469819012425e-06,
"loss": 0.5617,
"step": 580
},
{
"epoch": 3.873333333333333,
"grad_norm": 1.0422636270523071,
"learning_rate": 4.295239969818244e-06,
"loss": 0.1996,
"step": 581
},
{
"epoch": 3.88,
"grad_norm": 0.9663172960281372,
"learning_rate": 4.269358160375268e-06,
"loss": 0.3191,
"step": 582
},
{
"epoch": 3.8866666666666667,
"grad_norm": 1.2019636631011963,
"learning_rate": 4.243602036881312e-06,
"loss": 0.378,
"step": 583
},
{
"epoch": 3.8933333333333335,
"grad_norm": 1.286968469619751,
"learning_rate": 4.2179720802983534e-06,
"loss": 0.4823,
"step": 584
},
{
"epoch": 3.9,
"grad_norm": 1.5564239025115967,
"learning_rate": 4.192468769232375e-06,
"loss": 0.5717,
"step": 585
},
{
"epoch": 3.9066666666666667,
"grad_norm": 0.8727124333381653,
"learning_rate": 4.167092579924414e-06,
"loss": 0.3884,
"step": 586
},
{
"epoch": 3.913333333333333,
"grad_norm": 1.3296633958816528,
"learning_rate": 4.1418439862416695e-06,
"loss": 0.2578,
"step": 587
},
{
"epoch": 3.92,
"grad_norm": 0.9148731827735901,
"learning_rate": 4.116723459668671e-06,
"loss": 0.3557,
"step": 588
},
{
"epoch": 3.9266666666666667,
"grad_norm": 1.3181500434875488,
"learning_rate": 4.091731469298454e-06,
"loss": 0.3736,
"step": 589
},
{
"epoch": 3.9333333333333336,
"grad_norm": 1.6612805128097534,
"learning_rate": 4.066868481823808e-06,
"loss": 0.5731,
"step": 590
},
{
"epoch": 3.94,
"grad_norm": 0.894189715385437,
"learning_rate": 4.042134961528563e-06,
"loss": 0.3085,
"step": 591
},
{
"epoch": 3.9466666666666668,
"grad_norm": 1.26560378074646,
"learning_rate": 4.017531370278922e-06,
"loss": 0.3202,
"step": 592
},
{
"epoch": 3.953333333333333,
"grad_norm": 1.175733208656311,
"learning_rate": 3.99305816751483e-06,
"loss": 0.3671,
"step": 593
},
{
"epoch": 3.96,
"grad_norm": 1.1619269847869873,
"learning_rate": 3.968715810241396e-06,
"loss": 0.4029,
"step": 594
},
{
"epoch": 3.966666666666667,
"grad_norm": 1.7974544763565063,
"learning_rate": 3.9445047530203575e-06,
"loss": 0.5174,
"step": 595
},
{
"epoch": 3.9733333333333336,
"grad_norm": 1.4101741313934326,
"learning_rate": 3.920425447961606e-06,
"loss": 0.2974,
"step": 596
},
{
"epoch": 3.98,
"grad_norm": 1.0057168006896973,
"learning_rate": 3.896478344714722e-06,
"loss": 0.2508,
"step": 597
},
{
"epoch": 3.986666666666667,
"grad_norm": 1.7521125078201294,
"learning_rate": 3.872663890460593e-06,
"loss": 0.7125,
"step": 598
},
{
"epoch": 3.993333333333333,
"grad_norm": 1.1852591037750244,
"learning_rate": 3.848982529903065e-06,
"loss": 0.2022,
"step": 599
},
{
"epoch": 4.0,
"grad_norm": 0.8429129123687744,
"learning_rate": 3.825434705260623e-06,
"loss": 0.2263,
"step": 600
},
{
"epoch": 4.006666666666667,
"grad_norm": 1.2853399515151978,
"learning_rate": 3.802020856258155e-06,
"loss": 0.3568,
"step": 601
},
{
"epoch": 4.013333333333334,
"grad_norm": 1.284716010093689,
"learning_rate": 3.778741420118719e-06,
"loss": 0.3047,
"step": 602
},
{
"epoch": 4.02,
"grad_norm": 1.6293946504592896,
"learning_rate": 3.7555968315553916e-06,
"loss": 0.6352,
"step": 603
},
{
"epoch": 4.026666666666666,
"grad_norm": 1.3592982292175293,
"learning_rate": 3.732587522763148e-06,
"loss": 0.4972,
"step": 604
},
{
"epoch": 4.033333333333333,
"grad_norm": 0.7168772220611572,
"learning_rate": 3.709713923410793e-06,
"loss": 0.1539,
"step": 605
},
{
"epoch": 4.04,
"grad_norm": 0.8747243881225586,
"learning_rate": 3.686976460632924e-06,
"loss": 0.2995,
"step": 606
},
{
"epoch": 4.046666666666667,
"grad_norm": 1.47053861618042,
"learning_rate": 3.6643755590219796e-06,
"loss": 0.3373,
"step": 607
},
{
"epoch": 4.053333333333334,
"grad_norm": 1.6070635318756104,
"learning_rate": 3.6419116406202883e-06,
"loss": 0.7124,
"step": 608
},
{
"epoch": 4.06,
"grad_norm": 1.4459311962127686,
"learning_rate": 3.619585124912195e-06,
"loss": 0.8205,
"step": 609
},
{
"epoch": 4.066666666666666,
"grad_norm": 1.3801395893096924,
"learning_rate": 3.597396428816236e-06,
"loss": 0.4101,
"step": 610
},
{
"epoch": 4.073333333333333,
"grad_norm": 1.5872927904129028,
"learning_rate": 3.575345966677339e-06,
"loss": 0.54,
"step": 611
},
{
"epoch": 4.08,
"grad_norm": 1.1149475574493408,
"learning_rate": 3.5534341502590995e-06,
"loss": 0.2603,
"step": 612
},
{
"epoch": 4.086666666666667,
"grad_norm": 1.1735680103302002,
"learning_rate": 3.5316613887360794e-06,
"loss": 0.3277,
"step": 613
},
{
"epoch": 4.093333333333334,
"grad_norm": 1.1807669401168823,
"learning_rate": 3.5100280886861713e-06,
"loss": 0.349,
"step": 614
},
{
"epoch": 4.1,
"grad_norm": 1.2858244180679321,
"learning_rate": 3.4885346540830154e-06,
"loss": 0.4824,
"step": 615
},
{
"epoch": 4.1066666666666665,
"grad_norm": 1.3448548316955566,
"learning_rate": 3.46718148628844e-06,
"loss": 0.6582,
"step": 616
},
{
"epoch": 4.113333333333333,
"grad_norm": 2.794578790664673,
"learning_rate": 3.445968984044972e-06,
"loss": 0.7599,
"step": 617
},
{
"epoch": 4.12,
"grad_norm": 1.1659574508666992,
"learning_rate": 3.4248975434684004e-06,
"loss": 0.2854,
"step": 618
},
{
"epoch": 4.126666666666667,
"grad_norm": 0.9521848559379578,
"learning_rate": 3.403967558040367e-06,
"loss": 0.4499,
"step": 619
},
{
"epoch": 4.133333333333334,
"grad_norm": 0.8292222619056702,
"learning_rate": 3.383179418601024e-06,
"loss": 0.2096,
"step": 620
},
{
"epoch": 4.14,
"grad_norm": 1.1031184196472168,
"learning_rate": 3.3625335133417337e-06,
"loss": 0.332,
"step": 621
},
{
"epoch": 4.1466666666666665,
"grad_norm": 1.7812882661819458,
"learning_rate": 3.34203022779782e-06,
"loss": 0.3759,
"step": 622
},
{
"epoch": 4.153333333333333,
"grad_norm": 1.1715418100357056,
"learning_rate": 3.321669944841377e-06,
"loss": 0.2522,
"step": 623
},
{
"epoch": 4.16,
"grad_norm": 1.2465636730194092,
"learning_rate": 3.301453044674106e-06,
"loss": 0.2774,
"step": 624
},
{
"epoch": 4.166666666666667,
"grad_norm": 1.8948891162872314,
"learning_rate": 3.281379904820219e-06,
"loss": 0.7832,
"step": 625
},
{
"epoch": 4.173333333333334,
"grad_norm": 1.8957587480545044,
"learning_rate": 3.261450900119401e-06,
"loss": 0.7166,
"step": 626
},
{
"epoch": 4.18,
"grad_norm": 1.3086090087890625,
"learning_rate": 3.2416664027197935e-06,
"loss": 0.4382,
"step": 627
},
{
"epoch": 4.1866666666666665,
"grad_norm": 1.1486830711364746,
"learning_rate": 3.2220267820710544e-06,
"loss": 0.3108,
"step": 628
},
{
"epoch": 4.193333333333333,
"grad_norm": 1.371157169342041,
"learning_rate": 3.2025324049174613e-06,
"loss": 0.4944,
"step": 629
},
{
"epoch": 4.2,
"grad_norm": 1.1694400310516357,
"learning_rate": 3.183183635291054e-06,
"loss": 0.2286,
"step": 630
},
{
"epoch": 4.206666666666667,
"grad_norm": 1.0180890560150146,
"learning_rate": 3.1639808345048425e-06,
"loss": 0.3435,
"step": 631
},
{
"epoch": 4.213333333333333,
"grad_norm": 1.867078423500061,
"learning_rate": 3.1449243611460657e-06,
"loss": 0.7808,
"step": 632
},
{
"epoch": 4.22,
"grad_norm": 1.7380026578903198,
"learning_rate": 3.126014571069479e-06,
"loss": 0.844,
"step": 633
},
{
"epoch": 4.226666666666667,
"grad_norm": 1.4347327947616577,
"learning_rate": 3.1072518173907277e-06,
"loss": 0.6694,
"step": 634
},
{
"epoch": 4.233333333333333,
"grad_norm": 1.4206736087799072,
"learning_rate": 3.0886364504797407e-06,
"loss": 0.387,
"step": 635
},
{
"epoch": 4.24,
"grad_norm": 0.792955756187439,
"learning_rate": 3.0701688179541857e-06,
"loss": 0.1755,
"step": 636
},
{
"epoch": 4.246666666666667,
"grad_norm": 1.453861117362976,
"learning_rate": 3.051849264672996e-06,
"loss": 0.5212,
"step": 637
},
{
"epoch": 4.253333333333333,
"grad_norm": 1.0745089054107666,
"learning_rate": 3.0336781327299105e-06,
"loss": 0.2214,
"step": 638
},
{
"epoch": 4.26,
"grad_norm": 1.3397624492645264,
"learning_rate": 3.0156557614470912e-06,
"loss": 0.3879,
"step": 639
},
{
"epoch": 4.266666666666667,
"grad_norm": 1.5081578493118286,
"learning_rate": 2.9977824873687943e-06,
"loss": 0.5862,
"step": 640
},
{
"epoch": 4.273333333333333,
"grad_norm": 1.453550100326538,
"learning_rate": 2.98005864425508e-06,
"loss": 0.4981,
"step": 641
},
{
"epoch": 4.28,
"grad_norm": 1.5029710531234741,
"learning_rate": 2.9624845630755744e-06,
"loss": 0.5053,
"step": 642
},
{
"epoch": 4.286666666666667,
"grad_norm": 1.6604195833206177,
"learning_rate": 2.945060572003303e-06,
"loss": 0.4623,
"step": 643
},
{
"epoch": 4.293333333333333,
"grad_norm": 1.6119710206985474,
"learning_rate": 2.92778699640855e-06,
"loss": 0.6292,
"step": 644
},
{
"epoch": 4.3,
"grad_norm": 1.020081639289856,
"learning_rate": 2.9106641588527874e-06,
"loss": 0.2664,
"step": 645
},
{
"epoch": 4.306666666666667,
"grad_norm": 1.4827642440795898,
"learning_rate": 2.8936923790826517e-06,
"loss": 0.5484,
"step": 646
},
{
"epoch": 4.3133333333333335,
"grad_norm": 1.4749743938446045,
"learning_rate": 2.8768719740239724e-06,
"loss": 0.6281,
"step": 647
},
{
"epoch": 4.32,
"grad_norm": 1.336064338684082,
"learning_rate": 2.8602032577758542e-06,
"loss": 0.2808,
"step": 648
}
],
"logging_steps": 1.0,
"max_steps": 750,
"num_input_tokens_seen": 0,
"num_train_epochs": 5,
"save_steps": 108,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 3.505549915772158e+18,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}