{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.3333333333333333, "eval_steps": 500, "global_step": 500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 0.31795796751976013, "learning_rate": 5e-06, "loss": 0.9198, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 0.2965499460697174, "learning_rate": 1e-05, "loss": 0.7987, "step": 2 }, { "epoch": 0.008, "grad_norm": 0.3073004186153412, "learning_rate": 1.5e-05, "loss": 0.8705, "step": 3 }, { "epoch": 0.010666666666666666, "grad_norm": 0.31582117080688477, "learning_rate": 2e-05, "loss": 0.897, "step": 4 }, { "epoch": 0.013333333333333334, "grad_norm": 0.32552069425582886, "learning_rate": 2.5e-05, "loss": 0.8281, "step": 5 }, { "epoch": 0.016, "grad_norm": 0.3633013069629669, "learning_rate": 3e-05, "loss": 0.8817, "step": 6 }, { "epoch": 0.018666666666666668, "grad_norm": 0.30820131301879883, "learning_rate": 3.5e-05, "loss": 0.7883, "step": 7 }, { "epoch": 0.021333333333333333, "grad_norm": 0.2991103529930115, "learning_rate": 4e-05, "loss": 0.8451, "step": 8 }, { "epoch": 0.024, "grad_norm": 0.26918885111808777, "learning_rate": 4.5e-05, "loss": 0.703, "step": 9 }, { "epoch": 0.02666666666666667, "grad_norm": 0.2952805161476135, "learning_rate": 5e-05, "loss": 0.8525, "step": 10 }, { "epoch": 0.029333333333333333, "grad_norm": 0.158904567360878, "learning_rate": 5.500000000000001e-05, "loss": 0.4532, "step": 11 }, { "epoch": 0.032, "grad_norm": 0.24053733050823212, "learning_rate": 6e-05, "loss": 0.7278, "step": 12 }, { "epoch": 0.034666666666666665, "grad_norm": 0.27588018774986267, "learning_rate": 6.500000000000001e-05, "loss": 0.809, "step": 13 }, { "epoch": 0.037333333333333336, "grad_norm": 0.23301595449447632, "learning_rate": 7e-05, "loss": 0.6729, "step": 14 }, { "epoch": 0.04, "grad_norm": 0.28395819664001465, "learning_rate": 7.500000000000001e-05, "loss": 0.6929, "step": 15 }, { "epoch": 0.042666666666666665, "grad_norm": 0.22508470714092255, "learning_rate": 8e-05, "loss": 0.5131, "step": 16 }, { "epoch": 0.04533333333333334, "grad_norm": 0.24023814499378204, "learning_rate": 8.5e-05, "loss": 0.5204, "step": 17 }, { "epoch": 0.048, "grad_norm": 0.2793164551258087, "learning_rate": 9e-05, "loss": 0.6796, "step": 18 }, { "epoch": 0.050666666666666665, "grad_norm": 0.2434774488210678, "learning_rate": 9.5e-05, "loss": 0.5698, "step": 19 }, { "epoch": 0.05333333333333334, "grad_norm": 0.2483493834733963, "learning_rate": 0.0001, "loss": 0.6554, "step": 20 }, { "epoch": 0.056, "grad_norm": 0.18770429491996765, "learning_rate": 0.000105, "loss": 0.5123, "step": 21 }, { "epoch": 0.058666666666666666, "grad_norm": 0.1788586527109146, "learning_rate": 0.00011000000000000002, "loss": 0.4737, "step": 22 }, { "epoch": 0.06133333333333333, "grad_norm": 0.19754257798194885, "learning_rate": 0.00011499999999999999, "loss": 0.4892, "step": 23 }, { "epoch": 0.064, "grad_norm": 0.1977739930152893, "learning_rate": 0.00012, "loss": 0.5444, "step": 24 }, { "epoch": 0.06666666666666667, "grad_norm": 0.17434217035770416, "learning_rate": 0.000125, "loss": 0.4982, "step": 25 }, { "epoch": 0.06933333333333333, "grad_norm": 0.18169911205768585, "learning_rate": 0.00013000000000000002, "loss": 0.5444, "step": 26 }, { "epoch": 0.072, "grad_norm": 0.13374541699886322, "learning_rate": 0.00013500000000000003, "loss": 0.3858, "step": 27 }, { "epoch": 0.07466666666666667, "grad_norm": 0.23194445669651031, "learning_rate": 0.00014, "loss": 0.5971, "step": 28 }, { "epoch": 0.07733333333333334, "grad_norm": 0.226721853017807, "learning_rate": 0.000145, "loss": 0.5912, "step": 29 }, { "epoch": 0.08, "grad_norm": 0.20221616327762604, "learning_rate": 0.00015000000000000001, "loss": 0.5778, "step": 30 }, { "epoch": 0.08266666666666667, "grad_norm": 0.20439280569553375, "learning_rate": 0.000155, "loss": 0.5955, "step": 31 }, { "epoch": 0.08533333333333333, "grad_norm": 0.1792367696762085, "learning_rate": 0.00016, "loss": 0.4539, "step": 32 }, { "epoch": 0.088, "grad_norm": 0.15801019966602325, "learning_rate": 0.000165, "loss": 0.4281, "step": 33 }, { "epoch": 0.09066666666666667, "grad_norm": 0.18995234370231628, "learning_rate": 0.00017, "loss": 0.4919, "step": 34 }, { "epoch": 0.09333333333333334, "grad_norm": 0.18301232159137726, "learning_rate": 0.000175, "loss": 0.4698, "step": 35 }, { "epoch": 0.096, "grad_norm": 0.1516425907611847, "learning_rate": 0.00018, "loss": 0.4706, "step": 36 }, { "epoch": 0.09866666666666667, "grad_norm": 0.15232552587985992, "learning_rate": 0.00018500000000000002, "loss": 0.4412, "step": 37 }, { "epoch": 0.10133333333333333, "grad_norm": 0.18981625139713287, "learning_rate": 0.00019, "loss": 0.5323, "step": 38 }, { "epoch": 0.104, "grad_norm": 0.19589070975780487, "learning_rate": 0.000195, "loss": 0.5426, "step": 39 }, { "epoch": 0.10666666666666667, "grad_norm": 0.14144787192344666, "learning_rate": 0.0002, "loss": 0.3534, "step": 40 }, { "epoch": 0.10933333333333334, "grad_norm": 0.15018980205059052, "learning_rate": 0.00019981566820276498, "loss": 0.4385, "step": 41 }, { "epoch": 0.112, "grad_norm": 0.18116328120231628, "learning_rate": 0.00019963133640552995, "loss": 0.4677, "step": 42 }, { "epoch": 0.11466666666666667, "grad_norm": 0.21125923097133636, "learning_rate": 0.00019944700460829492, "loss": 0.5415, "step": 43 }, { "epoch": 0.11733333333333333, "grad_norm": 0.194460928440094, "learning_rate": 0.00019926267281105992, "loss": 0.5013, "step": 44 }, { "epoch": 0.12, "grad_norm": 0.17403055727481842, "learning_rate": 0.0001990783410138249, "loss": 0.5035, "step": 45 }, { "epoch": 0.12266666666666666, "grad_norm": 0.18710163235664368, "learning_rate": 0.00019889400921658986, "loss": 0.5231, "step": 46 }, { "epoch": 0.12533333333333332, "grad_norm": 0.17051705718040466, "learning_rate": 0.00019870967741935483, "loss": 0.4854, "step": 47 }, { "epoch": 0.128, "grad_norm": 0.17382238805294037, "learning_rate": 0.0001985253456221198, "loss": 0.5179, "step": 48 }, { "epoch": 0.13066666666666665, "grad_norm": 0.15307123959064484, "learning_rate": 0.0001983410138248848, "loss": 0.4356, "step": 49 }, { "epoch": 0.13333333333333333, "grad_norm": 0.16687354445457458, "learning_rate": 0.00019815668202764977, "loss": 0.4648, "step": 50 }, { "epoch": 0.136, "grad_norm": 0.17127734422683716, "learning_rate": 0.00019797235023041477, "loss": 0.4643, "step": 51 }, { "epoch": 0.13866666666666666, "grad_norm": 0.19123542308807373, "learning_rate": 0.00019778801843317974, "loss": 0.4997, "step": 52 }, { "epoch": 0.14133333333333334, "grad_norm": 0.1482383906841278, "learning_rate": 0.00019760368663594472, "loss": 0.4334, "step": 53 }, { "epoch": 0.144, "grad_norm": 0.19939680397510529, "learning_rate": 0.00019741935483870969, "loss": 0.5257, "step": 54 }, { "epoch": 0.14666666666666667, "grad_norm": 0.17752857506275177, "learning_rate": 0.00019723502304147466, "loss": 0.4896, "step": 55 }, { "epoch": 0.14933333333333335, "grad_norm": 0.17946895956993103, "learning_rate": 0.00019705069124423966, "loss": 0.4847, "step": 56 }, { "epoch": 0.152, "grad_norm": 0.15529927611351013, "learning_rate": 0.00019686635944700463, "loss": 0.4338, "step": 57 }, { "epoch": 0.15466666666666667, "grad_norm": 0.18879836797714233, "learning_rate": 0.0001966820276497696, "loss": 0.5359, "step": 58 }, { "epoch": 0.15733333333333333, "grad_norm": 0.12355278432369232, "learning_rate": 0.00019649769585253457, "loss": 0.3539, "step": 59 }, { "epoch": 0.16, "grad_norm": 0.1591000109910965, "learning_rate": 0.00019631336405529954, "loss": 0.436, "step": 60 }, { "epoch": 0.16266666666666665, "grad_norm": 0.19238081574440002, "learning_rate": 0.0001961290322580645, "loss": 0.5082, "step": 61 }, { "epoch": 0.16533333333333333, "grad_norm": 0.12826350331306458, "learning_rate": 0.0001959447004608295, "loss": 0.3597, "step": 62 }, { "epoch": 0.168, "grad_norm": 0.16202542185783386, "learning_rate": 0.00019576036866359448, "loss": 0.4477, "step": 63 }, { "epoch": 0.17066666666666666, "grad_norm": 0.1811097115278244, "learning_rate": 0.00019557603686635945, "loss": 0.486, "step": 64 }, { "epoch": 0.17333333333333334, "grad_norm": 0.1537872850894928, "learning_rate": 0.00019539170506912442, "loss": 0.3969, "step": 65 }, { "epoch": 0.176, "grad_norm": 0.16730304062366486, "learning_rate": 0.0001952073732718894, "loss": 0.4754, "step": 66 }, { "epoch": 0.17866666666666667, "grad_norm": 0.15688396990299225, "learning_rate": 0.00019502304147465436, "loss": 0.4211, "step": 67 }, { "epoch": 0.18133333333333335, "grad_norm": 0.15763093531131744, "learning_rate": 0.00019483870967741936, "loss": 0.4411, "step": 68 }, { "epoch": 0.184, "grad_norm": 0.17456284165382385, "learning_rate": 0.00019465437788018433, "loss": 0.5103, "step": 69 }, { "epoch": 0.18666666666666668, "grad_norm": 0.13075074553489685, "learning_rate": 0.00019447004608294933, "loss": 0.3768, "step": 70 }, { "epoch": 0.18933333333333333, "grad_norm": 0.14194084703922272, "learning_rate": 0.0001942857142857143, "loss": 0.4023, "step": 71 }, { "epoch": 0.192, "grad_norm": 0.1684679538011551, "learning_rate": 0.00019410138248847927, "loss": 0.4368, "step": 72 }, { "epoch": 0.19466666666666665, "grad_norm": 0.1637965440750122, "learning_rate": 0.00019391705069124425, "loss": 0.4172, "step": 73 }, { "epoch": 0.19733333333333333, "grad_norm": 0.13393600285053253, "learning_rate": 0.00019373271889400924, "loss": 0.3464, "step": 74 }, { "epoch": 0.2, "grad_norm": 0.160029336810112, "learning_rate": 0.00019354838709677422, "loss": 0.4253, "step": 75 }, { "epoch": 0.20266666666666666, "grad_norm": 0.14201787114143372, "learning_rate": 0.00019336405529953919, "loss": 0.3711, "step": 76 }, { "epoch": 0.20533333333333334, "grad_norm": 0.1976029872894287, "learning_rate": 0.00019317972350230416, "loss": 0.5179, "step": 77 }, { "epoch": 0.208, "grad_norm": 0.1669568419456482, "learning_rate": 0.00019299539170506913, "loss": 0.435, "step": 78 }, { "epoch": 0.21066666666666667, "grad_norm": 0.15705814957618713, "learning_rate": 0.0001928110599078341, "loss": 0.4277, "step": 79 }, { "epoch": 0.21333333333333335, "grad_norm": 0.171238973736763, "learning_rate": 0.0001926267281105991, "loss": 0.4447, "step": 80 }, { "epoch": 0.216, "grad_norm": 0.18211324512958527, "learning_rate": 0.00019244239631336407, "loss": 0.4871, "step": 81 }, { "epoch": 0.21866666666666668, "grad_norm": 0.17166893184185028, "learning_rate": 0.00019225806451612904, "loss": 0.4585, "step": 82 }, { "epoch": 0.22133333333333333, "grad_norm": 0.13666407763957977, "learning_rate": 0.000192073732718894, "loss": 0.3296, "step": 83 }, { "epoch": 0.224, "grad_norm": 0.14897605776786804, "learning_rate": 0.00019188940092165898, "loss": 0.419, "step": 84 }, { "epoch": 0.22666666666666666, "grad_norm": 0.18019717931747437, "learning_rate": 0.00019170506912442395, "loss": 0.4178, "step": 85 }, { "epoch": 0.22933333333333333, "grad_norm": 0.11701514571905136, "learning_rate": 0.00019152073732718895, "loss": 0.2964, "step": 86 }, { "epoch": 0.232, "grad_norm": 0.178730309009552, "learning_rate": 0.00019133640552995392, "loss": 0.44, "step": 87 }, { "epoch": 0.23466666666666666, "grad_norm": 0.19901369512081146, "learning_rate": 0.0001911520737327189, "loss": 0.4994, "step": 88 }, { "epoch": 0.23733333333333334, "grad_norm": 0.17634202539920807, "learning_rate": 0.0001909677419354839, "loss": 0.4579, "step": 89 }, { "epoch": 0.24, "grad_norm": 0.1528671830892563, "learning_rate": 0.00019078341013824886, "loss": 0.4276, "step": 90 }, { "epoch": 0.24266666666666667, "grad_norm": 0.17885848879814148, "learning_rate": 0.00019059907834101383, "loss": 0.4692, "step": 91 }, { "epoch": 0.24533333333333332, "grad_norm": 0.18216568231582642, "learning_rate": 0.00019041474654377883, "loss": 0.4661, "step": 92 }, { "epoch": 0.248, "grad_norm": 0.14913441240787506, "learning_rate": 0.0001902304147465438, "loss": 0.4069, "step": 93 }, { "epoch": 0.25066666666666665, "grad_norm": 0.14006248116493225, "learning_rate": 0.00019004608294930877, "loss": 0.3241, "step": 94 }, { "epoch": 0.25333333333333335, "grad_norm": 0.17819872498512268, "learning_rate": 0.00018986175115207375, "loss": 0.4391, "step": 95 }, { "epoch": 0.256, "grad_norm": 0.14914186298847198, "learning_rate": 0.00018967741935483872, "loss": 0.3717, "step": 96 }, { "epoch": 0.25866666666666666, "grad_norm": 0.16637903451919556, "learning_rate": 0.0001894930875576037, "loss": 0.4084, "step": 97 }, { "epoch": 0.2613333333333333, "grad_norm": 0.17099635303020477, "learning_rate": 0.00018930875576036869, "loss": 0.4276, "step": 98 }, { "epoch": 0.264, "grad_norm": 0.16819758713245392, "learning_rate": 0.00018912442396313366, "loss": 0.4467, "step": 99 }, { "epoch": 0.26666666666666666, "grad_norm": 0.16596156358718872, "learning_rate": 0.00018894009216589863, "loss": 0.4514, "step": 100 }, { "epoch": 0.2693333333333333, "grad_norm": 0.16137051582336426, "learning_rate": 0.0001887557603686636, "loss": 0.4481, "step": 101 }, { "epoch": 0.272, "grad_norm": 0.17070400714874268, "learning_rate": 0.00018857142857142857, "loss": 0.4799, "step": 102 }, { "epoch": 0.27466666666666667, "grad_norm": 0.1253652125597, "learning_rate": 0.00018838709677419354, "loss": 0.3078, "step": 103 }, { "epoch": 0.2773333333333333, "grad_norm": 0.16735614836215973, "learning_rate": 0.0001882027649769585, "loss": 0.4204, "step": 104 }, { "epoch": 0.28, "grad_norm": 0.16524048149585724, "learning_rate": 0.0001880184331797235, "loss": 0.4001, "step": 105 }, { "epoch": 0.2826666666666667, "grad_norm": 0.1721852570772171, "learning_rate": 0.00018783410138248848, "loss": 0.4256, "step": 106 }, { "epoch": 0.2853333333333333, "grad_norm": 0.18015016615390778, "learning_rate": 0.00018764976958525345, "loss": 0.4357, "step": 107 }, { "epoch": 0.288, "grad_norm": 0.11961845308542252, "learning_rate": 0.00018746543778801845, "loss": 0.3225, "step": 108 }, { "epoch": 0.2906666666666667, "grad_norm": 0.15067099034786224, "learning_rate": 0.00018728110599078342, "loss": 0.3627, "step": 109 }, { "epoch": 0.29333333333333333, "grad_norm": 0.15339131653308868, "learning_rate": 0.0001870967741935484, "loss": 0.3721, "step": 110 }, { "epoch": 0.296, "grad_norm": 0.18400989472866058, "learning_rate": 0.0001869124423963134, "loss": 0.4597, "step": 111 }, { "epoch": 0.2986666666666667, "grad_norm": 0.16479958593845367, "learning_rate": 0.00018672811059907836, "loss": 0.4118, "step": 112 }, { "epoch": 0.30133333333333334, "grad_norm": 0.17011751234531403, "learning_rate": 0.00018654377880184333, "loss": 0.4262, "step": 113 }, { "epoch": 0.304, "grad_norm": 0.1493382602930069, "learning_rate": 0.0001863594470046083, "loss": 0.3703, "step": 114 }, { "epoch": 0.30666666666666664, "grad_norm": 0.1860666126012802, "learning_rate": 0.00018617511520737328, "loss": 0.4457, "step": 115 }, { "epoch": 0.30933333333333335, "grad_norm": 0.1524077206850052, "learning_rate": 0.00018599078341013825, "loss": 0.3729, "step": 116 }, { "epoch": 0.312, "grad_norm": 0.17037904262542725, "learning_rate": 0.00018580645161290325, "loss": 0.4107, "step": 117 }, { "epoch": 0.31466666666666665, "grad_norm": 0.18302559852600098, "learning_rate": 0.00018562211981566822, "loss": 0.4487, "step": 118 }, { "epoch": 0.31733333333333336, "grad_norm": 0.17528630793094635, "learning_rate": 0.0001854377880184332, "loss": 0.4688, "step": 119 }, { "epoch": 0.32, "grad_norm": 0.14254267513751984, "learning_rate": 0.00018525345622119816, "loss": 0.3642, "step": 120 }, { "epoch": 0.32266666666666666, "grad_norm": 0.15180109441280365, "learning_rate": 0.00018506912442396313, "loss": 0.4103, "step": 121 }, { "epoch": 0.3253333333333333, "grad_norm": 0.17394393682479858, "learning_rate": 0.0001848847926267281, "loss": 0.431, "step": 122 }, { "epoch": 0.328, "grad_norm": 0.17153407633304596, "learning_rate": 0.0001847004608294931, "loss": 0.4114, "step": 123 }, { "epoch": 0.33066666666666666, "grad_norm": 0.1269201636314392, "learning_rate": 0.00018451612903225807, "loss": 0.3106, "step": 124 }, { "epoch": 0.3333333333333333, "grad_norm": 0.17708918452262878, "learning_rate": 0.00018433179723502304, "loss": 0.425, "step": 125 }, { "epoch": 0.336, "grad_norm": 0.14768198132514954, "learning_rate": 0.000184147465437788, "loss": 0.3671, "step": 126 }, { "epoch": 0.33866666666666667, "grad_norm": 0.14497029781341553, "learning_rate": 0.000183963133640553, "loss": 0.3541, "step": 127 }, { "epoch": 0.3413333333333333, "grad_norm": 0.16288724541664124, "learning_rate": 0.00018377880184331798, "loss": 0.401, "step": 128 }, { "epoch": 0.344, "grad_norm": 0.16115567088127136, "learning_rate": 0.00018359447004608298, "loss": 0.3901, "step": 129 }, { "epoch": 0.3466666666666667, "grad_norm": 0.1626514345407486, "learning_rate": 0.00018341013824884795, "loss": 0.3974, "step": 130 }, { "epoch": 0.34933333333333333, "grad_norm": 0.17566069960594177, "learning_rate": 0.00018322580645161292, "loss": 0.4441, "step": 131 }, { "epoch": 0.352, "grad_norm": 0.15314380824565887, "learning_rate": 0.0001830414746543779, "loss": 0.3879, "step": 132 }, { "epoch": 0.3546666666666667, "grad_norm": 0.17474164068698883, "learning_rate": 0.00018285714285714286, "loss": 0.4216, "step": 133 }, { "epoch": 0.35733333333333334, "grad_norm": 0.16597336530685425, "learning_rate": 0.00018267281105990784, "loss": 0.4064, "step": 134 }, { "epoch": 0.36, "grad_norm": 0.1585386097431183, "learning_rate": 0.00018248847926267283, "loss": 0.3648, "step": 135 }, { "epoch": 0.3626666666666667, "grad_norm": 0.15614689886569977, "learning_rate": 0.0001823041474654378, "loss": 0.3763, "step": 136 }, { "epoch": 0.36533333333333334, "grad_norm": 0.17746753990650177, "learning_rate": 0.00018211981566820278, "loss": 0.4342, "step": 137 }, { "epoch": 0.368, "grad_norm": 0.14107246696949005, "learning_rate": 0.00018193548387096775, "loss": 0.3201, "step": 138 }, { "epoch": 0.37066666666666664, "grad_norm": 0.18644823133945465, "learning_rate": 0.00018175115207373272, "loss": 0.4427, "step": 139 }, { "epoch": 0.37333333333333335, "grad_norm": 0.1781357079744339, "learning_rate": 0.0001815668202764977, "loss": 0.4406, "step": 140 }, { "epoch": 0.376, "grad_norm": 0.19284285604953766, "learning_rate": 0.0001813824884792627, "loss": 0.4717, "step": 141 }, { "epoch": 0.37866666666666665, "grad_norm": 0.17701680958271027, "learning_rate": 0.00018119815668202766, "loss": 0.4465, "step": 142 }, { "epoch": 0.38133333333333336, "grad_norm": 0.15814925730228424, "learning_rate": 0.00018101382488479263, "loss": 0.3935, "step": 143 }, { "epoch": 0.384, "grad_norm": 0.18513131141662598, "learning_rate": 0.0001808294930875576, "loss": 0.4571, "step": 144 }, { "epoch": 0.38666666666666666, "grad_norm": 0.1542840451002121, "learning_rate": 0.00018064516129032257, "loss": 0.3723, "step": 145 }, { "epoch": 0.3893333333333333, "grad_norm": 0.18084360659122467, "learning_rate": 0.00018046082949308757, "loss": 0.4772, "step": 146 }, { "epoch": 0.392, "grad_norm": 0.16495780646800995, "learning_rate": 0.00018027649769585254, "loss": 0.4235, "step": 147 }, { "epoch": 0.39466666666666667, "grad_norm": 0.17143410444259644, "learning_rate": 0.00018009216589861754, "loss": 0.412, "step": 148 }, { "epoch": 0.3973333333333333, "grad_norm": 0.15966279804706573, "learning_rate": 0.0001799078341013825, "loss": 0.3773, "step": 149 }, { "epoch": 0.4, "grad_norm": 0.17885254323482513, "learning_rate": 0.00017972350230414748, "loss": 0.4526, "step": 150 }, { "epoch": 0.4026666666666667, "grad_norm": 0.14771834015846252, "learning_rate": 0.00017953917050691245, "loss": 0.3577, "step": 151 }, { "epoch": 0.4053333333333333, "grad_norm": 0.19173817336559296, "learning_rate": 0.00017935483870967742, "loss": 0.4465, "step": 152 }, { "epoch": 0.408, "grad_norm": 0.15796253085136414, "learning_rate": 0.00017917050691244242, "loss": 0.389, "step": 153 }, { "epoch": 0.4106666666666667, "grad_norm": 0.19969353079795837, "learning_rate": 0.0001789861751152074, "loss": 0.4537, "step": 154 }, { "epoch": 0.41333333333333333, "grad_norm": 0.17320533096790314, "learning_rate": 0.00017880184331797236, "loss": 0.4191, "step": 155 }, { "epoch": 0.416, "grad_norm": 0.13411633670330048, "learning_rate": 0.00017861751152073734, "loss": 0.3375, "step": 156 }, { "epoch": 0.4186666666666667, "grad_norm": 0.15305060148239136, "learning_rate": 0.0001784331797235023, "loss": 0.3905, "step": 157 }, { "epoch": 0.42133333333333334, "grad_norm": 0.1757674217224121, "learning_rate": 0.00017824884792626728, "loss": 0.4461, "step": 158 }, { "epoch": 0.424, "grad_norm": 0.17182041704654694, "learning_rate": 0.00017806451612903228, "loss": 0.4341, "step": 159 }, { "epoch": 0.4266666666666667, "grad_norm": 0.16976647078990936, "learning_rate": 0.00017788018433179725, "loss": 0.4369, "step": 160 }, { "epoch": 0.42933333333333334, "grad_norm": 0.15003015100955963, "learning_rate": 0.00017769585253456222, "loss": 0.3677, "step": 161 }, { "epoch": 0.432, "grad_norm": 0.15240909159183502, "learning_rate": 0.0001775115207373272, "loss": 0.3564, "step": 162 }, { "epoch": 0.43466666666666665, "grad_norm": 0.12969525158405304, "learning_rate": 0.00017732718894009216, "loss": 0.306, "step": 163 }, { "epoch": 0.43733333333333335, "grad_norm": 0.18351611495018005, "learning_rate": 0.00017714285714285713, "loss": 0.4116, "step": 164 }, { "epoch": 0.44, "grad_norm": 0.1526956856250763, "learning_rate": 0.00017695852534562213, "loss": 0.3528, "step": 165 }, { "epoch": 0.44266666666666665, "grad_norm": 0.15024355053901672, "learning_rate": 0.0001767741935483871, "loss": 0.3712, "step": 166 }, { "epoch": 0.44533333333333336, "grad_norm": 0.15281909704208374, "learning_rate": 0.0001765898617511521, "loss": 0.3551, "step": 167 }, { "epoch": 0.448, "grad_norm": 0.1667689085006714, "learning_rate": 0.00017640552995391707, "loss": 0.3865, "step": 168 }, { "epoch": 0.45066666666666666, "grad_norm": 0.103152796626091, "learning_rate": 0.00017622119815668204, "loss": 0.2435, "step": 169 }, { "epoch": 0.4533333333333333, "grad_norm": 0.1343197375535965, "learning_rate": 0.000176036866359447, "loss": 0.3289, "step": 170 }, { "epoch": 0.456, "grad_norm": 0.1691158562898636, "learning_rate": 0.00017585253456221198, "loss": 0.3897, "step": 171 }, { "epoch": 0.45866666666666667, "grad_norm": 0.16926874220371246, "learning_rate": 0.00017566820276497698, "loss": 0.4109, "step": 172 }, { "epoch": 0.4613333333333333, "grad_norm": 0.14672289788722992, "learning_rate": 0.00017548387096774195, "loss": 0.3582, "step": 173 }, { "epoch": 0.464, "grad_norm": 0.17479246854782104, "learning_rate": 0.00017529953917050692, "loss": 0.4371, "step": 174 }, { "epoch": 0.4666666666666667, "grad_norm": 0.15855465829372406, "learning_rate": 0.0001751152073732719, "loss": 0.3856, "step": 175 }, { "epoch": 0.4693333333333333, "grad_norm": 0.14391499757766724, "learning_rate": 0.00017493087557603687, "loss": 0.3245, "step": 176 }, { "epoch": 0.472, "grad_norm": 0.16085828840732574, "learning_rate": 0.00017474654377880184, "loss": 0.366, "step": 177 }, { "epoch": 0.4746666666666667, "grad_norm": 0.19197571277618408, "learning_rate": 0.00017456221198156684, "loss": 0.4311, "step": 178 }, { "epoch": 0.47733333333333333, "grad_norm": 0.17153812944889069, "learning_rate": 0.0001743778801843318, "loss": 0.4236, "step": 179 }, { "epoch": 0.48, "grad_norm": 0.17264418303966522, "learning_rate": 0.00017419354838709678, "loss": 0.4349, "step": 180 }, { "epoch": 0.4826666666666667, "grad_norm": 0.1292308270931244, "learning_rate": 0.00017400921658986175, "loss": 0.3148, "step": 181 }, { "epoch": 0.48533333333333334, "grad_norm": 0.16159938275814056, "learning_rate": 0.00017382488479262672, "loss": 0.418, "step": 182 }, { "epoch": 0.488, "grad_norm": 0.16956357657909393, "learning_rate": 0.0001736405529953917, "loss": 0.4, "step": 183 }, { "epoch": 0.49066666666666664, "grad_norm": 0.18391053378582, "learning_rate": 0.0001734562211981567, "loss": 0.4406, "step": 184 }, { "epoch": 0.49333333333333335, "grad_norm": 0.1496499478816986, "learning_rate": 0.00017327188940092166, "loss": 0.378, "step": 185 }, { "epoch": 0.496, "grad_norm": 0.1665787696838379, "learning_rate": 0.00017308755760368666, "loss": 0.3853, "step": 186 }, { "epoch": 0.49866666666666665, "grad_norm": 0.20489759743213654, "learning_rate": 0.00017290322580645163, "loss": 0.4377, "step": 187 }, { "epoch": 0.5013333333333333, "grad_norm": 0.14827361702919006, "learning_rate": 0.0001727188940092166, "loss": 0.3546, "step": 188 }, { "epoch": 0.504, "grad_norm": 0.15462061762809753, "learning_rate": 0.00017253456221198157, "loss": 0.349, "step": 189 }, { "epoch": 0.5066666666666667, "grad_norm": 0.15933746099472046, "learning_rate": 0.00017235023041474657, "loss": 0.3949, "step": 190 }, { "epoch": 0.5093333333333333, "grad_norm": 0.1423114538192749, "learning_rate": 0.00017216589861751154, "loss": 0.3282, "step": 191 }, { "epoch": 0.512, "grad_norm": 0.15322059392929077, "learning_rate": 0.0001719815668202765, "loss": 0.3708, "step": 192 }, { "epoch": 0.5146666666666667, "grad_norm": 0.14829488098621368, "learning_rate": 0.00017179723502304148, "loss": 0.3686, "step": 193 }, { "epoch": 0.5173333333333333, "grad_norm": 0.18233701586723328, "learning_rate": 0.00017161290322580645, "loss": 0.4355, "step": 194 }, { "epoch": 0.52, "grad_norm": 0.1339682787656784, "learning_rate": 0.00017142857142857143, "loss": 0.3366, "step": 195 }, { "epoch": 0.5226666666666666, "grad_norm": 0.19841143488883972, "learning_rate": 0.00017124423963133642, "loss": 0.4227, "step": 196 }, { "epoch": 0.5253333333333333, "grad_norm": 0.14212489128112793, "learning_rate": 0.0001710599078341014, "loss": 0.3427, "step": 197 }, { "epoch": 0.528, "grad_norm": 0.173259899020195, "learning_rate": 0.00017087557603686637, "loss": 0.3791, "step": 198 }, { "epoch": 0.5306666666666666, "grad_norm": 0.15233451128005981, "learning_rate": 0.00017069124423963134, "loss": 0.3414, "step": 199 }, { "epoch": 0.5333333333333333, "grad_norm": 0.17846983671188354, "learning_rate": 0.0001705069124423963, "loss": 0.4373, "step": 200 }, { "epoch": 0.536, "grad_norm": 0.1585446149110794, "learning_rate": 0.00017032258064516128, "loss": 0.3765, "step": 201 }, { "epoch": 0.5386666666666666, "grad_norm": 0.13464581966400146, "learning_rate": 0.00017013824884792628, "loss": 0.3006, "step": 202 }, { "epoch": 0.5413333333333333, "grad_norm": 0.14662134647369385, "learning_rate": 0.00016995391705069125, "loss": 0.3567, "step": 203 }, { "epoch": 0.544, "grad_norm": 0.15118283033370972, "learning_rate": 0.00016976958525345622, "loss": 0.3475, "step": 204 }, { "epoch": 0.5466666666666666, "grad_norm": 0.17972949147224426, "learning_rate": 0.00016958525345622122, "loss": 0.4418, "step": 205 }, { "epoch": 0.5493333333333333, "grad_norm": 0.14408893883228302, "learning_rate": 0.0001694009216589862, "loss": 0.3507, "step": 206 }, { "epoch": 0.552, "grad_norm": 0.13158614933490753, "learning_rate": 0.00016921658986175116, "loss": 0.3166, "step": 207 }, { "epoch": 0.5546666666666666, "grad_norm": 0.15383560955524445, "learning_rate": 0.00016903225806451616, "loss": 0.329, "step": 208 }, { "epoch": 0.5573333333333333, "grad_norm": 0.15465512871742249, "learning_rate": 0.00016884792626728113, "loss": 0.3615, "step": 209 }, { "epoch": 0.56, "grad_norm": 0.15681861340999603, "learning_rate": 0.0001686635944700461, "loss": 0.3466, "step": 210 }, { "epoch": 0.5626666666666666, "grad_norm": 0.1434970200061798, "learning_rate": 0.00016847926267281107, "loss": 0.3278, "step": 211 }, { "epoch": 0.5653333333333334, "grad_norm": 0.15641628205776215, "learning_rate": 0.00016829493087557604, "loss": 0.3569, "step": 212 }, { "epoch": 0.568, "grad_norm": 0.1346403956413269, "learning_rate": 0.000168110599078341, "loss": 0.3148, "step": 213 }, { "epoch": 0.5706666666666667, "grad_norm": 0.15052050352096558, "learning_rate": 0.000167926267281106, "loss": 0.366, "step": 214 }, { "epoch": 0.5733333333333334, "grad_norm": 0.1652543991804123, "learning_rate": 0.00016774193548387098, "loss": 0.378, "step": 215 }, { "epoch": 0.576, "grad_norm": 0.1317535787820816, "learning_rate": 0.00016755760368663595, "loss": 0.3063, "step": 216 }, { "epoch": 0.5786666666666667, "grad_norm": 0.16040165722370148, "learning_rate": 0.00016737327188940092, "loss": 0.3696, "step": 217 }, { "epoch": 0.5813333333333334, "grad_norm": 0.16351503133773804, "learning_rate": 0.0001671889400921659, "loss": 0.3619, "step": 218 }, { "epoch": 0.584, "grad_norm": 0.1512780487537384, "learning_rate": 0.00016700460829493087, "loss": 0.3553, "step": 219 }, { "epoch": 0.5866666666666667, "grad_norm": 0.1684075891971588, "learning_rate": 0.00016682027649769587, "loss": 0.4111, "step": 220 }, { "epoch": 0.5893333333333334, "grad_norm": 0.17556628584861755, "learning_rate": 0.00016663594470046084, "loss": 0.3937, "step": 221 }, { "epoch": 0.592, "grad_norm": 0.1315503865480423, "learning_rate": 0.0001664516129032258, "loss": 0.2994, "step": 222 }, { "epoch": 0.5946666666666667, "grad_norm": 0.1683577597141266, "learning_rate": 0.00016626728110599078, "loss": 0.3825, "step": 223 }, { "epoch": 0.5973333333333334, "grad_norm": 0.13307073712348938, "learning_rate": 0.00016608294930875578, "loss": 0.3101, "step": 224 }, { "epoch": 0.6, "grad_norm": 0.182749941945076, "learning_rate": 0.00016589861751152075, "loss": 0.4399, "step": 225 }, { "epoch": 0.6026666666666667, "grad_norm": 0.13908226788043976, "learning_rate": 0.00016571428571428575, "loss": 0.2907, "step": 226 }, { "epoch": 0.6053333333333333, "grad_norm": 0.1431780457496643, "learning_rate": 0.00016552995391705072, "loss": 0.3256, "step": 227 }, { "epoch": 0.608, "grad_norm": 0.1415647268295288, "learning_rate": 0.0001653456221198157, "loss": 0.3539, "step": 228 }, { "epoch": 0.6106666666666667, "grad_norm": 0.16500137746334076, "learning_rate": 0.00016516129032258066, "loss": 0.3995, "step": 229 }, { "epoch": 0.6133333333333333, "grad_norm": 0.14294126629829407, "learning_rate": 0.00016497695852534563, "loss": 0.3516, "step": 230 }, { "epoch": 0.616, "grad_norm": 0.16912704706192017, "learning_rate": 0.0001647926267281106, "loss": 0.3701, "step": 231 }, { "epoch": 0.6186666666666667, "grad_norm": 0.171602264046669, "learning_rate": 0.00016460829493087557, "loss": 0.3902, "step": 232 }, { "epoch": 0.6213333333333333, "grad_norm": 0.139840230345726, "learning_rate": 0.00016442396313364057, "loss": 0.3207, "step": 233 }, { "epoch": 0.624, "grad_norm": 0.1817532330751419, "learning_rate": 0.00016423963133640554, "loss": 0.3992, "step": 234 }, { "epoch": 0.6266666666666667, "grad_norm": 0.15684981644153595, "learning_rate": 0.0001640552995391705, "loss": 0.3728, "step": 235 }, { "epoch": 0.6293333333333333, "grad_norm": 0.1692310869693756, "learning_rate": 0.00016387096774193548, "loss": 0.3749, "step": 236 }, { "epoch": 0.632, "grad_norm": 0.15905971825122833, "learning_rate": 0.00016368663594470046, "loss": 0.3447, "step": 237 }, { "epoch": 0.6346666666666667, "grad_norm": 0.1193050667643547, "learning_rate": 0.00016350230414746543, "loss": 0.2671, "step": 238 }, { "epoch": 0.6373333333333333, "grad_norm": 0.15694352984428406, "learning_rate": 0.00016331797235023042, "loss": 0.3459, "step": 239 }, { "epoch": 0.64, "grad_norm": 0.17581601440906525, "learning_rate": 0.0001631336405529954, "loss": 0.3871, "step": 240 }, { "epoch": 0.6426666666666667, "grad_norm": 0.15232494473457336, "learning_rate": 0.00016294930875576037, "loss": 0.3693, "step": 241 }, { "epoch": 0.6453333333333333, "grad_norm": 0.1606399416923523, "learning_rate": 0.00016276497695852534, "loss": 0.381, "step": 242 }, { "epoch": 0.648, "grad_norm": 0.1719520092010498, "learning_rate": 0.00016258064516129034, "loss": 0.3592, "step": 243 }, { "epoch": 0.6506666666666666, "grad_norm": 0.16019819676876068, "learning_rate": 0.0001623963133640553, "loss": 0.3744, "step": 244 }, { "epoch": 0.6533333333333333, "grad_norm": 0.17567366361618042, "learning_rate": 0.0001622119815668203, "loss": 0.3805, "step": 245 }, { "epoch": 0.656, "grad_norm": 0.14169426262378693, "learning_rate": 0.00016202764976958528, "loss": 0.3137, "step": 246 }, { "epoch": 0.6586666666666666, "grad_norm": 0.14895136654376984, "learning_rate": 0.00016184331797235025, "loss": 0.3569, "step": 247 }, { "epoch": 0.6613333333333333, "grad_norm": 0.16148167848587036, "learning_rate": 0.00016165898617511522, "loss": 0.3638, "step": 248 }, { "epoch": 0.664, "grad_norm": 0.16838644444942474, "learning_rate": 0.0001614746543778802, "loss": 0.388, "step": 249 }, { "epoch": 0.6666666666666666, "grad_norm": 0.15224848687648773, "learning_rate": 0.00016129032258064516, "loss": 0.3545, "step": 250 }, { "epoch": 0.6693333333333333, "grad_norm": 0.16191022098064423, "learning_rate": 0.00016110599078341016, "loss": 0.3816, "step": 251 }, { "epoch": 0.672, "grad_norm": 0.1257759928703308, "learning_rate": 0.00016092165898617513, "loss": 0.2883, "step": 252 }, { "epoch": 0.6746666666666666, "grad_norm": 0.15058423578739166, "learning_rate": 0.0001607373271889401, "loss": 0.3538, "step": 253 }, { "epoch": 0.6773333333333333, "grad_norm": 0.16297395527362823, "learning_rate": 0.00016055299539170507, "loss": 0.3149, "step": 254 }, { "epoch": 0.68, "grad_norm": 0.13175536692142487, "learning_rate": 0.00016036866359447004, "loss": 0.2967, "step": 255 }, { "epoch": 0.6826666666666666, "grad_norm": 0.1673828512430191, "learning_rate": 0.00016018433179723501, "loss": 0.3832, "step": 256 }, { "epoch": 0.6853333333333333, "grad_norm": 0.1622629463672638, "learning_rate": 0.00016, "loss": 0.3682, "step": 257 }, { "epoch": 0.688, "grad_norm": 0.16801975667476654, "learning_rate": 0.00015981566820276498, "loss": 0.3816, "step": 258 }, { "epoch": 0.6906666666666667, "grad_norm": 0.16025444865226746, "learning_rate": 0.00015963133640552996, "loss": 0.4015, "step": 259 }, { "epoch": 0.6933333333333334, "grad_norm": 0.15624813735485077, "learning_rate": 0.00015944700460829493, "loss": 0.3423, "step": 260 }, { "epoch": 0.696, "grad_norm": 0.15024392306804657, "learning_rate": 0.0001592626728110599, "loss": 0.3559, "step": 261 }, { "epoch": 0.6986666666666667, "grad_norm": 0.13429264724254608, "learning_rate": 0.0001590783410138249, "loss": 0.3287, "step": 262 }, { "epoch": 0.7013333333333334, "grad_norm": 0.15059643983840942, "learning_rate": 0.00015889400921658987, "loss": 0.3721, "step": 263 }, { "epoch": 0.704, "grad_norm": 0.16725251078605652, "learning_rate": 0.00015870967741935487, "loss": 0.4083, "step": 264 }, { "epoch": 0.7066666666666667, "grad_norm": 0.17089051008224487, "learning_rate": 0.00015852534562211984, "loss": 0.3818, "step": 265 }, { "epoch": 0.7093333333333334, "grad_norm": 0.16191141307353973, "learning_rate": 0.0001583410138248848, "loss": 0.3877, "step": 266 }, { "epoch": 0.712, "grad_norm": 0.10652066022157669, "learning_rate": 0.00015815668202764978, "loss": 0.2472, "step": 267 }, { "epoch": 0.7146666666666667, "grad_norm": 0.14809884130954742, "learning_rate": 0.00015797235023041475, "loss": 0.3437, "step": 268 }, { "epoch": 0.7173333333333334, "grad_norm": 0.15298527479171753, "learning_rate": 0.00015778801843317975, "loss": 0.3451, "step": 269 }, { "epoch": 0.72, "grad_norm": 0.16368281841278076, "learning_rate": 0.00015760368663594472, "loss": 0.3707, "step": 270 }, { "epoch": 0.7226666666666667, "grad_norm": 0.16910625994205475, "learning_rate": 0.0001574193548387097, "loss": 0.3814, "step": 271 }, { "epoch": 0.7253333333333334, "grad_norm": 0.13161355257034302, "learning_rate": 0.00015723502304147466, "loss": 0.2906, "step": 272 }, { "epoch": 0.728, "grad_norm": 0.15623870491981506, "learning_rate": 0.00015705069124423963, "loss": 0.3569, "step": 273 }, { "epoch": 0.7306666666666667, "grad_norm": 0.1901761293411255, "learning_rate": 0.0001568663594470046, "loss": 0.4412, "step": 274 }, { "epoch": 0.7333333333333333, "grad_norm": 0.17372649908065796, "learning_rate": 0.0001566820276497696, "loss": 0.3818, "step": 275 }, { "epoch": 0.736, "grad_norm": 0.1698993593454361, "learning_rate": 0.00015649769585253457, "loss": 0.3946, "step": 276 }, { "epoch": 0.7386666666666667, "grad_norm": 0.1353125125169754, "learning_rate": 0.00015631336405529954, "loss": 0.3024, "step": 277 }, { "epoch": 0.7413333333333333, "grad_norm": 0.15039609372615814, "learning_rate": 0.00015612903225806451, "loss": 0.344, "step": 278 }, { "epoch": 0.744, "grad_norm": 0.14630864560604095, "learning_rate": 0.00015594470046082949, "loss": 0.3164, "step": 279 }, { "epoch": 0.7466666666666667, "grad_norm": 0.1768413931131363, "learning_rate": 0.00015576036866359446, "loss": 0.4039, "step": 280 }, { "epoch": 0.7493333333333333, "grad_norm": 0.18967677652835846, "learning_rate": 0.00015557603686635946, "loss": 0.3934, "step": 281 }, { "epoch": 0.752, "grad_norm": 0.1499478965997696, "learning_rate": 0.00015539170506912443, "loss": 0.3396, "step": 282 }, { "epoch": 0.7546666666666667, "grad_norm": 0.1615721583366394, "learning_rate": 0.00015520737327188942, "loss": 0.3923, "step": 283 }, { "epoch": 0.7573333333333333, "grad_norm": 0.18911497294902802, "learning_rate": 0.0001550230414746544, "loss": 0.4161, "step": 284 }, { "epoch": 0.76, "grad_norm": 0.1700778603553772, "learning_rate": 0.00015483870967741937, "loss": 0.3802, "step": 285 }, { "epoch": 0.7626666666666667, "grad_norm": 0.16611550748348236, "learning_rate": 0.00015465437788018434, "loss": 0.4055, "step": 286 }, { "epoch": 0.7653333333333333, "grad_norm": 0.11968239396810532, "learning_rate": 0.00015447004608294934, "loss": 0.2623, "step": 287 }, { "epoch": 0.768, "grad_norm": 0.14020052552223206, "learning_rate": 0.0001542857142857143, "loss": 0.3312, "step": 288 }, { "epoch": 0.7706666666666667, "grad_norm": 0.1645808219909668, "learning_rate": 0.00015410138248847928, "loss": 0.3723, "step": 289 }, { "epoch": 0.7733333333333333, "grad_norm": 0.14945979416370392, "learning_rate": 0.00015391705069124425, "loss": 0.3437, "step": 290 }, { "epoch": 0.776, "grad_norm": 0.15359844267368317, "learning_rate": 0.00015373271889400922, "loss": 0.3416, "step": 291 }, { "epoch": 0.7786666666666666, "grad_norm": 0.15382947027683258, "learning_rate": 0.0001535483870967742, "loss": 0.35, "step": 292 }, { "epoch": 0.7813333333333333, "grad_norm": 0.1751420497894287, "learning_rate": 0.0001533640552995392, "loss": 0.3934, "step": 293 }, { "epoch": 0.784, "grad_norm": 0.17973610758781433, "learning_rate": 0.00015317972350230416, "loss": 0.4028, "step": 294 }, { "epoch": 0.7866666666666666, "grad_norm": 0.13859035074710846, "learning_rate": 0.00015299539170506913, "loss": 0.2822, "step": 295 }, { "epoch": 0.7893333333333333, "grad_norm": 0.159519225358963, "learning_rate": 0.0001528110599078341, "loss": 0.3618, "step": 296 }, { "epoch": 0.792, "grad_norm": 0.1519719660282135, "learning_rate": 0.00015262672811059907, "loss": 0.3135, "step": 297 }, { "epoch": 0.7946666666666666, "grad_norm": 0.1638742834329605, "learning_rate": 0.00015244239631336405, "loss": 0.3436, "step": 298 }, { "epoch": 0.7973333333333333, "grad_norm": 0.16452346742153168, "learning_rate": 0.00015225806451612902, "loss": 0.3554, "step": 299 }, { "epoch": 0.8, "grad_norm": 0.1377478837966919, "learning_rate": 0.00015207373271889401, "loss": 0.316, "step": 300 }, { "epoch": 0.8026666666666666, "grad_norm": 0.14339123666286469, "learning_rate": 0.00015188940092165899, "loss": 0.3205, "step": 301 }, { "epoch": 0.8053333333333333, "grad_norm": 0.1550448089838028, "learning_rate": 0.00015170506912442398, "loss": 0.3596, "step": 302 }, { "epoch": 0.808, "grad_norm": 0.17551767826080322, "learning_rate": 0.00015152073732718895, "loss": 0.3962, "step": 303 }, { "epoch": 0.8106666666666666, "grad_norm": 0.12701982259750366, "learning_rate": 0.00015133640552995393, "loss": 0.3008, "step": 304 }, { "epoch": 0.8133333333333334, "grad_norm": 0.16174665093421936, "learning_rate": 0.0001511520737327189, "loss": 0.3806, "step": 305 }, { "epoch": 0.816, "grad_norm": 0.1501130908727646, "learning_rate": 0.0001509677419354839, "loss": 0.3329, "step": 306 }, { "epoch": 0.8186666666666667, "grad_norm": 0.1546219438314438, "learning_rate": 0.00015078341013824887, "loss": 0.35, "step": 307 }, { "epoch": 0.8213333333333334, "grad_norm": 0.15842264890670776, "learning_rate": 0.00015059907834101384, "loss": 0.3464, "step": 308 }, { "epoch": 0.824, "grad_norm": 0.15754717588424683, "learning_rate": 0.0001504147465437788, "loss": 0.3328, "step": 309 }, { "epoch": 0.8266666666666667, "grad_norm": 0.2010168433189392, "learning_rate": 0.00015023041474654378, "loss": 0.376, "step": 310 }, { "epoch": 0.8293333333333334, "grad_norm": 0.15599404275417328, "learning_rate": 0.00015004608294930875, "loss": 0.3522, "step": 311 }, { "epoch": 0.832, "grad_norm": 0.2657049298286438, "learning_rate": 0.00014986175115207375, "loss": 0.3294, "step": 312 }, { "epoch": 0.8346666666666667, "grad_norm": 0.16477878391742706, "learning_rate": 0.00014967741935483872, "loss": 0.3409, "step": 313 }, { "epoch": 0.8373333333333334, "grad_norm": 0.16392506659030914, "learning_rate": 0.0001494930875576037, "loss": 0.3374, "step": 314 }, { "epoch": 0.84, "grad_norm": 0.1208295077085495, "learning_rate": 0.00014930875576036866, "loss": 0.2801, "step": 315 }, { "epoch": 0.8426666666666667, "grad_norm": 0.12793493270874023, "learning_rate": 0.00014912442396313363, "loss": 0.2754, "step": 316 }, { "epoch": 0.8453333333333334, "grad_norm": 0.14537736773490906, "learning_rate": 0.0001489400921658986, "loss": 0.3408, "step": 317 }, { "epoch": 0.848, "grad_norm": 0.15252535045146942, "learning_rate": 0.0001487557603686636, "loss": 0.3493, "step": 318 }, { "epoch": 0.8506666666666667, "grad_norm": 0.14754997193813324, "learning_rate": 0.00014857142857142857, "loss": 0.324, "step": 319 }, { "epoch": 0.8533333333333334, "grad_norm": 0.15408839285373688, "learning_rate": 0.00014838709677419355, "loss": 0.3557, "step": 320 }, { "epoch": 0.856, "grad_norm": 0.15192221105098724, "learning_rate": 0.00014820276497695854, "loss": 0.335, "step": 321 }, { "epoch": 0.8586666666666667, "grad_norm": 0.12445574253797531, "learning_rate": 0.00014801843317972351, "loss": 0.2915, "step": 322 }, { "epoch": 0.8613333333333333, "grad_norm": 0.15413238108158112, "learning_rate": 0.00014783410138248849, "loss": 0.3332, "step": 323 }, { "epoch": 0.864, "grad_norm": 0.14998595416545868, "learning_rate": 0.00014764976958525348, "loss": 0.335, "step": 324 }, { "epoch": 0.8666666666666667, "grad_norm": 0.1280187964439392, "learning_rate": 0.00014746543778801845, "loss": 0.2979, "step": 325 }, { "epoch": 0.8693333333333333, "grad_norm": 0.16464708745479584, "learning_rate": 0.00014728110599078343, "loss": 0.3571, "step": 326 }, { "epoch": 0.872, "grad_norm": 0.15211057662963867, "learning_rate": 0.0001470967741935484, "loss": 0.3678, "step": 327 }, { "epoch": 0.8746666666666667, "grad_norm": 0.15790687501430511, "learning_rate": 0.00014691244239631337, "loss": 0.3479, "step": 328 }, { "epoch": 0.8773333333333333, "grad_norm": 0.17375443875789642, "learning_rate": 0.00014672811059907834, "loss": 0.404, "step": 329 }, { "epoch": 0.88, "grad_norm": 0.14624124765396118, "learning_rate": 0.00014654377880184334, "loss": 0.3035, "step": 330 }, { "epoch": 0.8826666666666667, "grad_norm": 0.12936308979988098, "learning_rate": 0.0001463594470046083, "loss": 0.2838, "step": 331 }, { "epoch": 0.8853333333333333, "grad_norm": 0.13163194060325623, "learning_rate": 0.00014617511520737328, "loss": 0.3032, "step": 332 }, { "epoch": 0.888, "grad_norm": 0.12900876998901367, "learning_rate": 0.00014599078341013825, "loss": 0.2964, "step": 333 }, { "epoch": 0.8906666666666667, "grad_norm": 0.1418975293636322, "learning_rate": 0.00014580645161290322, "loss": 0.325, "step": 334 }, { "epoch": 0.8933333333333333, "grad_norm": 0.15901930630207062, "learning_rate": 0.0001456221198156682, "loss": 0.3485, "step": 335 }, { "epoch": 0.896, "grad_norm": 0.12917467951774597, "learning_rate": 0.0001454377880184332, "loss": 0.3101, "step": 336 }, { "epoch": 0.8986666666666666, "grad_norm": 0.1307375133037567, "learning_rate": 0.00014525345622119816, "loss": 0.2692, "step": 337 }, { "epoch": 0.9013333333333333, "grad_norm": 0.15659134089946747, "learning_rate": 0.00014506912442396313, "loss": 0.3562, "step": 338 }, { "epoch": 0.904, "grad_norm": 0.1662200689315796, "learning_rate": 0.0001448847926267281, "loss": 0.3789, "step": 339 }, { "epoch": 0.9066666666666666, "grad_norm": 0.184801384806633, "learning_rate": 0.0001447004608294931, "loss": 0.4033, "step": 340 }, { "epoch": 0.9093333333333333, "grad_norm": 0.14836148917675018, "learning_rate": 0.00014451612903225807, "loss": 0.3323, "step": 341 }, { "epoch": 0.912, "grad_norm": 0.1291496455669403, "learning_rate": 0.00014433179723502307, "loss": 0.2878, "step": 342 }, { "epoch": 0.9146666666666666, "grad_norm": 0.1760437786579132, "learning_rate": 0.00014414746543778804, "loss": 0.4028, "step": 343 }, { "epoch": 0.9173333333333333, "grad_norm": 0.1543797254562378, "learning_rate": 0.00014396313364055301, "loss": 0.3523, "step": 344 }, { "epoch": 0.92, "grad_norm": 0.11840101331472397, "learning_rate": 0.00014377880184331799, "loss": 0.2498, "step": 345 }, { "epoch": 0.9226666666666666, "grad_norm": 0.17368434369564056, "learning_rate": 0.00014359447004608296, "loss": 0.4288, "step": 346 }, { "epoch": 0.9253333333333333, "grad_norm": 0.14866364002227783, "learning_rate": 0.00014341013824884793, "loss": 0.3427, "step": 347 }, { "epoch": 0.928, "grad_norm": 0.15044787526130676, "learning_rate": 0.00014322580645161293, "loss": 0.3048, "step": 348 }, { "epoch": 0.9306666666666666, "grad_norm": 0.17984692752361298, "learning_rate": 0.0001430414746543779, "loss": 0.3875, "step": 349 }, { "epoch": 0.9333333333333333, "grad_norm": 0.17136484384536743, "learning_rate": 0.00014285714285714287, "loss": 0.4113, "step": 350 }, { "epoch": 0.936, "grad_norm": 0.1462949514389038, "learning_rate": 0.00014267281105990784, "loss": 0.3223, "step": 351 }, { "epoch": 0.9386666666666666, "grad_norm": 0.13263173401355743, "learning_rate": 0.0001424884792626728, "loss": 0.2964, "step": 352 }, { "epoch": 0.9413333333333334, "grad_norm": 0.16512326896190643, "learning_rate": 0.00014230414746543778, "loss": 0.382, "step": 353 }, { "epoch": 0.944, "grad_norm": 0.15281005203723907, "learning_rate": 0.00014211981566820278, "loss": 0.3237, "step": 354 }, { "epoch": 0.9466666666666667, "grad_norm": 0.16622225940227509, "learning_rate": 0.00014193548387096775, "loss": 0.3476, "step": 355 }, { "epoch": 0.9493333333333334, "grad_norm": 0.14663656055927277, "learning_rate": 0.00014175115207373272, "loss": 0.3256, "step": 356 }, { "epoch": 0.952, "grad_norm": 0.14011381566524506, "learning_rate": 0.0001415668202764977, "loss": 0.2808, "step": 357 }, { "epoch": 0.9546666666666667, "grad_norm": 0.17868131399154663, "learning_rate": 0.00014138248847926266, "loss": 0.4023, "step": 358 }, { "epoch": 0.9573333333333334, "grad_norm": 0.14108337461948395, "learning_rate": 0.00014119815668202766, "loss": 0.2917, "step": 359 }, { "epoch": 0.96, "grad_norm": 0.14999185502529144, "learning_rate": 0.00014101382488479263, "loss": 0.3405, "step": 360 }, { "epoch": 0.9626666666666667, "grad_norm": 0.1410456895828247, "learning_rate": 0.00014082949308755763, "loss": 0.296, "step": 361 }, { "epoch": 0.9653333333333334, "grad_norm": 0.19141064584255219, "learning_rate": 0.0001406451612903226, "loss": 0.4072, "step": 362 }, { "epoch": 0.968, "grad_norm": 0.16611899435520172, "learning_rate": 0.00014046082949308757, "loss": 0.3783, "step": 363 }, { "epoch": 0.9706666666666667, "grad_norm": 0.16892562806606293, "learning_rate": 0.00014027649769585254, "loss": 0.392, "step": 364 }, { "epoch": 0.9733333333333334, "grad_norm": 0.14543844759464264, "learning_rate": 0.00014009216589861752, "loss": 0.3362, "step": 365 }, { "epoch": 0.976, "grad_norm": 0.1536979377269745, "learning_rate": 0.0001399078341013825, "loss": 0.3294, "step": 366 }, { "epoch": 0.9786666666666667, "grad_norm": 0.17454853653907776, "learning_rate": 0.00013972350230414749, "loss": 0.3937, "step": 367 }, { "epoch": 0.9813333333333333, "grad_norm": 0.13380491733551025, "learning_rate": 0.00013953917050691246, "loss": 0.3028, "step": 368 }, { "epoch": 0.984, "grad_norm": 0.18040022253990173, "learning_rate": 0.00013935483870967743, "loss": 0.3761, "step": 369 }, { "epoch": 0.9866666666666667, "grad_norm": 0.15009883046150208, "learning_rate": 0.0001391705069124424, "loss": 0.3319, "step": 370 }, { "epoch": 0.9893333333333333, "grad_norm": 0.18103910982608795, "learning_rate": 0.00013898617511520737, "loss": 0.402, "step": 371 }, { "epoch": 0.992, "grad_norm": 0.1751798838376999, "learning_rate": 0.00013880184331797234, "loss": 0.368, "step": 372 }, { "epoch": 0.9946666666666667, "grad_norm": 0.13354599475860596, "learning_rate": 0.00013861751152073734, "loss": 0.2981, "step": 373 }, { "epoch": 0.9973333333333333, "grad_norm": 0.1821356564760208, "learning_rate": 0.0001384331797235023, "loss": 0.3774, "step": 374 }, { "epoch": 1.0, "grad_norm": 0.17267672717571259, "learning_rate": 0.00013824884792626728, "loss": 0.3519, "step": 375 }, { "epoch": 1.0026666666666666, "grad_norm": 0.16836708784103394, "learning_rate": 0.00013806451612903225, "loss": 0.3253, "step": 376 }, { "epoch": 1.0053333333333334, "grad_norm": 0.17477719485759735, "learning_rate": 0.00013788018433179722, "loss": 0.3608, "step": 377 }, { "epoch": 1.008, "grad_norm": 0.1772724837064743, "learning_rate": 0.00013769585253456222, "loss": 0.3447, "step": 378 }, { "epoch": 1.0106666666666666, "grad_norm": 0.12257684767246246, "learning_rate": 0.0001375115207373272, "loss": 0.2177, "step": 379 }, { "epoch": 1.0133333333333334, "grad_norm": 0.16612914204597473, "learning_rate": 0.0001373271889400922, "loss": 0.29, "step": 380 }, { "epoch": 1.016, "grad_norm": 0.1659669578075409, "learning_rate": 0.00013714285714285716, "loss": 0.2863, "step": 381 }, { "epoch": 1.0186666666666666, "grad_norm": 0.10684580355882645, "learning_rate": 0.00013695852534562213, "loss": 0.2036, "step": 382 }, { "epoch": 1.0213333333333334, "grad_norm": 0.18086634576320648, "learning_rate": 0.0001367741935483871, "loss": 0.3264, "step": 383 }, { "epoch": 1.024, "grad_norm": 0.18370379507541656, "learning_rate": 0.00013658986175115208, "loss": 0.3345, "step": 384 }, { "epoch": 1.0266666666666666, "grad_norm": 0.12735684216022491, "learning_rate": 0.00013640552995391707, "loss": 0.2282, "step": 385 }, { "epoch": 1.0293333333333334, "grad_norm": 0.19155777990818024, "learning_rate": 0.00013622119815668204, "loss": 0.3451, "step": 386 }, { "epoch": 1.032, "grad_norm": 0.15170736610889435, "learning_rate": 0.00013603686635944702, "loss": 0.3117, "step": 387 }, { "epoch": 1.0346666666666666, "grad_norm": 0.1189170852303505, "learning_rate": 0.000135852534562212, "loss": 0.2301, "step": 388 }, { "epoch": 1.0373333333333334, "grad_norm": 0.18579140305519104, "learning_rate": 0.00013566820276497696, "loss": 0.35, "step": 389 }, { "epoch": 1.04, "grad_norm": 0.17958171665668488, "learning_rate": 0.00013548387096774193, "loss": 0.3784, "step": 390 }, { "epoch": 1.0426666666666666, "grad_norm": 0.14446499943733215, "learning_rate": 0.00013529953917050693, "loss": 0.2612, "step": 391 }, { "epoch": 1.0453333333333332, "grad_norm": 0.14457960426807404, "learning_rate": 0.0001351152073732719, "loss": 0.2652, "step": 392 }, { "epoch": 1.048, "grad_norm": 0.15731191635131836, "learning_rate": 0.00013493087557603687, "loss": 0.2775, "step": 393 }, { "epoch": 1.0506666666666666, "grad_norm": 0.16172131896018982, "learning_rate": 0.00013474654377880184, "loss": 0.306, "step": 394 }, { "epoch": 1.0533333333333332, "grad_norm": 0.14943663775920868, "learning_rate": 0.0001345622119815668, "loss": 0.2754, "step": 395 }, { "epoch": 1.056, "grad_norm": 0.15502700209617615, "learning_rate": 0.00013437788018433178, "loss": 0.2944, "step": 396 }, { "epoch": 1.0586666666666666, "grad_norm": 0.12555833160877228, "learning_rate": 0.00013419354838709678, "loss": 0.2273, "step": 397 }, { "epoch": 1.0613333333333332, "grad_norm": 0.18065771460533142, "learning_rate": 0.00013400921658986175, "loss": 0.3267, "step": 398 }, { "epoch": 1.064, "grad_norm": 0.18832246959209442, "learning_rate": 0.00013382488479262675, "loss": 0.3257, "step": 399 }, { "epoch": 1.0666666666666667, "grad_norm": 0.1641506552696228, "learning_rate": 0.00013364055299539172, "loss": 0.2909, "step": 400 }, { "epoch": 1.0693333333333332, "grad_norm": 0.1466669887304306, "learning_rate": 0.0001334562211981567, "loss": 0.2769, "step": 401 }, { "epoch": 1.072, "grad_norm": 0.19785748422145844, "learning_rate": 0.00013327188940092166, "loss": 0.3788, "step": 402 }, { "epoch": 1.0746666666666667, "grad_norm": 0.1749541014432907, "learning_rate": 0.00013308755760368666, "loss": 0.3467, "step": 403 }, { "epoch": 1.0773333333333333, "grad_norm": 0.1550755649805069, "learning_rate": 0.00013290322580645163, "loss": 0.3002, "step": 404 }, { "epoch": 1.08, "grad_norm": 0.1549319177865982, "learning_rate": 0.0001327188940092166, "loss": 0.265, "step": 405 }, { "epoch": 1.0826666666666667, "grad_norm": 0.1888841986656189, "learning_rate": 0.00013253456221198157, "loss": 0.3656, "step": 406 }, { "epoch": 1.0853333333333333, "grad_norm": 0.19269292056560516, "learning_rate": 0.00013235023041474655, "loss": 0.3399, "step": 407 }, { "epoch": 1.088, "grad_norm": 0.17310786247253418, "learning_rate": 0.00013216589861751152, "loss": 0.3404, "step": 408 }, { "epoch": 1.0906666666666667, "grad_norm": 0.17707963287830353, "learning_rate": 0.00013198156682027652, "loss": 0.3144, "step": 409 }, { "epoch": 1.0933333333333333, "grad_norm": 0.18884608149528503, "learning_rate": 0.0001317972350230415, "loss": 0.3545, "step": 410 }, { "epoch": 1.096, "grad_norm": 0.17003734409809113, "learning_rate": 0.00013161290322580646, "loss": 0.3041, "step": 411 }, { "epoch": 1.0986666666666667, "grad_norm": 0.15582703053951263, "learning_rate": 0.00013142857142857143, "loss": 0.2777, "step": 412 }, { "epoch": 1.1013333333333333, "grad_norm": 0.19669969379901886, "learning_rate": 0.0001312442396313364, "loss": 0.3497, "step": 413 }, { "epoch": 1.104, "grad_norm": 0.1748334765434265, "learning_rate": 0.00013105990783410137, "loss": 0.3194, "step": 414 }, { "epoch": 1.1066666666666667, "grad_norm": 0.13625746965408325, "learning_rate": 0.00013087557603686637, "loss": 0.2262, "step": 415 }, { "epoch": 1.1093333333333333, "grad_norm": 0.1757451295852661, "learning_rate": 0.00013069124423963134, "loss": 0.3111, "step": 416 }, { "epoch": 1.112, "grad_norm": 0.18365788459777832, "learning_rate": 0.0001305069124423963, "loss": 0.3498, "step": 417 }, { "epoch": 1.1146666666666667, "grad_norm": 0.15181052684783936, "learning_rate": 0.0001303225806451613, "loss": 0.2915, "step": 418 }, { "epoch": 1.1173333333333333, "grad_norm": 0.12344007194042206, "learning_rate": 0.00013013824884792628, "loss": 0.2209, "step": 419 }, { "epoch": 1.12, "grad_norm": 0.15274471044540405, "learning_rate": 0.00012995391705069125, "loss": 0.3069, "step": 420 }, { "epoch": 1.1226666666666667, "grad_norm": 0.18239013850688934, "learning_rate": 0.00012976958525345625, "loss": 0.3499, "step": 421 }, { "epoch": 1.1253333333333333, "grad_norm": 0.1746266633272171, "learning_rate": 0.00012958525345622122, "loss": 0.3441, "step": 422 }, { "epoch": 1.1280000000000001, "grad_norm": 0.18905861675739288, "learning_rate": 0.0001294009216589862, "loss": 0.3507, "step": 423 }, { "epoch": 1.1306666666666667, "grad_norm": 0.18351832032203674, "learning_rate": 0.00012921658986175116, "loss": 0.3473, "step": 424 }, { "epoch": 1.1333333333333333, "grad_norm": 0.1772531270980835, "learning_rate": 0.00012903225806451613, "loss": 0.3138, "step": 425 }, { "epoch": 1.1360000000000001, "grad_norm": 0.17047764360904694, "learning_rate": 0.0001288479262672811, "loss": 0.3033, "step": 426 }, { "epoch": 1.1386666666666667, "grad_norm": 0.16869769990444183, "learning_rate": 0.00012866359447004608, "loss": 0.31, "step": 427 }, { "epoch": 1.1413333333333333, "grad_norm": 0.17232246696949005, "learning_rate": 0.00012847926267281107, "loss": 0.3352, "step": 428 }, { "epoch": 1.144, "grad_norm": 0.18078351020812988, "learning_rate": 0.00012829493087557605, "loss": 0.3201, "step": 429 }, { "epoch": 1.1466666666666667, "grad_norm": 0.16152624785900116, "learning_rate": 0.00012811059907834102, "loss": 0.289, "step": 430 }, { "epoch": 1.1493333333333333, "grad_norm": 0.18361586332321167, "learning_rate": 0.000127926267281106, "loss": 0.3131, "step": 431 }, { "epoch": 1.152, "grad_norm": 0.1870482712984085, "learning_rate": 0.00012774193548387096, "loss": 0.3364, "step": 432 }, { "epoch": 1.1546666666666667, "grad_norm": 0.16466543078422546, "learning_rate": 0.00012755760368663593, "loss": 0.2986, "step": 433 }, { "epoch": 1.1573333333333333, "grad_norm": 0.16390617191791534, "learning_rate": 0.00012737327188940093, "loss": 0.2853, "step": 434 }, { "epoch": 1.16, "grad_norm": 0.1582307517528534, "learning_rate": 0.0001271889400921659, "loss": 0.3015, "step": 435 }, { "epoch": 1.1626666666666667, "grad_norm": 0.18881578743457794, "learning_rate": 0.00012700460829493087, "loss": 0.35, "step": 436 }, { "epoch": 1.1653333333333333, "grad_norm": 0.17530585825443268, "learning_rate": 0.00012682027649769587, "loss": 0.3165, "step": 437 }, { "epoch": 1.168, "grad_norm": 0.1683303713798523, "learning_rate": 0.00012663594470046084, "loss": 0.3147, "step": 438 }, { "epoch": 1.1706666666666667, "grad_norm": 0.15983852744102478, "learning_rate": 0.0001264516129032258, "loss": 0.2814, "step": 439 }, { "epoch": 1.1733333333333333, "grad_norm": 0.12463359534740448, "learning_rate": 0.0001262672811059908, "loss": 0.2101, "step": 440 }, { "epoch": 1.176, "grad_norm": 0.17620094120502472, "learning_rate": 0.00012608294930875578, "loss": 0.3078, "step": 441 }, { "epoch": 1.1786666666666668, "grad_norm": 0.15961304306983948, "learning_rate": 0.00012589861751152075, "loss": 0.2751, "step": 442 }, { "epoch": 1.1813333333333333, "grad_norm": 0.1611575037240982, "learning_rate": 0.00012571428571428572, "loss": 0.2848, "step": 443 }, { "epoch": 1.184, "grad_norm": 0.18253649771213531, "learning_rate": 0.0001255299539170507, "loss": 0.3026, "step": 444 }, { "epoch": 1.1866666666666668, "grad_norm": 0.16647040843963623, "learning_rate": 0.00012534562211981566, "loss": 0.2895, "step": 445 }, { "epoch": 1.1893333333333334, "grad_norm": 0.1810285449028015, "learning_rate": 0.00012516129032258066, "loss": 0.3118, "step": 446 }, { "epoch": 1.192, "grad_norm": 0.16052526235580444, "learning_rate": 0.00012497695852534563, "loss": 0.2812, "step": 447 }, { "epoch": 1.1946666666666665, "grad_norm": 0.14483848214149475, "learning_rate": 0.0001247926267281106, "loss": 0.2484, "step": 448 }, { "epoch": 1.1973333333333334, "grad_norm": 0.16969628632068634, "learning_rate": 0.00012460829493087558, "loss": 0.2916, "step": 449 }, { "epoch": 1.2, "grad_norm": 0.14120320975780487, "learning_rate": 0.00012442396313364055, "loss": 0.2576, "step": 450 }, { "epoch": 1.2026666666666666, "grad_norm": 0.19954310357570648, "learning_rate": 0.00012423963133640552, "loss": 0.3632, "step": 451 }, { "epoch": 1.2053333333333334, "grad_norm": 0.18150478601455688, "learning_rate": 0.00012405529953917052, "loss": 0.3408, "step": 452 }, { "epoch": 1.208, "grad_norm": 0.15250132977962494, "learning_rate": 0.0001238709677419355, "loss": 0.3005, "step": 453 }, { "epoch": 1.2106666666666666, "grad_norm": 0.17641334235668182, "learning_rate": 0.00012368663594470046, "loss": 0.3168, "step": 454 }, { "epoch": 1.2133333333333334, "grad_norm": 0.14669710397720337, "learning_rate": 0.00012350230414746543, "loss": 0.2718, "step": 455 }, { "epoch": 1.216, "grad_norm": 0.18148992955684662, "learning_rate": 0.00012331797235023043, "loss": 0.3446, "step": 456 }, { "epoch": 1.2186666666666666, "grad_norm": 0.19267897307872772, "learning_rate": 0.0001231336405529954, "loss": 0.3368, "step": 457 }, { "epoch": 1.2213333333333334, "grad_norm": 0.16317573189735413, "learning_rate": 0.00012294930875576037, "loss": 0.2787, "step": 458 }, { "epoch": 1.224, "grad_norm": 0.13813409209251404, "learning_rate": 0.00012276497695852537, "loss": 0.237, "step": 459 }, { "epoch": 1.2266666666666666, "grad_norm": 0.19543218612670898, "learning_rate": 0.00012258064516129034, "loss": 0.3286, "step": 460 }, { "epoch": 1.2293333333333334, "grad_norm": 0.16882073879241943, "learning_rate": 0.0001223963133640553, "loss": 0.2783, "step": 461 }, { "epoch": 1.232, "grad_norm": 0.16801773011684418, "learning_rate": 0.00012221198156682028, "loss": 0.3018, "step": 462 }, { "epoch": 1.2346666666666666, "grad_norm": 0.17224004864692688, "learning_rate": 0.00012202764976958525, "loss": 0.2982, "step": 463 }, { "epoch": 1.2373333333333334, "grad_norm": 0.15956328809261322, "learning_rate": 0.00012184331797235025, "loss": 0.3058, "step": 464 }, { "epoch": 1.24, "grad_norm": 0.17795439064502716, "learning_rate": 0.00012165898617511522, "loss": 0.3429, "step": 465 }, { "epoch": 1.2426666666666666, "grad_norm": 0.1681850105524063, "learning_rate": 0.0001214746543778802, "loss": 0.2932, "step": 466 }, { "epoch": 1.2453333333333334, "grad_norm": 0.14882837235927582, "learning_rate": 0.00012129032258064516, "loss": 0.2772, "step": 467 }, { "epoch": 1.248, "grad_norm": 0.1865171641111374, "learning_rate": 0.00012110599078341014, "loss": 0.3526, "step": 468 }, { "epoch": 1.2506666666666666, "grad_norm": 0.1419881284236908, "learning_rate": 0.00012092165898617511, "loss": 0.2556, "step": 469 }, { "epoch": 1.2533333333333334, "grad_norm": 0.1949879229068756, "learning_rate": 0.0001207373271889401, "loss": 0.3512, "step": 470 }, { "epoch": 1.256, "grad_norm": 0.1851123869419098, "learning_rate": 0.00012055299539170508, "loss": 0.3119, "step": 471 }, { "epoch": 1.2586666666666666, "grad_norm": 0.16903844475746155, "learning_rate": 0.00012036866359447006, "loss": 0.2964, "step": 472 }, { "epoch": 1.2613333333333334, "grad_norm": 0.15738247334957123, "learning_rate": 0.00012018433179723503, "loss": 0.3073, "step": 473 }, { "epoch": 1.264, "grad_norm": 0.18394124507904053, "learning_rate": 0.00012, "loss": 0.3529, "step": 474 }, { "epoch": 1.2666666666666666, "grad_norm": 0.16276584565639496, "learning_rate": 0.00011981566820276497, "loss": 0.2824, "step": 475 }, { "epoch": 1.2693333333333334, "grad_norm": 0.19218119978904724, "learning_rate": 0.00011963133640552997, "loss": 0.3145, "step": 476 }, { "epoch": 1.272, "grad_norm": 0.1617254912853241, "learning_rate": 0.00011944700460829494, "loss": 0.3048, "step": 477 }, { "epoch": 1.2746666666666666, "grad_norm": 0.18363742530345917, "learning_rate": 0.00011926267281105991, "loss": 0.3495, "step": 478 }, { "epoch": 1.2773333333333334, "grad_norm": 0.18322618305683136, "learning_rate": 0.00011907834101382489, "loss": 0.323, "step": 479 }, { "epoch": 1.28, "grad_norm": 0.19018413126468658, "learning_rate": 0.00011889400921658986, "loss": 0.3239, "step": 480 }, { "epoch": 1.2826666666666666, "grad_norm": 0.18414224684238434, "learning_rate": 0.00011870967741935484, "loss": 0.3221, "step": 481 }, { "epoch": 1.2853333333333334, "grad_norm": 0.1773815155029297, "learning_rate": 0.00011852534562211983, "loss": 0.2895, "step": 482 }, { "epoch": 1.288, "grad_norm": 0.1861986517906189, "learning_rate": 0.00011834101382488481, "loss": 0.3544, "step": 483 }, { "epoch": 1.2906666666666666, "grad_norm": 0.16993744671344757, "learning_rate": 0.00011815668202764978, "loss": 0.2809, "step": 484 }, { "epoch": 1.2933333333333334, "grad_norm": 0.19634485244750977, "learning_rate": 0.00011797235023041475, "loss": 0.351, "step": 485 }, { "epoch": 1.296, "grad_norm": 0.146186962723732, "learning_rate": 0.00011778801843317972, "loss": 0.2947, "step": 486 }, { "epoch": 1.2986666666666666, "grad_norm": 0.1496630311012268, "learning_rate": 0.0001176036866359447, "loss": 0.24, "step": 487 }, { "epoch": 1.3013333333333335, "grad_norm": 0.15881465375423431, "learning_rate": 0.00011741935483870967, "loss": 0.2679, "step": 488 }, { "epoch": 1.304, "grad_norm": 0.14850527048110962, "learning_rate": 0.00011723502304147466, "loss": 0.2729, "step": 489 }, { "epoch": 1.3066666666666666, "grad_norm": 0.18087144196033478, "learning_rate": 0.00011705069124423964, "loss": 0.3167, "step": 490 }, { "epoch": 1.3093333333333335, "grad_norm": 0.18573027849197388, "learning_rate": 0.00011686635944700462, "loss": 0.3389, "step": 491 }, { "epoch": 1.312, "grad_norm": 0.1348046511411667, "learning_rate": 0.00011668202764976959, "loss": 0.2417, "step": 492 }, { "epoch": 1.3146666666666667, "grad_norm": 0.1142662763595581, "learning_rate": 0.00011649769585253456, "loss": 0.2001, "step": 493 }, { "epoch": 1.3173333333333335, "grad_norm": 0.16688582301139832, "learning_rate": 0.00011631336405529953, "loss": 0.3011, "step": 494 }, { "epoch": 1.32, "grad_norm": 0.13561463356018066, "learning_rate": 0.00011612903225806453, "loss": 0.2247, "step": 495 }, { "epoch": 1.3226666666666667, "grad_norm": 0.1808239072561264, "learning_rate": 0.0001159447004608295, "loss": 0.3396, "step": 496 }, { "epoch": 1.3253333333333333, "grad_norm": 0.1843968629837036, "learning_rate": 0.00011576036866359447, "loss": 0.3445, "step": 497 }, { "epoch": 1.328, "grad_norm": 0.18581481277942657, "learning_rate": 0.00011557603686635945, "loss": 0.3435, "step": 498 }, { "epoch": 1.3306666666666667, "grad_norm": 0.12895582616329193, "learning_rate": 0.00011539170506912442, "loss": 0.2209, "step": 499 }, { "epoch": 1.3333333333333333, "grad_norm": 0.19537444412708282, "learning_rate": 0.0001152073732718894, "loss": 0.3652, "step": 500 } ], "logging_steps": 1, "max_steps": 1125, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 9.854633244124938e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }