{ "best_metric": null, "best_model_checkpoint": null, "epoch": 41.666666666666664, "eval_steps": 500, "global_step": 20000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.020833333333333332, "grad_norm": 0.5603037476539612, "learning_rate": 1.0000000000000002e-06, "loss": 1.2354, "step": 10 }, { "epoch": 0.041666666666666664, "grad_norm": 0.4429026246070862, "learning_rate": 2.0000000000000003e-06, "loss": 1.3066, "step": 20 }, { "epoch": 0.0625, "grad_norm": 0.41802549362182617, "learning_rate": 3e-06, "loss": 1.3603, "step": 30 }, { "epoch": 0.08333333333333333, "grad_norm": 0.4784836769104004, "learning_rate": 4.000000000000001e-06, "loss": 1.2692, "step": 40 }, { "epoch": 0.10416666666666667, "grad_norm": 0.5276603698730469, "learning_rate": 5e-06, "loss": 1.1988, "step": 50 }, { "epoch": 0.125, "grad_norm": 0.4696706235408783, "learning_rate": 6e-06, "loss": 1.3073, "step": 60 }, { "epoch": 0.14583333333333334, "grad_norm": 0.4857315421104431, "learning_rate": 7.000000000000001e-06, "loss": 1.1064, "step": 70 }, { "epoch": 0.16666666666666666, "grad_norm": 0.3982374370098114, "learning_rate": 8.000000000000001e-06, "loss": 1.1623, "step": 80 }, { "epoch": 0.1875, "grad_norm": 0.4063296318054199, "learning_rate": 9e-06, "loss": 1.0693, "step": 90 }, { "epoch": 0.20833333333333334, "grad_norm": 0.7531167268753052, "learning_rate": 1e-05, "loss": 1.0575, "step": 100 }, { "epoch": 0.22916666666666666, "grad_norm": 0.5459274649620056, "learning_rate": 1.1000000000000001e-05, "loss": 0.9995, "step": 110 }, { "epoch": 0.25, "grad_norm": 0.5357196927070618, "learning_rate": 1.2e-05, "loss": 0.8318, "step": 120 }, { "epoch": 0.2708333333333333, "grad_norm": 0.5889810919761658, "learning_rate": 1.3000000000000001e-05, "loss": 0.7044, "step": 130 }, { "epoch": 0.2916666666666667, "grad_norm": 0.5331833958625793, "learning_rate": 1.4000000000000001e-05, "loss": 0.5907, "step": 140 }, { "epoch": 0.3125, "grad_norm": 0.40383508801460266, "learning_rate": 1.5e-05, "loss": 0.4793, "step": 150 }, { "epoch": 0.3333333333333333, "grad_norm": 0.3669006824493408, "learning_rate": 1.6000000000000003e-05, "loss": 0.4375, "step": 160 }, { "epoch": 0.3541666666666667, "grad_norm": 0.417579710483551, "learning_rate": 1.7000000000000003e-05, "loss": 0.4192, "step": 170 }, { "epoch": 0.375, "grad_norm": 0.3618267774581909, "learning_rate": 1.8e-05, "loss": 0.3954, "step": 180 }, { "epoch": 0.3958333333333333, "grad_norm": 0.4663057029247284, "learning_rate": 1.9e-05, "loss": 0.3444, "step": 190 }, { "epoch": 0.4166666666666667, "grad_norm": 0.3519757091999054, "learning_rate": 2e-05, "loss": 0.367, "step": 200 }, { "epoch": 0.4375, "grad_norm": 0.3066202700138092, "learning_rate": 2.1e-05, "loss": 0.3248, "step": 210 }, { "epoch": 0.4583333333333333, "grad_norm": 0.27175748348236084, "learning_rate": 2.2000000000000003e-05, "loss": 0.3158, "step": 220 }, { "epoch": 0.4791666666666667, "grad_norm": 0.36437082290649414, "learning_rate": 2.3000000000000003e-05, "loss": 0.3039, "step": 230 }, { "epoch": 0.5, "grad_norm": 0.27764540910720825, "learning_rate": 2.4e-05, "loss": 0.2945, "step": 240 }, { "epoch": 0.5208333333333334, "grad_norm": 0.3704541027545929, "learning_rate": 2.5e-05, "loss": 0.2913, "step": 250 }, { "epoch": 0.5416666666666666, "grad_norm": 0.6119433641433716, "learning_rate": 2.6000000000000002e-05, "loss": 0.2836, "step": 260 }, { "epoch": 0.5625, "grad_norm": 0.43148013949394226, "learning_rate": 2.7000000000000002e-05, "loss": 0.2895, "step": 270 }, { "epoch": 0.5833333333333334, "grad_norm": 0.31535229086875916, "learning_rate": 2.8000000000000003e-05, "loss": 0.2523, "step": 280 }, { "epoch": 0.6041666666666666, "grad_norm": 0.46402373909950256, "learning_rate": 2.9e-05, "loss": 0.2839, "step": 290 }, { "epoch": 0.625, "grad_norm": 0.3891887068748474, "learning_rate": 3e-05, "loss": 0.2537, "step": 300 }, { "epoch": 0.6458333333333334, "grad_norm": 0.4001849591732025, "learning_rate": 3.1e-05, "loss": 0.2519, "step": 310 }, { "epoch": 0.6666666666666666, "grad_norm": 0.3912372291088104, "learning_rate": 3.2000000000000005e-05, "loss": 0.2411, "step": 320 }, { "epoch": 0.6875, "grad_norm": 0.5657282471656799, "learning_rate": 3.3e-05, "loss": 0.2419, "step": 330 }, { "epoch": 0.7083333333333334, "grad_norm": 0.4375312030315399, "learning_rate": 3.4000000000000007e-05, "loss": 0.2078, "step": 340 }, { "epoch": 0.7291666666666666, "grad_norm": 0.5295796990394592, "learning_rate": 3.5e-05, "loss": 0.212, "step": 350 }, { "epoch": 0.75, "grad_norm": 0.4514267146587372, "learning_rate": 3.6e-05, "loss": 0.2149, "step": 360 }, { "epoch": 0.7708333333333334, "grad_norm": 0.36638158559799194, "learning_rate": 3.7e-05, "loss": 0.2012, "step": 370 }, { "epoch": 0.7916666666666666, "grad_norm": 0.8134890794754028, "learning_rate": 3.8e-05, "loss": 0.1995, "step": 380 }, { "epoch": 0.8125, "grad_norm": 7.311180114746094, "learning_rate": 3.9000000000000006e-05, "loss": 0.203, "step": 390 }, { "epoch": 0.8333333333333334, "grad_norm": 0.7181912660598755, "learning_rate": 4e-05, "loss": 0.1892, "step": 400 }, { "epoch": 0.8541666666666666, "grad_norm": 0.5994629859924316, "learning_rate": 4.1e-05, "loss": 0.1972, "step": 410 }, { "epoch": 0.875, "grad_norm": 0.447304904460907, "learning_rate": 4.2e-05, "loss": 0.1941, "step": 420 }, { "epoch": 0.8958333333333334, "grad_norm": 0.442060649394989, "learning_rate": 4.3e-05, "loss": 0.19, "step": 430 }, { "epoch": 0.9166666666666666, "grad_norm": 0.48638853430747986, "learning_rate": 4.4000000000000006e-05, "loss": 0.1819, "step": 440 }, { "epoch": 0.9375, "grad_norm": 0.31494706869125366, "learning_rate": 4.5e-05, "loss": 0.1838, "step": 450 }, { "epoch": 0.9583333333333334, "grad_norm": 0.4960469901561737, "learning_rate": 4.600000000000001e-05, "loss": 0.1916, "step": 460 }, { "epoch": 0.9791666666666666, "grad_norm": 1.0368956327438354, "learning_rate": 4.7e-05, "loss": 0.1826, "step": 470 }, { "epoch": 1.0, "grad_norm": 0.40218132734298706, "learning_rate": 4.8e-05, "loss": 0.176, "step": 480 }, { "epoch": 1.0208333333333333, "grad_norm": 0.325065940618515, "learning_rate": 4.9e-05, "loss": 0.1631, "step": 490 }, { "epoch": 1.0416666666666667, "grad_norm": 0.385360985994339, "learning_rate": 5e-05, "loss": 0.1745, "step": 500 }, { "epoch": 1.0625, "grad_norm": 0.58665931224823, "learning_rate": 5.1000000000000006e-05, "loss": 0.171, "step": 510 }, { "epoch": 1.0833333333333333, "grad_norm": 0.5208554863929749, "learning_rate": 5.2000000000000004e-05, "loss": 0.1564, "step": 520 }, { "epoch": 1.1041666666666667, "grad_norm": 0.6198956966400146, "learning_rate": 5.300000000000001e-05, "loss": 0.1755, "step": 530 }, { "epoch": 1.125, "grad_norm": 0.7358636260032654, "learning_rate": 5.4000000000000005e-05, "loss": 0.1569, "step": 540 }, { "epoch": 1.1458333333333333, "grad_norm": 0.5209399461746216, "learning_rate": 5.500000000000001e-05, "loss": 0.1679, "step": 550 }, { "epoch": 1.1666666666666667, "grad_norm": 0.4342431128025055, "learning_rate": 5.6000000000000006e-05, "loss": 0.1531, "step": 560 }, { "epoch": 1.1875, "grad_norm": 0.6378539800643921, "learning_rate": 5.6999999999999996e-05, "loss": 0.1359, "step": 570 }, { "epoch": 1.2083333333333333, "grad_norm": 0.39601626992225647, "learning_rate": 5.8e-05, "loss": 0.1557, "step": 580 }, { "epoch": 1.2291666666666667, "grad_norm": 0.42306533455848694, "learning_rate": 5.9e-05, "loss": 0.1556, "step": 590 }, { "epoch": 1.25, "grad_norm": 0.3984883725643158, "learning_rate": 6e-05, "loss": 0.15, "step": 600 }, { "epoch": 1.2708333333333333, "grad_norm": 0.5308772325515747, "learning_rate": 6.1e-05, "loss": 0.1552, "step": 610 }, { "epoch": 1.2916666666666667, "grad_norm": 0.3468480706214905, "learning_rate": 6.2e-05, "loss": 0.1398, "step": 620 }, { "epoch": 1.3125, "grad_norm": 0.2937083840370178, "learning_rate": 6.3e-05, "loss": 0.1381, "step": 630 }, { "epoch": 1.3333333333333333, "grad_norm": 0.37516850233078003, "learning_rate": 6.400000000000001e-05, "loss": 0.134, "step": 640 }, { "epoch": 1.3541666666666667, "grad_norm": 0.37516629695892334, "learning_rate": 6.500000000000001e-05, "loss": 0.1452, "step": 650 }, { "epoch": 1.375, "grad_norm": 0.6140102744102478, "learning_rate": 6.6e-05, "loss": 0.1422, "step": 660 }, { "epoch": 1.3958333333333333, "grad_norm": 0.43394172191619873, "learning_rate": 6.7e-05, "loss": 0.1448, "step": 670 }, { "epoch": 1.4166666666666667, "grad_norm": 0.555617094039917, "learning_rate": 6.800000000000001e-05, "loss": 0.1423, "step": 680 }, { "epoch": 1.4375, "grad_norm": 0.3129861354827881, "learning_rate": 6.9e-05, "loss": 0.1308, "step": 690 }, { "epoch": 1.4583333333333333, "grad_norm": 0.3774448037147522, "learning_rate": 7e-05, "loss": 0.1348, "step": 700 }, { "epoch": 1.4791666666666667, "grad_norm": 0.461506724357605, "learning_rate": 7.1e-05, "loss": 0.1442, "step": 710 }, { "epoch": 1.5, "grad_norm": 0.43586304783821106, "learning_rate": 7.2e-05, "loss": 0.1261, "step": 720 }, { "epoch": 1.5208333333333335, "grad_norm": 0.3285022974014282, "learning_rate": 7.3e-05, "loss": 0.1236, "step": 730 }, { "epoch": 1.5416666666666665, "grad_norm": 0.6135846972465515, "learning_rate": 7.4e-05, "loss": 0.1171, "step": 740 }, { "epoch": 1.5625, "grad_norm": 0.3845493793487549, "learning_rate": 7.500000000000001e-05, "loss": 0.1244, "step": 750 }, { "epoch": 1.5833333333333335, "grad_norm": 0.6265572309494019, "learning_rate": 7.6e-05, "loss": 0.1188, "step": 760 }, { "epoch": 1.6041666666666665, "grad_norm": 0.44308701157569885, "learning_rate": 7.7e-05, "loss": 0.127, "step": 770 }, { "epoch": 1.625, "grad_norm": 0.5415045619010925, "learning_rate": 7.800000000000001e-05, "loss": 0.1313, "step": 780 }, { "epoch": 1.6458333333333335, "grad_norm": 0.29601994156837463, "learning_rate": 7.900000000000001e-05, "loss": 0.1245, "step": 790 }, { "epoch": 1.6666666666666665, "grad_norm": 0.2800108790397644, "learning_rate": 8e-05, "loss": 0.1182, "step": 800 }, { "epoch": 1.6875, "grad_norm": 0.3550446629524231, "learning_rate": 8.1e-05, "loss": 0.1227, "step": 810 }, { "epoch": 1.7083333333333335, "grad_norm": 0.5419244170188904, "learning_rate": 8.2e-05, "loss": 0.1203, "step": 820 }, { "epoch": 1.7291666666666665, "grad_norm": 0.4922599494457245, "learning_rate": 8.3e-05, "loss": 0.1165, "step": 830 }, { "epoch": 1.75, "grad_norm": 0.45768749713897705, "learning_rate": 8.4e-05, "loss": 0.109, "step": 840 }, { "epoch": 1.7708333333333335, "grad_norm": 0.3727879822254181, "learning_rate": 8.5e-05, "loss": 0.129, "step": 850 }, { "epoch": 1.7916666666666665, "grad_norm": 0.3727613687515259, "learning_rate": 8.6e-05, "loss": 0.1128, "step": 860 }, { "epoch": 1.8125, "grad_norm": 0.4416222870349884, "learning_rate": 8.7e-05, "loss": 0.1078, "step": 870 }, { "epoch": 1.8333333333333335, "grad_norm": 0.3210764527320862, "learning_rate": 8.800000000000001e-05, "loss": 0.1128, "step": 880 }, { "epoch": 1.8541666666666665, "grad_norm": 0.41960617899894714, "learning_rate": 8.900000000000001e-05, "loss": 0.1101, "step": 890 }, { "epoch": 1.875, "grad_norm": 0.312499463558197, "learning_rate": 9e-05, "loss": 0.1143, "step": 900 }, { "epoch": 1.8958333333333335, "grad_norm": 0.46916210651397705, "learning_rate": 9.1e-05, "loss": 0.0997, "step": 910 }, { "epoch": 1.9166666666666665, "grad_norm": 0.31447020173072815, "learning_rate": 9.200000000000001e-05, "loss": 0.1039, "step": 920 }, { "epoch": 1.9375, "grad_norm": 0.2226591259241104, "learning_rate": 9.300000000000001e-05, "loss": 0.1012, "step": 930 }, { "epoch": 1.9583333333333335, "grad_norm": 0.23567713797092438, "learning_rate": 9.4e-05, "loss": 0.099, "step": 940 }, { "epoch": 1.9791666666666665, "grad_norm": 0.4164000451564789, "learning_rate": 9.5e-05, "loss": 0.1033, "step": 950 }, { "epoch": 2.0, "grad_norm": 0.3864036798477173, "learning_rate": 9.6e-05, "loss": 0.0981, "step": 960 }, { "epoch": 2.0208333333333335, "grad_norm": 0.3038920760154724, "learning_rate": 9.7e-05, "loss": 0.0968, "step": 970 }, { "epoch": 2.0416666666666665, "grad_norm": 0.4433216154575348, "learning_rate": 9.8e-05, "loss": 0.1086, "step": 980 }, { "epoch": 2.0625, "grad_norm": 0.460271954536438, "learning_rate": 9.900000000000001e-05, "loss": 0.1036, "step": 990 }, { "epoch": 2.0833333333333335, "grad_norm": 0.5385985374450684, "learning_rate": 0.0001, "loss": 0.0998, "step": 1000 }, { "epoch": 2.1041666666666665, "grad_norm": 0.22833701968193054, "learning_rate": 9.999993165095463e-05, "loss": 0.0937, "step": 1010 }, { "epoch": 2.125, "grad_norm": 0.27254053950309753, "learning_rate": 9.999972660400536e-05, "loss": 0.0923, "step": 1020 }, { "epoch": 2.1458333333333335, "grad_norm": 0.33088362216949463, "learning_rate": 9.999938485971279e-05, "loss": 0.0985, "step": 1030 }, { "epoch": 2.1666666666666665, "grad_norm": 0.3265719711780548, "learning_rate": 9.999890641901125e-05, "loss": 0.101, "step": 1040 }, { "epoch": 2.1875, "grad_norm": 0.2925650179386139, "learning_rate": 9.999829128320874e-05, "loss": 0.091, "step": 1050 }, { "epoch": 2.2083333333333335, "grad_norm": 0.37323224544525146, "learning_rate": 9.999753945398704e-05, "loss": 0.1035, "step": 1060 }, { "epoch": 2.2291666666666665, "grad_norm": 0.409372478723526, "learning_rate": 9.999665093340165e-05, "loss": 0.1034, "step": 1070 }, { "epoch": 2.25, "grad_norm": 0.3503051698207855, "learning_rate": 9.99956257238817e-05, "loss": 0.0995, "step": 1080 }, { "epoch": 2.2708333333333335, "grad_norm": 0.43088245391845703, "learning_rate": 9.999446382823013e-05, "loss": 0.089, "step": 1090 }, { "epoch": 2.2916666666666665, "grad_norm": 0.30856189131736755, "learning_rate": 9.999316524962345e-05, "loss": 0.0895, "step": 1100 }, { "epoch": 2.3125, "grad_norm": 0.27992454171180725, "learning_rate": 9.999172999161198e-05, "loss": 0.0995, "step": 1110 }, { "epoch": 2.3333333333333335, "grad_norm": 0.2966712415218353, "learning_rate": 9.999015805811965e-05, "loss": 0.0952, "step": 1120 }, { "epoch": 2.3541666666666665, "grad_norm": 0.3777500092983246, "learning_rate": 9.998844945344405e-05, "loss": 0.1015, "step": 1130 }, { "epoch": 2.375, "grad_norm": 0.2328580617904663, "learning_rate": 9.998660418225645e-05, "loss": 0.0935, "step": 1140 }, { "epoch": 2.3958333333333335, "grad_norm": 0.40923023223876953, "learning_rate": 9.998462224960175e-05, "loss": 0.1031, "step": 1150 }, { "epoch": 2.4166666666666665, "grad_norm": 0.3441992998123169, "learning_rate": 9.998250366089848e-05, "loss": 0.094, "step": 1160 }, { "epoch": 2.4375, "grad_norm": 0.37958404421806335, "learning_rate": 9.998024842193876e-05, "loss": 0.0888, "step": 1170 }, { "epoch": 2.4583333333333335, "grad_norm": 0.4905729591846466, "learning_rate": 9.997785653888835e-05, "loss": 0.092, "step": 1180 }, { "epoch": 2.4791666666666665, "grad_norm": 0.2750493884086609, "learning_rate": 9.997532801828658e-05, "loss": 0.0857, "step": 1190 }, { "epoch": 2.5, "grad_norm": 0.36833468079566956, "learning_rate": 9.997266286704631e-05, "loss": 0.0917, "step": 1200 }, { "epoch": 2.5208333333333335, "grad_norm": 0.5265190005302429, "learning_rate": 9.996986109245395e-05, "loss": 0.0953, "step": 1210 }, { "epoch": 2.5416666666666665, "grad_norm": 0.3675902485847473, "learning_rate": 9.996692270216947e-05, "loss": 0.0879, "step": 1220 }, { "epoch": 2.5625, "grad_norm": 0.4446280300617218, "learning_rate": 9.996384770422629e-05, "loss": 0.1036, "step": 1230 }, { "epoch": 2.5833333333333335, "grad_norm": 0.2952333092689514, "learning_rate": 9.996063610703137e-05, "loss": 0.0861, "step": 1240 }, { "epoch": 2.6041666666666665, "grad_norm": 0.26184654235839844, "learning_rate": 9.995728791936504e-05, "loss": 0.0918, "step": 1250 }, { "epoch": 2.625, "grad_norm": 0.40479394793510437, "learning_rate": 9.995380315038119e-05, "loss": 0.0803, "step": 1260 }, { "epoch": 2.6458333333333335, "grad_norm": 0.32667988538742065, "learning_rate": 9.9950181809607e-05, "loss": 0.0908, "step": 1270 }, { "epoch": 2.6666666666666665, "grad_norm": 0.36730581521987915, "learning_rate": 9.994642390694308e-05, "loss": 0.092, "step": 1280 }, { "epoch": 2.6875, "grad_norm": 0.267833948135376, "learning_rate": 9.99425294526634e-05, "loss": 0.0955, "step": 1290 }, { "epoch": 2.7083333333333335, "grad_norm": 0.22637684643268585, "learning_rate": 9.993849845741524e-05, "loss": 0.085, "step": 1300 }, { "epoch": 2.7291666666666665, "grad_norm": 0.3080173432826996, "learning_rate": 9.99343309322192e-05, "loss": 0.0866, "step": 1310 }, { "epoch": 2.75, "grad_norm": 0.2650259733200073, "learning_rate": 9.993002688846913e-05, "loss": 0.0904, "step": 1320 }, { "epoch": 2.7708333333333335, "grad_norm": 0.2908897399902344, "learning_rate": 9.992558633793212e-05, "loss": 0.0785, "step": 1330 }, { "epoch": 2.7916666666666665, "grad_norm": 0.46010151505470276, "learning_rate": 9.992100929274846e-05, "loss": 0.0846, "step": 1340 }, { "epoch": 2.8125, "grad_norm": 0.5235804319381714, "learning_rate": 9.991629576543163e-05, "loss": 0.0844, "step": 1350 }, { "epoch": 2.8333333333333335, "grad_norm": 0.2983894646167755, "learning_rate": 9.991144576886823e-05, "loss": 0.0804, "step": 1360 }, { "epoch": 2.8541666666666665, "grad_norm": 0.47460225224494934, "learning_rate": 9.990645931631796e-05, "loss": 0.0834, "step": 1370 }, { "epoch": 2.875, "grad_norm": 0.29465538263320923, "learning_rate": 9.990133642141359e-05, "loss": 0.0833, "step": 1380 }, { "epoch": 2.8958333333333335, "grad_norm": 0.16509909927845, "learning_rate": 9.989607709816091e-05, "loss": 0.079, "step": 1390 }, { "epoch": 2.9166666666666665, "grad_norm": 0.33537495136260986, "learning_rate": 9.989068136093873e-05, "loss": 0.0814, "step": 1400 }, { "epoch": 2.9375, "grad_norm": 0.35534510016441345, "learning_rate": 9.988514922449879e-05, "loss": 0.0754, "step": 1410 }, { "epoch": 2.9583333333333335, "grad_norm": 0.24663835763931274, "learning_rate": 9.987948070396571e-05, "loss": 0.0866, "step": 1420 }, { "epoch": 2.9791666666666665, "grad_norm": 0.27331602573394775, "learning_rate": 9.987367581483705e-05, "loss": 0.0752, "step": 1430 }, { "epoch": 3.0, "grad_norm": 0.41480791568756104, "learning_rate": 9.986773457298311e-05, "loss": 0.0738, "step": 1440 }, { "epoch": 3.0208333333333335, "grad_norm": 0.29525160789489746, "learning_rate": 9.986165699464705e-05, "loss": 0.0873, "step": 1450 }, { "epoch": 3.0416666666666665, "grad_norm": 0.3860837519168854, "learning_rate": 9.985544309644475e-05, "loss": 0.08, "step": 1460 }, { "epoch": 3.0625, "grad_norm": 0.27515822649002075, "learning_rate": 9.984909289536473e-05, "loss": 0.0774, "step": 1470 }, { "epoch": 3.0833333333333335, "grad_norm": 0.3382152318954468, "learning_rate": 9.984260640876821e-05, "loss": 0.0849, "step": 1480 }, { "epoch": 3.1041666666666665, "grad_norm": 0.28292810916900635, "learning_rate": 9.983598365438902e-05, "loss": 0.0691, "step": 1490 }, { "epoch": 3.125, "grad_norm": 0.2525653541088104, "learning_rate": 9.98292246503335e-05, "loss": 0.089, "step": 1500 }, { "epoch": 3.1458333333333335, "grad_norm": 0.292920857667923, "learning_rate": 9.98223294150805e-05, "loss": 0.0812, "step": 1510 }, { "epoch": 3.1666666666666665, "grad_norm": 0.29690614342689514, "learning_rate": 9.981529796748134e-05, "loss": 0.0781, "step": 1520 }, { "epoch": 3.1875, "grad_norm": 0.2320324182510376, "learning_rate": 9.980813032675974e-05, "loss": 0.0847, "step": 1530 }, { "epoch": 3.2083333333333335, "grad_norm": 0.3613106906414032, "learning_rate": 9.980082651251175e-05, "loss": 0.0897, "step": 1540 }, { "epoch": 3.2291666666666665, "grad_norm": 0.28971606492996216, "learning_rate": 9.979338654470569e-05, "loss": 0.0831, "step": 1550 }, { "epoch": 3.25, "grad_norm": 0.4343855679035187, "learning_rate": 9.97858104436822e-05, "loss": 0.0698, "step": 1560 }, { "epoch": 3.2708333333333335, "grad_norm": 0.42032164335250854, "learning_rate": 9.977809823015401e-05, "loss": 0.0817, "step": 1570 }, { "epoch": 3.2916666666666665, "grad_norm": 0.2857942283153534, "learning_rate": 9.977024992520602e-05, "loss": 0.0761, "step": 1580 }, { "epoch": 3.3125, "grad_norm": 0.3066028654575348, "learning_rate": 9.976226555029522e-05, "loss": 0.0776, "step": 1590 }, { "epoch": 3.3333333333333335, "grad_norm": 0.2851119637489319, "learning_rate": 9.975414512725057e-05, "loss": 0.0729, "step": 1600 }, { "epoch": 3.3541666666666665, "grad_norm": 0.3062744736671448, "learning_rate": 9.974588867827301e-05, "loss": 0.0798, "step": 1610 }, { "epoch": 3.375, "grad_norm": 0.21507123112678528, "learning_rate": 9.973749622593534e-05, "loss": 0.0736, "step": 1620 }, { "epoch": 3.3958333333333335, "grad_norm": 0.2932787835597992, "learning_rate": 9.972896779318219e-05, "loss": 0.076, "step": 1630 }, { "epoch": 3.4166666666666665, "grad_norm": 0.21584255993366241, "learning_rate": 9.972030340333001e-05, "loss": 0.0684, "step": 1640 }, { "epoch": 3.4375, "grad_norm": 0.42951634526252747, "learning_rate": 9.97115030800669e-05, "loss": 0.079, "step": 1650 }, { "epoch": 3.4583333333333335, "grad_norm": 0.339265912771225, "learning_rate": 9.970256684745258e-05, "loss": 0.0715, "step": 1660 }, { "epoch": 3.4791666666666665, "grad_norm": 0.279469758272171, "learning_rate": 9.969349472991838e-05, "loss": 0.0676, "step": 1670 }, { "epoch": 3.5, "grad_norm": 0.27185294032096863, "learning_rate": 9.968428675226714e-05, "loss": 0.0764, "step": 1680 }, { "epoch": 3.5208333333333335, "grad_norm": 0.2852001488208771, "learning_rate": 9.967494293967312e-05, "loss": 0.0772, "step": 1690 }, { "epoch": 3.5416666666666665, "grad_norm": 0.3097515404224396, "learning_rate": 9.966546331768191e-05, "loss": 0.0685, "step": 1700 }, { "epoch": 3.5625, "grad_norm": 0.3142407238483429, "learning_rate": 9.965584791221048e-05, "loss": 0.0741, "step": 1710 }, { "epoch": 3.5833333333333335, "grad_norm": 0.35250967741012573, "learning_rate": 9.964609674954696e-05, "loss": 0.0755, "step": 1720 }, { "epoch": 3.6041666666666665, "grad_norm": 0.26371538639068604, "learning_rate": 9.963620985635065e-05, "loss": 0.0765, "step": 1730 }, { "epoch": 3.625, "grad_norm": 0.24910545349121094, "learning_rate": 9.962618725965196e-05, "loss": 0.0785, "step": 1740 }, { "epoch": 3.6458333333333335, "grad_norm": 0.26045340299606323, "learning_rate": 9.961602898685226e-05, "loss": 0.0757, "step": 1750 }, { "epoch": 3.6666666666666665, "grad_norm": 0.23580029606819153, "learning_rate": 9.96057350657239e-05, "loss": 0.0798, "step": 1760 }, { "epoch": 3.6875, "grad_norm": 0.2815806269645691, "learning_rate": 9.959530552441005e-05, "loss": 0.0787, "step": 1770 }, { "epoch": 3.7083333333333335, "grad_norm": 0.20722821354866028, "learning_rate": 9.95847403914247e-05, "loss": 0.0796, "step": 1780 }, { "epoch": 3.7291666666666665, "grad_norm": 0.24539588391780853, "learning_rate": 9.95740396956525e-05, "loss": 0.0796, "step": 1790 }, { "epoch": 3.75, "grad_norm": 0.3673502802848816, "learning_rate": 9.956320346634876e-05, "loss": 0.0746, "step": 1800 }, { "epoch": 3.7708333333333335, "grad_norm": 0.3443465828895569, "learning_rate": 9.955223173313931e-05, "loss": 0.0707, "step": 1810 }, { "epoch": 3.7916666666666665, "grad_norm": 0.3009575605392456, "learning_rate": 9.954112452602045e-05, "loss": 0.0707, "step": 1820 }, { "epoch": 3.8125, "grad_norm": 0.1806555688381195, "learning_rate": 9.952988187535886e-05, "loss": 0.0671, "step": 1830 }, { "epoch": 3.8333333333333335, "grad_norm": 0.42770466208457947, "learning_rate": 9.95185038118915e-05, "loss": 0.0685, "step": 1840 }, { "epoch": 3.8541666666666665, "grad_norm": 0.30372634530067444, "learning_rate": 9.950699036672559e-05, "loss": 0.0703, "step": 1850 }, { "epoch": 3.875, "grad_norm": 0.27388283610343933, "learning_rate": 9.949534157133844e-05, "loss": 0.076, "step": 1860 }, { "epoch": 3.8958333333333335, "grad_norm": 0.34740346670150757, "learning_rate": 9.948355745757741e-05, "loss": 0.0703, "step": 1870 }, { "epoch": 3.9166666666666665, "grad_norm": 0.23700261116027832, "learning_rate": 9.94716380576598e-05, "loss": 0.065, "step": 1880 }, { "epoch": 3.9375, "grad_norm": 0.28831854462623596, "learning_rate": 9.945958340417283e-05, "loss": 0.0646, "step": 1890 }, { "epoch": 3.9583333333333335, "grad_norm": 0.37203535437583923, "learning_rate": 9.944739353007344e-05, "loss": 0.0747, "step": 1900 }, { "epoch": 3.9791666666666665, "grad_norm": 0.2671220004558563, "learning_rate": 9.943506846868826e-05, "loss": 0.0768, "step": 1910 }, { "epoch": 4.0, "grad_norm": 0.4853641092777252, "learning_rate": 9.942260825371358e-05, "loss": 0.076, "step": 1920 }, { "epoch": 4.020833333333333, "grad_norm": 0.3976610600948334, "learning_rate": 9.941001291921512e-05, "loss": 0.0709, "step": 1930 }, { "epoch": 4.041666666666667, "grad_norm": 0.36707454919815063, "learning_rate": 9.939728249962807e-05, "loss": 0.0804, "step": 1940 }, { "epoch": 4.0625, "grad_norm": 0.25931233167648315, "learning_rate": 9.938441702975689e-05, "loss": 0.069, "step": 1950 }, { "epoch": 4.083333333333333, "grad_norm": 0.26212647557258606, "learning_rate": 9.937141654477528e-05, "loss": 0.0614, "step": 1960 }, { "epoch": 4.104166666666667, "grad_norm": 0.31292110681533813, "learning_rate": 9.93582810802261e-05, "loss": 0.0683, "step": 1970 }, { "epoch": 4.125, "grad_norm": 0.20970341563224792, "learning_rate": 9.934501067202117e-05, "loss": 0.0733, "step": 1980 }, { "epoch": 4.145833333333333, "grad_norm": 0.3387843072414398, "learning_rate": 9.93316053564413e-05, "loss": 0.0749, "step": 1990 }, { "epoch": 4.166666666666667, "grad_norm": 0.2670120894908905, "learning_rate": 9.931806517013612e-05, "loss": 0.0604, "step": 2000 }, { "epoch": 4.1875, "grad_norm": 0.28642144799232483, "learning_rate": 9.930439015012396e-05, "loss": 0.0592, "step": 2010 }, { "epoch": 4.208333333333333, "grad_norm": 0.21309316158294678, "learning_rate": 9.929058033379181e-05, "loss": 0.0634, "step": 2020 }, { "epoch": 4.229166666666667, "grad_norm": 0.23457269370555878, "learning_rate": 9.927663575889521e-05, "loss": 0.0705, "step": 2030 }, { "epoch": 4.25, "grad_norm": 0.22506628930568695, "learning_rate": 9.926255646355804e-05, "loss": 0.0734, "step": 2040 }, { "epoch": 4.270833333333333, "grad_norm": 0.36226344108581543, "learning_rate": 9.92483424862726e-05, "loss": 0.0688, "step": 2050 }, { "epoch": 4.291666666666667, "grad_norm": 0.2808593809604645, "learning_rate": 9.923399386589933e-05, "loss": 0.0675, "step": 2060 }, { "epoch": 4.3125, "grad_norm": 0.2515670955181122, "learning_rate": 9.921951064166684e-05, "loss": 0.0661, "step": 2070 }, { "epoch": 4.333333333333333, "grad_norm": 0.36597588658332825, "learning_rate": 9.92048928531717e-05, "loss": 0.0681, "step": 2080 }, { "epoch": 4.354166666666667, "grad_norm": 0.36826416850090027, "learning_rate": 9.919014054037836e-05, "loss": 0.0587, "step": 2090 }, { "epoch": 4.375, "grad_norm": 0.2916836142539978, "learning_rate": 9.917525374361912e-05, "loss": 0.0634, "step": 2100 }, { "epoch": 4.395833333333333, "grad_norm": 0.3395591080188751, "learning_rate": 9.91602325035939e-05, "loss": 0.0598, "step": 2110 }, { "epoch": 4.416666666666667, "grad_norm": 0.251362681388855, "learning_rate": 9.914507686137019e-05, "loss": 0.063, "step": 2120 }, { "epoch": 4.4375, "grad_norm": 0.24590761959552765, "learning_rate": 9.912978685838294e-05, "loss": 0.064, "step": 2130 }, { "epoch": 4.458333333333333, "grad_norm": 0.21240048110485077, "learning_rate": 9.911436253643445e-05, "loss": 0.0615, "step": 2140 }, { "epoch": 4.479166666666667, "grad_norm": 0.3141573965549469, "learning_rate": 9.90988039376942e-05, "loss": 0.078, "step": 2150 }, { "epoch": 4.5, "grad_norm": 0.24720428884029388, "learning_rate": 9.90831111046988e-05, "loss": 0.061, "step": 2160 }, { "epoch": 4.520833333333333, "grad_norm": 0.2611321210861206, "learning_rate": 9.90672840803519e-05, "loss": 0.0668, "step": 2170 }, { "epoch": 4.541666666666667, "grad_norm": 0.23228588700294495, "learning_rate": 9.905132290792394e-05, "loss": 0.0599, "step": 2180 }, { "epoch": 4.5625, "grad_norm": 0.2587657570838928, "learning_rate": 9.903522763105218e-05, "loss": 0.0708, "step": 2190 }, { "epoch": 4.583333333333333, "grad_norm": 0.33120688796043396, "learning_rate": 9.901899829374047e-05, "loss": 0.0685, "step": 2200 }, { "epoch": 4.604166666666667, "grad_norm": 0.23098096251487732, "learning_rate": 9.900263494035921e-05, "loss": 0.0597, "step": 2210 }, { "epoch": 4.625, "grad_norm": 0.27722781896591187, "learning_rate": 9.89861376156452e-05, "loss": 0.0659, "step": 2220 }, { "epoch": 4.645833333333333, "grad_norm": 0.31936824321746826, "learning_rate": 9.896950636470147e-05, "loss": 0.0612, "step": 2230 }, { "epoch": 4.666666666666667, "grad_norm": 0.22828179597854614, "learning_rate": 9.895274123299723e-05, "loss": 0.0623, "step": 2240 }, { "epoch": 4.6875, "grad_norm": 0.4121607840061188, "learning_rate": 9.893584226636772e-05, "loss": 0.0663, "step": 2250 }, { "epoch": 4.708333333333333, "grad_norm": 0.24829070270061493, "learning_rate": 9.891880951101407e-05, "loss": 0.0635, "step": 2260 }, { "epoch": 4.729166666666667, "grad_norm": 0.33131471276283264, "learning_rate": 9.890164301350318e-05, "loss": 0.0622, "step": 2270 }, { "epoch": 4.75, "grad_norm": 0.218922957777977, "learning_rate": 9.888434282076758e-05, "loss": 0.0705, "step": 2280 }, { "epoch": 4.770833333333333, "grad_norm": 0.22936338186264038, "learning_rate": 9.886690898010535e-05, "loss": 0.0673, "step": 2290 }, { "epoch": 4.791666666666667, "grad_norm": 0.2937561869621277, "learning_rate": 9.884934153917997e-05, "loss": 0.0559, "step": 2300 }, { "epoch": 4.8125, "grad_norm": 0.22539077699184418, "learning_rate": 9.883164054602012e-05, "loss": 0.069, "step": 2310 }, { "epoch": 4.833333333333333, "grad_norm": 0.23045708239078522, "learning_rate": 9.881380604901964e-05, "loss": 0.0559, "step": 2320 }, { "epoch": 4.854166666666667, "grad_norm": 0.18898148834705353, "learning_rate": 9.879583809693738e-05, "loss": 0.071, "step": 2330 }, { "epoch": 4.875, "grad_norm": 0.2449178248643875, "learning_rate": 9.877773673889701e-05, "loss": 0.0675, "step": 2340 }, { "epoch": 4.895833333333333, "grad_norm": 0.18252669274806976, "learning_rate": 9.8759502024387e-05, "loss": 0.0654, "step": 2350 }, { "epoch": 4.916666666666667, "grad_norm": 0.26312264800071716, "learning_rate": 9.87411340032603e-05, "loss": 0.0663, "step": 2360 }, { "epoch": 4.9375, "grad_norm": 0.34274017810821533, "learning_rate": 9.872263272573443e-05, "loss": 0.064, "step": 2370 }, { "epoch": 4.958333333333333, "grad_norm": 0.19337745010852814, "learning_rate": 9.870399824239117e-05, "loss": 0.056, "step": 2380 }, { "epoch": 4.979166666666667, "grad_norm": 0.19196492433547974, "learning_rate": 9.868523060417646e-05, "loss": 0.0676, "step": 2390 }, { "epoch": 5.0, "grad_norm": 0.36216410994529724, "learning_rate": 9.86663298624003e-05, "loss": 0.0678, "step": 2400 }, { "epoch": 5.020833333333333, "grad_norm": 0.21863169968128204, "learning_rate": 9.864729606873663e-05, "loss": 0.0525, "step": 2410 }, { "epoch": 5.041666666666667, "grad_norm": 0.2315935492515564, "learning_rate": 9.862812927522309e-05, "loss": 0.0587, "step": 2420 }, { "epoch": 5.0625, "grad_norm": 0.19076167047023773, "learning_rate": 9.860882953426099e-05, "loss": 0.0612, "step": 2430 }, { "epoch": 5.083333333333333, "grad_norm": 0.20650267601013184, "learning_rate": 9.858939689861506e-05, "loss": 0.0578, "step": 2440 }, { "epoch": 5.104166666666667, "grad_norm": 0.19707655906677246, "learning_rate": 9.856983142141339e-05, "loss": 0.0613, "step": 2450 }, { "epoch": 5.125, "grad_norm": 0.33584490418434143, "learning_rate": 9.855013315614725e-05, "loss": 0.0604, "step": 2460 }, { "epoch": 5.145833333333333, "grad_norm": 0.2753019332885742, "learning_rate": 9.853030215667093e-05, "loss": 0.0542, "step": 2470 }, { "epoch": 5.166666666666667, "grad_norm": 0.2268713265657425, "learning_rate": 9.851033847720166e-05, "loss": 0.0599, "step": 2480 }, { "epoch": 5.1875, "grad_norm": 0.3279458284378052, "learning_rate": 9.849024217231935e-05, "loss": 0.0532, "step": 2490 }, { "epoch": 5.208333333333333, "grad_norm": 0.3357597291469574, "learning_rate": 9.847001329696653e-05, "loss": 0.0622, "step": 2500 }, { "epoch": 5.229166666666667, "grad_norm": 0.43152275681495667, "learning_rate": 9.844965190644817e-05, "loss": 0.0611, "step": 2510 }, { "epoch": 5.25, "grad_norm": 0.30478575825691223, "learning_rate": 9.842915805643155e-05, "loss": 0.0593, "step": 2520 }, { "epoch": 5.270833333333333, "grad_norm": 0.20769348740577698, "learning_rate": 9.840853180294608e-05, "loss": 0.0601, "step": 2530 }, { "epoch": 5.291666666666667, "grad_norm": 0.320125013589859, "learning_rate": 9.838777320238312e-05, "loss": 0.065, "step": 2540 }, { "epoch": 5.3125, "grad_norm": 0.2897655963897705, "learning_rate": 9.836688231149592e-05, "loss": 0.0725, "step": 2550 }, { "epoch": 5.333333333333333, "grad_norm": 0.2573387026786804, "learning_rate": 9.834585918739936e-05, "loss": 0.0603, "step": 2560 }, { "epoch": 5.354166666666667, "grad_norm": 0.3400767147541046, "learning_rate": 9.832470388756987e-05, "loss": 0.0591, "step": 2570 }, { "epoch": 5.375, "grad_norm": 0.37439897656440735, "learning_rate": 9.830341646984521e-05, "loss": 0.0586, "step": 2580 }, { "epoch": 5.395833333333333, "grad_norm": 0.28226813673973083, "learning_rate": 9.82819969924244e-05, "loss": 0.0672, "step": 2590 }, { "epoch": 5.416666666666667, "grad_norm": 0.30926427245140076, "learning_rate": 9.826044551386744e-05, "loss": 0.0579, "step": 2600 }, { "epoch": 5.4375, "grad_norm": 0.24280086159706116, "learning_rate": 9.823876209309527e-05, "loss": 0.0591, "step": 2610 }, { "epoch": 5.458333333333333, "grad_norm": 0.23398800194263458, "learning_rate": 9.821694678938953e-05, "loss": 0.0572, "step": 2620 }, { "epoch": 5.479166666666667, "grad_norm": 0.2654149830341339, "learning_rate": 9.819499966239243e-05, "loss": 0.05, "step": 2630 }, { "epoch": 5.5, "grad_norm": 0.2529338598251343, "learning_rate": 9.817292077210659e-05, "loss": 0.0515, "step": 2640 }, { "epoch": 5.520833333333333, "grad_norm": 0.21229062974452972, "learning_rate": 9.815071017889482e-05, "loss": 0.0594, "step": 2650 }, { "epoch": 5.541666666666667, "grad_norm": 0.29545167088508606, "learning_rate": 9.812836794348004e-05, "loss": 0.0696, "step": 2660 }, { "epoch": 5.5625, "grad_norm": 0.2144061028957367, "learning_rate": 9.81058941269451e-05, "loss": 0.0637, "step": 2670 }, { "epoch": 5.583333333333333, "grad_norm": 0.20410171151161194, "learning_rate": 9.808328879073251e-05, "loss": 0.0617, "step": 2680 }, { "epoch": 5.604166666666667, "grad_norm": 0.2734321057796478, "learning_rate": 9.806055199664446e-05, "loss": 0.0507, "step": 2690 }, { "epoch": 5.625, "grad_norm": 0.23014973104000092, "learning_rate": 9.803768380684242e-05, "loss": 0.0649, "step": 2700 }, { "epoch": 5.645833333333333, "grad_norm": 0.22899433970451355, "learning_rate": 9.801468428384716e-05, "loss": 0.0575, "step": 2710 }, { "epoch": 5.666666666666667, "grad_norm": 0.19466561079025269, "learning_rate": 9.799155349053851e-05, "loss": 0.0588, "step": 2720 }, { "epoch": 5.6875, "grad_norm": 0.18705128133296967, "learning_rate": 9.796829149015517e-05, "loss": 0.0559, "step": 2730 }, { "epoch": 5.708333333333333, "grad_norm": 0.28512948751449585, "learning_rate": 9.794489834629455e-05, "loss": 0.0641, "step": 2740 }, { "epoch": 5.729166666666667, "grad_norm": 0.18658211827278137, "learning_rate": 9.792137412291265e-05, "loss": 0.0512, "step": 2750 }, { "epoch": 5.75, "grad_norm": 0.2583482265472412, "learning_rate": 9.789771888432375e-05, "loss": 0.0583, "step": 2760 }, { "epoch": 5.770833333333333, "grad_norm": 0.29451683163642883, "learning_rate": 9.787393269520039e-05, "loss": 0.058, "step": 2770 }, { "epoch": 5.791666666666667, "grad_norm": 0.38611292839050293, "learning_rate": 9.785001562057309e-05, "loss": 0.0542, "step": 2780 }, { "epoch": 5.8125, "grad_norm": 0.20525746047496796, "learning_rate": 9.782596772583026e-05, "loss": 0.0536, "step": 2790 }, { "epoch": 5.833333333333333, "grad_norm": 0.24962572753429413, "learning_rate": 9.780178907671789e-05, "loss": 0.0557, "step": 2800 }, { "epoch": 5.854166666666667, "grad_norm": 0.18856558203697205, "learning_rate": 9.777747973933948e-05, "loss": 0.0584, "step": 2810 }, { "epoch": 5.875, "grad_norm": 0.23385100066661835, "learning_rate": 9.775303978015585e-05, "loss": 0.0548, "step": 2820 }, { "epoch": 5.895833333333333, "grad_norm": 0.21215985715389252, "learning_rate": 9.772846926598491e-05, "loss": 0.0571, "step": 2830 }, { "epoch": 5.916666666666667, "grad_norm": 0.2110118716955185, "learning_rate": 9.77037682640015e-05, "loss": 0.0594, "step": 2840 }, { "epoch": 5.9375, "grad_norm": 0.20333078503608704, "learning_rate": 9.767893684173721e-05, "loss": 0.0602, "step": 2850 }, { "epoch": 5.958333333333333, "grad_norm": 0.2858556807041168, "learning_rate": 9.765397506708023e-05, "loss": 0.053, "step": 2860 }, { "epoch": 5.979166666666667, "grad_norm": 0.24203169345855713, "learning_rate": 9.762888300827507e-05, "loss": 0.054, "step": 2870 }, { "epoch": 6.0, "grad_norm": 0.24169403314590454, "learning_rate": 9.760366073392246e-05, "loss": 0.0536, "step": 2880 }, { "epoch": 6.020833333333333, "grad_norm": 0.16923387348651886, "learning_rate": 9.757830831297914e-05, "loss": 0.0511, "step": 2890 }, { "epoch": 6.041666666666667, "grad_norm": 0.20546302199363708, "learning_rate": 9.755282581475769e-05, "loss": 0.0569, "step": 2900 }, { "epoch": 6.0625, "grad_norm": 0.3414348363876343, "learning_rate": 9.752721330892624e-05, "loss": 0.0659, "step": 2910 }, { "epoch": 6.083333333333333, "grad_norm": 0.2375105619430542, "learning_rate": 9.750147086550844e-05, "loss": 0.0504, "step": 2920 }, { "epoch": 6.104166666666667, "grad_norm": 0.31672829389572144, "learning_rate": 9.747559855488313e-05, "loss": 0.0518, "step": 2930 }, { "epoch": 6.125, "grad_norm": 0.17205794155597687, "learning_rate": 9.744959644778422e-05, "loss": 0.0588, "step": 2940 }, { "epoch": 6.145833333333333, "grad_norm": 0.15538083016872406, "learning_rate": 9.742346461530048e-05, "loss": 0.0542, "step": 2950 }, { "epoch": 6.166666666666667, "grad_norm": 0.26209038496017456, "learning_rate": 9.739720312887535e-05, "loss": 0.0627, "step": 2960 }, { "epoch": 6.1875, "grad_norm": 0.19136466085910797, "learning_rate": 9.73708120603067e-05, "loss": 0.056, "step": 2970 }, { "epoch": 6.208333333333333, "grad_norm": 0.3000425696372986, "learning_rate": 9.734429148174675e-05, "loss": 0.059, "step": 2980 }, { "epoch": 6.229166666666667, "grad_norm": 0.24280036985874176, "learning_rate": 9.731764146570173e-05, "loss": 0.0518, "step": 2990 }, { "epoch": 6.25, "grad_norm": 0.25895851850509644, "learning_rate": 9.729086208503174e-05, "loss": 0.0557, "step": 3000 }, { "epoch": 6.270833333333333, "grad_norm": 0.2897571921348572, "learning_rate": 9.726395341295062e-05, "loss": 0.0586, "step": 3010 }, { "epoch": 6.291666666666667, "grad_norm": 0.19407373666763306, "learning_rate": 9.723691552302562e-05, "loss": 0.0655, "step": 3020 }, { "epoch": 6.3125, "grad_norm": 0.20852215588092804, "learning_rate": 9.720974848917735e-05, "loss": 0.0506, "step": 3030 }, { "epoch": 6.333333333333333, "grad_norm": 0.24684551358222961, "learning_rate": 9.718245238567939e-05, "loss": 0.0529, "step": 3040 }, { "epoch": 6.354166666666667, "grad_norm": 0.23250025510787964, "learning_rate": 9.715502728715826e-05, "loss": 0.0489, "step": 3050 }, { "epoch": 6.375, "grad_norm": 0.36840417981147766, "learning_rate": 9.712747326859315e-05, "loss": 0.0612, "step": 3060 }, { "epoch": 6.395833333333333, "grad_norm": 0.17260506749153137, "learning_rate": 9.709979040531569e-05, "loss": 0.0611, "step": 3070 }, { "epoch": 6.416666666666667, "grad_norm": 0.23657412827014923, "learning_rate": 9.707197877300974e-05, "loss": 0.0556, "step": 3080 }, { "epoch": 6.4375, "grad_norm": 0.36251214146614075, "learning_rate": 9.704403844771128e-05, "loss": 0.0577, "step": 3090 }, { "epoch": 6.458333333333333, "grad_norm": 0.2659638524055481, "learning_rate": 9.701596950580806e-05, "loss": 0.0608, "step": 3100 }, { "epoch": 6.479166666666667, "grad_norm": 0.24786606431007385, "learning_rate": 9.698777202403953e-05, "loss": 0.0605, "step": 3110 }, { "epoch": 6.5, "grad_norm": 0.395853728055954, "learning_rate": 9.695944607949649e-05, "loss": 0.0625, "step": 3120 }, { "epoch": 6.520833333333333, "grad_norm": 0.19931502640247345, "learning_rate": 9.693099174962103e-05, "loss": 0.0537, "step": 3130 }, { "epoch": 6.541666666666667, "grad_norm": 0.1778145283460617, "learning_rate": 9.690240911220618e-05, "loss": 0.0578, "step": 3140 }, { "epoch": 6.5625, "grad_norm": 0.21700014173984528, "learning_rate": 9.687369824539577e-05, "loss": 0.0574, "step": 3150 }, { "epoch": 6.583333333333333, "grad_norm": 0.17389781773090363, "learning_rate": 9.684485922768422e-05, "loss": 0.052, "step": 3160 }, { "epoch": 6.604166666666667, "grad_norm": 0.2094574272632599, "learning_rate": 9.681589213791633e-05, "loss": 0.0532, "step": 3170 }, { "epoch": 6.625, "grad_norm": 0.16555386781692505, "learning_rate": 9.6786797055287e-05, "loss": 0.0554, "step": 3180 }, { "epoch": 6.645833333333333, "grad_norm": 0.20302963256835938, "learning_rate": 9.675757405934103e-05, "loss": 0.0507, "step": 3190 }, { "epoch": 6.666666666666667, "grad_norm": 0.216552272439003, "learning_rate": 9.672822322997305e-05, "loss": 0.0639, "step": 3200 }, { "epoch": 6.6875, "grad_norm": 0.25137466192245483, "learning_rate": 9.669874464742705e-05, "loss": 0.0592, "step": 3210 }, { "epoch": 6.708333333333333, "grad_norm": 0.26302218437194824, "learning_rate": 9.66691383922964e-05, "loss": 0.0519, "step": 3220 }, { "epoch": 6.729166666666667, "grad_norm": 0.36862683296203613, "learning_rate": 9.663940454552342e-05, "loss": 0.0569, "step": 3230 }, { "epoch": 6.75, "grad_norm": 0.2351865917444229, "learning_rate": 9.660954318839933e-05, "loss": 0.0484, "step": 3240 }, { "epoch": 6.770833333333333, "grad_norm": 0.21510300040245056, "learning_rate": 9.657955440256395e-05, "loss": 0.051, "step": 3250 }, { "epoch": 6.791666666666667, "grad_norm": 0.24395425617694855, "learning_rate": 9.654943827000548e-05, "loss": 0.0581, "step": 3260 }, { "epoch": 6.8125, "grad_norm": 0.3094872534275055, "learning_rate": 9.651919487306025e-05, "loss": 0.0536, "step": 3270 }, { "epoch": 6.833333333333333, "grad_norm": 0.29574868083000183, "learning_rate": 9.648882429441257e-05, "loss": 0.0514, "step": 3280 }, { "epoch": 6.854166666666667, "grad_norm": 0.28777244687080383, "learning_rate": 9.645832661709444e-05, "loss": 0.0549, "step": 3290 }, { "epoch": 6.875, "grad_norm": 0.2174873650074005, "learning_rate": 9.642770192448536e-05, "loss": 0.0439, "step": 3300 }, { "epoch": 6.895833333333333, "grad_norm": 0.22218073904514313, "learning_rate": 9.639695030031204e-05, "loss": 0.0444, "step": 3310 }, { "epoch": 6.916666666666667, "grad_norm": 0.2019510418176651, "learning_rate": 9.636607182864827e-05, "loss": 0.0524, "step": 3320 }, { "epoch": 6.9375, "grad_norm": 0.3344700038433075, "learning_rate": 9.63350665939146e-05, "loss": 0.0485, "step": 3330 }, { "epoch": 6.958333333333333, "grad_norm": 0.24980123341083527, "learning_rate": 9.630393468087818e-05, "loss": 0.0516, "step": 3340 }, { "epoch": 6.979166666666667, "grad_norm": 0.30588269233703613, "learning_rate": 9.627267617465243e-05, "loss": 0.053, "step": 3350 }, { "epoch": 7.0, "grad_norm": 0.5092779397964478, "learning_rate": 9.624129116069694e-05, "loss": 0.0531, "step": 3360 }, { "epoch": 7.020833333333333, "grad_norm": 0.23375216126441956, "learning_rate": 9.620977972481716e-05, "loss": 0.0599, "step": 3370 }, { "epoch": 7.041666666666667, "grad_norm": 0.23782002925872803, "learning_rate": 9.617814195316411e-05, "loss": 0.051, "step": 3380 }, { "epoch": 7.0625, "grad_norm": 0.17052032053470612, "learning_rate": 9.614637793223425e-05, "loss": 0.0599, "step": 3390 }, { "epoch": 7.083333333333333, "grad_norm": 0.25970593094825745, "learning_rate": 9.611448774886924e-05, "loss": 0.0493, "step": 3400 }, { "epoch": 7.104166666666667, "grad_norm": 0.40727171301841736, "learning_rate": 9.60824714902556e-05, "loss": 0.0623, "step": 3410 }, { "epoch": 7.125, "grad_norm": 0.22689089179039001, "learning_rate": 9.605032924392457e-05, "loss": 0.0535, "step": 3420 }, { "epoch": 7.145833333333333, "grad_norm": 0.16970165073871613, "learning_rate": 9.601806109775179e-05, "loss": 0.0528, "step": 3430 }, { "epoch": 7.166666666666667, "grad_norm": 0.33109739422798157, "learning_rate": 9.598566713995718e-05, "loss": 0.0471, "step": 3440 }, { "epoch": 7.1875, "grad_norm": 0.17139792442321777, "learning_rate": 9.595314745910456e-05, "loss": 0.0503, "step": 3450 }, { "epoch": 7.208333333333333, "grad_norm": 0.22237423062324524, "learning_rate": 9.59205021441015e-05, "loss": 0.054, "step": 3460 }, { "epoch": 7.229166666666667, "grad_norm": 0.21941028535366058, "learning_rate": 9.588773128419906e-05, "loss": 0.049, "step": 3470 }, { "epoch": 7.25, "grad_norm": 0.20723864436149597, "learning_rate": 9.58548349689915e-05, "loss": 0.0457, "step": 3480 }, { "epoch": 7.270833333333333, "grad_norm": 0.37272804975509644, "learning_rate": 9.582181328841611e-05, "loss": 0.0525, "step": 3490 }, { "epoch": 7.291666666666667, "grad_norm": 0.24199829995632172, "learning_rate": 9.578866633275288e-05, "loss": 0.0613, "step": 3500 }, { "epoch": 7.3125, "grad_norm": 0.23078033328056335, "learning_rate": 9.575539419262434e-05, "loss": 0.0562, "step": 3510 }, { "epoch": 7.333333333333333, "grad_norm": 0.2660127580165863, "learning_rate": 9.572199695899522e-05, "loss": 0.0479, "step": 3520 }, { "epoch": 7.354166666666667, "grad_norm": 0.26204487681388855, "learning_rate": 9.568847472317232e-05, "loss": 0.0478, "step": 3530 }, { "epoch": 7.375, "grad_norm": 0.19774079322814941, "learning_rate": 9.565482757680415e-05, "loss": 0.0512, "step": 3540 }, { "epoch": 7.395833333333333, "grad_norm": 0.2860311269760132, "learning_rate": 9.562105561188069e-05, "loss": 0.0559, "step": 3550 }, { "epoch": 7.416666666666667, "grad_norm": 0.2566678822040558, "learning_rate": 9.558715892073323e-05, "loss": 0.0553, "step": 3560 }, { "epoch": 7.4375, "grad_norm": 0.3492486774921417, "learning_rate": 9.555313759603402e-05, "loss": 0.0523, "step": 3570 }, { "epoch": 7.458333333333333, "grad_norm": 0.23349975049495697, "learning_rate": 9.551899173079607e-05, "loss": 0.0524, "step": 3580 }, { "epoch": 7.479166666666667, "grad_norm": 0.24389810860157013, "learning_rate": 9.548472141837286e-05, "loss": 0.0565, "step": 3590 }, { "epoch": 7.5, "grad_norm": 0.2308111935853958, "learning_rate": 9.545032675245813e-05, "loss": 0.0473, "step": 3600 }, { "epoch": 7.520833333333333, "grad_norm": 0.19793066382408142, "learning_rate": 9.541580782708557e-05, "loss": 0.0519, "step": 3610 }, { "epoch": 7.541666666666667, "grad_norm": 0.20771275460720062, "learning_rate": 9.538116473662861e-05, "loss": 0.0516, "step": 3620 }, { "epoch": 7.5625, "grad_norm": 0.28449076414108276, "learning_rate": 9.534639757580013e-05, "loss": 0.0511, "step": 3630 }, { "epoch": 7.583333333333333, "grad_norm": 0.2600167691707611, "learning_rate": 9.531150643965223e-05, "loss": 0.0505, "step": 3640 }, { "epoch": 7.604166666666667, "grad_norm": 0.22455944120883942, "learning_rate": 9.527649142357596e-05, "loss": 0.0498, "step": 3650 }, { "epoch": 7.625, "grad_norm": 0.18330824375152588, "learning_rate": 9.524135262330098e-05, "loss": 0.0492, "step": 3660 }, { "epoch": 7.645833333333333, "grad_norm": 0.17716652154922485, "learning_rate": 9.520609013489547e-05, "loss": 0.0516, "step": 3670 }, { "epoch": 7.666666666666667, "grad_norm": 0.19596832990646362, "learning_rate": 9.517070405476575e-05, "loss": 0.0479, "step": 3680 }, { "epoch": 7.6875, "grad_norm": 0.31888121366500854, "learning_rate": 9.513519447965595e-05, "loss": 0.0522, "step": 3690 }, { "epoch": 7.708333333333333, "grad_norm": 0.3106749653816223, "learning_rate": 9.509956150664796e-05, "loss": 0.0511, "step": 3700 }, { "epoch": 7.729166666666667, "grad_norm": 0.27673962712287903, "learning_rate": 9.50638052331609e-05, "loss": 0.0514, "step": 3710 }, { "epoch": 7.75, "grad_norm": 0.17645935714244843, "learning_rate": 9.502792575695112e-05, "loss": 0.0544, "step": 3720 }, { "epoch": 7.770833333333333, "grad_norm": 0.2924383878707886, "learning_rate": 9.499192317611167e-05, "loss": 0.0464, "step": 3730 }, { "epoch": 7.791666666666667, "grad_norm": 0.29990291595458984, "learning_rate": 9.49557975890723e-05, "loss": 0.053, "step": 3740 }, { "epoch": 7.8125, "grad_norm": 0.22877401113510132, "learning_rate": 9.491954909459895e-05, "loss": 0.0534, "step": 3750 }, { "epoch": 7.833333333333333, "grad_norm": 0.27905040979385376, "learning_rate": 9.488317779179361e-05, "loss": 0.0444, "step": 3760 }, { "epoch": 7.854166666666667, "grad_norm": 0.2213212251663208, "learning_rate": 9.484668378009408e-05, "loss": 0.0557, "step": 3770 }, { "epoch": 7.875, "grad_norm": 0.16711388528347015, "learning_rate": 9.481006715927351e-05, "loss": 0.0502, "step": 3780 }, { "epoch": 7.895833333333333, "grad_norm": 0.23193155229091644, "learning_rate": 9.477332802944044e-05, "loss": 0.0481, "step": 3790 }, { "epoch": 7.916666666666667, "grad_norm": 0.1802300661802292, "learning_rate": 9.473646649103818e-05, "loss": 0.0473, "step": 3800 }, { "epoch": 7.9375, "grad_norm": 0.2830936014652252, "learning_rate": 9.46994826448448e-05, "loss": 0.0483, "step": 3810 }, { "epoch": 7.958333333333333, "grad_norm": 0.20318473875522614, "learning_rate": 9.46623765919727e-05, "loss": 0.0519, "step": 3820 }, { "epoch": 7.979166666666667, "grad_norm": 0.2717377543449402, "learning_rate": 9.462514843386845e-05, "loss": 0.0517, "step": 3830 }, { "epoch": 8.0, "grad_norm": 0.3748897314071655, "learning_rate": 9.458779827231237e-05, "loss": 0.0502, "step": 3840 }, { "epoch": 8.020833333333334, "grad_norm": 0.16911153495311737, "learning_rate": 9.45503262094184e-05, "loss": 0.0511, "step": 3850 }, { "epoch": 8.041666666666666, "grad_norm": 0.3325989842414856, "learning_rate": 9.451273234763371e-05, "loss": 0.0525, "step": 3860 }, { "epoch": 8.0625, "grad_norm": 0.20079921185970306, "learning_rate": 9.447501678973852e-05, "loss": 0.0545, "step": 3870 }, { "epoch": 8.083333333333334, "grad_norm": 0.1999741941690445, "learning_rate": 9.443717963884569e-05, "loss": 0.0504, "step": 3880 }, { "epoch": 8.104166666666666, "grad_norm": 0.1934685856103897, "learning_rate": 9.439922099840054e-05, "loss": 0.0468, "step": 3890 }, { "epoch": 8.125, "grad_norm": 0.33957213163375854, "learning_rate": 9.43611409721806e-05, "loss": 0.0556, "step": 3900 }, { "epoch": 8.145833333333334, "grad_norm": 0.16944213211536407, "learning_rate": 9.432293966429514e-05, "loss": 0.0527, "step": 3910 }, { "epoch": 8.166666666666666, "grad_norm": 0.24537616968154907, "learning_rate": 9.428461717918511e-05, "loss": 0.0479, "step": 3920 }, { "epoch": 8.1875, "grad_norm": 0.33423295617103577, "learning_rate": 9.424617362162271e-05, "loss": 0.0471, "step": 3930 }, { "epoch": 8.208333333333334, "grad_norm": 0.25090292096138, "learning_rate": 9.420760909671118e-05, "loss": 0.0503, "step": 3940 }, { "epoch": 8.229166666666666, "grad_norm": 0.15253771841526031, "learning_rate": 9.416892370988444e-05, "loss": 0.0513, "step": 3950 }, { "epoch": 8.25, "grad_norm": 0.2537829279899597, "learning_rate": 9.413011756690685e-05, "loss": 0.0515, "step": 3960 }, { "epoch": 8.270833333333334, "grad_norm": 0.19748927652835846, "learning_rate": 9.409119077387294e-05, "loss": 0.0451, "step": 3970 }, { "epoch": 8.291666666666666, "grad_norm": 0.2414957880973816, "learning_rate": 9.405214343720707e-05, "loss": 0.0507, "step": 3980 }, { "epoch": 8.3125, "grad_norm": 0.20164835453033447, "learning_rate": 9.401297566366318e-05, "loss": 0.0446, "step": 3990 }, { "epoch": 8.333333333333334, "grad_norm": 0.2714141011238098, "learning_rate": 9.397368756032445e-05, "loss": 0.0521, "step": 4000 }, { "epoch": 8.354166666666666, "grad_norm": 0.3334158658981323, "learning_rate": 9.393427923460308e-05, "loss": 0.0497, "step": 4010 }, { "epoch": 8.375, "grad_norm": 0.19289934635162354, "learning_rate": 9.389475079423988e-05, "loss": 0.0467, "step": 4020 }, { "epoch": 8.395833333333334, "grad_norm": 0.21029213070869446, "learning_rate": 9.385510234730415e-05, "loss": 0.0475, "step": 4030 }, { "epoch": 8.416666666666666, "grad_norm": 0.291045606136322, "learning_rate": 9.381533400219318e-05, "loss": 0.0529, "step": 4040 }, { "epoch": 8.4375, "grad_norm": 0.1704217493534088, "learning_rate": 9.377544586763215e-05, "loss": 0.0468, "step": 4050 }, { "epoch": 8.458333333333334, "grad_norm": 0.21755990386009216, "learning_rate": 9.373543805267368e-05, "loss": 0.0483, "step": 4060 }, { "epoch": 8.479166666666666, "grad_norm": 0.2804492115974426, "learning_rate": 9.369531066669758e-05, "loss": 0.0523, "step": 4070 }, { "epoch": 8.5, "grad_norm": 0.17824873328208923, "learning_rate": 9.365506381941066e-05, "loss": 0.0422, "step": 4080 }, { "epoch": 8.520833333333334, "grad_norm": 0.20634615421295166, "learning_rate": 9.36146976208462e-05, "loss": 0.0481, "step": 4090 }, { "epoch": 8.541666666666666, "grad_norm": 0.312421590089798, "learning_rate": 9.357421218136386e-05, "loss": 0.0496, "step": 4100 }, { "epoch": 8.5625, "grad_norm": 0.21238335967063904, "learning_rate": 9.353360761164931e-05, "loss": 0.047, "step": 4110 }, { "epoch": 8.583333333333334, "grad_norm": 0.31311655044555664, "learning_rate": 9.349288402271388e-05, "loss": 0.0462, "step": 4120 }, { "epoch": 8.604166666666666, "grad_norm": 0.36591675877571106, "learning_rate": 9.345204152589428e-05, "loss": 0.0508, "step": 4130 }, { "epoch": 8.625, "grad_norm": 0.21702781319618225, "learning_rate": 9.341108023285238e-05, "loss": 0.0473, "step": 4140 }, { "epoch": 8.645833333333334, "grad_norm": 0.21521112322807312, "learning_rate": 9.337000025557476e-05, "loss": 0.0517, "step": 4150 }, { "epoch": 8.666666666666666, "grad_norm": 0.26902931928634644, "learning_rate": 9.332880170637252e-05, "loss": 0.0396, "step": 4160 }, { "epoch": 8.6875, "grad_norm": 0.2384699434041977, "learning_rate": 9.328748469788093e-05, "loss": 0.048, "step": 4170 }, { "epoch": 8.708333333333334, "grad_norm": 0.15759076178073883, "learning_rate": 9.32460493430591e-05, "loss": 0.0537, "step": 4180 }, { "epoch": 8.729166666666666, "grad_norm": 0.16703331470489502, "learning_rate": 9.320449575518972e-05, "loss": 0.0499, "step": 4190 }, { "epoch": 8.75, "grad_norm": 0.24921244382858276, "learning_rate": 9.316282404787871e-05, "loss": 0.0519, "step": 4200 }, { "epoch": 8.770833333333334, "grad_norm": 0.29018405079841614, "learning_rate": 9.31210343350549e-05, "loss": 0.0433, "step": 4210 }, { "epoch": 8.791666666666666, "grad_norm": 0.22884657979011536, "learning_rate": 9.30791267309698e-05, "loss": 0.0466, "step": 4220 }, { "epoch": 8.8125, "grad_norm": 0.148003488779068, "learning_rate": 9.30371013501972e-05, "loss": 0.0438, "step": 4230 }, { "epoch": 8.833333333333334, "grad_norm": 0.34548866748809814, "learning_rate": 9.299495830763286e-05, "loss": 0.0494, "step": 4240 }, { "epoch": 8.854166666666666, "grad_norm": 0.23026908934116364, "learning_rate": 9.295269771849427e-05, "loss": 0.0516, "step": 4250 }, { "epoch": 8.875, "grad_norm": 0.20871895551681519, "learning_rate": 9.291031969832026e-05, "loss": 0.0541, "step": 4260 }, { "epoch": 8.895833333333334, "grad_norm": 0.1848907321691513, "learning_rate": 9.286782436297073e-05, "loss": 0.0435, "step": 4270 }, { "epoch": 8.916666666666666, "grad_norm": 0.2582778334617615, "learning_rate": 9.282521182862629e-05, "loss": 0.0494, "step": 4280 }, { "epoch": 8.9375, "grad_norm": 0.3533152937889099, "learning_rate": 9.278248221178798e-05, "loss": 0.0465, "step": 4290 }, { "epoch": 8.958333333333334, "grad_norm": 0.3077995479106903, "learning_rate": 9.273963562927695e-05, "loss": 0.0496, "step": 4300 }, { "epoch": 8.979166666666666, "grad_norm": 0.36743003129959106, "learning_rate": 9.269667219823412e-05, "loss": 0.0461, "step": 4310 }, { "epoch": 9.0, "grad_norm": 0.3086375594139099, "learning_rate": 9.265359203611987e-05, "loss": 0.048, "step": 4320 }, { "epoch": 9.020833333333334, "grad_norm": 0.2137017399072647, "learning_rate": 9.261039526071374e-05, "loss": 0.0442, "step": 4330 }, { "epoch": 9.041666666666666, "grad_norm": 0.20047348737716675, "learning_rate": 9.256708199011401e-05, "loss": 0.0389, "step": 4340 }, { "epoch": 9.0625, "grad_norm": 0.16252267360687256, "learning_rate": 9.252365234273755e-05, "loss": 0.0502, "step": 4350 }, { "epoch": 9.083333333333334, "grad_norm": 0.2916879653930664, "learning_rate": 9.248010643731935e-05, "loss": 0.0413, "step": 4360 }, { "epoch": 9.104166666666666, "grad_norm": 0.2506937086582184, "learning_rate": 9.243644439291223e-05, "loss": 0.0463, "step": 4370 }, { "epoch": 9.125, "grad_norm": 0.17098595201969147, "learning_rate": 9.239266632888659e-05, "loss": 0.0431, "step": 4380 }, { "epoch": 9.145833333333334, "grad_norm": 0.19776175916194916, "learning_rate": 9.234877236492997e-05, "loss": 0.0455, "step": 4390 }, { "epoch": 9.166666666666666, "grad_norm": 0.21476320922374725, "learning_rate": 9.230476262104677e-05, "loss": 0.0542, "step": 4400 }, { "epoch": 9.1875, "grad_norm": 0.16878186166286469, "learning_rate": 9.226063721755799e-05, "loss": 0.0497, "step": 4410 }, { "epoch": 9.208333333333334, "grad_norm": 0.2822238504886627, "learning_rate": 9.221639627510076e-05, "loss": 0.0505, "step": 4420 }, { "epoch": 9.229166666666666, "grad_norm": 0.22484545409679413, "learning_rate": 9.217203991462815e-05, "loss": 0.0489, "step": 4430 }, { "epoch": 9.25, "grad_norm": 0.20437467098236084, "learning_rate": 9.212756825740873e-05, "loss": 0.0453, "step": 4440 }, { "epoch": 9.270833333333334, "grad_norm": 0.2648732364177704, "learning_rate": 9.208298142502636e-05, "loss": 0.0543, "step": 4450 }, { "epoch": 9.291666666666666, "grad_norm": 0.21026711165905, "learning_rate": 9.20382795393797e-05, "loss": 0.0464, "step": 4460 }, { "epoch": 9.3125, "grad_norm": 0.19305367767810822, "learning_rate": 9.199346272268199e-05, "loss": 0.0489, "step": 4470 }, { "epoch": 9.333333333333334, "grad_norm": 0.15005242824554443, "learning_rate": 9.194853109746074e-05, "loss": 0.045, "step": 4480 }, { "epoch": 9.354166666666666, "grad_norm": 0.18398243188858032, "learning_rate": 9.190348478655724e-05, "loss": 0.0449, "step": 4490 }, { "epoch": 9.375, "grad_norm": 0.19480293989181519, "learning_rate": 9.185832391312644e-05, "loss": 0.0521, "step": 4500 }, { "epoch": 9.395833333333334, "grad_norm": 0.2190912663936615, "learning_rate": 9.18130486006364e-05, "loss": 0.0476, "step": 4510 }, { "epoch": 9.416666666666666, "grad_norm": 0.25412943959236145, "learning_rate": 9.176765897286813e-05, "loss": 0.0495, "step": 4520 }, { "epoch": 9.4375, "grad_norm": 0.1487940549850464, "learning_rate": 9.17221551539151e-05, "loss": 0.042, "step": 4530 }, { "epoch": 9.458333333333334, "grad_norm": 0.18700765073299408, "learning_rate": 9.167653726818305e-05, "loss": 0.0416, "step": 4540 }, { "epoch": 9.479166666666666, "grad_norm": 0.30814826488494873, "learning_rate": 9.163080544038952e-05, "loss": 0.0418, "step": 4550 }, { "epoch": 9.5, "grad_norm": 0.21536317467689514, "learning_rate": 9.158495979556358e-05, "loss": 0.041, "step": 4560 }, { "epoch": 9.520833333333334, "grad_norm": 0.2040412276983261, "learning_rate": 9.153900045904549e-05, "loss": 0.0445, "step": 4570 }, { "epoch": 9.541666666666666, "grad_norm": 0.2104673832654953, "learning_rate": 9.14929275564863e-05, "loss": 0.0444, "step": 4580 }, { "epoch": 9.5625, "grad_norm": 0.19764016568660736, "learning_rate": 9.144674121384757e-05, "loss": 0.0491, "step": 4590 }, { "epoch": 9.583333333333334, "grad_norm": 0.23848575353622437, "learning_rate": 9.140044155740101e-05, "loss": 0.0476, "step": 4600 }, { "epoch": 9.604166666666666, "grad_norm": 0.25867852568626404, "learning_rate": 9.135402871372808e-05, "loss": 0.0479, "step": 4610 }, { "epoch": 9.625, "grad_norm": 0.27559417486190796, "learning_rate": 9.130750280971978e-05, "loss": 0.0415, "step": 4620 }, { "epoch": 9.645833333333334, "grad_norm": 0.15984779596328735, "learning_rate": 9.126086397257612e-05, "loss": 0.0495, "step": 4630 }, { "epoch": 9.666666666666666, "grad_norm": 0.1889837235212326, "learning_rate": 9.121411232980588e-05, "loss": 0.0412, "step": 4640 }, { "epoch": 9.6875, "grad_norm": 0.18853230774402618, "learning_rate": 9.116724800922629e-05, "loss": 0.0494, "step": 4650 }, { "epoch": 9.708333333333334, "grad_norm": 0.16311155259609222, "learning_rate": 9.112027113896262e-05, "loss": 0.0504, "step": 4660 }, { "epoch": 9.729166666666666, "grad_norm": 0.3072417378425598, "learning_rate": 9.107318184744781e-05, "loss": 0.0512, "step": 4670 }, { "epoch": 9.75, "grad_norm": 0.27208441495895386, "learning_rate": 9.102598026342222e-05, "loss": 0.0461, "step": 4680 }, { "epoch": 9.770833333333334, "grad_norm": 0.22142447531223297, "learning_rate": 9.097866651593317e-05, "loss": 0.0476, "step": 4690 }, { "epoch": 9.791666666666666, "grad_norm": 0.23794491589069366, "learning_rate": 9.093124073433463e-05, "loss": 0.0487, "step": 4700 }, { "epoch": 9.8125, "grad_norm": 0.2035435438156128, "learning_rate": 9.088370304828685e-05, "loss": 0.0441, "step": 4710 }, { "epoch": 9.833333333333334, "grad_norm": 0.22604042291641235, "learning_rate": 9.083605358775612e-05, "loss": 0.048, "step": 4720 }, { "epoch": 9.854166666666666, "grad_norm": 0.2430724948644638, "learning_rate": 9.078829248301417e-05, "loss": 0.0478, "step": 4730 }, { "epoch": 9.875, "grad_norm": 0.15950004756450653, "learning_rate": 9.074041986463808e-05, "loss": 0.0433, "step": 4740 }, { "epoch": 9.895833333333334, "grad_norm": 0.18949760496616364, "learning_rate": 9.069243586350975e-05, "loss": 0.0457, "step": 4750 }, { "epoch": 9.916666666666666, "grad_norm": 0.2764696478843689, "learning_rate": 9.064434061081562e-05, "loss": 0.0426, "step": 4760 }, { "epoch": 9.9375, "grad_norm": 0.19359050691127777, "learning_rate": 9.059613423804623e-05, "loss": 0.045, "step": 4770 }, { "epoch": 9.958333333333334, "grad_norm": 0.18142932653427124, "learning_rate": 9.0547816876996e-05, "loss": 0.0474, "step": 4780 }, { "epoch": 9.979166666666666, "grad_norm": 0.18823358416557312, "learning_rate": 9.049938865976275e-05, "loss": 0.05, "step": 4790 }, { "epoch": 10.0, "grad_norm": 0.275264173746109, "learning_rate": 9.045084971874738e-05, "loss": 0.0403, "step": 4800 }, { "epoch": 10.020833333333334, "grad_norm": 0.1642429232597351, "learning_rate": 9.040220018665347e-05, "loss": 0.0467, "step": 4810 }, { "epoch": 10.041666666666666, "grad_norm": 0.168029323220253, "learning_rate": 9.035344019648702e-05, "loss": 0.0463, "step": 4820 }, { "epoch": 10.0625, "grad_norm": 0.1965492218732834, "learning_rate": 9.030456988155596e-05, "loss": 0.0467, "step": 4830 }, { "epoch": 10.083333333333334, "grad_norm": 0.26306965947151184, "learning_rate": 9.025558937546988e-05, "loss": 0.054, "step": 4840 }, { "epoch": 10.104166666666666, "grad_norm": 0.20351701974868774, "learning_rate": 9.020649881213958e-05, "loss": 0.0478, "step": 4850 }, { "epoch": 10.125, "grad_norm": 0.19964872300624847, "learning_rate": 9.015729832577681e-05, "loss": 0.0413, "step": 4860 }, { "epoch": 10.145833333333334, "grad_norm": 0.3172275424003601, "learning_rate": 9.010798805089384e-05, "loss": 0.0466, "step": 4870 }, { "epoch": 10.166666666666666, "grad_norm": 0.19798485934734344, "learning_rate": 9.005856812230304e-05, "loss": 0.0434, "step": 4880 }, { "epoch": 10.1875, "grad_norm": 0.19222751259803772, "learning_rate": 9.000903867511666e-05, "loss": 0.0442, "step": 4890 }, { "epoch": 10.208333333333334, "grad_norm": 0.2771398723125458, "learning_rate": 8.995939984474624e-05, "loss": 0.0473, "step": 4900 }, { "epoch": 10.229166666666666, "grad_norm": 0.21036186814308167, "learning_rate": 8.990965176690252e-05, "loss": 0.0448, "step": 4910 }, { "epoch": 10.25, "grad_norm": 0.19260737299919128, "learning_rate": 8.98597945775948e-05, "loss": 0.0423, "step": 4920 }, { "epoch": 10.270833333333334, "grad_norm": 0.19484755396842957, "learning_rate": 8.980982841313074e-05, "loss": 0.0455, "step": 4930 }, { "epoch": 10.291666666666666, "grad_norm": 0.18381169438362122, "learning_rate": 8.975975341011596e-05, "loss": 0.0419, "step": 4940 }, { "epoch": 10.3125, "grad_norm": 0.1882917284965515, "learning_rate": 8.970956970545355e-05, "loss": 0.0424, "step": 4950 }, { "epoch": 10.333333333333334, "grad_norm": 0.28794851899147034, "learning_rate": 8.965927743634391e-05, "loss": 0.0446, "step": 4960 }, { "epoch": 10.354166666666666, "grad_norm": 0.2500057518482208, "learning_rate": 8.96088767402841e-05, "loss": 0.0465, "step": 4970 }, { "epoch": 10.375, "grad_norm": 0.24780045449733734, "learning_rate": 8.955836775506776e-05, "loss": 0.05, "step": 4980 }, { "epoch": 10.395833333333334, "grad_norm": 0.21955612301826477, "learning_rate": 8.950775061878453e-05, "loss": 0.0482, "step": 4990 }, { "epoch": 10.416666666666666, "grad_norm": 0.26766952872276306, "learning_rate": 8.945702546981969e-05, "loss": 0.0456, "step": 5000 }, { "epoch": 10.4375, "grad_norm": 0.26190924644470215, "learning_rate": 8.940619244685388e-05, "loss": 0.0467, "step": 5010 }, { "epoch": 10.458333333333334, "grad_norm": 0.32205483317375183, "learning_rate": 8.935525168886262e-05, "loss": 0.0487, "step": 5020 }, { "epoch": 10.479166666666666, "grad_norm": 0.1689326912164688, "learning_rate": 8.930420333511606e-05, "loss": 0.051, "step": 5030 }, { "epoch": 10.5, "grad_norm": 0.15622328221797943, "learning_rate": 8.92530475251784e-05, "loss": 0.0401, "step": 5040 }, { "epoch": 10.520833333333334, "grad_norm": 0.15828685462474823, "learning_rate": 8.920178439890765e-05, "loss": 0.0463, "step": 5050 }, { "epoch": 10.541666666666666, "grad_norm": 0.188132643699646, "learning_rate": 8.91504140964553e-05, "loss": 0.0433, "step": 5060 }, { "epoch": 10.5625, "grad_norm": 0.17933054268360138, "learning_rate": 8.909893675826574e-05, "loss": 0.0429, "step": 5070 }, { "epoch": 10.583333333333334, "grad_norm": 0.14588649570941925, "learning_rate": 8.90473525250761e-05, "loss": 0.0436, "step": 5080 }, { "epoch": 10.604166666666666, "grad_norm": 0.2048168033361435, "learning_rate": 8.899566153791566e-05, "loss": 0.0442, "step": 5090 }, { "epoch": 10.625, "grad_norm": 0.22020840644836426, "learning_rate": 8.894386393810563e-05, "loss": 0.0504, "step": 5100 }, { "epoch": 10.645833333333334, "grad_norm": 0.17503111064434052, "learning_rate": 8.889195986725865e-05, "loss": 0.0451, "step": 5110 }, { "epoch": 10.666666666666666, "grad_norm": 0.29568037390708923, "learning_rate": 8.883994946727849e-05, "loss": 0.0517, "step": 5120 }, { "epoch": 10.6875, "grad_norm": 0.1748705804347992, "learning_rate": 8.878783288035957e-05, "loss": 0.0419, "step": 5130 }, { "epoch": 10.708333333333334, "grad_norm": 0.162610724568367, "learning_rate": 8.873561024898668e-05, "loss": 0.039, "step": 5140 }, { "epoch": 10.729166666666666, "grad_norm": 0.13608121871948242, "learning_rate": 8.868328171593448e-05, "loss": 0.0437, "step": 5150 }, { "epoch": 10.75, "grad_norm": 0.3330930769443512, "learning_rate": 8.863084742426719e-05, "loss": 0.0457, "step": 5160 }, { "epoch": 10.770833333333334, "grad_norm": 0.18053168058395386, "learning_rate": 8.857830751733815e-05, "loss": 0.0397, "step": 5170 }, { "epoch": 10.791666666666666, "grad_norm": 0.21028734743595123, "learning_rate": 8.852566213878947e-05, "loss": 0.0399, "step": 5180 }, { "epoch": 10.8125, "grad_norm": 0.17789475619792938, "learning_rate": 8.84729114325516e-05, "loss": 0.0446, "step": 5190 }, { "epoch": 10.833333333333334, "grad_norm": 0.11435961723327637, "learning_rate": 8.842005554284296e-05, "loss": 0.0485, "step": 5200 }, { "epoch": 10.854166666666666, "grad_norm": 0.26888659596443176, "learning_rate": 8.836709461416952e-05, "loss": 0.0445, "step": 5210 }, { "epoch": 10.875, "grad_norm": 0.24459189176559448, "learning_rate": 8.831402879132446e-05, "loss": 0.044, "step": 5220 }, { "epoch": 10.895833333333334, "grad_norm": 0.22334027290344238, "learning_rate": 8.82608582193877e-05, "loss": 0.0448, "step": 5230 }, { "epoch": 10.916666666666666, "grad_norm": 0.1600015014410019, "learning_rate": 8.820758304372557e-05, "loss": 0.0405, "step": 5240 }, { "epoch": 10.9375, "grad_norm": 0.1790611296892166, "learning_rate": 8.815420340999033e-05, "loss": 0.0423, "step": 5250 }, { "epoch": 10.958333333333334, "grad_norm": 0.16101035475730896, "learning_rate": 8.810071946411989e-05, "loss": 0.0418, "step": 5260 }, { "epoch": 10.979166666666666, "grad_norm": 0.17509181797504425, "learning_rate": 8.804713135233731e-05, "loss": 0.0502, "step": 5270 }, { "epoch": 11.0, "grad_norm": 0.3012494146823883, "learning_rate": 8.799343922115044e-05, "loss": 0.0434, "step": 5280 }, { "epoch": 11.020833333333334, "grad_norm": 0.20856645703315735, "learning_rate": 8.79396432173515e-05, "loss": 0.0438, "step": 5290 }, { "epoch": 11.041666666666666, "grad_norm": 0.28616762161254883, "learning_rate": 8.788574348801675e-05, "loss": 0.0432, "step": 5300 }, { "epoch": 11.0625, "grad_norm": 0.1333407461643219, "learning_rate": 8.783174018050594e-05, "loss": 0.0401, "step": 5310 }, { "epoch": 11.083333333333334, "grad_norm": 0.18696293234825134, "learning_rate": 8.77776334424621e-05, "loss": 0.0482, "step": 5320 }, { "epoch": 11.104166666666666, "grad_norm": 0.22148792445659637, "learning_rate": 8.772342342181095e-05, "loss": 0.0371, "step": 5330 }, { "epoch": 11.125, "grad_norm": 0.1539575159549713, "learning_rate": 8.766911026676064e-05, "loss": 0.0421, "step": 5340 }, { "epoch": 11.145833333333334, "grad_norm": 0.2002548724412918, "learning_rate": 8.761469412580125e-05, "loss": 0.0428, "step": 5350 }, { "epoch": 11.166666666666666, "grad_norm": 0.12944363057613373, "learning_rate": 8.756017514770443e-05, "loss": 0.0431, "step": 5360 }, { "epoch": 11.1875, "grad_norm": 0.16505135595798492, "learning_rate": 8.750555348152298e-05, "loss": 0.0452, "step": 5370 }, { "epoch": 11.208333333333334, "grad_norm": 0.21966077387332916, "learning_rate": 8.745082927659047e-05, "loss": 0.0398, "step": 5380 }, { "epoch": 11.229166666666666, "grad_norm": 0.17748688161373138, "learning_rate": 8.739600268252078e-05, "loss": 0.0424, "step": 5390 }, { "epoch": 11.25, "grad_norm": 0.19353771209716797, "learning_rate": 8.73410738492077e-05, "loss": 0.0406, "step": 5400 }, { "epoch": 11.270833333333334, "grad_norm": 0.2114291787147522, "learning_rate": 8.728604292682459e-05, "loss": 0.0457, "step": 5410 }, { "epoch": 11.291666666666666, "grad_norm": 0.24254119396209717, "learning_rate": 8.723091006582389e-05, "loss": 0.0404, "step": 5420 }, { "epoch": 11.3125, "grad_norm": 0.22707080841064453, "learning_rate": 8.717567541693673e-05, "loss": 0.0391, "step": 5430 }, { "epoch": 11.333333333333334, "grad_norm": 0.12440545856952667, "learning_rate": 8.71203391311725e-05, "loss": 0.0369, "step": 5440 }, { "epoch": 11.354166666666666, "grad_norm": 0.23712985217571259, "learning_rate": 8.706490135981855e-05, "loss": 0.0439, "step": 5450 }, { "epoch": 11.375, "grad_norm": 0.21863186359405518, "learning_rate": 8.700936225443959e-05, "loss": 0.042, "step": 5460 }, { "epoch": 11.395833333333334, "grad_norm": 0.34222206473350525, "learning_rate": 8.695372196687743e-05, "loss": 0.0444, "step": 5470 }, { "epoch": 11.416666666666666, "grad_norm": 0.15522488951683044, "learning_rate": 8.689798064925049e-05, "loss": 0.0393, "step": 5480 }, { "epoch": 11.4375, "grad_norm": 0.1653411090373993, "learning_rate": 8.684213845395339e-05, "loss": 0.0401, "step": 5490 }, { "epoch": 11.458333333333334, "grad_norm": 0.13689732551574707, "learning_rate": 8.678619553365659e-05, "loss": 0.0348, "step": 5500 }, { "epoch": 11.479166666666666, "grad_norm": 0.310537189245224, "learning_rate": 8.673015204130586e-05, "loss": 0.0414, "step": 5510 }, { "epoch": 11.5, "grad_norm": 0.2002195119857788, "learning_rate": 8.6674008130122e-05, "loss": 0.0449, "step": 5520 }, { "epoch": 11.520833333333334, "grad_norm": 0.2817361652851105, "learning_rate": 8.661776395360029e-05, "loss": 0.0403, "step": 5530 }, { "epoch": 11.541666666666666, "grad_norm": 0.3156379759311676, "learning_rate": 8.656141966551019e-05, "loss": 0.0502, "step": 5540 }, { "epoch": 11.5625, "grad_norm": 0.25609859824180603, "learning_rate": 8.650497541989482e-05, "loss": 0.0443, "step": 5550 }, { "epoch": 11.583333333333334, "grad_norm": 0.18130271136760712, "learning_rate": 8.644843137107059e-05, "loss": 0.0393, "step": 5560 }, { "epoch": 11.604166666666666, "grad_norm": 0.21762990951538086, "learning_rate": 8.639178767362676e-05, "loss": 0.0383, "step": 5570 }, { "epoch": 11.625, "grad_norm": 0.2414495199918747, "learning_rate": 8.633504448242505e-05, "loss": 0.0421, "step": 5580 }, { "epoch": 11.645833333333334, "grad_norm": 0.26933351159095764, "learning_rate": 8.627820195259918e-05, "loss": 0.0422, "step": 5590 }, { "epoch": 11.666666666666666, "grad_norm": 0.20590397715568542, "learning_rate": 8.622126023955446e-05, "loss": 0.0442, "step": 5600 }, { "epoch": 11.6875, "grad_norm": 0.23313651978969574, "learning_rate": 8.616421949896734e-05, "loss": 0.0455, "step": 5610 }, { "epoch": 11.708333333333334, "grad_norm": 0.19303657114505768, "learning_rate": 8.610707988678503e-05, "loss": 0.0396, "step": 5620 }, { "epoch": 11.729166666666666, "grad_norm": 0.2549276649951935, "learning_rate": 8.604984155922506e-05, "loss": 0.0429, "step": 5630 }, { "epoch": 11.75, "grad_norm": 0.14407649636268616, "learning_rate": 8.599250467277483e-05, "loss": 0.0353, "step": 5640 }, { "epoch": 11.770833333333334, "grad_norm": 0.1334507167339325, "learning_rate": 8.59350693841912e-05, "loss": 0.0453, "step": 5650 }, { "epoch": 11.791666666666666, "grad_norm": 0.1840885728597641, "learning_rate": 8.587753585050004e-05, "loss": 0.0391, "step": 5660 }, { "epoch": 11.8125, "grad_norm": 0.15923482179641724, "learning_rate": 8.581990422899585e-05, "loss": 0.0428, "step": 5670 }, { "epoch": 11.833333333333334, "grad_norm": 0.2519265413284302, "learning_rate": 8.576217467724128e-05, "loss": 0.0405, "step": 5680 }, { "epoch": 11.854166666666666, "grad_norm": 0.2785394489765167, "learning_rate": 8.570434735306671e-05, "loss": 0.0435, "step": 5690 }, { "epoch": 11.875, "grad_norm": 0.20253023505210876, "learning_rate": 8.564642241456986e-05, "loss": 0.0448, "step": 5700 }, { "epoch": 11.895833333333334, "grad_norm": 0.16663062572479248, "learning_rate": 8.558840002011528e-05, "loss": 0.0423, "step": 5710 }, { "epoch": 11.916666666666666, "grad_norm": 0.17894567549228668, "learning_rate": 8.553028032833397e-05, "loss": 0.0505, "step": 5720 }, { "epoch": 11.9375, "grad_norm": 0.23678405582904816, "learning_rate": 8.547206349812298e-05, "loss": 0.0444, "step": 5730 }, { "epoch": 11.958333333333334, "grad_norm": 0.23678261041641235, "learning_rate": 8.541374968864487e-05, "loss": 0.0438, "step": 5740 }, { "epoch": 11.979166666666666, "grad_norm": 0.15464617311954498, "learning_rate": 8.535533905932738e-05, "loss": 0.0412, "step": 5750 }, { "epoch": 12.0, "grad_norm": 0.24815593659877777, "learning_rate": 8.529683176986295e-05, "loss": 0.0429, "step": 5760 }, { "epoch": 12.020833333333334, "grad_norm": 0.26953354477882385, "learning_rate": 8.523822798020827e-05, "loss": 0.0421, "step": 5770 }, { "epoch": 12.041666666666666, "grad_norm": 0.15593163669109344, "learning_rate": 8.517952785058385e-05, "loss": 0.0377, "step": 5780 }, { "epoch": 12.0625, "grad_norm": 0.12717793881893158, "learning_rate": 8.512073154147362e-05, "loss": 0.0423, "step": 5790 }, { "epoch": 12.083333333333334, "grad_norm": 0.16881762444972992, "learning_rate": 8.506183921362443e-05, "loss": 0.0406, "step": 5800 }, { "epoch": 12.104166666666666, "grad_norm": 0.14172407984733582, "learning_rate": 8.500285102804568e-05, "loss": 0.0381, "step": 5810 }, { "epoch": 12.125, "grad_norm": 0.17956042289733887, "learning_rate": 8.494376714600878e-05, "loss": 0.0406, "step": 5820 }, { "epoch": 12.145833333333334, "grad_norm": 0.11701998859643936, "learning_rate": 8.488458772904684e-05, "loss": 0.0403, "step": 5830 }, { "epoch": 12.166666666666666, "grad_norm": 0.23754946887493134, "learning_rate": 8.482531293895412e-05, "loss": 0.0435, "step": 5840 }, { "epoch": 12.1875, "grad_norm": 0.15711422264575958, "learning_rate": 8.476594293778561e-05, "loss": 0.0427, "step": 5850 }, { "epoch": 12.208333333333334, "grad_norm": 0.12475460767745972, "learning_rate": 8.470647788785665e-05, "loss": 0.0453, "step": 5860 }, { "epoch": 12.229166666666666, "grad_norm": 0.1740744709968567, "learning_rate": 8.46469179517424e-05, "loss": 0.0407, "step": 5870 }, { "epoch": 12.25, "grad_norm": 0.1890011727809906, "learning_rate": 8.458726329227747e-05, "loss": 0.0375, "step": 5880 }, { "epoch": 12.270833333333334, "grad_norm": 0.1468510925769806, "learning_rate": 8.452751407255541e-05, "loss": 0.0517, "step": 5890 }, { "epoch": 12.291666666666666, "grad_norm": 0.13238878548145294, "learning_rate": 8.44676704559283e-05, "loss": 0.0339, "step": 5900 }, { "epoch": 12.3125, "grad_norm": 0.20797108113765717, "learning_rate": 8.44077326060063e-05, "loss": 0.0466, "step": 5910 }, { "epoch": 12.333333333333334, "grad_norm": 0.1664513200521469, "learning_rate": 8.434770068665723e-05, "loss": 0.0375, "step": 5920 }, { "epoch": 12.354166666666666, "grad_norm": 0.24911722540855408, "learning_rate": 8.428757486200603e-05, "loss": 0.0373, "step": 5930 }, { "epoch": 12.375, "grad_norm": 0.14822660386562347, "learning_rate": 8.422735529643444e-05, "loss": 0.0388, "step": 5940 }, { "epoch": 12.395833333333334, "grad_norm": 0.19044484198093414, "learning_rate": 8.416704215458043e-05, "loss": 0.0413, "step": 5950 }, { "epoch": 12.416666666666666, "grad_norm": 0.21763353049755096, "learning_rate": 8.410663560133784e-05, "loss": 0.0396, "step": 5960 }, { "epoch": 12.4375, "grad_norm": 0.17807014286518097, "learning_rate": 8.404613580185585e-05, "loss": 0.037, "step": 5970 }, { "epoch": 12.458333333333334, "grad_norm": 0.16382238268852234, "learning_rate": 8.398554292153866e-05, "loss": 0.0399, "step": 5980 }, { "epoch": 12.479166666666666, "grad_norm": 0.17437861859798431, "learning_rate": 8.392485712604483e-05, "loss": 0.0384, "step": 5990 }, { "epoch": 12.5, "grad_norm": 0.19258016347885132, "learning_rate": 8.386407858128706e-05, "loss": 0.0408, "step": 6000 }, { "epoch": 12.520833333333334, "grad_norm": 0.19004537165164948, "learning_rate": 8.380320745343153e-05, "loss": 0.0386, "step": 6010 }, { "epoch": 12.541666666666666, "grad_norm": 0.22055472433567047, "learning_rate": 8.37422439088976e-05, "loss": 0.0353, "step": 6020 }, { "epoch": 12.5625, "grad_norm": 0.21004030108451843, "learning_rate": 8.368118811435726e-05, "loss": 0.043, "step": 6030 }, { "epoch": 12.583333333333334, "grad_norm": 0.17479278147220612, "learning_rate": 8.362004023673474e-05, "loss": 0.0408, "step": 6040 }, { "epoch": 12.604166666666666, "grad_norm": 0.22079946100711823, "learning_rate": 8.355880044320598e-05, "loss": 0.0434, "step": 6050 }, { "epoch": 12.625, "grad_norm": 0.29434219002723694, "learning_rate": 8.349746890119826e-05, "loss": 0.04, "step": 6060 }, { "epoch": 12.645833333333334, "grad_norm": 0.20579421520233154, "learning_rate": 8.343604577838964e-05, "loss": 0.04, "step": 6070 }, { "epoch": 12.666666666666666, "grad_norm": 0.23126040399074554, "learning_rate": 8.337453124270863e-05, "loss": 0.0521, "step": 6080 }, { "epoch": 12.6875, "grad_norm": 0.16612651944160461, "learning_rate": 8.331292546233362e-05, "loss": 0.039, "step": 6090 }, { "epoch": 12.708333333333334, "grad_norm": 0.14316225051879883, "learning_rate": 8.32512286056924e-05, "loss": 0.0423, "step": 6100 }, { "epoch": 12.729166666666666, "grad_norm": 0.2876419425010681, "learning_rate": 8.318944084146192e-05, "loss": 0.0335, "step": 6110 }, { "epoch": 12.75, "grad_norm": 0.2195024937391281, "learning_rate": 8.31275623385675e-05, "loss": 0.0408, "step": 6120 }, { "epoch": 12.770833333333334, "grad_norm": 0.17311809957027435, "learning_rate": 8.306559326618259e-05, "loss": 0.0394, "step": 6130 }, { "epoch": 12.791666666666666, "grad_norm": 0.18626871705055237, "learning_rate": 8.300353379372834e-05, "loss": 0.0453, "step": 6140 }, { "epoch": 12.8125, "grad_norm": 0.15586572885513306, "learning_rate": 8.29413840908729e-05, "loss": 0.0361, "step": 6150 }, { "epoch": 12.833333333333334, "grad_norm": 0.16993935406208038, "learning_rate": 8.287914432753123e-05, "loss": 0.0429, "step": 6160 }, { "epoch": 12.854166666666666, "grad_norm": 0.20180845260620117, "learning_rate": 8.281681467386446e-05, "loss": 0.0408, "step": 6170 }, { "epoch": 12.875, "grad_norm": 0.20189784467220306, "learning_rate": 8.275439530027948e-05, "loss": 0.0441, "step": 6180 }, { "epoch": 12.895833333333334, "grad_norm": 0.23297566175460815, "learning_rate": 8.269188637742846e-05, "loss": 0.0421, "step": 6190 }, { "epoch": 12.916666666666666, "grad_norm": 0.18450035154819489, "learning_rate": 8.262928807620843e-05, "loss": 0.0432, "step": 6200 }, { "epoch": 12.9375, "grad_norm": 0.1531972736120224, "learning_rate": 8.256660056776076e-05, "loss": 0.038, "step": 6210 }, { "epoch": 12.958333333333334, "grad_norm": 0.2860686779022217, "learning_rate": 8.250382402347065e-05, "loss": 0.0413, "step": 6220 }, { "epoch": 12.979166666666666, "grad_norm": 0.22824501991271973, "learning_rate": 8.244095861496686e-05, "loss": 0.0371, "step": 6230 }, { "epoch": 13.0, "grad_norm": 0.17653274536132812, "learning_rate": 8.237800451412095e-05, "loss": 0.0391, "step": 6240 }, { "epoch": 13.020833333333334, "grad_norm": 0.18163183331489563, "learning_rate": 8.231496189304704e-05, "loss": 0.0393, "step": 6250 }, { "epoch": 13.041666666666666, "grad_norm": 0.2371646910905838, "learning_rate": 8.225183092410128e-05, "loss": 0.0422, "step": 6260 }, { "epoch": 13.0625, "grad_norm": 0.1902731955051422, "learning_rate": 8.218861177988129e-05, "loss": 0.046, "step": 6270 }, { "epoch": 13.083333333333334, "grad_norm": 0.1417214572429657, "learning_rate": 8.212530463322583e-05, "loss": 0.0405, "step": 6280 }, { "epoch": 13.104166666666666, "grad_norm": 0.15146766602993011, "learning_rate": 8.206190965721419e-05, "loss": 0.0445, "step": 6290 }, { "epoch": 13.125, "grad_norm": 0.1663253754377365, "learning_rate": 8.199842702516583e-05, "loss": 0.0375, "step": 6300 }, { "epoch": 13.145833333333334, "grad_norm": 0.14269261062145233, "learning_rate": 8.193485691063985e-05, "loss": 0.0403, "step": 6310 }, { "epoch": 13.166666666666666, "grad_norm": 0.23706825077533722, "learning_rate": 8.18711994874345e-05, "loss": 0.0411, "step": 6320 }, { "epoch": 13.1875, "grad_norm": 0.21221354603767395, "learning_rate": 8.180745492958674e-05, "loss": 0.0401, "step": 6330 }, { "epoch": 13.208333333333334, "grad_norm": 0.2165749967098236, "learning_rate": 8.174362341137177e-05, "loss": 0.0403, "step": 6340 }, { "epoch": 13.229166666666666, "grad_norm": 0.14308632910251617, "learning_rate": 8.167970510730253e-05, "loss": 0.0352, "step": 6350 }, { "epoch": 13.25, "grad_norm": 0.12544560432434082, "learning_rate": 8.161570019212921e-05, "loss": 0.0316, "step": 6360 }, { "epoch": 13.270833333333334, "grad_norm": 0.2414732426404953, "learning_rate": 8.155160884083881e-05, "loss": 0.0427, "step": 6370 }, { "epoch": 13.291666666666666, "grad_norm": 0.1598491221666336, "learning_rate": 8.148743122865463e-05, "loss": 0.0364, "step": 6380 }, { "epoch": 13.3125, "grad_norm": 0.17949260771274567, "learning_rate": 8.14231675310358e-05, "loss": 0.04, "step": 6390 }, { "epoch": 13.333333333333334, "grad_norm": 0.1643165796995163, "learning_rate": 8.135881792367686e-05, "loss": 0.0382, "step": 6400 }, { "epoch": 13.354166666666666, "grad_norm": 0.1860474944114685, "learning_rate": 8.129438258250712e-05, "loss": 0.0397, "step": 6410 }, { "epoch": 13.375, "grad_norm": 0.17529195547103882, "learning_rate": 8.12298616836904e-05, "loss": 0.0394, "step": 6420 }, { "epoch": 13.395833333333334, "grad_norm": 0.14175067842006683, "learning_rate": 8.116525540362434e-05, "loss": 0.036, "step": 6430 }, { "epoch": 13.416666666666666, "grad_norm": 0.21038088202476501, "learning_rate": 8.110056391894005e-05, "loss": 0.0367, "step": 6440 }, { "epoch": 13.4375, "grad_norm": 0.2074318379163742, "learning_rate": 8.103578740650156e-05, "loss": 0.0363, "step": 6450 }, { "epoch": 13.458333333333334, "grad_norm": 0.19031871855258942, "learning_rate": 8.097092604340542e-05, "loss": 0.0345, "step": 6460 }, { "epoch": 13.479166666666666, "grad_norm": 0.14355434477329254, "learning_rate": 8.090598000698009e-05, "loss": 0.0369, "step": 6470 }, { "epoch": 13.5, "grad_norm": 0.17986851930618286, "learning_rate": 8.084094947478556e-05, "loss": 0.0445, "step": 6480 }, { "epoch": 13.520833333333334, "grad_norm": 0.15947647392749786, "learning_rate": 8.077583462461283e-05, "loss": 0.0369, "step": 6490 }, { "epoch": 13.541666666666666, "grad_norm": 0.1988173872232437, "learning_rate": 8.07106356344834e-05, "loss": 0.0389, "step": 6500 }, { "epoch": 13.5625, "grad_norm": 0.2448684126138687, "learning_rate": 8.064535268264883e-05, "loss": 0.0435, "step": 6510 }, { "epoch": 13.583333333333334, "grad_norm": 0.13045330345630646, "learning_rate": 8.057998594759022e-05, "loss": 0.0392, "step": 6520 }, { "epoch": 13.604166666666666, "grad_norm": 0.1871824413537979, "learning_rate": 8.051453560801772e-05, "loss": 0.0459, "step": 6530 }, { "epoch": 13.625, "grad_norm": 0.19843676686286926, "learning_rate": 8.044900184287007e-05, "loss": 0.0354, "step": 6540 }, { "epoch": 13.645833333333334, "grad_norm": 0.1785716414451599, "learning_rate": 8.038338483131407e-05, "loss": 0.0385, "step": 6550 }, { "epoch": 13.666666666666666, "grad_norm": 0.23031799495220184, "learning_rate": 8.031768475274413e-05, "loss": 0.0403, "step": 6560 }, { "epoch": 13.6875, "grad_norm": 0.19541850686073303, "learning_rate": 8.025190178678175e-05, "loss": 0.04, "step": 6570 }, { "epoch": 13.708333333333334, "grad_norm": 0.3664182424545288, "learning_rate": 8.018603611327504e-05, "loss": 0.0496, "step": 6580 }, { "epoch": 13.729166666666666, "grad_norm": 0.20655080676078796, "learning_rate": 8.012008791229826e-05, "loss": 0.0404, "step": 6590 }, { "epoch": 13.75, "grad_norm": 0.15115095674991608, "learning_rate": 8.005405736415126e-05, "loss": 0.0404, "step": 6600 }, { "epoch": 13.770833333333334, "grad_norm": 0.11553872376680374, "learning_rate": 7.998794464935904e-05, "loss": 0.0372, "step": 6610 }, { "epoch": 13.791666666666666, "grad_norm": 0.11971589922904968, "learning_rate": 7.992174994867123e-05, "loss": 0.0363, "step": 6620 }, { "epoch": 13.8125, "grad_norm": 0.18160715699195862, "learning_rate": 7.985547344306161e-05, "loss": 0.038, "step": 6630 }, { "epoch": 13.833333333333334, "grad_norm": 0.17907965183258057, "learning_rate": 7.978911531372765e-05, "loss": 0.0441, "step": 6640 }, { "epoch": 13.854166666666666, "grad_norm": 0.133999302983284, "learning_rate": 7.972267574208991e-05, "loss": 0.0407, "step": 6650 }, { "epoch": 13.875, "grad_norm": 0.19394654035568237, "learning_rate": 7.965615490979163e-05, "loss": 0.0366, "step": 6660 }, { "epoch": 13.895833333333334, "grad_norm": 0.13894295692443848, "learning_rate": 7.958955299869825e-05, "loss": 0.0333, "step": 6670 }, { "epoch": 13.916666666666666, "grad_norm": 0.18287508189678192, "learning_rate": 7.952287019089685e-05, "loss": 0.04, "step": 6680 }, { "epoch": 13.9375, "grad_norm": 0.1280536651611328, "learning_rate": 7.945610666869568e-05, "loss": 0.041, "step": 6690 }, { "epoch": 13.958333333333334, "grad_norm": 0.20212434232234955, "learning_rate": 7.938926261462366e-05, "loss": 0.0401, "step": 6700 }, { "epoch": 13.979166666666666, "grad_norm": 0.1223643496632576, "learning_rate": 7.932233821142987e-05, "loss": 0.0328, "step": 6710 }, { "epoch": 14.0, "grad_norm": 0.3575628399848938, "learning_rate": 7.925533364208309e-05, "loss": 0.0393, "step": 6720 }, { "epoch": 14.020833333333334, "grad_norm": 0.1951122134923935, "learning_rate": 7.918824908977123e-05, "loss": 0.0325, "step": 6730 }, { "epoch": 14.041666666666666, "grad_norm": 0.21240845322608948, "learning_rate": 7.912108473790092e-05, "loss": 0.0414, "step": 6740 }, { "epoch": 14.0625, "grad_norm": 0.17929404973983765, "learning_rate": 7.905384077009693e-05, "loss": 0.0428, "step": 6750 }, { "epoch": 14.083333333333334, "grad_norm": 0.16723935306072235, "learning_rate": 7.898651737020166e-05, "loss": 0.035, "step": 6760 }, { "epoch": 14.104166666666666, "grad_norm": 0.17105315625667572, "learning_rate": 7.891911472227478e-05, "loss": 0.0379, "step": 6770 }, { "epoch": 14.125, "grad_norm": 0.1435282677412033, "learning_rate": 7.88516330105925e-05, "loss": 0.031, "step": 6780 }, { "epoch": 14.145833333333334, "grad_norm": 0.26625174283981323, "learning_rate": 7.878407241964729e-05, "loss": 0.0389, "step": 6790 }, { "epoch": 14.166666666666666, "grad_norm": 0.16151033341884613, "learning_rate": 7.871643313414718e-05, "loss": 0.0386, "step": 6800 }, { "epoch": 14.1875, "grad_norm": 0.1542338728904724, "learning_rate": 7.864871533901544e-05, "loss": 0.0428, "step": 6810 }, { "epoch": 14.208333333333334, "grad_norm": 0.16008241474628448, "learning_rate": 7.858091921938988e-05, "loss": 0.0386, "step": 6820 }, { "epoch": 14.229166666666666, "grad_norm": 0.10365214943885803, "learning_rate": 7.851304496062254e-05, "loss": 0.0338, "step": 6830 }, { "epoch": 14.25, "grad_norm": 0.11031515896320343, "learning_rate": 7.844509274827907e-05, "loss": 0.0315, "step": 6840 }, { "epoch": 14.270833333333334, "grad_norm": 0.10394476354122162, "learning_rate": 7.837706276813819e-05, "loss": 0.0346, "step": 6850 }, { "epoch": 14.291666666666666, "grad_norm": 0.1431214064359665, "learning_rate": 7.830895520619128e-05, "loss": 0.0315, "step": 6860 }, { "epoch": 14.3125, "grad_norm": 0.13062988221645355, "learning_rate": 7.824077024864179e-05, "loss": 0.0395, "step": 6870 }, { "epoch": 14.333333333333334, "grad_norm": 0.20784278213977814, "learning_rate": 7.817250808190483e-05, "loss": 0.0396, "step": 6880 }, { "epoch": 14.354166666666666, "grad_norm": 0.21195919811725616, "learning_rate": 7.810416889260653e-05, "loss": 0.0494, "step": 6890 }, { "epoch": 14.375, "grad_norm": 0.16226136684417725, "learning_rate": 7.803575286758364e-05, "loss": 0.0373, "step": 6900 }, { "epoch": 14.395833333333334, "grad_norm": 0.28252333402633667, "learning_rate": 7.796726019388295e-05, "loss": 0.0414, "step": 6910 }, { "epoch": 14.416666666666666, "grad_norm": 0.2130480706691742, "learning_rate": 7.789869105876083e-05, "loss": 0.0408, "step": 6920 }, { "epoch": 14.4375, "grad_norm": 0.17730095982551575, "learning_rate": 7.783004564968263e-05, "loss": 0.0428, "step": 6930 }, { "epoch": 14.458333333333334, "grad_norm": 0.2181420475244522, "learning_rate": 7.776132415432234e-05, "loss": 0.0346, "step": 6940 }, { "epoch": 14.479166666666666, "grad_norm": 0.15621013939380646, "learning_rate": 7.769252676056187e-05, "loss": 0.0404, "step": 6950 }, { "epoch": 14.5, "grad_norm": 0.22316747903823853, "learning_rate": 7.762365365649067e-05, "loss": 0.0415, "step": 6960 }, { "epoch": 14.520833333333334, "grad_norm": 0.21868279576301575, "learning_rate": 7.755470503040516e-05, "loss": 0.0346, "step": 6970 }, { "epoch": 14.541666666666666, "grad_norm": 0.15576982498168945, "learning_rate": 7.748568107080832e-05, "loss": 0.036, "step": 6980 }, { "epoch": 14.5625, "grad_norm": 0.16847991943359375, "learning_rate": 7.741658196640892e-05, "loss": 0.0365, "step": 6990 }, { "epoch": 14.583333333333334, "grad_norm": 0.1864033341407776, "learning_rate": 7.734740790612136e-05, "loss": 0.0356, "step": 7000 }, { "epoch": 14.604166666666666, "grad_norm": 0.14140471816062927, "learning_rate": 7.727815907906481e-05, "loss": 0.0362, "step": 7010 }, { "epoch": 14.625, "grad_norm": 0.239779531955719, "learning_rate": 7.720883567456298e-05, "loss": 0.0386, "step": 7020 }, { "epoch": 14.645833333333334, "grad_norm": 0.15767736732959747, "learning_rate": 7.713943788214337e-05, "loss": 0.0326, "step": 7030 }, { "epoch": 14.666666666666666, "grad_norm": 0.2366664707660675, "learning_rate": 7.70699658915369e-05, "loss": 0.0378, "step": 7040 }, { "epoch": 14.6875, "grad_norm": 0.14157512784004211, "learning_rate": 7.700041989267736e-05, "loss": 0.0378, "step": 7050 }, { "epoch": 14.708333333333334, "grad_norm": 0.17745807766914368, "learning_rate": 7.693080007570084e-05, "loss": 0.0467, "step": 7060 }, { "epoch": 14.729166666666666, "grad_norm": 0.20776180922985077, "learning_rate": 7.686110663094525e-05, "loss": 0.0349, "step": 7070 }, { "epoch": 14.75, "grad_norm": 0.20851857960224152, "learning_rate": 7.679133974894983e-05, "loss": 0.0361, "step": 7080 }, { "epoch": 14.770833333333334, "grad_norm": 0.18103381991386414, "learning_rate": 7.672149962045457e-05, "loss": 0.0363, "step": 7090 }, { "epoch": 14.791666666666666, "grad_norm": 0.16217251121997833, "learning_rate": 7.66515864363997e-05, "loss": 0.0344, "step": 7100 }, { "epoch": 14.8125, "grad_norm": 0.20042112469673157, "learning_rate": 7.658160038792518e-05, "loss": 0.0373, "step": 7110 }, { "epoch": 14.833333333333334, "grad_norm": 0.14633095264434814, "learning_rate": 7.651154166637025e-05, "loss": 0.0346, "step": 7120 }, { "epoch": 14.854166666666666, "grad_norm": 0.17385907471179962, "learning_rate": 7.644141046327271e-05, "loss": 0.035, "step": 7130 }, { "epoch": 14.875, "grad_norm": 0.18646875023841858, "learning_rate": 7.637120697036866e-05, "loss": 0.039, "step": 7140 }, { "epoch": 14.895833333333334, "grad_norm": 0.15092679858207703, "learning_rate": 7.630093137959171e-05, "loss": 0.0391, "step": 7150 }, { "epoch": 14.916666666666666, "grad_norm": 0.22045397758483887, "learning_rate": 7.623058388307269e-05, "loss": 0.043, "step": 7160 }, { "epoch": 14.9375, "grad_norm": 0.2414494901895523, "learning_rate": 7.616016467313891e-05, "loss": 0.0403, "step": 7170 }, { "epoch": 14.958333333333334, "grad_norm": 0.12280049175024033, "learning_rate": 7.608967394231387e-05, "loss": 0.0344, "step": 7180 }, { "epoch": 14.979166666666666, "grad_norm": 0.2390596866607666, "learning_rate": 7.60191118833165e-05, "loss": 0.0438, "step": 7190 }, { "epoch": 15.0, "grad_norm": 0.16340652108192444, "learning_rate": 7.594847868906076e-05, "loss": 0.0343, "step": 7200 }, { "epoch": 15.020833333333334, "grad_norm": 0.15760314464569092, "learning_rate": 7.587777455265515e-05, "loss": 0.0342, "step": 7210 }, { "epoch": 15.041666666666666, "grad_norm": 0.18503332138061523, "learning_rate": 7.580699966740201e-05, "loss": 0.0338, "step": 7220 }, { "epoch": 15.0625, "grad_norm": 0.20459023118019104, "learning_rate": 7.573615422679726e-05, "loss": 0.0371, "step": 7230 }, { "epoch": 15.083333333333334, "grad_norm": 0.20452246069908142, "learning_rate": 7.566523842452958e-05, "loss": 0.0335, "step": 7240 }, { "epoch": 15.104166666666666, "grad_norm": 0.23607632517814636, "learning_rate": 7.559425245448006e-05, "loss": 0.0374, "step": 7250 }, { "epoch": 15.125, "grad_norm": 0.250844269990921, "learning_rate": 7.552319651072164e-05, "loss": 0.037, "step": 7260 }, { "epoch": 15.145833333333334, "grad_norm": 0.2054450660943985, "learning_rate": 7.545207078751857e-05, "loss": 0.0367, "step": 7270 }, { "epoch": 15.166666666666666, "grad_norm": 0.13875900208950043, "learning_rate": 7.538087547932585e-05, "loss": 0.0346, "step": 7280 }, { "epoch": 15.1875, "grad_norm": 0.12273597717285156, "learning_rate": 7.530961078078873e-05, "loss": 0.0294, "step": 7290 }, { "epoch": 15.208333333333334, "grad_norm": 0.24252977967262268, "learning_rate": 7.52382768867422e-05, "loss": 0.0399, "step": 7300 }, { "epoch": 15.229166666666666, "grad_norm": 0.25121790170669556, "learning_rate": 7.516687399221037e-05, "loss": 0.0357, "step": 7310 }, { "epoch": 15.25, "grad_norm": 0.16604046523571014, "learning_rate": 7.509540229240601e-05, "loss": 0.0396, "step": 7320 }, { "epoch": 15.270833333333334, "grad_norm": 0.1693144142627716, "learning_rate": 7.50238619827301e-05, "loss": 0.0352, "step": 7330 }, { "epoch": 15.291666666666666, "grad_norm": 0.14618609845638275, "learning_rate": 7.495225325877103e-05, "loss": 0.0402, "step": 7340 }, { "epoch": 15.3125, "grad_norm": 0.14936913549900055, "learning_rate": 7.488057631630437e-05, "loss": 0.0345, "step": 7350 }, { "epoch": 15.333333333333334, "grad_norm": 0.17115077376365662, "learning_rate": 7.480883135129211e-05, "loss": 0.0335, "step": 7360 }, { "epoch": 15.354166666666666, "grad_norm": 0.25518691539764404, "learning_rate": 7.473701855988227e-05, "loss": 0.0373, "step": 7370 }, { "epoch": 15.375, "grad_norm": 0.17079471051692963, "learning_rate": 7.466513813840825e-05, "loss": 0.0339, "step": 7380 }, { "epoch": 15.395833333333334, "grad_norm": 0.16073431074619293, "learning_rate": 7.45931902833884e-05, "loss": 0.0358, "step": 7390 }, { "epoch": 15.416666666666666, "grad_norm": 0.15871916711330414, "learning_rate": 7.452117519152542e-05, "loss": 0.0378, "step": 7400 }, { "epoch": 15.4375, "grad_norm": 0.1591806709766388, "learning_rate": 7.444909305970578e-05, "loss": 0.0379, "step": 7410 }, { "epoch": 15.458333333333334, "grad_norm": 0.12138412147760391, "learning_rate": 7.437694408499933e-05, "loss": 0.0315, "step": 7420 }, { "epoch": 15.479166666666666, "grad_norm": 0.1650785654783249, "learning_rate": 7.430472846465856e-05, "loss": 0.0373, "step": 7430 }, { "epoch": 15.5, "grad_norm": 0.2493847906589508, "learning_rate": 7.423244639611826e-05, "loss": 0.0396, "step": 7440 }, { "epoch": 15.520833333333334, "grad_norm": 0.20419341325759888, "learning_rate": 7.416009807699482e-05, "loss": 0.0352, "step": 7450 }, { "epoch": 15.541666666666666, "grad_norm": 0.14656496047973633, "learning_rate": 7.408768370508576e-05, "loss": 0.0329, "step": 7460 }, { "epoch": 15.5625, "grad_norm": 0.13283559679985046, "learning_rate": 7.401520347836926e-05, "loss": 0.0417, "step": 7470 }, { "epoch": 15.583333333333334, "grad_norm": 0.20347778499126434, "learning_rate": 7.394265759500348e-05, "loss": 0.0317, "step": 7480 }, { "epoch": 15.604166666666666, "grad_norm": 0.2087823748588562, "learning_rate": 7.387004625332608e-05, "loss": 0.0399, "step": 7490 }, { "epoch": 15.625, "grad_norm": 0.1714068204164505, "learning_rate": 7.379736965185368e-05, "loss": 0.0344, "step": 7500 }, { "epoch": 15.645833333333334, "grad_norm": 0.2617419362068176, "learning_rate": 7.372462798928137e-05, "loss": 0.0382, "step": 7510 }, { "epoch": 15.666666666666666, "grad_norm": 0.2772350609302521, "learning_rate": 7.365182146448205e-05, "loss": 0.0326, "step": 7520 }, { "epoch": 15.6875, "grad_norm": 0.1482856720685959, "learning_rate": 7.357895027650598e-05, "loss": 0.037, "step": 7530 }, { "epoch": 15.708333333333334, "grad_norm": 0.13147100806236267, "learning_rate": 7.350601462458024e-05, "loss": 0.0365, "step": 7540 }, { "epoch": 15.729166666666666, "grad_norm": 0.18693843483924866, "learning_rate": 7.343301470810808e-05, "loss": 0.0341, "step": 7550 }, { "epoch": 15.75, "grad_norm": 0.1919766664505005, "learning_rate": 7.335995072666848e-05, "loss": 0.0344, "step": 7560 }, { "epoch": 15.770833333333334, "grad_norm": 0.14573059976100922, "learning_rate": 7.328682288001561e-05, "loss": 0.0358, "step": 7570 }, { "epoch": 15.791666666666666, "grad_norm": 0.1659090369939804, "learning_rate": 7.32136313680782e-05, "loss": 0.0381, "step": 7580 }, { "epoch": 15.8125, "grad_norm": 0.15195737779140472, "learning_rate": 7.3140376390959e-05, "loss": 0.0378, "step": 7590 }, { "epoch": 15.833333333333334, "grad_norm": 0.13553418219089508, "learning_rate": 7.30670581489344e-05, "loss": 0.0362, "step": 7600 }, { "epoch": 15.854166666666666, "grad_norm": 0.16104042530059814, "learning_rate": 7.299367684245362e-05, "loss": 0.036, "step": 7610 }, { "epoch": 15.875, "grad_norm": 0.12264416366815567, "learning_rate": 7.292023267213835e-05, "loss": 0.0344, "step": 7620 }, { "epoch": 15.895833333333334, "grad_norm": 0.4384171962738037, "learning_rate": 7.284672583878219e-05, "loss": 0.0355, "step": 7630 }, { "epoch": 15.916666666666666, "grad_norm": 0.18109330534934998, "learning_rate": 7.277315654334997e-05, "loss": 0.0339, "step": 7640 }, { "epoch": 15.9375, "grad_norm": 0.14185822010040283, "learning_rate": 7.269952498697734e-05, "loss": 0.0377, "step": 7650 }, { "epoch": 15.958333333333334, "grad_norm": 0.15537065267562866, "learning_rate": 7.262583137097018e-05, "loss": 0.0349, "step": 7660 }, { "epoch": 15.979166666666666, "grad_norm": 0.21655717492103577, "learning_rate": 7.255207589680402e-05, "loss": 0.0348, "step": 7670 }, { "epoch": 16.0, "grad_norm": 0.18873754143714905, "learning_rate": 7.247825876612353e-05, "loss": 0.0371, "step": 7680 }, { "epoch": 16.020833333333332, "grad_norm": 0.20087870955467224, "learning_rate": 7.240438018074189e-05, "loss": 0.0327, "step": 7690 }, { "epoch": 16.041666666666668, "grad_norm": 0.15053871273994446, "learning_rate": 7.233044034264034e-05, "loss": 0.035, "step": 7700 }, { "epoch": 16.0625, "grad_norm": 0.18158355355262756, "learning_rate": 7.225643945396757e-05, "loss": 0.0352, "step": 7710 }, { "epoch": 16.083333333333332, "grad_norm": 0.1648109257221222, "learning_rate": 7.218237771703921e-05, "loss": 0.0336, "step": 7720 }, { "epoch": 16.104166666666668, "grad_norm": 0.15817658603191376, "learning_rate": 7.210825533433719e-05, "loss": 0.0352, "step": 7730 }, { "epoch": 16.125, "grad_norm": 0.15352031588554382, "learning_rate": 7.203407250850928e-05, "loss": 0.0371, "step": 7740 }, { "epoch": 16.145833333333332, "grad_norm": 0.19005423784255981, "learning_rate": 7.195982944236851e-05, "loss": 0.0332, "step": 7750 }, { "epoch": 16.166666666666668, "grad_norm": 0.1583658754825592, "learning_rate": 7.188552633889259e-05, "loss": 0.0361, "step": 7760 }, { "epoch": 16.1875, "grad_norm": 0.2810417115688324, "learning_rate": 7.181116340122336e-05, "loss": 0.035, "step": 7770 }, { "epoch": 16.208333333333332, "grad_norm": 0.21028147637844086, "learning_rate": 7.173674083266624e-05, "loss": 0.031, "step": 7780 }, { "epoch": 16.229166666666668, "grad_norm": 0.1716335266828537, "learning_rate": 7.166225883668969e-05, "loss": 0.0342, "step": 7790 }, { "epoch": 16.25, "grad_norm": 0.1512833833694458, "learning_rate": 7.158771761692464e-05, "loss": 0.0348, "step": 7800 }, { "epoch": 16.270833333333332, "grad_norm": 0.17439378798007965, "learning_rate": 7.151311737716397e-05, "loss": 0.0341, "step": 7810 }, { "epoch": 16.291666666666668, "grad_norm": 0.1201355829834938, "learning_rate": 7.143845832136188e-05, "loss": 0.0352, "step": 7820 }, { "epoch": 16.3125, "grad_norm": 0.1828165054321289, "learning_rate": 7.136374065363334e-05, "loss": 0.0398, "step": 7830 }, { "epoch": 16.333333333333332, "grad_norm": 0.13975965976715088, "learning_rate": 7.128896457825364e-05, "loss": 0.0408, "step": 7840 }, { "epoch": 16.354166666666668, "grad_norm": 0.18429416418075562, "learning_rate": 7.121413029965769e-05, "loss": 0.0327, "step": 7850 }, { "epoch": 16.375, "grad_norm": 0.19271697103977203, "learning_rate": 7.113923802243957e-05, "loss": 0.0319, "step": 7860 }, { "epoch": 16.395833333333332, "grad_norm": 0.11892831325531006, "learning_rate": 7.10642879513519e-05, "loss": 0.0329, "step": 7870 }, { "epoch": 16.416666666666668, "grad_norm": 0.14721600711345673, "learning_rate": 7.09892802913053e-05, "loss": 0.0338, "step": 7880 }, { "epoch": 16.4375, "grad_norm": 0.2083664983510971, "learning_rate": 7.091421524736784e-05, "loss": 0.0349, "step": 7890 }, { "epoch": 16.458333333333332, "grad_norm": 0.19656813144683838, "learning_rate": 7.083909302476453e-05, "loss": 0.0366, "step": 7900 }, { "epoch": 16.479166666666668, "grad_norm": 0.13245166838169098, "learning_rate": 7.076391382887661e-05, "loss": 0.035, "step": 7910 }, { "epoch": 16.5, "grad_norm": 0.20569723844528198, "learning_rate": 7.068867786524116e-05, "loss": 0.0383, "step": 7920 }, { "epoch": 16.520833333333332, "grad_norm": 0.1444820761680603, "learning_rate": 7.061338533955043e-05, "loss": 0.0347, "step": 7930 }, { "epoch": 16.541666666666668, "grad_norm": 0.12678445875644684, "learning_rate": 7.053803645765128e-05, "loss": 0.0371, "step": 7940 }, { "epoch": 16.5625, "grad_norm": 0.2457423359155655, "learning_rate": 7.04626314255447e-05, "loss": 0.0378, "step": 7950 }, { "epoch": 16.583333333333332, "grad_norm": 0.137119323015213, "learning_rate": 7.038717044938519e-05, "loss": 0.0425, "step": 7960 }, { "epoch": 16.604166666666668, "grad_norm": 0.14928312599658966, "learning_rate": 7.031165373548014e-05, "loss": 0.0414, "step": 7970 }, { "epoch": 16.625, "grad_norm": 0.16938933730125427, "learning_rate": 7.023608149028937e-05, "loss": 0.0369, "step": 7980 }, { "epoch": 16.645833333333332, "grad_norm": 0.16970719397068024, "learning_rate": 7.016045392042452e-05, "loss": 0.043, "step": 7990 }, { "epoch": 16.666666666666668, "grad_norm": 0.2005550116300583, "learning_rate": 7.008477123264848e-05, "loss": 0.0398, "step": 8000 }, { "epoch": 16.6875, "grad_norm": 0.1557931900024414, "learning_rate": 7.000903363387482e-05, "loss": 0.0349, "step": 8010 }, { "epoch": 16.708333333333332, "grad_norm": 0.14087961614131927, "learning_rate": 6.993324133116726e-05, "loss": 0.0368, "step": 8020 }, { "epoch": 16.729166666666668, "grad_norm": 0.14120244979858398, "learning_rate": 6.985739453173903e-05, "loss": 0.0353, "step": 8030 }, { "epoch": 16.75, "grad_norm": 0.15492960810661316, "learning_rate": 6.978149344295242e-05, "loss": 0.0394, "step": 8040 }, { "epoch": 16.770833333333332, "grad_norm": 0.1327606439590454, "learning_rate": 6.97055382723181e-05, "loss": 0.0314, "step": 8050 }, { "epoch": 16.791666666666668, "grad_norm": 0.1528320610523224, "learning_rate": 6.962952922749457e-05, "loss": 0.0329, "step": 8060 }, { "epoch": 16.8125, "grad_norm": 0.2162778079509735, "learning_rate": 6.955346651628771e-05, "loss": 0.035, "step": 8070 }, { "epoch": 16.833333333333332, "grad_norm": 0.1559247076511383, "learning_rate": 6.947735034665002e-05, "loss": 0.0301, "step": 8080 }, { "epoch": 16.854166666666668, "grad_norm": 0.14529015123844147, "learning_rate": 6.940118092668022e-05, "loss": 0.0341, "step": 8090 }, { "epoch": 16.875, "grad_norm": 0.34894222021102905, "learning_rate": 6.932495846462261e-05, "loss": 0.0328, "step": 8100 }, { "epoch": 16.895833333333332, "grad_norm": 0.1647811233997345, "learning_rate": 6.924868316886649e-05, "loss": 0.0349, "step": 8110 }, { "epoch": 16.916666666666668, "grad_norm": 0.1857047826051712, "learning_rate": 6.917235524794558e-05, "loss": 0.0345, "step": 8120 }, { "epoch": 16.9375, "grad_norm": 0.1587740182876587, "learning_rate": 6.909597491053751e-05, "loss": 0.0337, "step": 8130 }, { "epoch": 16.958333333333332, "grad_norm": 0.21155588328838348, "learning_rate": 6.901954236546323e-05, "loss": 0.0323, "step": 8140 }, { "epoch": 16.979166666666668, "grad_norm": 0.2186802327632904, "learning_rate": 6.894305782168638e-05, "loss": 0.0382, "step": 8150 }, { "epoch": 17.0, "grad_norm": 0.2168455570936203, "learning_rate": 6.886652148831279e-05, "loss": 0.0368, "step": 8160 }, { "epoch": 17.020833333333332, "grad_norm": 0.16022613644599915, "learning_rate": 6.878993357458986e-05, "loss": 0.0329, "step": 8170 }, { "epoch": 17.041666666666668, "grad_norm": 0.24356217682361603, "learning_rate": 6.871329428990602e-05, "loss": 0.0339, "step": 8180 }, { "epoch": 17.0625, "grad_norm": 0.2708386778831482, "learning_rate": 6.863660384379017e-05, "loss": 0.0347, "step": 8190 }, { "epoch": 17.083333333333332, "grad_norm": 0.17725010216236115, "learning_rate": 6.855986244591104e-05, "loss": 0.036, "step": 8200 }, { "epoch": 17.104166666666668, "grad_norm": 0.14021183550357819, "learning_rate": 6.84830703060767e-05, "loss": 0.0338, "step": 8210 }, { "epoch": 17.125, "grad_norm": 0.2406555414199829, "learning_rate": 6.840622763423391e-05, "loss": 0.0354, "step": 8220 }, { "epoch": 17.145833333333332, "grad_norm": 0.1486985981464386, "learning_rate": 6.83293346404676e-05, "loss": 0.0343, "step": 8230 }, { "epoch": 17.166666666666668, "grad_norm": 0.1131148710846901, "learning_rate": 6.825239153500029e-05, "loss": 0.0367, "step": 8240 }, { "epoch": 17.1875, "grad_norm": 0.15459787845611572, "learning_rate": 6.817539852819149e-05, "loss": 0.032, "step": 8250 }, { "epoch": 17.208333333333332, "grad_norm": 0.14634032547473907, "learning_rate": 6.809835583053715e-05, "loss": 0.0312, "step": 8260 }, { "epoch": 17.229166666666668, "grad_norm": 0.20222978293895721, "learning_rate": 6.802126365266905e-05, "loss": 0.0312, "step": 8270 }, { "epoch": 17.25, "grad_norm": 0.17599228024482727, "learning_rate": 6.794412220535426e-05, "loss": 0.0421, "step": 8280 }, { "epoch": 17.270833333333332, "grad_norm": 0.19808682799339294, "learning_rate": 6.786693169949455e-05, "loss": 0.0348, "step": 8290 }, { "epoch": 17.291666666666668, "grad_norm": 0.14311186969280243, "learning_rate": 6.778969234612584e-05, "loss": 0.0296, "step": 8300 }, { "epoch": 17.3125, "grad_norm": 0.18040882050991058, "learning_rate": 6.771240435641754e-05, "loss": 0.0327, "step": 8310 }, { "epoch": 17.333333333333332, "grad_norm": 0.38279595971107483, "learning_rate": 6.763506794167208e-05, "loss": 0.0391, "step": 8320 }, { "epoch": 17.354166666666668, "grad_norm": 0.11500196903944016, "learning_rate": 6.755768331332424e-05, "loss": 0.0369, "step": 8330 }, { "epoch": 17.375, "grad_norm": 0.14805662631988525, "learning_rate": 6.748025068294067e-05, "loss": 0.0376, "step": 8340 }, { "epoch": 17.395833333333332, "grad_norm": 0.13070596754550934, "learning_rate": 6.740277026221923e-05, "loss": 0.035, "step": 8350 }, { "epoch": 17.416666666666668, "grad_norm": 0.16644726693630219, "learning_rate": 6.732524226298841e-05, "loss": 0.0353, "step": 8360 }, { "epoch": 17.4375, "grad_norm": 0.1424662470817566, "learning_rate": 6.72476668972068e-05, "loss": 0.0326, "step": 8370 }, { "epoch": 17.458333333333332, "grad_norm": 0.13861249387264252, "learning_rate": 6.71700443769625e-05, "loss": 0.0272, "step": 8380 }, { "epoch": 17.479166666666668, "grad_norm": 0.13076786696910858, "learning_rate": 6.709237491447249e-05, "loss": 0.0355, "step": 8390 }, { "epoch": 17.5, "grad_norm": 0.1622103601694107, "learning_rate": 6.701465872208216e-05, "loss": 0.0319, "step": 8400 }, { "epoch": 17.520833333333332, "grad_norm": 0.12333270907402039, "learning_rate": 6.693689601226458e-05, "loss": 0.026, "step": 8410 }, { "epoch": 17.541666666666668, "grad_norm": 0.1497785598039627, "learning_rate": 6.685908699762002e-05, "loss": 0.0329, "step": 8420 }, { "epoch": 17.5625, "grad_norm": 0.1661297082901001, "learning_rate": 6.67812318908754e-05, "loss": 0.0307, "step": 8430 }, { "epoch": 17.583333333333332, "grad_norm": 0.16035805642604828, "learning_rate": 6.670333090488356e-05, "loss": 0.0324, "step": 8440 }, { "epoch": 17.604166666666668, "grad_norm": 0.1434692144393921, "learning_rate": 6.662538425262285e-05, "loss": 0.0304, "step": 8450 }, { "epoch": 17.625, "grad_norm": 0.15477703511714935, "learning_rate": 6.654739214719641e-05, "loss": 0.0317, "step": 8460 }, { "epoch": 17.645833333333332, "grad_norm": 0.20375266671180725, "learning_rate": 6.646935480183173e-05, "loss": 0.0313, "step": 8470 }, { "epoch": 17.666666666666668, "grad_norm": 0.10536772012710571, "learning_rate": 6.639127242987988e-05, "loss": 0.0317, "step": 8480 }, { "epoch": 17.6875, "grad_norm": 0.1707887202501297, "learning_rate": 6.631314524481513e-05, "loss": 0.0401, "step": 8490 }, { "epoch": 17.708333333333332, "grad_norm": 0.19697634875774384, "learning_rate": 6.623497346023418e-05, "loss": 0.0361, "step": 8500 }, { "epoch": 17.729166666666668, "grad_norm": 0.20912520587444305, "learning_rate": 6.615675728985572e-05, "loss": 0.0303, "step": 8510 }, { "epoch": 17.75, "grad_norm": 0.188833549618721, "learning_rate": 6.607849694751977e-05, "loss": 0.0376, "step": 8520 }, { "epoch": 17.770833333333332, "grad_norm": 0.13685058057308197, "learning_rate": 6.600019264718713e-05, "loss": 0.0315, "step": 8530 }, { "epoch": 17.791666666666668, "grad_norm": 0.18767589330673218, "learning_rate": 6.592184460293877e-05, "loss": 0.0321, "step": 8540 }, { "epoch": 17.8125, "grad_norm": 0.28952109813690186, "learning_rate": 6.584345302897523e-05, "loss": 0.0315, "step": 8550 }, { "epoch": 17.833333333333332, "grad_norm": 0.1443619281053543, "learning_rate": 6.576501813961609e-05, "loss": 0.034, "step": 8560 }, { "epoch": 17.854166666666668, "grad_norm": 0.13200506567955017, "learning_rate": 6.568654014929932e-05, "loss": 0.032, "step": 8570 }, { "epoch": 17.875, "grad_norm": 0.14664645493030548, "learning_rate": 6.56080192725808e-05, "loss": 0.0382, "step": 8580 }, { "epoch": 17.895833333333332, "grad_norm": 0.13921716809272766, "learning_rate": 6.552945572413358e-05, "loss": 0.0313, "step": 8590 }, { "epoch": 17.916666666666668, "grad_norm": 0.15698783099651337, "learning_rate": 6.545084971874738e-05, "loss": 0.0353, "step": 8600 }, { "epoch": 17.9375, "grad_norm": 0.126752108335495, "learning_rate": 6.537220147132805e-05, "loss": 0.0375, "step": 8610 }, { "epoch": 17.958333333333332, "grad_norm": 0.2017500251531601, "learning_rate": 6.529351119689688e-05, "loss": 0.0367, "step": 8620 }, { "epoch": 17.979166666666668, "grad_norm": 0.21891042590141296, "learning_rate": 6.521477911059008e-05, "loss": 0.0332, "step": 8630 }, { "epoch": 18.0, "grad_norm": 0.301432341337204, "learning_rate": 6.513600542765817e-05, "loss": 0.0381, "step": 8640 }, { "epoch": 18.020833333333332, "grad_norm": 0.13722945749759674, "learning_rate": 6.505719036346539e-05, "loss": 0.0318, "step": 8650 }, { "epoch": 18.041666666666668, "grad_norm": 0.13538748025894165, "learning_rate": 6.497833413348909e-05, "loss": 0.0354, "step": 8660 }, { "epoch": 18.0625, "grad_norm": 0.19448673725128174, "learning_rate": 6.489943695331923e-05, "loss": 0.031, "step": 8670 }, { "epoch": 18.083333333333332, "grad_norm": 0.21820197999477386, "learning_rate": 6.48204990386577e-05, "loss": 0.0323, "step": 8680 }, { "epoch": 18.104166666666668, "grad_norm": 0.195081889629364, "learning_rate": 6.474152060531768e-05, "loss": 0.0368, "step": 8690 }, { "epoch": 18.125, "grad_norm": 0.19409608840942383, "learning_rate": 6.466250186922325e-05, "loss": 0.0306, "step": 8700 }, { "epoch": 18.145833333333332, "grad_norm": 0.12950904667377472, "learning_rate": 6.458344304640858e-05, "loss": 0.0322, "step": 8710 }, { "epoch": 18.166666666666668, "grad_norm": 0.1572367399930954, "learning_rate": 6.450434435301751e-05, "loss": 0.0268, "step": 8720 }, { "epoch": 18.1875, "grad_norm": 0.1686357855796814, "learning_rate": 6.44252060053028e-05, "loss": 0.0335, "step": 8730 }, { "epoch": 18.208333333333332, "grad_norm": 0.15450820326805115, "learning_rate": 6.43460282196257e-05, "loss": 0.0316, "step": 8740 }, { "epoch": 18.229166666666668, "grad_norm": 0.2330501675605774, "learning_rate": 6.426681121245527e-05, "loss": 0.0369, "step": 8750 }, { "epoch": 18.25, "grad_norm": 0.17878761887550354, "learning_rate": 6.418755520036775e-05, "loss": 0.0297, "step": 8760 }, { "epoch": 18.270833333333332, "grad_norm": 0.25371256470680237, "learning_rate": 6.410826040004607e-05, "loss": 0.0353, "step": 8770 }, { "epoch": 18.291666666666668, "grad_norm": 0.1473485231399536, "learning_rate": 6.402892702827916e-05, "loss": 0.0313, "step": 8780 }, { "epoch": 18.3125, "grad_norm": 0.1894673854112625, "learning_rate": 6.394955530196147e-05, "loss": 0.0346, "step": 8790 }, { "epoch": 18.333333333333332, "grad_norm": 0.15461823344230652, "learning_rate": 6.387014543809223e-05, "loss": 0.0357, "step": 8800 }, { "epoch": 18.354166666666668, "grad_norm": 0.21859876811504364, "learning_rate": 6.3790697653775e-05, "loss": 0.035, "step": 8810 }, { "epoch": 18.375, "grad_norm": 0.1513315737247467, "learning_rate": 6.371121216621698e-05, "loss": 0.0314, "step": 8820 }, { "epoch": 18.395833333333332, "grad_norm": 0.17514263093471527, "learning_rate": 6.363168919272846e-05, "loss": 0.0323, "step": 8830 }, { "epoch": 18.416666666666668, "grad_norm": 0.20744167268276215, "learning_rate": 6.355212895072223e-05, "loss": 0.0372, "step": 8840 }, { "epoch": 18.4375, "grad_norm": 0.14800360798835754, "learning_rate": 6.34725316577129e-05, "loss": 0.0319, "step": 8850 }, { "epoch": 18.458333333333332, "grad_norm": 0.09246023744344711, "learning_rate": 6.339289753131649e-05, "loss": 0.037, "step": 8860 }, { "epoch": 18.479166666666668, "grad_norm": 0.14956769347190857, "learning_rate": 6.331322678924962e-05, "loss": 0.0361, "step": 8870 }, { "epoch": 18.5, "grad_norm": 0.15677788853645325, "learning_rate": 6.323351964932908e-05, "loss": 0.0312, "step": 8880 }, { "epoch": 18.520833333333332, "grad_norm": 0.12306883931159973, "learning_rate": 6.315377632947115e-05, "loss": 0.0337, "step": 8890 }, { "epoch": 18.541666666666668, "grad_norm": 0.19529423117637634, "learning_rate": 6.307399704769099e-05, "loss": 0.0304, "step": 8900 }, { "epoch": 18.5625, "grad_norm": 0.1523696631193161, "learning_rate": 6.299418202210214e-05, "loss": 0.0356, "step": 8910 }, { "epoch": 18.583333333333332, "grad_norm": 0.15853683650493622, "learning_rate": 6.291433147091583e-05, "loss": 0.0312, "step": 8920 }, { "epoch": 18.604166666666668, "grad_norm": 0.14453911781311035, "learning_rate": 6.283444561244042e-05, "loss": 0.032, "step": 8930 }, { "epoch": 18.625, "grad_norm": 0.13058850169181824, "learning_rate": 6.275452466508077e-05, "loss": 0.0293, "step": 8940 }, { "epoch": 18.645833333333332, "grad_norm": 0.18117286264896393, "learning_rate": 6.26745688473377e-05, "loss": 0.0322, "step": 8950 }, { "epoch": 18.666666666666668, "grad_norm": 0.25124210119247437, "learning_rate": 6.259457837780742e-05, "loss": 0.0385, "step": 8960 }, { "epoch": 18.6875, "grad_norm": 0.1604243516921997, "learning_rate": 6.251455347518073e-05, "loss": 0.0331, "step": 8970 }, { "epoch": 18.708333333333332, "grad_norm": 0.17304003238677979, "learning_rate": 6.243449435824276e-05, "loss": 0.0303, "step": 8980 }, { "epoch": 18.729166666666668, "grad_norm": 0.1235496923327446, "learning_rate": 6.235440124587198e-05, "loss": 0.0333, "step": 8990 }, { "epoch": 18.75, "grad_norm": 0.17944522202014923, "learning_rate": 6.227427435703997e-05, "loss": 0.0359, "step": 9000 }, { "epoch": 18.770833333333332, "grad_norm": 0.17398157715797424, "learning_rate": 6.219411391081055e-05, "loss": 0.036, "step": 9010 }, { "epoch": 18.791666666666668, "grad_norm": 0.22309964895248413, "learning_rate": 6.211392012633932e-05, "loss": 0.0314, "step": 9020 }, { "epoch": 18.8125, "grad_norm": 0.12258658558130264, "learning_rate": 6.203369322287306e-05, "loss": 0.0268, "step": 9030 }, { "epoch": 18.833333333333332, "grad_norm": 0.12605999410152435, "learning_rate": 6.195343341974899e-05, "loss": 0.032, "step": 9040 }, { "epoch": 18.854166666666668, "grad_norm": 0.12947718799114227, "learning_rate": 6.187314093639444e-05, "loss": 0.0319, "step": 9050 }, { "epoch": 18.875, "grad_norm": 0.14331626892089844, "learning_rate": 6.179281599232591e-05, "loss": 0.0358, "step": 9060 }, { "epoch": 18.895833333333332, "grad_norm": 0.14042025804519653, "learning_rate": 6.17124588071488e-05, "loss": 0.037, "step": 9070 }, { "epoch": 18.916666666666668, "grad_norm": 0.19184023141860962, "learning_rate": 6.163206960055651e-05, "loss": 0.0349, "step": 9080 }, { "epoch": 18.9375, "grad_norm": 0.18206240236759186, "learning_rate": 6.155164859233012e-05, "loss": 0.0293, "step": 9090 }, { "epoch": 18.958333333333332, "grad_norm": 0.12506410479545593, "learning_rate": 6.147119600233758e-05, "loss": 0.0315, "step": 9100 }, { "epoch": 18.979166666666668, "grad_norm": 0.13553659617900848, "learning_rate": 6.13907120505332e-05, "loss": 0.039, "step": 9110 }, { "epoch": 19.0, "grad_norm": 0.2301838994026184, "learning_rate": 6.131019695695702e-05, "loss": 0.0379, "step": 9120 }, { "epoch": 19.020833333333332, "grad_norm": 0.17382632195949554, "learning_rate": 6.122965094173424e-05, "loss": 0.0331, "step": 9130 }, { "epoch": 19.041666666666668, "grad_norm": 0.12642432749271393, "learning_rate": 6.11490742250746e-05, "loss": 0.0248, "step": 9140 }, { "epoch": 19.0625, "grad_norm": 0.15680325031280518, "learning_rate": 6.106846702727172e-05, "loss": 0.0306, "step": 9150 }, { "epoch": 19.083333333333332, "grad_norm": 0.19484879076480865, "learning_rate": 6.0987829568702656e-05, "loss": 0.0365, "step": 9160 }, { "epoch": 19.104166666666668, "grad_norm": 0.18092387914657593, "learning_rate": 6.090716206982714e-05, "loss": 0.0297, "step": 9170 }, { "epoch": 19.125, "grad_norm": 0.1446029245853424, "learning_rate": 6.0826464751186994e-05, "loss": 0.0388, "step": 9180 }, { "epoch": 19.145833333333332, "grad_norm": 0.16833531856536865, "learning_rate": 6.074573783340562e-05, "loss": 0.0317, "step": 9190 }, { "epoch": 19.166666666666668, "grad_norm": 0.1768372356891632, "learning_rate": 6.066498153718735e-05, "loss": 0.0291, "step": 9200 }, { "epoch": 19.1875, "grad_norm": 0.13168023526668549, "learning_rate": 6.0584196083316794e-05, "loss": 0.0331, "step": 9210 }, { "epoch": 19.208333333333332, "grad_norm": 0.31375831365585327, "learning_rate": 6.05033816926583e-05, "loss": 0.0286, "step": 9220 }, { "epoch": 19.229166666666668, "grad_norm": 0.16151735186576843, "learning_rate": 6.042253858615532e-05, "loss": 0.037, "step": 9230 }, { "epoch": 19.25, "grad_norm": 0.2260536253452301, "learning_rate": 6.034166698482984e-05, "loss": 0.0332, "step": 9240 }, { "epoch": 19.270833333333332, "grad_norm": 0.1350277066230774, "learning_rate": 6.026076710978171e-05, "loss": 0.0321, "step": 9250 }, { "epoch": 19.291666666666668, "grad_norm": 0.17053525149822235, "learning_rate": 6.017983918218812e-05, "loss": 0.0318, "step": 9260 }, { "epoch": 19.3125, "grad_norm": 0.16354365646839142, "learning_rate": 6.009888342330292e-05, "loss": 0.0305, "step": 9270 }, { "epoch": 19.333333333333332, "grad_norm": 0.20354121923446655, "learning_rate": 6.001790005445607e-05, "loss": 0.0335, "step": 9280 }, { "epoch": 19.354166666666668, "grad_norm": 0.15283623337745667, "learning_rate": 5.9936889297052986e-05, "loss": 0.0283, "step": 9290 }, { "epoch": 19.375, "grad_norm": 0.15448661148548126, "learning_rate": 5.985585137257401e-05, "loss": 0.0283, "step": 9300 }, { "epoch": 19.395833333333332, "grad_norm": 0.16938842833042145, "learning_rate": 5.977478650257374e-05, "loss": 0.0348, "step": 9310 }, { "epoch": 19.416666666666668, "grad_norm": 0.37353208661079407, "learning_rate": 5.969369490868042e-05, "loss": 0.0324, "step": 9320 }, { "epoch": 19.4375, "grad_norm": 0.1304568499326706, "learning_rate": 5.961257681259535e-05, "loss": 0.0311, "step": 9330 }, { "epoch": 19.458333333333332, "grad_norm": 0.19300010800361633, "learning_rate": 5.953143243609235e-05, "loss": 0.0331, "step": 9340 }, { "epoch": 19.479166666666668, "grad_norm": 0.1513396054506302, "learning_rate": 5.945026200101702e-05, "loss": 0.0321, "step": 9350 }, { "epoch": 19.5, "grad_norm": 0.16001760959625244, "learning_rate": 5.9369065729286245e-05, "loss": 0.0288, "step": 9360 }, { "epoch": 19.520833333333332, "grad_norm": 0.18787340819835663, "learning_rate": 5.92878438428875e-05, "loss": 0.0327, "step": 9370 }, { "epoch": 19.541666666666668, "grad_norm": 0.1099451407790184, "learning_rate": 5.9206596563878357e-05, "loss": 0.0403, "step": 9380 }, { "epoch": 19.5625, "grad_norm": 0.15600630640983582, "learning_rate": 5.912532411438576e-05, "loss": 0.0351, "step": 9390 }, { "epoch": 19.583333333333332, "grad_norm": 0.17820662260055542, "learning_rate": 5.90440267166055e-05, "loss": 0.0308, "step": 9400 }, { "epoch": 19.604166666666668, "grad_norm": 0.2025279849767685, "learning_rate": 5.896270459280153e-05, "loss": 0.0319, "step": 9410 }, { "epoch": 19.625, "grad_norm": 0.2054355889558792, "learning_rate": 5.888135796530544e-05, "loss": 0.0297, "step": 9420 }, { "epoch": 19.645833333333332, "grad_norm": 0.2132987529039383, "learning_rate": 5.8799987056515804e-05, "loss": 0.0321, "step": 9430 }, { "epoch": 19.666666666666668, "grad_norm": 0.17404897511005402, "learning_rate": 5.871859208889759e-05, "loss": 0.0302, "step": 9440 }, { "epoch": 19.6875, "grad_norm": 0.16997893154621124, "learning_rate": 5.8637173284981526e-05, "loss": 0.0362, "step": 9450 }, { "epoch": 19.708333333333332, "grad_norm": 0.09352988004684448, "learning_rate": 5.85557308673635e-05, "loss": 0.0309, "step": 9460 }, { "epoch": 19.729166666666668, "grad_norm": 0.1730286180973053, "learning_rate": 5.847426505870399e-05, "loss": 0.0332, "step": 9470 }, { "epoch": 19.75, "grad_norm": 0.1519474983215332, "learning_rate": 5.8392776081727385e-05, "loss": 0.029, "step": 9480 }, { "epoch": 19.770833333333332, "grad_norm": 0.1817491352558136, "learning_rate": 5.831126415922148e-05, "loss": 0.0286, "step": 9490 }, { "epoch": 19.791666666666668, "grad_norm": 0.13950465619564056, "learning_rate": 5.8229729514036705e-05, "loss": 0.032, "step": 9500 }, { "epoch": 19.8125, "grad_norm": 0.18574438989162445, "learning_rate": 5.8148172369085686e-05, "loss": 0.0362, "step": 9510 }, { "epoch": 19.833333333333332, "grad_norm": 0.14206629991531372, "learning_rate": 5.8066592947342555e-05, "loss": 0.0295, "step": 9520 }, { "epoch": 19.854166666666668, "grad_norm": 0.14365921914577484, "learning_rate": 5.798499147184233e-05, "loss": 0.0373, "step": 9530 }, { "epoch": 19.875, "grad_norm": 0.19930775463581085, "learning_rate": 5.7903368165680327e-05, "loss": 0.0322, "step": 9540 }, { "epoch": 19.895833333333332, "grad_norm": 0.16704967617988586, "learning_rate": 5.782172325201155e-05, "loss": 0.0356, "step": 9550 }, { "epoch": 19.916666666666668, "grad_norm": 0.14229434728622437, "learning_rate": 5.7740056954050084e-05, "loss": 0.0339, "step": 9560 }, { "epoch": 19.9375, "grad_norm": 0.17937196791172028, "learning_rate": 5.765836949506843e-05, "loss": 0.0347, "step": 9570 }, { "epoch": 19.958333333333332, "grad_norm": 0.16687548160552979, "learning_rate": 5.757666109839702e-05, "loss": 0.0323, "step": 9580 }, { "epoch": 19.979166666666668, "grad_norm": 0.24143926799297333, "learning_rate": 5.74949319874235e-05, "loss": 0.0332, "step": 9590 }, { "epoch": 20.0, "grad_norm": 0.17530682682991028, "learning_rate": 5.74131823855921e-05, "loss": 0.0262, "step": 9600 }, { "epoch": 20.020833333333332, "grad_norm": 0.1351586878299713, "learning_rate": 5.733141251640315e-05, "loss": 0.0301, "step": 9610 }, { "epoch": 20.041666666666668, "grad_norm": 0.28915876150131226, "learning_rate": 5.72496226034123e-05, "loss": 0.0358, "step": 9620 }, { "epoch": 20.0625, "grad_norm": 0.16832274198532104, "learning_rate": 5.7167812870230094e-05, "loss": 0.0364, "step": 9630 }, { "epoch": 20.083333333333332, "grad_norm": 0.16437412798404694, "learning_rate": 5.7085983540521216e-05, "loss": 0.0328, "step": 9640 }, { "epoch": 20.104166666666668, "grad_norm": 0.1800524890422821, "learning_rate": 5.70041348380039e-05, "loss": 0.0291, "step": 9650 }, { "epoch": 20.125, "grad_norm": 0.07118445634841919, "learning_rate": 5.692226698644938e-05, "loss": 0.0292, "step": 9660 }, { "epoch": 20.145833333333332, "grad_norm": 0.1352858692407608, "learning_rate": 5.6840380209681255e-05, "loss": 0.0338, "step": 9670 }, { "epoch": 20.166666666666668, "grad_norm": 0.18974405527114868, "learning_rate": 5.675847473157485e-05, "loss": 0.0337, "step": 9680 }, { "epoch": 20.1875, "grad_norm": 0.1933366060256958, "learning_rate": 5.667655077605659e-05, "loss": 0.0331, "step": 9690 }, { "epoch": 20.208333333333332, "grad_norm": 0.11528471857309341, "learning_rate": 5.6594608567103456e-05, "loss": 0.0275, "step": 9700 }, { "epoch": 20.229166666666668, "grad_norm": 0.16446009278297424, "learning_rate": 5.65126483287423e-05, "loss": 0.0299, "step": 9710 }, { "epoch": 20.25, "grad_norm": 0.22337478399276733, "learning_rate": 5.6430670285049314e-05, "loss": 0.0337, "step": 9720 }, { "epoch": 20.270833333333332, "grad_norm": 0.127290740609169, "learning_rate": 5.634867466014932e-05, "loss": 0.0302, "step": 9730 }, { "epoch": 20.291666666666668, "grad_norm": 0.15508227050304413, "learning_rate": 5.6266661678215216e-05, "loss": 0.0344, "step": 9740 }, { "epoch": 20.3125, "grad_norm": 0.2190389633178711, "learning_rate": 5.618463156346739e-05, "loss": 0.0335, "step": 9750 }, { "epoch": 20.333333333333332, "grad_norm": 0.15652169287204742, "learning_rate": 5.6102584540173006e-05, "loss": 0.03, "step": 9760 }, { "epoch": 20.354166666666668, "grad_norm": 0.24201945960521698, "learning_rate": 5.602052083264555e-05, "loss": 0.0297, "step": 9770 }, { "epoch": 20.375, "grad_norm": 0.15345486998558044, "learning_rate": 5.5938440665244006e-05, "loss": 0.0315, "step": 9780 }, { "epoch": 20.395833333333332, "grad_norm": 0.12930673360824585, "learning_rate": 5.585634426237246e-05, "loss": 0.0313, "step": 9790 }, { "epoch": 20.416666666666668, "grad_norm": 0.21755188703536987, "learning_rate": 5.577423184847932e-05, "loss": 0.0345, "step": 9800 }, { "epoch": 20.4375, "grad_norm": 0.19335663318634033, "learning_rate": 5.569210364805677e-05, "loss": 0.0285, "step": 9810 }, { "epoch": 20.458333333333332, "grad_norm": 0.17761370539665222, "learning_rate": 5.560995988564023e-05, "loss": 0.0312, "step": 9820 }, { "epoch": 20.479166666666668, "grad_norm": 0.17192943394184113, "learning_rate": 5.552780078580756e-05, "loss": 0.0289, "step": 9830 }, { "epoch": 20.5, "grad_norm": 0.16286790370941162, "learning_rate": 5.544562657317863e-05, "loss": 0.0336, "step": 9840 }, { "epoch": 20.520833333333332, "grad_norm": 0.1529226452112198, "learning_rate": 5.5363437472414595e-05, "loss": 0.03, "step": 9850 }, { "epoch": 20.541666666666668, "grad_norm": 0.20104697346687317, "learning_rate": 5.52812337082173e-05, "loss": 0.0366, "step": 9860 }, { "epoch": 20.5625, "grad_norm": 0.13286703824996948, "learning_rate": 5.519901550532871e-05, "loss": 0.0321, "step": 9870 }, { "epoch": 20.583333333333332, "grad_norm": 0.1769247204065323, "learning_rate": 5.511678308853026e-05, "loss": 0.0263, "step": 9880 }, { "epoch": 20.604166666666668, "grad_norm": 0.13759130239486694, "learning_rate": 5.5034536682642224e-05, "loss": 0.0307, "step": 9890 }, { "epoch": 20.625, "grad_norm": 0.22643551230430603, "learning_rate": 5.495227651252315e-05, "loss": 0.0358, "step": 9900 }, { "epoch": 20.645833333333332, "grad_norm": 0.16095775365829468, "learning_rate": 5.487000280306917e-05, "loss": 0.0338, "step": 9910 }, { "epoch": 20.666666666666668, "grad_norm": 0.18090853095054626, "learning_rate": 5.478771577921351e-05, "loss": 0.0325, "step": 9920 }, { "epoch": 20.6875, "grad_norm": 0.09949091076850891, "learning_rate": 5.470541566592573e-05, "loss": 0.033, "step": 9930 }, { "epoch": 20.708333333333332, "grad_norm": 0.13525912165641785, "learning_rate": 5.462310268821118e-05, "loss": 0.0271, "step": 9940 }, { "epoch": 20.729166666666668, "grad_norm": 0.15225471556186676, "learning_rate": 5.454077707111042e-05, "loss": 0.032, "step": 9950 }, { "epoch": 20.75, "grad_norm": 0.19380158185958862, "learning_rate": 5.445843903969854e-05, "loss": 0.0318, "step": 9960 }, { "epoch": 20.770833333333332, "grad_norm": 0.13064223527908325, "learning_rate": 5.4376088819084556e-05, "loss": 0.0334, "step": 9970 }, { "epoch": 20.791666666666668, "grad_norm": 0.12589558959007263, "learning_rate": 5.4293726634410855e-05, "loss": 0.0304, "step": 9980 }, { "epoch": 20.8125, "grad_norm": 0.1807386428117752, "learning_rate": 5.4211352710852495e-05, "loss": 0.028, "step": 9990 }, { "epoch": 20.833333333333332, "grad_norm": 0.10364381223917007, "learning_rate": 5.4128967273616625e-05, "loss": 0.0312, "step": 10000 }, { "epoch": 20.854166666666668, "grad_norm": 0.13546667993068695, "learning_rate": 5.404657054794189e-05, "loss": 0.035, "step": 10010 }, { "epoch": 20.875, "grad_norm": 0.19215844571590424, "learning_rate": 5.396416275909779e-05, "loss": 0.0326, "step": 10020 }, { "epoch": 20.895833333333332, "grad_norm": 0.11884183436632156, "learning_rate": 5.3881744132384104e-05, "loss": 0.0326, "step": 10030 }, { "epoch": 20.916666666666668, "grad_norm": 0.17135050892829895, "learning_rate": 5.379931489313016e-05, "loss": 0.0289, "step": 10040 }, { "epoch": 20.9375, "grad_norm": 0.18360187113285065, "learning_rate": 5.371687526669439e-05, "loss": 0.0352, "step": 10050 }, { "epoch": 20.958333333333332, "grad_norm": 0.11800679564476013, "learning_rate": 5.363442547846356e-05, "loss": 0.0291, "step": 10060 }, { "epoch": 20.979166666666668, "grad_norm": 0.14731691777706146, "learning_rate": 5.355196575385225e-05, "loss": 0.0316, "step": 10070 }, { "epoch": 21.0, "grad_norm": 0.23324380815029144, "learning_rate": 5.3469496318302204e-05, "loss": 0.0329, "step": 10080 }, { "epoch": 21.020833333333332, "grad_norm": 0.1313057392835617, "learning_rate": 5.3387017397281704e-05, "loss": 0.0313, "step": 10090 }, { "epoch": 21.041666666666668, "grad_norm": 0.13538070023059845, "learning_rate": 5.330452921628497e-05, "loss": 0.0294, "step": 10100 }, { "epoch": 21.0625, "grad_norm": 0.15936371684074402, "learning_rate": 5.322203200083154e-05, "loss": 0.0287, "step": 10110 }, { "epoch": 21.083333333333332, "grad_norm": 0.11798309534788132, "learning_rate": 5.313952597646568e-05, "loss": 0.0312, "step": 10120 }, { "epoch": 21.104166666666668, "grad_norm": 0.20913079380989075, "learning_rate": 5.305701136875566e-05, "loss": 0.0307, "step": 10130 }, { "epoch": 21.125, "grad_norm": 0.14748074114322662, "learning_rate": 5.297448840329329e-05, "loss": 0.0283, "step": 10140 }, { "epoch": 21.145833333333332, "grad_norm": 0.15432479977607727, "learning_rate": 5.2891957305693205e-05, "loss": 0.0293, "step": 10150 }, { "epoch": 21.166666666666668, "grad_norm": 0.1505114734172821, "learning_rate": 5.280941830159227e-05, "loss": 0.0274, "step": 10160 }, { "epoch": 21.1875, "grad_norm": 0.1508566290140152, "learning_rate": 5.2726871616649e-05, "loss": 0.0284, "step": 10170 }, { "epoch": 21.208333333333332, "grad_norm": 0.15168632566928864, "learning_rate": 5.264431747654284e-05, "loss": 0.032, "step": 10180 }, { "epoch": 21.229166666666668, "grad_norm": 0.1243124008178711, "learning_rate": 5.2561756106973656e-05, "loss": 0.0275, "step": 10190 }, { "epoch": 21.25, "grad_norm": 0.1441013365983963, "learning_rate": 5.247918773366112e-05, "loss": 0.0338, "step": 10200 }, { "epoch": 21.270833333333332, "grad_norm": 0.14527058601379395, "learning_rate": 5.2396612582343986e-05, "loss": 0.0287, "step": 10210 }, { "epoch": 21.291666666666668, "grad_norm": 0.14656798541545868, "learning_rate": 5.231403087877955e-05, "loss": 0.0314, "step": 10220 }, { "epoch": 21.3125, "grad_norm": 0.1804264932870865, "learning_rate": 5.2231442848743064e-05, "loss": 0.0266, "step": 10230 }, { "epoch": 21.333333333333332, "grad_norm": 0.13301332294940948, "learning_rate": 5.214884871802703e-05, "loss": 0.0329, "step": 10240 }, { "epoch": 21.354166666666668, "grad_norm": 0.191717728972435, "learning_rate": 5.2066248712440656e-05, "loss": 0.032, "step": 10250 }, { "epoch": 21.375, "grad_norm": 0.11288970708847046, "learning_rate": 5.198364305780922e-05, "loss": 0.027, "step": 10260 }, { "epoch": 21.395833333333332, "grad_norm": 0.15632188320159912, "learning_rate": 5.1901031979973394e-05, "loss": 0.0349, "step": 10270 }, { "epoch": 21.416666666666668, "grad_norm": 0.14880390465259552, "learning_rate": 5.1818415704788725e-05, "loss": 0.0287, "step": 10280 }, { "epoch": 21.4375, "grad_norm": 0.15619364380836487, "learning_rate": 5.1735794458124956e-05, "loss": 0.0359, "step": 10290 }, { "epoch": 21.458333333333332, "grad_norm": 0.1680639088153839, "learning_rate": 5.165316846586541e-05, "loss": 0.0375, "step": 10300 }, { "epoch": 21.479166666666668, "grad_norm": 0.12839600443840027, "learning_rate": 5.157053795390642e-05, "loss": 0.0263, "step": 10310 }, { "epoch": 21.5, "grad_norm": 0.17385391891002655, "learning_rate": 5.148790314815663e-05, "loss": 0.0284, "step": 10320 }, { "epoch": 21.520833333333332, "grad_norm": 0.11464673280715942, "learning_rate": 5.1405264274536445e-05, "loss": 0.0315, "step": 10330 }, { "epoch": 21.541666666666668, "grad_norm": 0.17050771415233612, "learning_rate": 5.132262155897739e-05, "loss": 0.0283, "step": 10340 }, { "epoch": 21.5625, "grad_norm": 0.15882088243961334, "learning_rate": 5.123997522742151e-05, "loss": 0.026, "step": 10350 }, { "epoch": 21.583333333333332, "grad_norm": 0.12264726310968399, "learning_rate": 5.1157325505820694e-05, "loss": 0.0312, "step": 10360 }, { "epoch": 21.604166666666668, "grad_norm": 0.11720877885818481, "learning_rate": 5.107467262013614e-05, "loss": 0.0317, "step": 10370 }, { "epoch": 21.625, "grad_norm": 0.21407580375671387, "learning_rate": 5.0992016796337686e-05, "loss": 0.0303, "step": 10380 }, { "epoch": 21.645833333333332, "grad_norm": 0.1787066012620926, "learning_rate": 5.0909358260403186e-05, "loss": 0.0309, "step": 10390 }, { "epoch": 21.666666666666668, "grad_norm": 0.13711586594581604, "learning_rate": 5.0826697238317935e-05, "loss": 0.0313, "step": 10400 }, { "epoch": 21.6875, "grad_norm": 0.1219715029001236, "learning_rate": 5.074403395607399e-05, "loss": 0.0329, "step": 10410 }, { "epoch": 21.708333333333332, "grad_norm": 0.14336316287517548, "learning_rate": 5.066136863966963e-05, "loss": 0.0299, "step": 10420 }, { "epoch": 21.729166666666668, "grad_norm": 0.15740792453289032, "learning_rate": 5.057870151510864e-05, "loss": 0.0291, "step": 10430 }, { "epoch": 21.75, "grad_norm": 0.1713835448026657, "learning_rate": 5.0496032808399815e-05, "loss": 0.0272, "step": 10440 }, { "epoch": 21.770833333333332, "grad_norm": 0.1202610582113266, "learning_rate": 5.041336274555625e-05, "loss": 0.0338, "step": 10450 }, { "epoch": 21.791666666666668, "grad_norm": 0.14802171289920807, "learning_rate": 5.033069155259471e-05, "loss": 0.03, "step": 10460 }, { "epoch": 21.8125, "grad_norm": 0.1891762912273407, "learning_rate": 5.02480194555351e-05, "loss": 0.0295, "step": 10470 }, { "epoch": 21.833333333333332, "grad_norm": 0.15722858905792236, "learning_rate": 5.016534668039976e-05, "loss": 0.0324, "step": 10480 }, { "epoch": 21.854166666666668, "grad_norm": 0.09585415571928024, "learning_rate": 5.0082673453212914e-05, "loss": 0.0297, "step": 10490 }, { "epoch": 21.875, "grad_norm": 0.08854865282773972, "learning_rate": 5e-05, "loss": 0.028, "step": 10500 }, { "epoch": 21.895833333333332, "grad_norm": 0.17009681463241577, "learning_rate": 4.991732654678709e-05, "loss": 0.0284, "step": 10510 }, { "epoch": 21.916666666666668, "grad_norm": 0.1313907504081726, "learning_rate": 4.9834653319600246e-05, "loss": 0.0291, "step": 10520 }, { "epoch": 21.9375, "grad_norm": 0.1649855524301529, "learning_rate": 4.975198054446492e-05, "loss": 0.0364, "step": 10530 }, { "epoch": 21.958333333333332, "grad_norm": 0.18976444005966187, "learning_rate": 4.96693084474053e-05, "loss": 0.0333, "step": 10540 }, { "epoch": 21.979166666666668, "grad_norm": 0.18327344954013824, "learning_rate": 4.9586637254443756e-05, "loss": 0.0306, "step": 10550 }, { "epoch": 22.0, "grad_norm": 0.11321074515581131, "learning_rate": 4.950396719160018e-05, "loss": 0.0261, "step": 10560 }, { "epoch": 22.020833333333332, "grad_norm": 0.1995725929737091, "learning_rate": 4.942129848489137e-05, "loss": 0.0323, "step": 10570 }, { "epoch": 22.041666666666668, "grad_norm": 0.13613295555114746, "learning_rate": 4.93386313603304e-05, "loss": 0.0277, "step": 10580 }, { "epoch": 22.0625, "grad_norm": 0.12093744426965714, "learning_rate": 4.925596604392603e-05, "loss": 0.0277, "step": 10590 }, { "epoch": 22.083333333333332, "grad_norm": 0.128945991396904, "learning_rate": 4.917330276168208e-05, "loss": 0.0311, "step": 10600 }, { "epoch": 22.104166666666668, "grad_norm": 0.20014306902885437, "learning_rate": 4.909064173959681e-05, "loss": 0.0306, "step": 10610 }, { "epoch": 22.125, "grad_norm": 0.13134582340717316, "learning_rate": 4.9007983203662326e-05, "loss": 0.0291, "step": 10620 }, { "epoch": 22.145833333333332, "grad_norm": 0.13013510406017303, "learning_rate": 4.892532737986387e-05, "loss": 0.0288, "step": 10630 }, { "epoch": 22.166666666666668, "grad_norm": 0.14915825426578522, "learning_rate": 4.884267449417931e-05, "loss": 0.029, "step": 10640 }, { "epoch": 22.1875, "grad_norm": 0.15272535383701324, "learning_rate": 4.87600247725785e-05, "loss": 0.0284, "step": 10650 }, { "epoch": 22.208333333333332, "grad_norm": 0.1499973088502884, "learning_rate": 4.867737844102261e-05, "loss": 0.0277, "step": 10660 }, { "epoch": 22.229166666666668, "grad_norm": 0.16559402644634247, "learning_rate": 4.8594735725463567e-05, "loss": 0.0299, "step": 10670 }, { "epoch": 22.25, "grad_norm": 0.15785695612430573, "learning_rate": 4.851209685184338e-05, "loss": 0.0278, "step": 10680 }, { "epoch": 22.270833333333332, "grad_norm": 0.2055683434009552, "learning_rate": 4.8429462046093585e-05, "loss": 0.0306, "step": 10690 }, { "epoch": 22.291666666666668, "grad_norm": 0.14869961142539978, "learning_rate": 4.834683153413459e-05, "loss": 0.0244, "step": 10700 }, { "epoch": 22.3125, "grad_norm": 0.20975926518440247, "learning_rate": 4.826420554187506e-05, "loss": 0.0283, "step": 10710 }, { "epoch": 22.333333333333332, "grad_norm": 0.13912463188171387, "learning_rate": 4.818158429521129e-05, "loss": 0.0261, "step": 10720 }, { "epoch": 22.354166666666668, "grad_norm": 0.17450742423534393, "learning_rate": 4.809896802002662e-05, "loss": 0.0314, "step": 10730 }, { "epoch": 22.375, "grad_norm": 0.13286441564559937, "learning_rate": 4.801635694219079e-05, "loss": 0.0252, "step": 10740 }, { "epoch": 22.395833333333332, "grad_norm": 0.13257400691509247, "learning_rate": 4.7933751287559335e-05, "loss": 0.0331, "step": 10750 }, { "epoch": 22.416666666666668, "grad_norm": 0.1350553035736084, "learning_rate": 4.785115128197298e-05, "loss": 0.0303, "step": 10760 }, { "epoch": 22.4375, "grad_norm": 0.14011922478675842, "learning_rate": 4.776855715125694e-05, "loss": 0.0296, "step": 10770 }, { "epoch": 22.458333333333332, "grad_norm": 0.2067539542913437, "learning_rate": 4.7685969121220456e-05, "loss": 0.0309, "step": 10780 }, { "epoch": 22.479166666666668, "grad_norm": 0.13774719834327698, "learning_rate": 4.7603387417656026e-05, "loss": 0.0276, "step": 10790 }, { "epoch": 22.5, "grad_norm": 0.13976864516735077, "learning_rate": 4.7520812266338885e-05, "loss": 0.0281, "step": 10800 }, { "epoch": 22.520833333333332, "grad_norm": 0.13408297300338745, "learning_rate": 4.743824389302635e-05, "loss": 0.0274, "step": 10810 }, { "epoch": 22.541666666666668, "grad_norm": 0.16386985778808594, "learning_rate": 4.735568252345718e-05, "loss": 0.0304, "step": 10820 }, { "epoch": 22.5625, "grad_norm": 0.18718579411506653, "learning_rate": 4.7273128383351015e-05, "loss": 0.0304, "step": 10830 }, { "epoch": 22.583333333333332, "grad_norm": 0.19145439565181732, "learning_rate": 4.7190581698407725e-05, "loss": 0.0343, "step": 10840 }, { "epoch": 22.604166666666668, "grad_norm": 0.15233254432678223, "learning_rate": 4.710804269430681e-05, "loss": 0.031, "step": 10850 }, { "epoch": 22.625, "grad_norm": 0.18304038047790527, "learning_rate": 4.702551159670672e-05, "loss": 0.0294, "step": 10860 }, { "epoch": 22.645833333333332, "grad_norm": 0.16424787044525146, "learning_rate": 4.694298863124435e-05, "loss": 0.0257, "step": 10870 }, { "epoch": 22.666666666666668, "grad_norm": 0.12753261625766754, "learning_rate": 4.6860474023534335e-05, "loss": 0.0297, "step": 10880 }, { "epoch": 22.6875, "grad_norm": 0.12381473183631897, "learning_rate": 4.677796799916845e-05, "loss": 0.0297, "step": 10890 }, { "epoch": 22.708333333333332, "grad_norm": 0.2004324048757553, "learning_rate": 4.669547078371504e-05, "loss": 0.0263, "step": 10900 }, { "epoch": 22.729166666666668, "grad_norm": 0.11582118272781372, "learning_rate": 4.66129826027183e-05, "loss": 0.0259, "step": 10910 }, { "epoch": 22.75, "grad_norm": 0.11986925452947617, "learning_rate": 4.65305036816978e-05, "loss": 0.0303, "step": 10920 }, { "epoch": 22.770833333333332, "grad_norm": 0.14741064608097076, "learning_rate": 4.6448034246147754e-05, "loss": 0.0248, "step": 10930 }, { "epoch": 22.791666666666668, "grad_norm": 0.12727192044258118, "learning_rate": 4.6365574521536445e-05, "loss": 0.0284, "step": 10940 }, { "epoch": 22.8125, "grad_norm": 0.16686947643756866, "learning_rate": 4.6283124733305624e-05, "loss": 0.0297, "step": 10950 }, { "epoch": 22.833333333333332, "grad_norm": 0.15433582663536072, "learning_rate": 4.620068510686985e-05, "loss": 0.0274, "step": 10960 }, { "epoch": 22.854166666666668, "grad_norm": 0.18043170869350433, "learning_rate": 4.611825586761591e-05, "loss": 0.0288, "step": 10970 }, { "epoch": 22.875, "grad_norm": 0.17161619663238525, "learning_rate": 4.60358372409022e-05, "loss": 0.032, "step": 10980 }, { "epoch": 22.895833333333332, "grad_norm": 0.16416096687316895, "learning_rate": 4.5953429452058135e-05, "loss": 0.0298, "step": 10990 }, { "epoch": 22.916666666666668, "grad_norm": 0.16142284870147705, "learning_rate": 4.5871032726383386e-05, "loss": 0.0293, "step": 11000 }, { "epoch": 22.9375, "grad_norm": 0.22875696420669556, "learning_rate": 4.5788647289147516e-05, "loss": 0.0356, "step": 11010 }, { "epoch": 22.958333333333332, "grad_norm": 0.11402963846921921, "learning_rate": 4.570627336558915e-05, "loss": 0.0282, "step": 11020 }, { "epoch": 22.979166666666668, "grad_norm": 0.16128239035606384, "learning_rate": 4.562391118091544e-05, "loss": 0.0293, "step": 11030 }, { "epoch": 23.0, "grad_norm": 0.23803482949733734, "learning_rate": 4.554156096030149e-05, "loss": 0.0303, "step": 11040 }, { "epoch": 23.020833333333332, "grad_norm": 0.18219193816184998, "learning_rate": 4.545922292888959e-05, "loss": 0.0254, "step": 11050 }, { "epoch": 23.041666666666668, "grad_norm": 0.14691394567489624, "learning_rate": 4.537689731178883e-05, "loss": 0.0251, "step": 11060 }, { "epoch": 23.0625, "grad_norm": 0.17804846167564392, "learning_rate": 4.529458433407429e-05, "loss": 0.0253, "step": 11070 }, { "epoch": 23.083333333333332, "grad_norm": 0.18966397643089294, "learning_rate": 4.5212284220786494e-05, "loss": 0.0319, "step": 11080 }, { "epoch": 23.104166666666668, "grad_norm": 0.1674102544784546, "learning_rate": 4.5129997196930845e-05, "loss": 0.0301, "step": 11090 }, { "epoch": 23.125, "grad_norm": 0.17522698640823364, "learning_rate": 4.504772348747687e-05, "loss": 0.0303, "step": 11100 }, { "epoch": 23.145833333333332, "grad_norm": 0.19879665970802307, "learning_rate": 4.496546331735778e-05, "loss": 0.0285, "step": 11110 }, { "epoch": 23.166666666666668, "grad_norm": 0.1801111102104187, "learning_rate": 4.488321691146975e-05, "loss": 0.0319, "step": 11120 }, { "epoch": 23.1875, "grad_norm": 0.17214246094226837, "learning_rate": 4.480098449467132e-05, "loss": 0.0317, "step": 11130 }, { "epoch": 23.208333333333332, "grad_norm": 0.12556105852127075, "learning_rate": 4.471876629178273e-05, "loss": 0.0268, "step": 11140 }, { "epoch": 23.229166666666668, "grad_norm": 0.18510432541370392, "learning_rate": 4.463656252758542e-05, "loss": 0.0313, "step": 11150 }, { "epoch": 23.25, "grad_norm": 0.1856030970811844, "learning_rate": 4.4554373426821374e-05, "loss": 0.0379, "step": 11160 }, { "epoch": 23.270833333333332, "grad_norm": 0.15735192596912384, "learning_rate": 4.447219921419244e-05, "loss": 0.0321, "step": 11170 }, { "epoch": 23.291666666666668, "grad_norm": 0.13615082204341888, "learning_rate": 4.439004011435979e-05, "loss": 0.0268, "step": 11180 }, { "epoch": 23.3125, "grad_norm": 0.1270228773355484, "learning_rate": 4.430789635194324e-05, "loss": 0.034, "step": 11190 }, { "epoch": 23.333333333333332, "grad_norm": 0.2049892693758011, "learning_rate": 4.4225768151520694e-05, "loss": 0.0331, "step": 11200 }, { "epoch": 23.354166666666668, "grad_norm": 0.14157091081142426, "learning_rate": 4.414365573762755e-05, "loss": 0.0341, "step": 11210 }, { "epoch": 23.375, "grad_norm": 0.11246557533740997, "learning_rate": 4.406155933475599e-05, "loss": 0.0328, "step": 11220 }, { "epoch": 23.395833333333332, "grad_norm": 0.15057721734046936, "learning_rate": 4.3979479167354477e-05, "loss": 0.028, "step": 11230 }, { "epoch": 23.416666666666668, "grad_norm": 0.14979122579097748, "learning_rate": 4.3897415459827e-05, "loss": 0.0252, "step": 11240 }, { "epoch": 23.4375, "grad_norm": 0.15724919736385345, "learning_rate": 4.381536843653262e-05, "loss": 0.034, "step": 11250 }, { "epoch": 23.458333333333332, "grad_norm": 0.14190740883350372, "learning_rate": 4.373333832178478e-05, "loss": 0.0315, "step": 11260 }, { "epoch": 23.479166666666668, "grad_norm": 0.1662578284740448, "learning_rate": 4.365132533985071e-05, "loss": 0.0298, "step": 11270 }, { "epoch": 23.5, "grad_norm": 0.1304260939359665, "learning_rate": 4.3569329714950704e-05, "loss": 0.0266, "step": 11280 }, { "epoch": 23.520833333333332, "grad_norm": 0.15804696083068848, "learning_rate": 4.348735167125771e-05, "loss": 0.0281, "step": 11290 }, { "epoch": 23.541666666666668, "grad_norm": 0.1506577730178833, "learning_rate": 4.3405391432896555e-05, "loss": 0.0288, "step": 11300 }, { "epoch": 23.5625, "grad_norm": 0.15046636760234833, "learning_rate": 4.3323449223943416e-05, "loss": 0.0349, "step": 11310 }, { "epoch": 23.583333333333332, "grad_norm": 0.2024526745080948, "learning_rate": 4.324152526842517e-05, "loss": 0.0261, "step": 11320 }, { "epoch": 23.604166666666668, "grad_norm": 0.1587103307247162, "learning_rate": 4.315961979031875e-05, "loss": 0.0281, "step": 11330 }, { "epoch": 23.625, "grad_norm": 0.1062362939119339, "learning_rate": 4.307773301355062e-05, "loss": 0.032, "step": 11340 }, { "epoch": 23.645833333333332, "grad_norm": 0.11723580211400986, "learning_rate": 4.2995865161996105e-05, "loss": 0.0263, "step": 11350 }, { "epoch": 23.666666666666668, "grad_norm": 0.19669993221759796, "learning_rate": 4.291401645947879e-05, "loss": 0.0338, "step": 11360 }, { "epoch": 23.6875, "grad_norm": 0.14187084138393402, "learning_rate": 4.283218712976992e-05, "loss": 0.0243, "step": 11370 }, { "epoch": 23.708333333333332, "grad_norm": 0.1639515459537506, "learning_rate": 4.275037739658771e-05, "loss": 0.0304, "step": 11380 }, { "epoch": 23.729166666666668, "grad_norm": 0.13952508568763733, "learning_rate": 4.2668587483596864e-05, "loss": 0.026, "step": 11390 }, { "epoch": 23.75, "grad_norm": 0.09889178723096848, "learning_rate": 4.2586817614407895e-05, "loss": 0.0234, "step": 11400 }, { "epoch": 23.770833333333332, "grad_norm": 0.10380981117486954, "learning_rate": 4.250506801257653e-05, "loss": 0.0264, "step": 11410 }, { "epoch": 23.791666666666668, "grad_norm": 0.1548227220773697, "learning_rate": 4.2423338901602985e-05, "loss": 0.0301, "step": 11420 }, { "epoch": 23.8125, "grad_norm": 0.20389233529567719, "learning_rate": 4.234163050493158e-05, "loss": 0.0298, "step": 11430 }, { "epoch": 23.833333333333332, "grad_norm": 0.12254638224840164, "learning_rate": 4.2259943045949934e-05, "loss": 0.0288, "step": 11440 }, { "epoch": 23.854166666666668, "grad_norm": 0.15725120902061462, "learning_rate": 4.2178276747988446e-05, "loss": 0.0247, "step": 11450 }, { "epoch": 23.875, "grad_norm": 0.1583745926618576, "learning_rate": 4.209663183431969e-05, "loss": 0.0301, "step": 11460 }, { "epoch": 23.895833333333332, "grad_norm": 0.15024207532405853, "learning_rate": 4.201500852815768e-05, "loss": 0.0311, "step": 11470 }, { "epoch": 23.916666666666668, "grad_norm": 0.1921829879283905, "learning_rate": 4.1933407052657456e-05, "loss": 0.0356, "step": 11480 }, { "epoch": 23.9375, "grad_norm": 0.14371323585510254, "learning_rate": 4.1851827630914305e-05, "loss": 0.0291, "step": 11490 }, { "epoch": 23.958333333333332, "grad_norm": 0.15010066330432892, "learning_rate": 4.17702704859633e-05, "loss": 0.0256, "step": 11500 }, { "epoch": 23.979166666666668, "grad_norm": 0.06923189014196396, "learning_rate": 4.1688735840778546e-05, "loss": 0.0274, "step": 11510 }, { "epoch": 24.0, "grad_norm": 0.13784265518188477, "learning_rate": 4.160722391827262e-05, "loss": 0.0284, "step": 11520 }, { "epoch": 24.020833333333332, "grad_norm": 0.1460343301296234, "learning_rate": 4.1525734941296026e-05, "loss": 0.0279, "step": 11530 }, { "epoch": 24.041666666666668, "grad_norm": 0.15088632702827454, "learning_rate": 4.14442691326365e-05, "loss": 0.0331, "step": 11540 }, { "epoch": 24.0625, "grad_norm": 0.16234725713729858, "learning_rate": 4.13628267150185e-05, "loss": 0.0302, "step": 11550 }, { "epoch": 24.083333333333332, "grad_norm": 0.23334412276744843, "learning_rate": 4.1281407911102425e-05, "loss": 0.0275, "step": 11560 }, { "epoch": 24.104166666666668, "grad_norm": 0.21163244545459747, "learning_rate": 4.120001294348421e-05, "loss": 0.0303, "step": 11570 }, { "epoch": 24.125, "grad_norm": 0.1350397765636444, "learning_rate": 4.111864203469457e-05, "loss": 0.0289, "step": 11580 }, { "epoch": 24.145833333333332, "grad_norm": 0.09307282418012619, "learning_rate": 4.103729540719847e-05, "loss": 0.0256, "step": 11590 }, { "epoch": 24.166666666666668, "grad_norm": 0.167866051197052, "learning_rate": 4.095597328339452e-05, "loss": 0.0303, "step": 11600 }, { "epoch": 24.1875, "grad_norm": 0.14718447625637054, "learning_rate": 4.087467588561424e-05, "loss": 0.0269, "step": 11610 }, { "epoch": 24.208333333333332, "grad_norm": 0.19910593330860138, "learning_rate": 4.079340343612165e-05, "loss": 0.0306, "step": 11620 }, { "epoch": 24.229166666666668, "grad_norm": 0.22155308723449707, "learning_rate": 4.07121561571125e-05, "loss": 0.0288, "step": 11630 }, { "epoch": 24.25, "grad_norm": 0.19317373633384705, "learning_rate": 4.063093427071376e-05, "loss": 0.0308, "step": 11640 }, { "epoch": 24.270833333333332, "grad_norm": 0.13486303389072418, "learning_rate": 4.0549737998983e-05, "loss": 0.028, "step": 11650 }, { "epoch": 24.291666666666668, "grad_norm": 0.09596603363752365, "learning_rate": 4.046856756390767e-05, "loss": 0.0249, "step": 11660 }, { "epoch": 24.3125, "grad_norm": 0.22731368243694305, "learning_rate": 4.038742318740465e-05, "loss": 0.0257, "step": 11670 }, { "epoch": 24.333333333333332, "grad_norm": 0.2548449635505676, "learning_rate": 4.0306305091319595e-05, "loss": 0.0287, "step": 11680 }, { "epoch": 24.354166666666668, "grad_norm": 0.17384669184684753, "learning_rate": 4.0225213497426276e-05, "loss": 0.0285, "step": 11690 }, { "epoch": 24.375, "grad_norm": 0.12637118995189667, "learning_rate": 4.0144148627425993e-05, "loss": 0.0262, "step": 11700 }, { "epoch": 24.395833333333332, "grad_norm": 0.1870875209569931, "learning_rate": 4.006311070294702e-05, "loss": 0.0298, "step": 11710 }, { "epoch": 24.416666666666668, "grad_norm": 0.1614316999912262, "learning_rate": 3.9982099945543945e-05, "loss": 0.0385, "step": 11720 }, { "epoch": 24.4375, "grad_norm": 0.18952281773090363, "learning_rate": 3.9901116576697083e-05, "loss": 0.0249, "step": 11730 }, { "epoch": 24.458333333333332, "grad_norm": 0.12553523480892181, "learning_rate": 3.982016081781189e-05, "loss": 0.0244, "step": 11740 }, { "epoch": 24.479166666666668, "grad_norm": 0.13958564400672913, "learning_rate": 3.973923289021829e-05, "loss": 0.0267, "step": 11750 }, { "epoch": 24.5, "grad_norm": 0.1848226934671402, "learning_rate": 3.965833301517017e-05, "loss": 0.0271, "step": 11760 }, { "epoch": 24.520833333333332, "grad_norm": 0.17321914434432983, "learning_rate": 3.9577461413844684e-05, "loss": 0.0295, "step": 11770 }, { "epoch": 24.541666666666668, "grad_norm": 0.14428815245628357, "learning_rate": 3.949661830734172e-05, "loss": 0.0275, "step": 11780 }, { "epoch": 24.5625, "grad_norm": 0.09324122220277786, "learning_rate": 3.9415803916683224e-05, "loss": 0.0264, "step": 11790 }, { "epoch": 24.583333333333332, "grad_norm": 0.17331133782863617, "learning_rate": 3.933501846281267e-05, "loss": 0.0252, "step": 11800 }, { "epoch": 24.604166666666668, "grad_norm": 0.12243860214948654, "learning_rate": 3.925426216659438e-05, "loss": 0.0333, "step": 11810 }, { "epoch": 24.625, "grad_norm": 0.13576681911945343, "learning_rate": 3.917353524881302e-05, "loss": 0.0236, "step": 11820 }, { "epoch": 24.645833333333332, "grad_norm": 0.2000386118888855, "learning_rate": 3.9092837930172884e-05, "loss": 0.0314, "step": 11830 }, { "epoch": 24.666666666666668, "grad_norm": 0.14811231195926666, "learning_rate": 3.901217043129735e-05, "loss": 0.0288, "step": 11840 }, { "epoch": 24.6875, "grad_norm": 0.19929546117782593, "learning_rate": 3.8931532972728285e-05, "loss": 0.024, "step": 11850 }, { "epoch": 24.708333333333332, "grad_norm": 0.11870017647743225, "learning_rate": 3.8850925774925425e-05, "loss": 0.0304, "step": 11860 }, { "epoch": 24.729166666666668, "grad_norm": 0.16348062455654144, "learning_rate": 3.877034905826577e-05, "loss": 0.0283, "step": 11870 }, { "epoch": 24.75, "grad_norm": 0.13683846592903137, "learning_rate": 3.8689803043043e-05, "loss": 0.0339, "step": 11880 }, { "epoch": 24.770833333333332, "grad_norm": 0.16387642920017242, "learning_rate": 3.860928794946682e-05, "loss": 0.0254, "step": 11890 }, { "epoch": 24.791666666666668, "grad_norm": 0.11638608574867249, "learning_rate": 3.852880399766243e-05, "loss": 0.0246, "step": 11900 }, { "epoch": 24.8125, "grad_norm": 0.13541941344738007, "learning_rate": 3.844835140766988e-05, "loss": 0.0321, "step": 11910 }, { "epoch": 24.833333333333332, "grad_norm": 0.14400357007980347, "learning_rate": 3.836793039944349e-05, "loss": 0.0357, "step": 11920 }, { "epoch": 24.854166666666668, "grad_norm": 0.15765514969825745, "learning_rate": 3.828754119285123e-05, "loss": 0.0221, "step": 11930 }, { "epoch": 24.875, "grad_norm": 0.14700110256671906, "learning_rate": 3.820718400767409e-05, "loss": 0.0268, "step": 11940 }, { "epoch": 24.895833333333332, "grad_norm": 0.16277460753917694, "learning_rate": 3.812685906360557e-05, "loss": 0.0315, "step": 11950 }, { "epoch": 24.916666666666668, "grad_norm": 0.1668016016483307, "learning_rate": 3.8046566580251e-05, "loss": 0.0297, "step": 11960 }, { "epoch": 24.9375, "grad_norm": 0.171110600233078, "learning_rate": 3.796630677712697e-05, "loss": 0.0287, "step": 11970 }, { "epoch": 24.958333333333332, "grad_norm": 0.10662555694580078, "learning_rate": 3.788607987366069e-05, "loss": 0.0291, "step": 11980 }, { "epoch": 24.979166666666668, "grad_norm": 0.12571726739406586, "learning_rate": 3.780588608918947e-05, "loss": 0.0235, "step": 11990 }, { "epoch": 25.0, "grad_norm": 0.3488069176673889, "learning_rate": 3.772572564296005e-05, "loss": 0.0219, "step": 12000 }, { "epoch": 25.020833333333332, "grad_norm": 0.17087674140930176, "learning_rate": 3.764559875412803e-05, "loss": 0.0246, "step": 12010 }, { "epoch": 25.041666666666668, "grad_norm": 0.17993903160095215, "learning_rate": 3.756550564175727e-05, "loss": 0.0243, "step": 12020 }, { "epoch": 25.0625, "grad_norm": 0.18385997414588928, "learning_rate": 3.748544652481927e-05, "loss": 0.0292, "step": 12030 }, { "epoch": 25.083333333333332, "grad_norm": 0.20848073065280914, "learning_rate": 3.74054216221926e-05, "loss": 0.0288, "step": 12040 }, { "epoch": 25.104166666666668, "grad_norm": 0.12025895714759827, "learning_rate": 3.73254311526623e-05, "loss": 0.0257, "step": 12050 }, { "epoch": 25.125, "grad_norm": 0.1668887436389923, "learning_rate": 3.7245475334919246e-05, "loss": 0.0303, "step": 12060 }, { "epoch": 25.145833333333332, "grad_norm": 0.18464119732379913, "learning_rate": 3.716555438755961e-05, "loss": 0.029, "step": 12070 }, { "epoch": 25.166666666666668, "grad_norm": 0.15808895230293274, "learning_rate": 3.7085668529084184e-05, "loss": 0.0322, "step": 12080 }, { "epoch": 25.1875, "grad_norm": 0.22430813312530518, "learning_rate": 3.700581797789786e-05, "loss": 0.0243, "step": 12090 }, { "epoch": 25.208333333333332, "grad_norm": 0.17705458402633667, "learning_rate": 3.6926002952309016e-05, "loss": 0.0275, "step": 12100 }, { "epoch": 25.229166666666668, "grad_norm": 0.16476282477378845, "learning_rate": 3.684622367052887e-05, "loss": 0.0311, "step": 12110 }, { "epoch": 25.25, "grad_norm": 0.15295690298080444, "learning_rate": 3.676648035067093e-05, "loss": 0.0234, "step": 12120 }, { "epoch": 25.270833333333332, "grad_norm": 0.20632293820381165, "learning_rate": 3.6686773210750385e-05, "loss": 0.0285, "step": 12130 }, { "epoch": 25.291666666666668, "grad_norm": 0.11393771320581436, "learning_rate": 3.6607102468683526e-05, "loss": 0.0286, "step": 12140 }, { "epoch": 25.3125, "grad_norm": 0.1033334732055664, "learning_rate": 3.65274683422871e-05, "loss": 0.0264, "step": 12150 }, { "epoch": 25.333333333333332, "grad_norm": 0.12102442234754562, "learning_rate": 3.6447871049277796e-05, "loss": 0.027, "step": 12160 }, { "epoch": 25.354166666666668, "grad_norm": 0.14333610236644745, "learning_rate": 3.636831080727154e-05, "loss": 0.0317, "step": 12170 }, { "epoch": 25.375, "grad_norm": 0.16947409510612488, "learning_rate": 3.628878783378302e-05, "loss": 0.0253, "step": 12180 }, { "epoch": 25.395833333333332, "grad_norm": 0.10340352356433868, "learning_rate": 3.6209302346225006e-05, "loss": 0.0247, "step": 12190 }, { "epoch": 25.416666666666668, "grad_norm": 0.08875080198049545, "learning_rate": 3.612985456190778e-05, "loss": 0.0291, "step": 12200 }, { "epoch": 25.4375, "grad_norm": 0.1444309949874878, "learning_rate": 3.605044469803854e-05, "loss": 0.0255, "step": 12210 }, { "epoch": 25.458333333333332, "grad_norm": 0.1932191401720047, "learning_rate": 3.597107297172084e-05, "loss": 0.0318, "step": 12220 }, { "epoch": 25.479166666666668, "grad_norm": 0.13550454378128052, "learning_rate": 3.5891739599953945e-05, "loss": 0.0314, "step": 12230 }, { "epoch": 25.5, "grad_norm": 0.19792750477790833, "learning_rate": 3.581244479963225e-05, "loss": 0.0319, "step": 12240 }, { "epoch": 25.520833333333332, "grad_norm": 0.1879197210073471, "learning_rate": 3.5733188787544745e-05, "loss": 0.0257, "step": 12250 }, { "epoch": 25.541666666666668, "grad_norm": 0.15063339471817017, "learning_rate": 3.5653971780374295e-05, "loss": 0.0257, "step": 12260 }, { "epoch": 25.5625, "grad_norm": 0.14469563961029053, "learning_rate": 3.557479399469721e-05, "loss": 0.0296, "step": 12270 }, { "epoch": 25.583333333333332, "grad_norm": 0.18924164772033691, "learning_rate": 3.5495655646982505e-05, "loss": 0.0299, "step": 12280 }, { "epoch": 25.604166666666668, "grad_norm": 0.18122707307338715, "learning_rate": 3.541655695359142e-05, "loss": 0.0279, "step": 12290 }, { "epoch": 25.625, "grad_norm": 0.11749763786792755, "learning_rate": 3.533749813077677e-05, "loss": 0.0291, "step": 12300 }, { "epoch": 25.645833333333332, "grad_norm": 0.1460978239774704, "learning_rate": 3.525847939468233e-05, "loss": 0.0247, "step": 12310 }, { "epoch": 25.666666666666668, "grad_norm": 0.1307503879070282, "learning_rate": 3.517950096134232e-05, "loss": 0.0243, "step": 12320 }, { "epoch": 25.6875, "grad_norm": 0.141768679022789, "learning_rate": 3.5100563046680764e-05, "loss": 0.0245, "step": 12330 }, { "epoch": 25.708333333333332, "grad_norm": 0.14948983490467072, "learning_rate": 3.5021665866510925e-05, "loss": 0.0238, "step": 12340 }, { "epoch": 25.729166666666668, "grad_norm": 0.15038840472698212, "learning_rate": 3.494280963653463e-05, "loss": 0.0254, "step": 12350 }, { "epoch": 25.75, "grad_norm": 0.1550467163324356, "learning_rate": 3.4863994572341843e-05, "loss": 0.0283, "step": 12360 }, { "epoch": 25.770833333333332, "grad_norm": 0.11384789645671844, "learning_rate": 3.478522088940993e-05, "loss": 0.0244, "step": 12370 }, { "epoch": 25.791666666666668, "grad_norm": 0.15902623534202576, "learning_rate": 3.470648880310313e-05, "loss": 0.0249, "step": 12380 }, { "epoch": 25.8125, "grad_norm": 0.17256838083267212, "learning_rate": 3.462779852867197e-05, "loss": 0.0268, "step": 12390 }, { "epoch": 25.833333333333332, "grad_norm": 0.15333129465579987, "learning_rate": 3.4549150281252636e-05, "loss": 0.0268, "step": 12400 }, { "epoch": 25.854166666666668, "grad_norm": 0.20393265783786774, "learning_rate": 3.447054427586644e-05, "loss": 0.0296, "step": 12410 }, { "epoch": 25.875, "grad_norm": 0.1385035514831543, "learning_rate": 3.439198072741921e-05, "loss": 0.0332, "step": 12420 }, { "epoch": 25.895833333333332, "grad_norm": 0.12118319422006607, "learning_rate": 3.431345985070067e-05, "loss": 0.0271, "step": 12430 }, { "epoch": 25.916666666666668, "grad_norm": 0.16673722863197327, "learning_rate": 3.423498186038393e-05, "loss": 0.032, "step": 12440 }, { "epoch": 25.9375, "grad_norm": 0.22689339518547058, "learning_rate": 3.4156546971024784e-05, "loss": 0.0269, "step": 12450 }, { "epoch": 25.958333333333332, "grad_norm": 0.10876722633838654, "learning_rate": 3.407815539706124e-05, "loss": 0.0241, "step": 12460 }, { "epoch": 25.979166666666668, "grad_norm": 0.12197080999612808, "learning_rate": 3.399980735281286e-05, "loss": 0.0308, "step": 12470 }, { "epoch": 26.0, "grad_norm": 0.15190313756465912, "learning_rate": 3.392150305248024e-05, "loss": 0.0235, "step": 12480 }, { "epoch": 26.020833333333332, "grad_norm": 0.1324121057987213, "learning_rate": 3.384324271014429e-05, "loss": 0.0293, "step": 12490 }, { "epoch": 26.041666666666668, "grad_norm": 0.2896747291088104, "learning_rate": 3.3765026539765834e-05, "loss": 0.0251, "step": 12500 }, { "epoch": 26.0625, "grad_norm": 0.1657981276512146, "learning_rate": 3.368685475518488e-05, "loss": 0.0236, "step": 12510 }, { "epoch": 26.083333333333332, "grad_norm": 0.12277412414550781, "learning_rate": 3.360872757012011e-05, "loss": 0.0243, "step": 12520 }, { "epoch": 26.104166666666668, "grad_norm": 0.15955273807048798, "learning_rate": 3.3530645198168295e-05, "loss": 0.0274, "step": 12530 }, { "epoch": 26.125, "grad_norm": 0.20641089975833893, "learning_rate": 3.3452607852803584e-05, "loss": 0.0279, "step": 12540 }, { "epoch": 26.145833333333332, "grad_norm": 0.16264687478542328, "learning_rate": 3.337461574737716e-05, "loss": 0.0266, "step": 12550 }, { "epoch": 26.166666666666668, "grad_norm": 0.09873463958501816, "learning_rate": 3.329666909511645e-05, "loss": 0.0246, "step": 12560 }, { "epoch": 26.1875, "grad_norm": 0.09511921554803848, "learning_rate": 3.321876810912461e-05, "loss": 0.0274, "step": 12570 }, { "epoch": 26.208333333333332, "grad_norm": 0.15716911852359772, "learning_rate": 3.3140913002379995e-05, "loss": 0.0235, "step": 12580 }, { "epoch": 26.229166666666668, "grad_norm": 0.16302818059921265, "learning_rate": 3.3063103987735433e-05, "loss": 0.0293, "step": 12590 }, { "epoch": 26.25, "grad_norm": 0.12265482544898987, "learning_rate": 3.298534127791785e-05, "loss": 0.0222, "step": 12600 }, { "epoch": 26.270833333333332, "grad_norm": 0.13459502160549164, "learning_rate": 3.2907625085527503e-05, "loss": 0.0256, "step": 12610 }, { "epoch": 26.291666666666668, "grad_norm": 0.12086313962936401, "learning_rate": 3.282995562303754e-05, "loss": 0.027, "step": 12620 }, { "epoch": 26.3125, "grad_norm": 0.10978878289461136, "learning_rate": 3.275233310279321e-05, "loss": 0.0235, "step": 12630 }, { "epoch": 26.333333333333332, "grad_norm": 0.18029136955738068, "learning_rate": 3.267475773701161e-05, "loss": 0.0262, "step": 12640 }, { "epoch": 26.354166666666668, "grad_norm": 0.14699141681194305, "learning_rate": 3.2597229737780774e-05, "loss": 0.0278, "step": 12650 }, { "epoch": 26.375, "grad_norm": 0.18262676894664764, "learning_rate": 3.251974931705933e-05, "loss": 0.0261, "step": 12660 }, { "epoch": 26.395833333333332, "grad_norm": 0.11944519728422165, "learning_rate": 3.244231668667578e-05, "loss": 0.0252, "step": 12670 }, { "epoch": 26.416666666666668, "grad_norm": 0.1421682983636856, "learning_rate": 3.236493205832795e-05, "loss": 0.0301, "step": 12680 }, { "epoch": 26.4375, "grad_norm": 0.17459826171398163, "learning_rate": 3.228759564358248e-05, "loss": 0.0251, "step": 12690 }, { "epoch": 26.458333333333332, "grad_norm": 0.20221276581287384, "learning_rate": 3.221030765387417e-05, "loss": 0.0292, "step": 12700 }, { "epoch": 26.479166666666668, "grad_norm": 0.09195531159639359, "learning_rate": 3.2133068300505455e-05, "loss": 0.031, "step": 12710 }, { "epoch": 26.5, "grad_norm": 0.18461230397224426, "learning_rate": 3.205587779464576e-05, "loss": 0.0276, "step": 12720 }, { "epoch": 26.520833333333332, "grad_norm": 0.18697068095207214, "learning_rate": 3.197873634733096e-05, "loss": 0.0246, "step": 12730 }, { "epoch": 26.541666666666668, "grad_norm": 0.1510835886001587, "learning_rate": 3.190164416946285e-05, "loss": 0.0268, "step": 12740 }, { "epoch": 26.5625, "grad_norm": 0.21150924265384674, "learning_rate": 3.18246014718085e-05, "loss": 0.0253, "step": 12750 }, { "epoch": 26.583333333333332, "grad_norm": 0.13602399826049805, "learning_rate": 3.1747608464999725e-05, "loss": 0.0243, "step": 12760 }, { "epoch": 26.604166666666668, "grad_norm": 0.19754858314990997, "learning_rate": 3.167066535953242e-05, "loss": 0.0271, "step": 12770 }, { "epoch": 26.625, "grad_norm": 0.10623461753129959, "learning_rate": 3.1593772365766105e-05, "loss": 0.0249, "step": 12780 }, { "epoch": 26.645833333333332, "grad_norm": 0.10838180780410767, "learning_rate": 3.1516929693923315e-05, "loss": 0.0275, "step": 12790 }, { "epoch": 26.666666666666668, "grad_norm": 0.09907069057226181, "learning_rate": 3.144013755408895e-05, "loss": 0.0277, "step": 12800 }, { "epoch": 26.6875, "grad_norm": 0.1441442370414734, "learning_rate": 3.136339615620985e-05, "loss": 0.0317, "step": 12810 }, { "epoch": 26.708333333333332, "grad_norm": 0.2321903556585312, "learning_rate": 3.128670571009399e-05, "loss": 0.0303, "step": 12820 }, { "epoch": 26.729166666666668, "grad_norm": 0.12803828716278076, "learning_rate": 3.121006642541014e-05, "loss": 0.028, "step": 12830 }, { "epoch": 26.75, "grad_norm": 0.2067212611436844, "learning_rate": 3.113347851168721e-05, "loss": 0.0278, "step": 12840 }, { "epoch": 26.770833333333332, "grad_norm": 0.13792039453983307, "learning_rate": 3.105694217831361e-05, "loss": 0.0261, "step": 12850 }, { "epoch": 26.791666666666668, "grad_norm": 0.21151433885097504, "learning_rate": 3.098045763453678e-05, "loss": 0.0282, "step": 12860 }, { "epoch": 26.8125, "grad_norm": 0.15379878878593445, "learning_rate": 3.090402508946249e-05, "loss": 0.0213, "step": 12870 }, { "epoch": 26.833333333333332, "grad_norm": 0.18267010152339935, "learning_rate": 3.082764475205442e-05, "loss": 0.0275, "step": 12880 }, { "epoch": 26.854166666666668, "grad_norm": 0.14510810375213623, "learning_rate": 3.075131683113352e-05, "loss": 0.0236, "step": 12890 }, { "epoch": 26.875, "grad_norm": 0.2076864242553711, "learning_rate": 3.0675041535377405e-05, "loss": 0.0281, "step": 12900 }, { "epoch": 26.895833333333332, "grad_norm": 0.1355823129415512, "learning_rate": 3.059881907331979e-05, "loss": 0.0288, "step": 12910 }, { "epoch": 26.916666666666668, "grad_norm": 0.12125452607870102, "learning_rate": 3.052264965335e-05, "loss": 0.0241, "step": 12920 }, { "epoch": 26.9375, "grad_norm": 0.1278066635131836, "learning_rate": 3.0446533483712304e-05, "loss": 0.0252, "step": 12930 }, { "epoch": 26.958333333333332, "grad_norm": 0.08579360693693161, "learning_rate": 3.0370470772505433e-05, "loss": 0.0315, "step": 12940 }, { "epoch": 26.979166666666668, "grad_norm": 0.1386447697877884, "learning_rate": 3.0294461727681932e-05, "loss": 0.0228, "step": 12950 }, { "epoch": 27.0, "grad_norm": 0.22414277493953705, "learning_rate": 3.0218506557047598e-05, "loss": 0.027, "step": 12960 }, { "epoch": 27.020833333333332, "grad_norm": 0.10703699290752411, "learning_rate": 3.0142605468260978e-05, "loss": 0.0252, "step": 12970 }, { "epoch": 27.041666666666668, "grad_norm": 0.14364486932754517, "learning_rate": 3.006675866883275e-05, "loss": 0.0241, "step": 12980 }, { "epoch": 27.0625, "grad_norm": 0.12874414026737213, "learning_rate": 2.999096636612518e-05, "loss": 0.0316, "step": 12990 }, { "epoch": 27.083333333333332, "grad_norm": 0.12409382313489914, "learning_rate": 2.991522876735154e-05, "loss": 0.0248, "step": 13000 }, { "epoch": 27.104166666666668, "grad_norm": 0.17625632882118225, "learning_rate": 2.9839546079575497e-05, "loss": 0.025, "step": 13010 }, { "epoch": 27.125, "grad_norm": 0.15701046586036682, "learning_rate": 2.976391850971065e-05, "loss": 0.0328, "step": 13020 }, { "epoch": 27.145833333333332, "grad_norm": 0.09246678650379181, "learning_rate": 2.9688346264519866e-05, "loss": 0.027, "step": 13030 }, { "epoch": 27.166666666666668, "grad_norm": 0.21665632724761963, "learning_rate": 2.9612829550614836e-05, "loss": 0.0303, "step": 13040 }, { "epoch": 27.1875, "grad_norm": 0.10041540116071701, "learning_rate": 2.9537368574455304e-05, "loss": 0.0253, "step": 13050 }, { "epoch": 27.208333333333332, "grad_norm": 0.10828310996294022, "learning_rate": 2.9461963542348737e-05, "loss": 0.021, "step": 13060 }, { "epoch": 27.229166666666668, "grad_norm": 0.15436524152755737, "learning_rate": 2.9386614660449596e-05, "loss": 0.027, "step": 13070 }, { "epoch": 27.25, "grad_norm": 0.18822737038135529, "learning_rate": 2.931132213475884e-05, "loss": 0.0228, "step": 13080 }, { "epoch": 27.270833333333332, "grad_norm": 0.13380225002765656, "learning_rate": 2.9236086171123404e-05, "loss": 0.023, "step": 13090 }, { "epoch": 27.291666666666668, "grad_norm": 0.14419378340244293, "learning_rate": 2.916090697523549e-05, "loss": 0.0286, "step": 13100 }, { "epoch": 27.3125, "grad_norm": 0.16086137294769287, "learning_rate": 2.9085784752632157e-05, "loss": 0.0252, "step": 13110 }, { "epoch": 27.333333333333332, "grad_norm": 0.1715720146894455, "learning_rate": 2.9010719708694722e-05, "loss": 0.0264, "step": 13120 }, { "epoch": 27.354166666666668, "grad_norm": 0.12270035594701767, "learning_rate": 2.8935712048648112e-05, "loss": 0.0258, "step": 13130 }, { "epoch": 27.375, "grad_norm": 0.12920896708965302, "learning_rate": 2.8860761977560436e-05, "loss": 0.0271, "step": 13140 }, { "epoch": 27.395833333333332, "grad_norm": 0.1290319710969925, "learning_rate": 2.878586970034232e-05, "loss": 0.0268, "step": 13150 }, { "epoch": 27.416666666666668, "grad_norm": 0.14977918565273285, "learning_rate": 2.8711035421746367e-05, "loss": 0.0305, "step": 13160 }, { "epoch": 27.4375, "grad_norm": 0.09682922810316086, "learning_rate": 2.8636259346366666e-05, "loss": 0.0214, "step": 13170 }, { "epoch": 27.458333333333332, "grad_norm": 0.1557648628950119, "learning_rate": 2.8561541678638142e-05, "loss": 0.0294, "step": 13180 }, { "epoch": 27.479166666666668, "grad_norm": 0.1238945722579956, "learning_rate": 2.8486882622836026e-05, "loss": 0.0271, "step": 13190 }, { "epoch": 27.5, "grad_norm": 0.1727103292942047, "learning_rate": 2.8412282383075363e-05, "loss": 0.0233, "step": 13200 }, { "epoch": 27.520833333333332, "grad_norm": 0.14090333878993988, "learning_rate": 2.8337741163310317e-05, "loss": 0.0233, "step": 13210 }, { "epoch": 27.541666666666668, "grad_norm": 0.19903773069381714, "learning_rate": 2.8263259167333777e-05, "loss": 0.0329, "step": 13220 }, { "epoch": 27.5625, "grad_norm": 0.1676332652568817, "learning_rate": 2.8188836598776662e-05, "loss": 0.0267, "step": 13230 }, { "epoch": 27.583333333333332, "grad_norm": 0.1530267894268036, "learning_rate": 2.811447366110741e-05, "loss": 0.0267, "step": 13240 }, { "epoch": 27.604166666666668, "grad_norm": 0.15549546480178833, "learning_rate": 2.804017055763149e-05, "loss": 0.0282, "step": 13250 }, { "epoch": 27.625, "grad_norm": 0.09331852197647095, "learning_rate": 2.7965927491490705e-05, "loss": 0.0268, "step": 13260 }, { "epoch": 27.645833333333332, "grad_norm": 0.1581255942583084, "learning_rate": 2.7891744665662823e-05, "loss": 0.0261, "step": 13270 }, { "epoch": 27.666666666666668, "grad_norm": 0.20927709341049194, "learning_rate": 2.7817622282960815e-05, "loss": 0.0284, "step": 13280 }, { "epoch": 27.6875, "grad_norm": 0.18071146309375763, "learning_rate": 2.774356054603243e-05, "loss": 0.026, "step": 13290 }, { "epoch": 27.708333333333332, "grad_norm": 0.22780871391296387, "learning_rate": 2.766955965735968e-05, "loss": 0.0242, "step": 13300 }, { "epoch": 27.729166666666668, "grad_norm": 0.19076737761497498, "learning_rate": 2.7595619819258116e-05, "loss": 0.032, "step": 13310 }, { "epoch": 27.75, "grad_norm": 0.1635075807571411, "learning_rate": 2.7521741233876496e-05, "loss": 0.0243, "step": 13320 }, { "epoch": 27.770833333333332, "grad_norm": 0.15751048922538757, "learning_rate": 2.7447924103195976e-05, "loss": 0.0246, "step": 13330 }, { "epoch": 27.791666666666668, "grad_norm": 0.1772313266992569, "learning_rate": 2.7374168629029813e-05, "loss": 0.0279, "step": 13340 }, { "epoch": 27.8125, "grad_norm": 0.1333519071340561, "learning_rate": 2.7300475013022663e-05, "loss": 0.029, "step": 13350 }, { "epoch": 27.833333333333332, "grad_norm": 0.14028123021125793, "learning_rate": 2.7226843456650037e-05, "loss": 0.0253, "step": 13360 }, { "epoch": 27.854166666666668, "grad_norm": 0.21916192770004272, "learning_rate": 2.7153274161217846e-05, "loss": 0.0283, "step": 13370 }, { "epoch": 27.875, "grad_norm": 0.11244969815015793, "learning_rate": 2.707976732786166e-05, "loss": 0.0272, "step": 13380 }, { "epoch": 27.895833333333332, "grad_norm": 0.13221071660518646, "learning_rate": 2.7006323157546386e-05, "loss": 0.0253, "step": 13390 }, { "epoch": 27.916666666666668, "grad_norm": 0.19191347062587738, "learning_rate": 2.693294185106562e-05, "loss": 0.0251, "step": 13400 }, { "epoch": 27.9375, "grad_norm": 0.1493057906627655, "learning_rate": 2.6859623609040984e-05, "loss": 0.0236, "step": 13410 }, { "epoch": 27.958333333333332, "grad_norm": 0.20739184319972992, "learning_rate": 2.6786368631921836e-05, "loss": 0.0266, "step": 13420 }, { "epoch": 27.979166666666668, "grad_norm": 0.22283418476581573, "learning_rate": 2.67131771199844e-05, "loss": 0.0275, "step": 13430 }, { "epoch": 28.0, "grad_norm": 0.328220933675766, "learning_rate": 2.6640049273331515e-05, "loss": 0.0309, "step": 13440 }, { "epoch": 28.020833333333332, "grad_norm": 0.17198385298252106, "learning_rate": 2.656698529189193e-05, "loss": 0.0299, "step": 13450 }, { "epoch": 28.041666666666668, "grad_norm": 0.19700448215007782, "learning_rate": 2.6493985375419778e-05, "loss": 0.0272, "step": 13460 }, { "epoch": 28.0625, "grad_norm": 0.1729726642370224, "learning_rate": 2.642104972349403e-05, "loss": 0.0255, "step": 13470 }, { "epoch": 28.083333333333332, "grad_norm": 0.11488420516252518, "learning_rate": 2.6348178535517966e-05, "loss": 0.0271, "step": 13480 }, { "epoch": 28.104166666666668, "grad_norm": 0.15542706847190857, "learning_rate": 2.6275372010718635e-05, "loss": 0.0259, "step": 13490 }, { "epoch": 28.125, "grad_norm": 0.19513146579265594, "learning_rate": 2.6202630348146324e-05, "loss": 0.0296, "step": 13500 }, { "epoch": 28.145833333333332, "grad_norm": 0.19925670325756073, "learning_rate": 2.612995374667394e-05, "loss": 0.0296, "step": 13510 }, { "epoch": 28.166666666666668, "grad_norm": 0.14578305184841156, "learning_rate": 2.6057342404996522e-05, "loss": 0.0288, "step": 13520 }, { "epoch": 28.1875, "grad_norm": 0.14939863979816437, "learning_rate": 2.5984796521630737e-05, "loss": 0.0254, "step": 13530 }, { "epoch": 28.208333333333332, "grad_norm": 0.17989909648895264, "learning_rate": 2.591231629491423e-05, "loss": 0.0232, "step": 13540 }, { "epoch": 28.229166666666668, "grad_norm": 0.13775047659873962, "learning_rate": 2.5839901923005205e-05, "loss": 0.0248, "step": 13550 }, { "epoch": 28.25, "grad_norm": 0.10776705294847488, "learning_rate": 2.5767553603881767e-05, "loss": 0.0305, "step": 13560 }, { "epoch": 28.270833333333332, "grad_norm": 0.16960129141807556, "learning_rate": 2.5695271535341443e-05, "loss": 0.0265, "step": 13570 }, { "epoch": 28.291666666666668, "grad_norm": 0.16786381602287292, "learning_rate": 2.562305591500069e-05, "loss": 0.0244, "step": 13580 }, { "epoch": 28.3125, "grad_norm": 0.19036464393138885, "learning_rate": 2.555090694029421e-05, "loss": 0.0271, "step": 13590 }, { "epoch": 28.333333333333332, "grad_norm": 0.20565494894981384, "learning_rate": 2.547882480847461e-05, "loss": 0.0287, "step": 13600 }, { "epoch": 28.354166666666668, "grad_norm": 0.1294054239988327, "learning_rate": 2.540680971661161e-05, "loss": 0.0265, "step": 13610 }, { "epoch": 28.375, "grad_norm": 0.1637224555015564, "learning_rate": 2.5334861861591753e-05, "loss": 0.0262, "step": 13620 }, { "epoch": 28.395833333333332, "grad_norm": 0.19849108159542084, "learning_rate": 2.526298144011775e-05, "loss": 0.0308, "step": 13630 }, { "epoch": 28.416666666666668, "grad_norm": 0.16090036928653717, "learning_rate": 2.5191168648707887e-05, "loss": 0.028, "step": 13640 }, { "epoch": 28.4375, "grad_norm": 0.139386847615242, "learning_rate": 2.511942368369566e-05, "loss": 0.0258, "step": 13650 }, { "epoch": 28.458333333333332, "grad_norm": 0.12025455385446548, "learning_rate": 2.5047746741228978e-05, "loss": 0.0288, "step": 13660 }, { "epoch": 28.479166666666668, "grad_norm": 0.1478954255580902, "learning_rate": 2.4976138017269908e-05, "loss": 0.0262, "step": 13670 }, { "epoch": 28.5, "grad_norm": 0.17538690567016602, "learning_rate": 2.490459770759398e-05, "loss": 0.0221, "step": 13680 }, { "epoch": 28.520833333333332, "grad_norm": 0.11519067734479904, "learning_rate": 2.4833126007789653e-05, "loss": 0.0256, "step": 13690 }, { "epoch": 28.541666666666668, "grad_norm": 0.17666186392307281, "learning_rate": 2.476172311325783e-05, "loss": 0.0299, "step": 13700 }, { "epoch": 28.5625, "grad_norm": 0.1901102215051651, "learning_rate": 2.4690389219211273e-05, "loss": 0.0244, "step": 13710 }, { "epoch": 28.583333333333332, "grad_norm": 0.17967119812965393, "learning_rate": 2.4619124520674146e-05, "loss": 0.0251, "step": 13720 }, { "epoch": 28.604166666666668, "grad_norm": 0.11132553964853287, "learning_rate": 2.4547929212481435e-05, "loss": 0.0252, "step": 13730 }, { "epoch": 28.625, "grad_norm": 0.16288155317306519, "learning_rate": 2.447680348927837e-05, "loss": 0.0269, "step": 13740 }, { "epoch": 28.645833333333332, "grad_norm": 0.1645348072052002, "learning_rate": 2.4405747545519963e-05, "loss": 0.0226, "step": 13750 }, { "epoch": 28.666666666666668, "grad_norm": 0.16639380156993866, "learning_rate": 2.433476157547044e-05, "loss": 0.0296, "step": 13760 }, { "epoch": 28.6875, "grad_norm": 0.13300952315330505, "learning_rate": 2.4263845773202736e-05, "loss": 0.0259, "step": 13770 }, { "epoch": 28.708333333333332, "grad_norm": 0.18242698907852173, "learning_rate": 2.419300033259798e-05, "loss": 0.0263, "step": 13780 }, { "epoch": 28.729166666666668, "grad_norm": 0.10341961681842804, "learning_rate": 2.4122225447344875e-05, "loss": 0.0243, "step": 13790 }, { "epoch": 28.75, "grad_norm": 0.19786889851093292, "learning_rate": 2.405152131093926e-05, "loss": 0.0261, "step": 13800 }, { "epoch": 28.770833333333332, "grad_norm": 0.1813240647315979, "learning_rate": 2.3980888116683515e-05, "loss": 0.0273, "step": 13810 }, { "epoch": 28.791666666666668, "grad_norm": 0.1873469054698944, "learning_rate": 2.3910326057686127e-05, "loss": 0.0288, "step": 13820 }, { "epoch": 28.8125, "grad_norm": 0.20191684365272522, "learning_rate": 2.3839835326861104e-05, "loss": 0.026, "step": 13830 }, { "epoch": 28.833333333333332, "grad_norm": 0.10804741829633713, "learning_rate": 2.3769416116927335e-05, "loss": 0.0281, "step": 13840 }, { "epoch": 28.854166666666668, "grad_norm": 0.17843233048915863, "learning_rate": 2.3699068620408304e-05, "loss": 0.0258, "step": 13850 }, { "epoch": 28.875, "grad_norm": 0.12870879471302032, "learning_rate": 2.362879302963135e-05, "loss": 0.0212, "step": 13860 }, { "epoch": 28.895833333333332, "grad_norm": 0.14537565410137177, "learning_rate": 2.3558589536727277e-05, "loss": 0.0254, "step": 13870 }, { "epoch": 28.916666666666668, "grad_norm": 0.16075225174427032, "learning_rate": 2.3488458333629777e-05, "loss": 0.0257, "step": 13880 }, { "epoch": 28.9375, "grad_norm": 0.09594592452049255, "learning_rate": 2.341839961207482e-05, "loss": 0.0241, "step": 13890 }, { "epoch": 28.958333333333332, "grad_norm": 0.18591362237930298, "learning_rate": 2.3348413563600325e-05, "loss": 0.0258, "step": 13900 }, { "epoch": 28.979166666666668, "grad_norm": 0.19394651055335999, "learning_rate": 2.3278500379545436e-05, "loss": 0.0251, "step": 13910 }, { "epoch": 29.0, "grad_norm": 0.15234361588954926, "learning_rate": 2.3208660251050158e-05, "loss": 0.0245, "step": 13920 }, { "epoch": 29.020833333333332, "grad_norm": 0.13486915826797485, "learning_rate": 2.3138893369054766e-05, "loss": 0.026, "step": 13930 }, { "epoch": 29.041666666666668, "grad_norm": 0.13319163024425507, "learning_rate": 2.3069199924299174e-05, "loss": 0.0252, "step": 13940 }, { "epoch": 29.0625, "grad_norm": 0.1943550705909729, "learning_rate": 2.2999580107322653e-05, "loss": 0.0248, "step": 13950 }, { "epoch": 29.083333333333332, "grad_norm": 0.14370043575763702, "learning_rate": 2.29300341084631e-05, "loss": 0.0245, "step": 13960 }, { "epoch": 29.104166666666668, "grad_norm": 0.12732654809951782, "learning_rate": 2.2860562117856647e-05, "loss": 0.0258, "step": 13970 }, { "epoch": 29.125, "grad_norm": 0.17283886671066284, "learning_rate": 2.279116432543705e-05, "loss": 0.0246, "step": 13980 }, { "epoch": 29.145833333333332, "grad_norm": 0.18145841360092163, "learning_rate": 2.2721840920935196e-05, "loss": 0.0234, "step": 13990 }, { "epoch": 29.166666666666668, "grad_norm": 0.18463405966758728, "learning_rate": 2.2652592093878666e-05, "loss": 0.0253, "step": 14000 }, { "epoch": 29.1875, "grad_norm": 0.11479225754737854, "learning_rate": 2.258341803359108e-05, "loss": 0.0245, "step": 14010 }, { "epoch": 29.208333333333332, "grad_norm": 0.13489770889282227, "learning_rate": 2.251431892919171e-05, "loss": 0.0245, "step": 14020 }, { "epoch": 29.229166666666668, "grad_norm": 0.14764000475406647, "learning_rate": 2.2445294969594844e-05, "loss": 0.0274, "step": 14030 }, { "epoch": 29.25, "grad_norm": 0.18352317810058594, "learning_rate": 2.237634634350934e-05, "loss": 0.0247, "step": 14040 }, { "epoch": 29.270833333333332, "grad_norm": 0.1364758312702179, "learning_rate": 2.2307473239438154e-05, "loss": 0.0245, "step": 14050 }, { "epoch": 29.291666666666668, "grad_norm": 0.14916828274726868, "learning_rate": 2.2238675845677663e-05, "loss": 0.0221, "step": 14060 }, { "epoch": 29.3125, "grad_norm": 0.11395622789859772, "learning_rate": 2.2169954350317374e-05, "loss": 0.0227, "step": 14070 }, { "epoch": 29.333333333333332, "grad_norm": 0.2062273919582367, "learning_rate": 2.2101308941239203e-05, "loss": 0.0263, "step": 14080 }, { "epoch": 29.354166666666668, "grad_norm": 0.12076152116060257, "learning_rate": 2.2032739806117058e-05, "loss": 0.0268, "step": 14090 }, { "epoch": 29.375, "grad_norm": 0.18025773763656616, "learning_rate": 2.196424713241637e-05, "loss": 0.0207, "step": 14100 }, { "epoch": 29.395833333333332, "grad_norm": 0.08707787841558456, "learning_rate": 2.1895831107393484e-05, "loss": 0.0242, "step": 14110 }, { "epoch": 29.416666666666668, "grad_norm": 0.15832816064357758, "learning_rate": 2.182749191809518e-05, "loss": 0.0244, "step": 14120 }, { "epoch": 29.4375, "grad_norm": 0.22984018921852112, "learning_rate": 2.1759229751358217e-05, "loss": 0.0207, "step": 14130 }, { "epoch": 29.458333333333332, "grad_norm": 0.15207888185977936, "learning_rate": 2.1691044793808734e-05, "loss": 0.0249, "step": 14140 }, { "epoch": 29.479166666666668, "grad_norm": 0.19255390763282776, "learning_rate": 2.1622937231861822e-05, "loss": 0.0261, "step": 14150 }, { "epoch": 29.5, "grad_norm": 0.11285766959190369, "learning_rate": 2.1554907251720945e-05, "loss": 0.0246, "step": 14160 }, { "epoch": 29.520833333333332, "grad_norm": 0.07478653639554977, "learning_rate": 2.148695503937745e-05, "loss": 0.0264, "step": 14170 }, { "epoch": 29.541666666666668, "grad_norm": 0.16864681243896484, "learning_rate": 2.1419080780610123e-05, "loss": 0.027, "step": 14180 }, { "epoch": 29.5625, "grad_norm": 0.1595410853624344, "learning_rate": 2.1351284660984572e-05, "loss": 0.0234, "step": 14190 }, { "epoch": 29.583333333333332, "grad_norm": 0.14680035412311554, "learning_rate": 2.128356686585282e-05, "loss": 0.02, "step": 14200 }, { "epoch": 29.604166666666668, "grad_norm": 0.14057321846485138, "learning_rate": 2.121592758035273e-05, "loss": 0.0222, "step": 14210 }, { "epoch": 29.625, "grad_norm": 0.1845802366733551, "learning_rate": 2.1148366989407496e-05, "loss": 0.0258, "step": 14220 }, { "epoch": 29.645833333333332, "grad_norm": 0.18895554542541504, "learning_rate": 2.1080885277725236e-05, "loss": 0.0269, "step": 14230 }, { "epoch": 29.666666666666668, "grad_norm": 0.18348479270935059, "learning_rate": 2.1013482629798333e-05, "loss": 0.0237, "step": 14240 }, { "epoch": 29.6875, "grad_norm": 0.11846945434808731, "learning_rate": 2.094615922990309e-05, "loss": 0.0253, "step": 14250 }, { "epoch": 29.708333333333332, "grad_norm": 0.19170626997947693, "learning_rate": 2.0878915262099098e-05, "loss": 0.0244, "step": 14260 }, { "epoch": 29.729166666666668, "grad_norm": 0.16069690883159637, "learning_rate": 2.0811750910228774e-05, "loss": 0.0267, "step": 14270 }, { "epoch": 29.75, "grad_norm": 0.14784179627895355, "learning_rate": 2.0744666357916925e-05, "loss": 0.0261, "step": 14280 }, { "epoch": 29.770833333333332, "grad_norm": 0.12336678802967072, "learning_rate": 2.067766178857013e-05, "loss": 0.0211, "step": 14290 }, { "epoch": 29.791666666666668, "grad_norm": 0.1734299510717392, "learning_rate": 2.061073738537635e-05, "loss": 0.0221, "step": 14300 }, { "epoch": 29.8125, "grad_norm": 0.09043006598949432, "learning_rate": 2.0543893331304333e-05, "loss": 0.0203, "step": 14310 }, { "epoch": 29.833333333333332, "grad_norm": 0.13414272665977478, "learning_rate": 2.0477129809103147e-05, "loss": 0.0232, "step": 14320 }, { "epoch": 29.854166666666668, "grad_norm": 0.18038301169872284, "learning_rate": 2.0410447001301753e-05, "loss": 0.0276, "step": 14330 }, { "epoch": 29.875, "grad_norm": 0.16476987302303314, "learning_rate": 2.0343845090208368e-05, "loss": 0.0275, "step": 14340 }, { "epoch": 29.895833333333332, "grad_norm": 0.2196774184703827, "learning_rate": 2.0277324257910106e-05, "loss": 0.0215, "step": 14350 }, { "epoch": 29.916666666666668, "grad_norm": 0.1298833191394806, "learning_rate": 2.0210884686272368e-05, "loss": 0.0269, "step": 14360 }, { "epoch": 29.9375, "grad_norm": 0.19044354557991028, "learning_rate": 2.0144526556938387e-05, "loss": 0.024, "step": 14370 }, { "epoch": 29.958333333333332, "grad_norm": 0.16906023025512695, "learning_rate": 2.0078250051328784e-05, "loss": 0.0302, "step": 14380 }, { "epoch": 29.979166666666668, "grad_norm": 0.10088242590427399, "learning_rate": 2.0012055350640986e-05, "loss": 0.0266, "step": 14390 }, { "epoch": 30.0, "grad_norm": 0.27417418360710144, "learning_rate": 1.9945942635848748e-05, "loss": 0.0298, "step": 14400 }, { "epoch": 30.020833333333332, "grad_norm": 0.16967885196208954, "learning_rate": 1.9879912087701753e-05, "loss": 0.0218, "step": 14410 }, { "epoch": 30.041666666666668, "grad_norm": 0.19352486729621887, "learning_rate": 1.981396388672496e-05, "loss": 0.026, "step": 14420 }, { "epoch": 30.0625, "grad_norm": 0.11409545689821243, "learning_rate": 1.974809821321827e-05, "loss": 0.0304, "step": 14430 }, { "epoch": 30.083333333333332, "grad_norm": 0.1656656116247177, "learning_rate": 1.9682315247255894e-05, "loss": 0.0215, "step": 14440 }, { "epoch": 30.104166666666668, "grad_norm": 0.12236399948596954, "learning_rate": 1.9616615168685943e-05, "loss": 0.0197, "step": 14450 }, { "epoch": 30.125, "grad_norm": 0.19762194156646729, "learning_rate": 1.9550998157129946e-05, "loss": 0.0281, "step": 14460 }, { "epoch": 30.145833333333332, "grad_norm": 0.1458483636379242, "learning_rate": 1.9485464391982284e-05, "loss": 0.0297, "step": 14470 }, { "epoch": 30.166666666666668, "grad_norm": 0.19549840688705444, "learning_rate": 1.942001405240979e-05, "loss": 0.0293, "step": 14480 }, { "epoch": 30.1875, "grad_norm": 0.1433265060186386, "learning_rate": 1.9354647317351188e-05, "loss": 0.0268, "step": 14490 }, { "epoch": 30.208333333333332, "grad_norm": 0.12370426952838898, "learning_rate": 1.928936436551661e-05, "loss": 0.0265, "step": 14500 }, { "epoch": 30.229166666666668, "grad_norm": 0.1700468212366104, "learning_rate": 1.9224165375387193e-05, "loss": 0.0247, "step": 14510 }, { "epoch": 30.25, "grad_norm": 0.24962173402309418, "learning_rate": 1.9159050525214452e-05, "loss": 0.0254, "step": 14520 }, { "epoch": 30.270833333333332, "grad_norm": 0.2278348058462143, "learning_rate": 1.909401999301993e-05, "loss": 0.0236, "step": 14530 }, { "epoch": 30.291666666666668, "grad_norm": 0.19737949967384338, "learning_rate": 1.9029073956594606e-05, "loss": 0.0254, "step": 14540 }, { "epoch": 30.3125, "grad_norm": 0.1587711125612259, "learning_rate": 1.8964212593498442e-05, "loss": 0.0277, "step": 14550 }, { "epoch": 30.333333333333332, "grad_norm": 0.1778956651687622, "learning_rate": 1.8899436081059975e-05, "loss": 0.0234, "step": 14560 }, { "epoch": 30.354166666666668, "grad_norm": 0.19438031315803528, "learning_rate": 1.8834744596375666e-05, "loss": 0.0293, "step": 14570 }, { "epoch": 30.375, "grad_norm": 0.17290186882019043, "learning_rate": 1.877013831630961e-05, "loss": 0.0255, "step": 14580 }, { "epoch": 30.395833333333332, "grad_norm": 0.15686829388141632, "learning_rate": 1.8705617417492883e-05, "loss": 0.0266, "step": 14590 }, { "epoch": 30.416666666666668, "grad_norm": 0.136750265955925, "learning_rate": 1.8641182076323148e-05, "loss": 0.0207, "step": 14600 }, { "epoch": 30.4375, "grad_norm": 0.1950133889913559, "learning_rate": 1.85768324689642e-05, "loss": 0.023, "step": 14610 }, { "epoch": 30.458333333333332, "grad_norm": 0.20913287997245789, "learning_rate": 1.851256877134538e-05, "loss": 0.0234, "step": 14620 }, { "epoch": 30.479166666666668, "grad_norm": 0.1391008347272873, "learning_rate": 1.8448391159161204e-05, "loss": 0.0287, "step": 14630 }, { "epoch": 30.5, "grad_norm": 0.153548002243042, "learning_rate": 1.838429980787081e-05, "loss": 0.0282, "step": 14640 }, { "epoch": 30.520833333333332, "grad_norm": 0.1805303543806076, "learning_rate": 1.8320294892697478e-05, "loss": 0.0273, "step": 14650 }, { "epoch": 30.541666666666668, "grad_norm": 0.16464117169380188, "learning_rate": 1.8256376588628238e-05, "loss": 0.0229, "step": 14660 }, { "epoch": 30.5625, "grad_norm": 0.15420949459075928, "learning_rate": 1.8192545070413282e-05, "loss": 0.0226, "step": 14670 }, { "epoch": 30.583333333333332, "grad_norm": 0.14273841679096222, "learning_rate": 1.8128800512565513e-05, "loss": 0.0218, "step": 14680 }, { "epoch": 30.604166666666668, "grad_norm": 0.16735300421714783, "learning_rate": 1.8065143089360172e-05, "loss": 0.0216, "step": 14690 }, { "epoch": 30.625, "grad_norm": 0.08785475045442581, "learning_rate": 1.800157297483417e-05, "loss": 0.0229, "step": 14700 }, { "epoch": 30.645833333333332, "grad_norm": 0.1492065191268921, "learning_rate": 1.7938090342785817e-05, "loss": 0.0278, "step": 14710 }, { "epoch": 30.666666666666668, "grad_norm": 0.15846532583236694, "learning_rate": 1.787469536677419e-05, "loss": 0.03, "step": 14720 }, { "epoch": 30.6875, "grad_norm": 0.16640816628932953, "learning_rate": 1.7811388220118707e-05, "loss": 0.028, "step": 14730 }, { "epoch": 30.708333333333332, "grad_norm": 0.1466214805841446, "learning_rate": 1.774816907589873e-05, "loss": 0.0243, "step": 14740 }, { "epoch": 30.729166666666668, "grad_norm": 0.15464061498641968, "learning_rate": 1.768503810695295e-05, "loss": 0.0294, "step": 14750 }, { "epoch": 30.75, "grad_norm": 0.12813971936702728, "learning_rate": 1.7621995485879062e-05, "loss": 0.0279, "step": 14760 }, { "epoch": 30.770833333333332, "grad_norm": 0.11455096304416656, "learning_rate": 1.755904138503316e-05, "loss": 0.0228, "step": 14770 }, { "epoch": 30.791666666666668, "grad_norm": 0.15786875784397125, "learning_rate": 1.749617597652934e-05, "loss": 0.0289, "step": 14780 }, { "epoch": 30.8125, "grad_norm": 0.15038886666297913, "learning_rate": 1.743339943223926e-05, "loss": 0.0253, "step": 14790 }, { "epoch": 30.833333333333332, "grad_norm": 0.15373139083385468, "learning_rate": 1.7370711923791567e-05, "loss": 0.0238, "step": 14800 }, { "epoch": 30.854166666666668, "grad_norm": 0.11868207156658173, "learning_rate": 1.7308113622571544e-05, "loss": 0.0233, "step": 14810 }, { "epoch": 30.875, "grad_norm": 0.15072591602802277, "learning_rate": 1.7245604699720535e-05, "loss": 0.0201, "step": 14820 }, { "epoch": 30.895833333333332, "grad_norm": 0.08985219895839691, "learning_rate": 1.7183185326135543e-05, "loss": 0.0215, "step": 14830 }, { "epoch": 30.916666666666668, "grad_norm": 0.19170871376991272, "learning_rate": 1.712085567246878e-05, "loss": 0.0215, "step": 14840 }, { "epoch": 30.9375, "grad_norm": 0.15517710149288177, "learning_rate": 1.70586159091271e-05, "loss": 0.026, "step": 14850 }, { "epoch": 30.958333333333332, "grad_norm": 0.1262492835521698, "learning_rate": 1.699646620627168e-05, "loss": 0.0243, "step": 14860 }, { "epoch": 30.979166666666668, "grad_norm": 0.17225712537765503, "learning_rate": 1.6934406733817414e-05, "loss": 0.025, "step": 14870 }, { "epoch": 31.0, "grad_norm": 0.1729232221841812, "learning_rate": 1.6872437661432517e-05, "loss": 0.0251, "step": 14880 }, { "epoch": 31.020833333333332, "grad_norm": 0.0868903324007988, "learning_rate": 1.6810559158538092e-05, "loss": 0.0228, "step": 14890 }, { "epoch": 31.041666666666668, "grad_norm": 0.1105879545211792, "learning_rate": 1.6748771394307585e-05, "loss": 0.023, "step": 14900 }, { "epoch": 31.0625, "grad_norm": 0.17894837260246277, "learning_rate": 1.6687074537666398e-05, "loss": 0.0303, "step": 14910 }, { "epoch": 31.083333333333332, "grad_norm": 0.11782412230968475, "learning_rate": 1.662546875729138e-05, "loss": 0.0185, "step": 14920 }, { "epoch": 31.104166666666668, "grad_norm": 0.15616607666015625, "learning_rate": 1.6563954221610355e-05, "loss": 0.0259, "step": 14930 }, { "epoch": 31.125, "grad_norm": 0.21147853136062622, "learning_rate": 1.6502531098801753e-05, "loss": 0.0311, "step": 14940 }, { "epoch": 31.145833333333332, "grad_norm": 0.19816337525844574, "learning_rate": 1.6441199556794033e-05, "loss": 0.023, "step": 14950 }, { "epoch": 31.166666666666668, "grad_norm": 0.10903710126876831, "learning_rate": 1.637995976326527e-05, "loss": 0.0264, "step": 14960 }, { "epoch": 31.1875, "grad_norm": 0.20140674710273743, "learning_rate": 1.631881188564275e-05, "loss": 0.0227, "step": 14970 }, { "epoch": 31.208333333333332, "grad_norm": 0.11370640248060226, "learning_rate": 1.62577560911024e-05, "loss": 0.0211, "step": 14980 }, { "epoch": 31.229166666666668, "grad_norm": 0.1638639122247696, "learning_rate": 1.6196792546568472e-05, "loss": 0.0216, "step": 14990 }, { "epoch": 31.25, "grad_norm": 0.14059121906757355, "learning_rate": 1.6135921418712956e-05, "loss": 0.0267, "step": 15000 }, { "epoch": 31.270833333333332, "grad_norm": 0.1309564858675003, "learning_rate": 1.6075142873955164e-05, "loss": 0.023, "step": 15010 }, { "epoch": 31.291666666666668, "grad_norm": 0.14449435472488403, "learning_rate": 1.6014457078461353e-05, "loss": 0.022, "step": 15020 }, { "epoch": 31.3125, "grad_norm": 0.12984667718410492, "learning_rate": 1.5953864198144135e-05, "loss": 0.0252, "step": 15030 }, { "epoch": 31.333333333333332, "grad_norm": 0.11674494296312332, "learning_rate": 1.5893364398662176e-05, "loss": 0.0222, "step": 15040 }, { "epoch": 31.354166666666668, "grad_norm": 0.17376114428043365, "learning_rate": 1.583295784541958e-05, "loss": 0.0283, "step": 15050 }, { "epoch": 31.375, "grad_norm": 0.14998674392700195, "learning_rate": 1.5772644703565565e-05, "loss": 0.0242, "step": 15060 }, { "epoch": 31.395833333333332, "grad_norm": 0.15199941396713257, "learning_rate": 1.5712425137993973e-05, "loss": 0.0251, "step": 15070 }, { "epoch": 31.416666666666668, "grad_norm": 0.1656448394060135, "learning_rate": 1.5652299313342773e-05, "loss": 0.0264, "step": 15080 }, { "epoch": 31.4375, "grad_norm": 0.12870313227176666, "learning_rate": 1.5592267393993716e-05, "loss": 0.0253, "step": 15090 }, { "epoch": 31.458333333333332, "grad_norm": 0.1608632206916809, "learning_rate": 1.553232954407171e-05, "loss": 0.0248, "step": 15100 }, { "epoch": 31.479166666666668, "grad_norm": 0.12661650776863098, "learning_rate": 1.5472485927444597e-05, "loss": 0.0201, "step": 15110 }, { "epoch": 31.5, "grad_norm": 0.17235861718654633, "learning_rate": 1.5412736707722537e-05, "loss": 0.0229, "step": 15120 }, { "epoch": 31.520833333333332, "grad_norm": 0.1586020588874817, "learning_rate": 1.5353082048257596e-05, "loss": 0.0319, "step": 15130 }, { "epoch": 31.541666666666668, "grad_norm": 0.15997441112995148, "learning_rate": 1.5293522112143373e-05, "loss": 0.03, "step": 15140 }, { "epoch": 31.5625, "grad_norm": 0.17099164426326752, "learning_rate": 1.5234057062214402e-05, "loss": 0.0215, "step": 15150 }, { "epoch": 31.583333333333332, "grad_norm": 0.11666939407587051, "learning_rate": 1.517468706104589e-05, "loss": 0.0233, "step": 15160 }, { "epoch": 31.604166666666668, "grad_norm": 0.1487329602241516, "learning_rate": 1.5115412270953167e-05, "loss": 0.0229, "step": 15170 }, { "epoch": 31.625, "grad_norm": 0.09580454975366592, "learning_rate": 1.5056232853991209e-05, "loss": 0.0216, "step": 15180 }, { "epoch": 31.645833333333332, "grad_norm": 0.08501407504081726, "learning_rate": 1.4997148971954344e-05, "loss": 0.0209, "step": 15190 }, { "epoch": 31.666666666666668, "grad_norm": 0.10726824402809143, "learning_rate": 1.4938160786375572e-05, "loss": 0.0215, "step": 15200 }, { "epoch": 31.6875, "grad_norm": 0.18101194500923157, "learning_rate": 1.4879268458526379e-05, "loss": 0.0299, "step": 15210 }, { "epoch": 31.708333333333332, "grad_norm": 0.08468707650899887, "learning_rate": 1.4820472149416154e-05, "loss": 0.0229, "step": 15220 }, { "epoch": 31.729166666666668, "grad_norm": 0.1264684945344925, "learning_rate": 1.4761772019791748e-05, "loss": 0.0232, "step": 15230 }, { "epoch": 31.75, "grad_norm": 0.08855204284191132, "learning_rate": 1.470316823013707e-05, "loss": 0.0224, "step": 15240 }, { "epoch": 31.770833333333332, "grad_norm": 0.10541760921478271, "learning_rate": 1.4644660940672627e-05, "loss": 0.0266, "step": 15250 }, { "epoch": 31.791666666666668, "grad_norm": 0.2285427451133728, "learning_rate": 1.4586250311355132e-05, "loss": 0.0259, "step": 15260 }, { "epoch": 31.8125, "grad_norm": 0.13295358419418335, "learning_rate": 1.4527936501877032e-05, "loss": 0.023, "step": 15270 }, { "epoch": 31.833333333333332, "grad_norm": 0.1278422474861145, "learning_rate": 1.4469719671666043e-05, "loss": 0.0277, "step": 15280 }, { "epoch": 31.854166666666668, "grad_norm": 0.14386869966983795, "learning_rate": 1.4411599979884744e-05, "loss": 0.0249, "step": 15290 }, { "epoch": 31.875, "grad_norm": 0.09248368442058563, "learning_rate": 1.435357758543015e-05, "loss": 0.0212, "step": 15300 }, { "epoch": 31.895833333333332, "grad_norm": 0.10723719000816345, "learning_rate": 1.4295652646933277e-05, "loss": 0.0281, "step": 15310 }, { "epoch": 31.916666666666668, "grad_norm": 0.1531488001346588, "learning_rate": 1.4237825322758736e-05, "loss": 0.0229, "step": 15320 }, { "epoch": 31.9375, "grad_norm": 0.19286806881427765, "learning_rate": 1.4180095771004154e-05, "loss": 0.0307, "step": 15330 }, { "epoch": 31.958333333333332, "grad_norm": 0.14478839933872223, "learning_rate": 1.412246414949997e-05, "loss": 0.0281, "step": 15340 }, { "epoch": 31.979166666666668, "grad_norm": 0.11330058425664902, "learning_rate": 1.4064930615808808e-05, "loss": 0.0223, "step": 15350 }, { "epoch": 32.0, "grad_norm": 0.279071182012558, "learning_rate": 1.4007495327225162e-05, "loss": 0.0253, "step": 15360 }, { "epoch": 32.020833333333336, "grad_norm": 0.17092067003250122, "learning_rate": 1.3950158440774957e-05, "loss": 0.0204, "step": 15370 }, { "epoch": 32.041666666666664, "grad_norm": 0.11651190370321274, "learning_rate": 1.389292011321498e-05, "loss": 0.0222, "step": 15380 }, { "epoch": 32.0625, "grad_norm": 0.21039175987243652, "learning_rate": 1.383578050103268e-05, "loss": 0.0198, "step": 15390 }, { "epoch": 32.083333333333336, "grad_norm": 0.15720760822296143, "learning_rate": 1.3778739760445552e-05, "loss": 0.0213, "step": 15400 }, { "epoch": 32.104166666666664, "grad_norm": 0.19707544147968292, "learning_rate": 1.3721798047400813e-05, "loss": 0.0297, "step": 15410 }, { "epoch": 32.125, "grad_norm": 0.11626558750867844, "learning_rate": 1.3664955517574968e-05, "loss": 0.0272, "step": 15420 }, { "epoch": 32.145833333333336, "grad_norm": 0.1907815933227539, "learning_rate": 1.3608212326373249e-05, "loss": 0.0293, "step": 15430 }, { "epoch": 32.166666666666664, "grad_norm": 0.12320644408464432, "learning_rate": 1.3551568628929434e-05, "loss": 0.0242, "step": 15440 }, { "epoch": 32.1875, "grad_norm": 0.13914789259433746, "learning_rate": 1.3495024580105192e-05, "loss": 0.022, "step": 15450 }, { "epoch": 32.208333333333336, "grad_norm": 0.20512445271015167, "learning_rate": 1.343858033448982e-05, "loss": 0.0259, "step": 15460 }, { "epoch": 32.229166666666664, "grad_norm": 0.15475605428218842, "learning_rate": 1.3382236046399722e-05, "loss": 0.0261, "step": 15470 }, { "epoch": 32.25, "grad_norm": 0.15311568975448608, "learning_rate": 1.3325991869878013e-05, "loss": 0.0184, "step": 15480 }, { "epoch": 32.270833333333336, "grad_norm": 0.10333337634801865, "learning_rate": 1.3269847958694148e-05, "loss": 0.0255, "step": 15490 }, { "epoch": 32.291666666666664, "grad_norm": 0.15847843885421753, "learning_rate": 1.3213804466343421e-05, "loss": 0.0207, "step": 15500 }, { "epoch": 32.3125, "grad_norm": 0.1279398798942566, "learning_rate": 1.3157861546046613e-05, "loss": 0.0254, "step": 15510 }, { "epoch": 32.333333333333336, "grad_norm": 0.1404080092906952, "learning_rate": 1.3102019350749528e-05, "loss": 0.0235, "step": 15520 }, { "epoch": 32.354166666666664, "grad_norm": 0.11723481118679047, "learning_rate": 1.3046278033122577e-05, "loss": 0.0231, "step": 15530 }, { "epoch": 32.375, "grad_norm": 0.1535821110010147, "learning_rate": 1.299063774556042e-05, "loss": 0.0279, "step": 15540 }, { "epoch": 32.395833333333336, "grad_norm": 0.13023559749126434, "learning_rate": 1.293509864018146e-05, "loss": 0.023, "step": 15550 }, { "epoch": 32.416666666666664, "grad_norm": 0.13303375244140625, "learning_rate": 1.2879660868827508e-05, "loss": 0.0263, "step": 15560 }, { "epoch": 32.4375, "grad_norm": 0.14100344479084015, "learning_rate": 1.2824324583063302e-05, "loss": 0.0232, "step": 15570 }, { "epoch": 32.458333333333336, "grad_norm": 0.19678720831871033, "learning_rate": 1.2769089934176126e-05, "loss": 0.021, "step": 15580 }, { "epoch": 32.479166666666664, "grad_norm": 0.18018858134746552, "learning_rate": 1.2713957073175425e-05, "loss": 0.0232, "step": 15590 }, { "epoch": 32.5, "grad_norm": 0.12804366648197174, "learning_rate": 1.2658926150792322e-05, "loss": 0.0228, "step": 15600 }, { "epoch": 32.520833333333336, "grad_norm": 0.15343375504016876, "learning_rate": 1.2603997317479238e-05, "loss": 0.0233, "step": 15610 }, { "epoch": 32.541666666666664, "grad_norm": 0.15304847061634064, "learning_rate": 1.2549170723409549e-05, "loss": 0.0202, "step": 15620 }, { "epoch": 32.5625, "grad_norm": 0.20314651727676392, "learning_rate": 1.2494446518477022e-05, "loss": 0.0231, "step": 15630 }, { "epoch": 32.583333333333336, "grad_norm": 0.16023525595664978, "learning_rate": 1.243982485229559e-05, "loss": 0.024, "step": 15640 }, { "epoch": 32.604166666666664, "grad_norm": 0.17522075772285461, "learning_rate": 1.2385305874198776e-05, "loss": 0.0241, "step": 15650 }, { "epoch": 32.625, "grad_norm": 0.1324646770954132, "learning_rate": 1.233088973323937e-05, "loss": 0.0226, "step": 15660 }, { "epoch": 32.645833333333336, "grad_norm": 0.16290515661239624, "learning_rate": 1.2276576578189064e-05, "loss": 0.0256, "step": 15670 }, { "epoch": 32.666666666666664, "grad_norm": 0.167866513133049, "learning_rate": 1.2222366557537911e-05, "loss": 0.0243, "step": 15680 }, { "epoch": 32.6875, "grad_norm": 0.12053470313549042, "learning_rate": 1.2168259819494066e-05, "loss": 0.023, "step": 15690 }, { "epoch": 32.708333333333336, "grad_norm": 0.14594587683677673, "learning_rate": 1.2114256511983274e-05, "loss": 0.0229, "step": 15700 }, { "epoch": 32.729166666666664, "grad_norm": 0.15939685702323914, "learning_rate": 1.2060356782648503e-05, "loss": 0.0242, "step": 15710 }, { "epoch": 32.75, "grad_norm": 0.19782480597496033, "learning_rate": 1.2006560778849578e-05, "loss": 0.027, "step": 15720 }, { "epoch": 32.770833333333336, "grad_norm": 0.19119879603385925, "learning_rate": 1.1952868647662696e-05, "loss": 0.0243, "step": 15730 }, { "epoch": 32.791666666666664, "grad_norm": 0.15228067338466644, "learning_rate": 1.1899280535880119e-05, "loss": 0.0227, "step": 15740 }, { "epoch": 32.8125, "grad_norm": 0.16766372323036194, "learning_rate": 1.1845796590009683e-05, "loss": 0.0262, "step": 15750 }, { "epoch": 32.833333333333336, "grad_norm": 0.1243184357881546, "learning_rate": 1.1792416956274444e-05, "loss": 0.0248, "step": 15760 }, { "epoch": 32.854166666666664, "grad_norm": 0.09008140116930008, "learning_rate": 1.1739141780612306e-05, "loss": 0.0229, "step": 15770 }, { "epoch": 32.875, "grad_norm": 0.20568417012691498, "learning_rate": 1.1685971208675539e-05, "loss": 0.0244, "step": 15780 }, { "epoch": 32.895833333333336, "grad_norm": 0.13415242731571198, "learning_rate": 1.1632905385830484e-05, "loss": 0.0224, "step": 15790 }, { "epoch": 32.916666666666664, "grad_norm": 0.09974708408117294, "learning_rate": 1.157994445715706e-05, "loss": 0.0254, "step": 15800 }, { "epoch": 32.9375, "grad_norm": 0.18087859451770782, "learning_rate": 1.1527088567448407e-05, "loss": 0.0245, "step": 15810 }, { "epoch": 32.958333333333336, "grad_norm": 0.142746701836586, "learning_rate": 1.1474337861210543e-05, "loss": 0.0226, "step": 15820 }, { "epoch": 32.979166666666664, "grad_norm": 0.13791275024414062, "learning_rate": 1.1421692482661856e-05, "loss": 0.0244, "step": 15830 }, { "epoch": 33.0, "grad_norm": 0.25087970495224, "learning_rate": 1.1369152575732822e-05, "loss": 0.0268, "step": 15840 }, { "epoch": 33.020833333333336, "grad_norm": 0.1416538953781128, "learning_rate": 1.1316718284065537e-05, "loss": 0.0254, "step": 15850 }, { "epoch": 33.041666666666664, "grad_norm": 0.12428006529808044, "learning_rate": 1.1264389751013326e-05, "loss": 0.0281, "step": 15860 }, { "epoch": 33.0625, "grad_norm": 0.1347614824771881, "learning_rate": 1.1212167119640438e-05, "loss": 0.0197, "step": 15870 }, { "epoch": 33.083333333333336, "grad_norm": 0.12415080517530441, "learning_rate": 1.1160050532721528e-05, "loss": 0.0206, "step": 15880 }, { "epoch": 33.104166666666664, "grad_norm": 0.19164419174194336, "learning_rate": 1.1108040132741354e-05, "loss": 0.0267, "step": 15890 }, { "epoch": 33.125, "grad_norm": 0.13706183433532715, "learning_rate": 1.1056136061894384e-05, "loss": 0.0261, "step": 15900 }, { "epoch": 33.145833333333336, "grad_norm": 0.19745802879333496, "learning_rate": 1.100433846208434e-05, "loss": 0.0243, "step": 15910 }, { "epoch": 33.166666666666664, "grad_norm": 0.15521125495433807, "learning_rate": 1.095264747492391e-05, "loss": 0.0255, "step": 15920 }, { "epoch": 33.1875, "grad_norm": 0.18060217797756195, "learning_rate": 1.090106324173426e-05, "loss": 0.0246, "step": 15930 }, { "epoch": 33.208333333333336, "grad_norm": 0.19790180027484894, "learning_rate": 1.0849585903544706e-05, "loss": 0.0284, "step": 15940 }, { "epoch": 33.229166666666664, "grad_norm": 0.07440721243619919, "learning_rate": 1.0798215601092354e-05, "loss": 0.0276, "step": 15950 }, { "epoch": 33.25, "grad_norm": 0.10922679305076599, "learning_rate": 1.0746952474821614e-05, "loss": 0.0223, "step": 15960 }, { "epoch": 33.270833333333336, "grad_norm": 0.2380518764257431, "learning_rate": 1.069579666488395e-05, "loss": 0.0258, "step": 15970 }, { "epoch": 33.291666666666664, "grad_norm": 0.10905048996210098, "learning_rate": 1.0644748311137376e-05, "loss": 0.0282, "step": 15980 }, { "epoch": 33.3125, "grad_norm": 0.09235946089029312, "learning_rate": 1.059380755314613e-05, "loss": 0.0223, "step": 15990 }, { "epoch": 33.333333333333336, "grad_norm": 0.12049350887537003, "learning_rate": 1.0542974530180327e-05, "loss": 0.0228, "step": 16000 }, { "epoch": 33.354166666666664, "grad_norm": 0.1253812313079834, "learning_rate": 1.049224938121548e-05, "loss": 0.0209, "step": 16010 }, { "epoch": 33.375, "grad_norm": 0.12833908200263977, "learning_rate": 1.0441632244932237e-05, "loss": 0.0241, "step": 16020 }, { "epoch": 33.395833333333336, "grad_norm": 0.16574779152870178, "learning_rate": 1.0391123259715906e-05, "loss": 0.0207, "step": 16030 }, { "epoch": 33.416666666666664, "grad_norm": 0.19436338543891907, "learning_rate": 1.0340722563656107e-05, "loss": 0.0213, "step": 16040 }, { "epoch": 33.4375, "grad_norm": 0.10760315507650375, "learning_rate": 1.0290430294546449e-05, "loss": 0.0247, "step": 16050 }, { "epoch": 33.458333333333336, "grad_norm": 0.11429783701896667, "learning_rate": 1.0240246589884044e-05, "loss": 0.0252, "step": 16060 }, { "epoch": 33.479166666666664, "grad_norm": 0.14493083953857422, "learning_rate": 1.0190171586869258e-05, "loss": 0.0246, "step": 16070 }, { "epoch": 33.5, "grad_norm": 0.16742990911006927, "learning_rate": 1.0140205422405214e-05, "loss": 0.0179, "step": 16080 }, { "epoch": 33.520833333333336, "grad_norm": 0.13386118412017822, "learning_rate": 1.009034823309749e-05, "loss": 0.0246, "step": 16090 }, { "epoch": 33.541666666666664, "grad_norm": 0.24753062427043915, "learning_rate": 1.0040600155253765e-05, "loss": 0.0261, "step": 16100 }, { "epoch": 33.5625, "grad_norm": 0.1616448163986206, "learning_rate": 9.990961324883358e-06, "loss": 0.0233, "step": 16110 }, { "epoch": 33.583333333333336, "grad_norm": 0.21639399230480194, "learning_rate": 9.941431877696955e-06, "loss": 0.0216, "step": 16120 }, { "epoch": 33.604166666666664, "grad_norm": 0.19702878594398499, "learning_rate": 9.892011949106172e-06, "loss": 0.0249, "step": 16130 }, { "epoch": 33.625, "grad_norm": 0.11602712422609329, "learning_rate": 9.842701674223187e-06, "loss": 0.0251, "step": 16140 }, { "epoch": 33.645833333333336, "grad_norm": 0.1647506058216095, "learning_rate": 9.793501187860432e-06, "loss": 0.0226, "step": 16150 }, { "epoch": 33.666666666666664, "grad_norm": 0.1736157089471817, "learning_rate": 9.744410624530148e-06, "loss": 0.0276, "step": 16160 }, { "epoch": 33.6875, "grad_norm": 0.10361019521951675, "learning_rate": 9.695430118444048e-06, "loss": 0.0228, "step": 16170 }, { "epoch": 33.708333333333336, "grad_norm": 0.13076019287109375, "learning_rate": 9.646559803512994e-06, "loss": 0.0241, "step": 16180 }, { "epoch": 33.729166666666664, "grad_norm": 0.16705717146396637, "learning_rate": 9.597799813346525e-06, "loss": 0.0232, "step": 16190 }, { "epoch": 33.75, "grad_norm": 0.11384747922420502, "learning_rate": 9.549150281252633e-06, "loss": 0.0236, "step": 16200 }, { "epoch": 33.770833333333336, "grad_norm": 0.17784404754638672, "learning_rate": 9.500611340237258e-06, "loss": 0.0226, "step": 16210 }, { "epoch": 33.791666666666664, "grad_norm": 0.1385526806116104, "learning_rate": 9.452183123004e-06, "loss": 0.026, "step": 16220 }, { "epoch": 33.8125, "grad_norm": 0.13222379982471466, "learning_rate": 9.403865761953779e-06, "loss": 0.0205, "step": 16230 }, { "epoch": 33.833333333333336, "grad_norm": 0.10739588737487793, "learning_rate": 9.355659389184396e-06, "loss": 0.0218, "step": 16240 }, { "epoch": 33.854166666666664, "grad_norm": 0.18410086631774902, "learning_rate": 9.307564136490254e-06, "loss": 0.0265, "step": 16250 }, { "epoch": 33.875, "grad_norm": 0.2863989770412445, "learning_rate": 9.259580135361929e-06, "loss": 0.0247, "step": 16260 }, { "epoch": 33.895833333333336, "grad_norm": 0.18440751731395721, "learning_rate": 9.211707516985829e-06, "loss": 0.0206, "step": 16270 }, { "epoch": 33.916666666666664, "grad_norm": 0.14767828583717346, "learning_rate": 9.163946412243896e-06, "loss": 0.0241, "step": 16280 }, { "epoch": 33.9375, "grad_norm": 0.14228564500808716, "learning_rate": 9.116296951713133e-06, "loss": 0.0227, "step": 16290 }, { "epoch": 33.958333333333336, "grad_norm": 0.16776464879512787, "learning_rate": 9.068759265665384e-06, "loss": 0.0247, "step": 16300 }, { "epoch": 33.979166666666664, "grad_norm": 0.13560184836387634, "learning_rate": 9.02133348406684e-06, "loss": 0.0233, "step": 16310 }, { "epoch": 34.0, "grad_norm": 0.13882645964622498, "learning_rate": 8.974019736577777e-06, "loss": 0.0218, "step": 16320 }, { "epoch": 34.020833333333336, "grad_norm": 0.18834610283374786, "learning_rate": 8.92681815255219e-06, "loss": 0.024, "step": 16330 }, { "epoch": 34.041666666666664, "grad_norm": 0.1856878101825714, "learning_rate": 8.879728861037384e-06, "loss": 0.026, "step": 16340 }, { "epoch": 34.0625, "grad_norm": 0.2081206738948822, "learning_rate": 8.832751990773714e-06, "loss": 0.0253, "step": 16350 }, { "epoch": 34.083333333333336, "grad_norm": 0.10955462604761124, "learning_rate": 8.785887670194138e-06, "loss": 0.0198, "step": 16360 }, { "epoch": 34.104166666666664, "grad_norm": 0.13004930317401886, "learning_rate": 8.739136027423894e-06, "loss": 0.0224, "step": 16370 }, { "epoch": 34.125, "grad_norm": 0.17866680026054382, "learning_rate": 8.692497190280224e-06, "loss": 0.0248, "step": 16380 }, { "epoch": 34.145833333333336, "grad_norm": 0.1497066766023636, "learning_rate": 8.645971286271904e-06, "loss": 0.0239, "step": 16390 }, { "epoch": 34.166666666666664, "grad_norm": 0.22303105890750885, "learning_rate": 8.599558442598998e-06, "loss": 0.027, "step": 16400 }, { "epoch": 34.1875, "grad_norm": 0.10828277468681335, "learning_rate": 8.55325878615244e-06, "loss": 0.0214, "step": 16410 }, { "epoch": 34.208333333333336, "grad_norm": 0.1058417335152626, "learning_rate": 8.507072443513702e-06, "loss": 0.0202, "step": 16420 }, { "epoch": 34.229166666666664, "grad_norm": 0.10813988000154495, "learning_rate": 8.460999540954517e-06, "loss": 0.0233, "step": 16430 }, { "epoch": 34.25, "grad_norm": 0.1371271312236786, "learning_rate": 8.415040204436426e-06, "loss": 0.0206, "step": 16440 }, { "epoch": 34.270833333333336, "grad_norm": 0.17913764715194702, "learning_rate": 8.369194559610482e-06, "loss": 0.0196, "step": 16450 }, { "epoch": 34.291666666666664, "grad_norm": 0.10930754244327545, "learning_rate": 8.323462731816961e-06, "loss": 0.0236, "step": 16460 }, { "epoch": 34.3125, "grad_norm": 0.1227753609418869, "learning_rate": 8.277844846084898e-06, "loss": 0.0243, "step": 16470 }, { "epoch": 34.333333333333336, "grad_norm": 0.24982833862304688, "learning_rate": 8.232341027131885e-06, "loss": 0.0237, "step": 16480 }, { "epoch": 34.354166666666664, "grad_norm": 0.22987709939479828, "learning_rate": 8.186951399363613e-06, "loss": 0.0221, "step": 16490 }, { "epoch": 34.375, "grad_norm": 0.11593510955572128, "learning_rate": 8.141676086873572e-06, "loss": 0.026, "step": 16500 }, { "epoch": 34.395833333333336, "grad_norm": 0.15431451797485352, "learning_rate": 8.096515213442762e-06, "loss": 0.025, "step": 16510 }, { "epoch": 34.416666666666664, "grad_norm": 0.13550613820552826, "learning_rate": 8.051468902539272e-06, "loss": 0.0223, "step": 16520 }, { "epoch": 34.4375, "grad_norm": 0.1551959365606308, "learning_rate": 8.00653727731801e-06, "loss": 0.0234, "step": 16530 }, { "epoch": 34.458333333333336, "grad_norm": 0.18901529908180237, "learning_rate": 7.96172046062032e-06, "loss": 0.0234, "step": 16540 }, { "epoch": 34.479166666666664, "grad_norm": 0.09596502035856247, "learning_rate": 7.917018574973645e-06, "loss": 0.0205, "step": 16550 }, { "epoch": 34.5, "grad_norm": 0.22153906524181366, "learning_rate": 7.872431742591268e-06, "loss": 0.0247, "step": 16560 }, { "epoch": 34.520833333333336, "grad_norm": 0.16418370604515076, "learning_rate": 7.827960085371855e-06, "loss": 0.0206, "step": 16570 }, { "epoch": 34.541666666666664, "grad_norm": 0.13285741209983826, "learning_rate": 7.783603724899257e-06, "loss": 0.0222, "step": 16580 }, { "epoch": 34.5625, "grad_norm": 0.12699176371097565, "learning_rate": 7.739362782442021e-06, "loss": 0.0234, "step": 16590 }, { "epoch": 34.583333333333336, "grad_norm": 0.15320193767547607, "learning_rate": 7.695237378953223e-06, "loss": 0.0247, "step": 16600 }, { "epoch": 34.604166666666664, "grad_norm": 0.10463300347328186, "learning_rate": 7.651227635070041e-06, "loss": 0.0197, "step": 16610 }, { "epoch": 34.625, "grad_norm": 0.26970744132995605, "learning_rate": 7.607333671113409e-06, "loss": 0.0259, "step": 16620 }, { "epoch": 34.645833333333336, "grad_norm": 0.13756075501441956, "learning_rate": 7.56355560708778e-06, "loss": 0.0246, "step": 16630 }, { "epoch": 34.666666666666664, "grad_norm": 0.1696382611989975, "learning_rate": 7.519893562680663e-06, "loss": 0.0264, "step": 16640 }, { "epoch": 34.6875, "grad_norm": 0.10932937264442444, "learning_rate": 7.476347657262456e-06, "loss": 0.0236, "step": 16650 }, { "epoch": 34.708333333333336, "grad_norm": 0.20335634052753448, "learning_rate": 7.432918009885997e-06, "loss": 0.0228, "step": 16660 }, { "epoch": 34.729166666666664, "grad_norm": 0.12755343317985535, "learning_rate": 7.389604739286271e-06, "loss": 0.0244, "step": 16670 }, { "epoch": 34.75, "grad_norm": 0.12254564464092255, "learning_rate": 7.3464079638801365e-06, "loss": 0.0187, "step": 16680 }, { "epoch": 34.770833333333336, "grad_norm": 0.11292765289545059, "learning_rate": 7.30332780176588e-06, "loss": 0.0231, "step": 16690 }, { "epoch": 34.791666666666664, "grad_norm": 0.16670896112918854, "learning_rate": 7.260364370723044e-06, "loss": 0.0196, "step": 16700 }, { "epoch": 34.8125, "grad_norm": 0.13532911241054535, "learning_rate": 7.217517788212025e-06, "loss": 0.0242, "step": 16710 }, { "epoch": 34.833333333333336, "grad_norm": 0.16168390214443207, "learning_rate": 7.174788171373731e-06, "loss": 0.0281, "step": 16720 }, { "epoch": 34.854166666666664, "grad_norm": 0.10850222408771515, "learning_rate": 7.132175637029293e-06, "loss": 0.0202, "step": 16730 }, { "epoch": 34.875, "grad_norm": 0.14152203500270844, "learning_rate": 7.089680301679752e-06, "loss": 0.0277, "step": 16740 }, { "epoch": 34.895833333333336, "grad_norm": 0.16435636579990387, "learning_rate": 7.047302281505736e-06, "loss": 0.0188, "step": 16750 }, { "epoch": 34.916666666666664, "grad_norm": 0.16924412548542023, "learning_rate": 7.005041692367154e-06, "loss": 0.02, "step": 16760 }, { "epoch": 34.9375, "grad_norm": 0.19879838824272156, "learning_rate": 6.962898649802823e-06, "loss": 0.0217, "step": 16770 }, { "epoch": 34.958333333333336, "grad_norm": 0.24776442348957062, "learning_rate": 6.92087326903022e-06, "loss": 0.0241, "step": 16780 }, { "epoch": 34.979166666666664, "grad_norm": 0.11365094780921936, "learning_rate": 6.878965664945108e-06, "loss": 0.0208, "step": 16790 }, { "epoch": 35.0, "grad_norm": 0.19419336318969727, "learning_rate": 6.837175952121306e-06, "loss": 0.0246, "step": 16800 }, { "epoch": 35.020833333333336, "grad_norm": 0.09046094119548798, "learning_rate": 6.795504244810285e-06, "loss": 0.0208, "step": 16810 }, { "epoch": 35.041666666666664, "grad_norm": 0.18381191790103912, "learning_rate": 6.753950656940905e-06, "loss": 0.0249, "step": 16820 }, { "epoch": 35.0625, "grad_norm": 0.11562805622816086, "learning_rate": 6.712515302119077e-06, "loss": 0.0255, "step": 16830 }, { "epoch": 35.083333333333336, "grad_norm": 0.08305052667856216, "learning_rate": 6.671198293627479e-06, "loss": 0.0202, "step": 16840 }, { "epoch": 35.104166666666664, "grad_norm": 0.17161069810390472, "learning_rate": 6.629999744425236e-06, "loss": 0.0212, "step": 16850 }, { "epoch": 35.125, "grad_norm": 0.10803215205669403, "learning_rate": 6.588919767147639e-06, "loss": 0.0199, "step": 16860 }, { "epoch": 35.145833333333336, "grad_norm": 0.15475812554359436, "learning_rate": 6.5479584741057255e-06, "loss": 0.0223, "step": 16870 }, { "epoch": 35.166666666666664, "grad_norm": 0.13220983743667603, "learning_rate": 6.5071159772861436e-06, "loss": 0.0203, "step": 16880 }, { "epoch": 35.1875, "grad_norm": 0.2514106333255768, "learning_rate": 6.466392388350695e-06, "loss": 0.0215, "step": 16890 }, { "epoch": 35.208333333333336, "grad_norm": 0.15232518315315247, "learning_rate": 6.425787818636131e-06, "loss": 0.0246, "step": 16900 }, { "epoch": 35.229166666666664, "grad_norm": 0.16929695010185242, "learning_rate": 6.385302379153818e-06, "loss": 0.0316, "step": 16910 }, { "epoch": 35.25, "grad_norm": 0.09743843972682953, "learning_rate": 6.344936180589351e-06, "loss": 0.0303, "step": 16920 }, { "epoch": 35.270833333333336, "grad_norm": 0.12031131982803345, "learning_rate": 6.304689333302416e-06, "loss": 0.0229, "step": 16930 }, { "epoch": 35.291666666666664, "grad_norm": 0.18446363508701324, "learning_rate": 6.264561947326331e-06, "loss": 0.0213, "step": 16940 }, { "epoch": 35.3125, "grad_norm": 0.15344256162643433, "learning_rate": 6.22455413236786e-06, "loss": 0.0199, "step": 16950 }, { "epoch": 35.333333333333336, "grad_norm": 0.10890255123376846, "learning_rate": 6.184665997806832e-06, "loss": 0.0192, "step": 16960 }, { "epoch": 35.354166666666664, "grad_norm": 0.15565700829029083, "learning_rate": 6.144897652695864e-06, "loss": 0.0205, "step": 16970 }, { "epoch": 35.375, "grad_norm": 0.19003064930438995, "learning_rate": 6.1052492057601275e-06, "loss": 0.0241, "step": 16980 }, { "epoch": 35.395833333333336, "grad_norm": 0.15749602019786835, "learning_rate": 6.0657207653969315e-06, "loss": 0.0251, "step": 16990 }, { "epoch": 35.416666666666664, "grad_norm": 0.16996701061725616, "learning_rate": 6.026312439675552e-06, "loss": 0.0231, "step": 17000 }, { "epoch": 35.4375, "grad_norm": 0.13776609301567078, "learning_rate": 5.9870243363368275e-06, "loss": 0.0239, "step": 17010 }, { "epoch": 35.458333333333336, "grad_norm": 0.0942806676030159, "learning_rate": 5.947856562792925e-06, "loss": 0.024, "step": 17020 }, { "epoch": 35.479166666666664, "grad_norm": 0.1286356896162033, "learning_rate": 5.908809226127054e-06, "loss": 0.0241, "step": 17030 }, { "epoch": 35.5, "grad_norm": 0.22386513650417328, "learning_rate": 5.869882433093155e-06, "loss": 0.0226, "step": 17040 }, { "epoch": 35.520833333333336, "grad_norm": 0.10215960443019867, "learning_rate": 5.831076290115573e-06, "loss": 0.0216, "step": 17050 }, { "epoch": 35.541666666666664, "grad_norm": 0.2020798772573471, "learning_rate": 5.79239090328883e-06, "loss": 0.0201, "step": 17060 }, { "epoch": 35.5625, "grad_norm": 0.17764562368392944, "learning_rate": 5.753826378377286e-06, "loss": 0.0205, "step": 17070 }, { "epoch": 35.583333333333336, "grad_norm": 0.15243390202522278, "learning_rate": 5.715382820814885e-06, "loss": 0.0221, "step": 17080 }, { "epoch": 35.604166666666664, "grad_norm": 0.14965331554412842, "learning_rate": 5.67706033570487e-06, "loss": 0.0253, "step": 17090 }, { "epoch": 35.625, "grad_norm": 0.11249353736639023, "learning_rate": 5.6388590278194096e-06, "loss": 0.0214, "step": 17100 }, { "epoch": 35.645833333333336, "grad_norm": 0.16234447062015533, "learning_rate": 5.600779001599455e-06, "loss": 0.0174, "step": 17110 }, { "epoch": 35.666666666666664, "grad_norm": 0.11818913370370865, "learning_rate": 5.562820361154314e-06, "loss": 0.0278, "step": 17120 }, { "epoch": 35.6875, "grad_norm": 0.1971399337053299, "learning_rate": 5.524983210261481e-06, "loss": 0.0265, "step": 17130 }, { "epoch": 35.708333333333336, "grad_norm": 0.14329613745212555, "learning_rate": 5.48726765236629e-06, "loss": 0.0229, "step": 17140 }, { "epoch": 35.729166666666664, "grad_norm": 0.1349470019340515, "learning_rate": 5.449673790581611e-06, "loss": 0.0314, "step": 17150 }, { "epoch": 35.75, "grad_norm": 0.12007926404476166, "learning_rate": 5.412201727687644e-06, "loss": 0.0271, "step": 17160 }, { "epoch": 35.770833333333336, "grad_norm": 0.204728364944458, "learning_rate": 5.374851566131561e-06, "loss": 0.023, "step": 17170 }, { "epoch": 35.791666666666664, "grad_norm": 0.18120354413986206, "learning_rate": 5.337623408027293e-06, "loss": 0.023, "step": 17180 }, { "epoch": 35.8125, "grad_norm": 0.18859992921352386, "learning_rate": 5.300517355155215e-06, "loss": 0.0221, "step": 17190 }, { "epoch": 35.833333333333336, "grad_norm": 0.15941476821899414, "learning_rate": 5.263533508961827e-06, "loss": 0.0267, "step": 17200 }, { "epoch": 35.854166666666664, "grad_norm": 0.10154911875724792, "learning_rate": 5.226671970559577e-06, "loss": 0.0217, "step": 17210 }, { "epoch": 35.875, "grad_norm": 0.1980699598789215, "learning_rate": 5.1899328407264855e-06, "loss": 0.029, "step": 17220 }, { "epoch": 35.895833333333336, "grad_norm": 0.15265659987926483, "learning_rate": 5.153316219905946e-06, "loss": 0.0219, "step": 17230 }, { "epoch": 35.916666666666664, "grad_norm": 0.173184335231781, "learning_rate": 5.116822208206396e-06, "loss": 0.0228, "step": 17240 }, { "epoch": 35.9375, "grad_norm": 0.11922286450862885, "learning_rate": 5.080450905401057e-06, "loss": 0.0199, "step": 17250 }, { "epoch": 35.958333333333336, "grad_norm": 0.19922403991222382, "learning_rate": 5.044202410927706e-06, "loss": 0.0256, "step": 17260 }, { "epoch": 35.979166666666664, "grad_norm": 0.13506831228733063, "learning_rate": 5.008076823888319e-06, "loss": 0.0268, "step": 17270 }, { "epoch": 36.0, "grad_norm": 0.20859435200691223, "learning_rate": 4.972074243048897e-06, "loss": 0.0242, "step": 17280 }, { "epoch": 36.020833333333336, "grad_norm": 0.1509094089269638, "learning_rate": 4.936194766839103e-06, "loss": 0.0247, "step": 17290 }, { "epoch": 36.041666666666664, "grad_norm": 0.20848335325717926, "learning_rate": 4.900438493352055e-06, "loss": 0.025, "step": 17300 }, { "epoch": 36.0625, "grad_norm": 0.13537119328975677, "learning_rate": 4.864805520344051e-06, "loss": 0.0194, "step": 17310 }, { "epoch": 36.083333333333336, "grad_norm": 0.17181353271007538, "learning_rate": 4.829295945234258e-06, "loss": 0.0271, "step": 17320 }, { "epoch": 36.104166666666664, "grad_norm": 0.20096082985401154, "learning_rate": 4.7939098651045235e-06, "loss": 0.0272, "step": 17330 }, { "epoch": 36.125, "grad_norm": 0.14468318223953247, "learning_rate": 4.758647376699032e-06, "loss": 0.0204, "step": 17340 }, { "epoch": 36.145833333333336, "grad_norm": 0.19261442124843597, "learning_rate": 4.723508576424062e-06, "loss": 0.0248, "step": 17350 }, { "epoch": 36.166666666666664, "grad_norm": 0.11310037970542908, "learning_rate": 4.688493560347773e-06, "loss": 0.0234, "step": 17360 }, { "epoch": 36.1875, "grad_norm": 0.1815384030342102, "learning_rate": 4.653602424199876e-06, "loss": 0.027, "step": 17370 }, { "epoch": 36.208333333333336, "grad_norm": 0.16876398026943207, "learning_rate": 4.618835263371396e-06, "loss": 0.0259, "step": 17380 }, { "epoch": 36.229166666666664, "grad_norm": 0.15529584884643555, "learning_rate": 4.5841921729144424e-06, "loss": 0.023, "step": 17390 }, { "epoch": 36.25, "grad_norm": 0.13358792662620544, "learning_rate": 4.549673247541875e-06, "loss": 0.0207, "step": 17400 }, { "epoch": 36.270833333333336, "grad_norm": 0.09644842147827148, "learning_rate": 4.515278581627141e-06, "loss": 0.021, "step": 17410 }, { "epoch": 36.291666666666664, "grad_norm": 0.1631709486246109, "learning_rate": 4.48100826920394e-06, "loss": 0.0186, "step": 17420 }, { "epoch": 36.3125, "grad_norm": 0.13794909417629242, "learning_rate": 4.446862403965984e-06, "loss": 0.0243, "step": 17430 }, { "epoch": 36.333333333333336, "grad_norm": 0.12844477593898773, "learning_rate": 4.412841079266777e-06, "loss": 0.0221, "step": 17440 }, { "epoch": 36.354166666666664, "grad_norm": 0.19219878315925598, "learning_rate": 4.378944388119311e-06, "loss": 0.0242, "step": 17450 }, { "epoch": 36.375, "grad_norm": 0.15895068645477295, "learning_rate": 4.3451724231958644e-06, "loss": 0.0196, "step": 17460 }, { "epoch": 36.395833333333336, "grad_norm": 0.14963799715042114, "learning_rate": 4.311525276827682e-06, "loss": 0.0245, "step": 17470 }, { "epoch": 36.416666666666664, "grad_norm": 0.17141912877559662, "learning_rate": 4.27800304100478e-06, "loss": 0.0212, "step": 17480 }, { "epoch": 36.4375, "grad_norm": 0.2001400887966156, "learning_rate": 4.244605807375679e-06, "loss": 0.0255, "step": 17490 }, { "epoch": 36.458333333333336, "grad_norm": 0.1512029618024826, "learning_rate": 4.2113336672471245e-06, "loss": 0.0232, "step": 17500 }, { "epoch": 36.479166666666664, "grad_norm": 0.1446680873632431, "learning_rate": 4.178186711583904e-06, "loss": 0.0215, "step": 17510 }, { "epoch": 36.5, "grad_norm": 0.2261764109134674, "learning_rate": 4.145165031008508e-06, "loss": 0.0196, "step": 17520 }, { "epoch": 36.520833333333336, "grad_norm": 0.2123921662569046, "learning_rate": 4.112268715800943e-06, "loss": 0.02, "step": 17530 }, { "epoch": 36.541666666666664, "grad_norm": 0.20194564759731293, "learning_rate": 4.079497855898501e-06, "loss": 0.0252, "step": 17540 }, { "epoch": 36.5625, "grad_norm": 0.17165587842464447, "learning_rate": 4.046852540895446e-06, "loss": 0.0241, "step": 17550 }, { "epoch": 36.583333333333336, "grad_norm": 0.1764441430568695, "learning_rate": 4.01433286004283e-06, "loss": 0.0278, "step": 17560 }, { "epoch": 36.604166666666664, "grad_norm": 0.1729816049337387, "learning_rate": 3.981938902248222e-06, "loss": 0.0259, "step": 17570 }, { "epoch": 36.625, "grad_norm": 0.16465869545936584, "learning_rate": 3.949670756075447e-06, "loss": 0.0211, "step": 17580 }, { "epoch": 36.645833333333336, "grad_norm": 0.16420994699001312, "learning_rate": 3.917528509744412e-06, "loss": 0.0237, "step": 17590 }, { "epoch": 36.666666666666664, "grad_norm": 0.10843220353126526, "learning_rate": 3.885512251130763e-06, "loss": 0.0243, "step": 17600 }, { "epoch": 36.6875, "grad_norm": 0.21819883584976196, "learning_rate": 3.8536220677657495e-06, "loss": 0.0208, "step": 17610 }, { "epoch": 36.708333333333336, "grad_norm": 0.08807099610567093, "learning_rate": 3.821858046835913e-06, "loss": 0.0186, "step": 17620 }, { "epoch": 36.729166666666664, "grad_norm": 0.11873210221529007, "learning_rate": 3.790220275182854e-06, "loss": 0.0197, "step": 17630 }, { "epoch": 36.75, "grad_norm": 0.12056935578584671, "learning_rate": 3.75870883930306e-06, "loss": 0.0215, "step": 17640 }, { "epoch": 36.770833333333336, "grad_norm": 0.14037764072418213, "learning_rate": 3.7273238253475785e-06, "loss": 0.0224, "step": 17650 }, { "epoch": 36.791666666666664, "grad_norm": 0.12145989388227463, "learning_rate": 3.696065319121833e-06, "loss": 0.0236, "step": 17660 }, { "epoch": 36.8125, "grad_norm": 0.13648101687431335, "learning_rate": 3.664933406085402e-06, "loss": 0.0194, "step": 17670 }, { "epoch": 36.833333333333336, "grad_norm": 0.10462769865989685, "learning_rate": 3.6339281713517303e-06, "loss": 0.0242, "step": 17680 }, { "epoch": 36.854166666666664, "grad_norm": 0.1088748499751091, "learning_rate": 3.60304969968796e-06, "loss": 0.029, "step": 17690 }, { "epoch": 36.875, "grad_norm": 0.11705702543258667, "learning_rate": 3.5722980755146517e-06, "loss": 0.0206, "step": 17700 }, { "epoch": 36.895833333333336, "grad_norm": 0.15616609156131744, "learning_rate": 3.541673382905558e-06, "loss": 0.0227, "step": 17710 }, { "epoch": 36.916666666666664, "grad_norm": 0.15727700293064117, "learning_rate": 3.511175705587433e-06, "loss": 0.0296, "step": 17720 }, { "epoch": 36.9375, "grad_norm": 0.14424920082092285, "learning_rate": 3.4808051269397512e-06, "loss": 0.0198, "step": 17730 }, { "epoch": 36.958333333333336, "grad_norm": 0.16523373126983643, "learning_rate": 3.4505617299945336e-06, "loss": 0.021, "step": 17740 }, { "epoch": 36.979166666666664, "grad_norm": 0.16607634723186493, "learning_rate": 3.420445597436056e-06, "loss": 0.0251, "step": 17750 }, { "epoch": 37.0, "grad_norm": 0.2727293372154236, "learning_rate": 3.390456811600673e-06, "loss": 0.0221, "step": 17760 }, { "epoch": 37.020833333333336, "grad_norm": 0.1252870261669159, "learning_rate": 3.360595454476595e-06, "loss": 0.0213, "step": 17770 }, { "epoch": 37.041666666666664, "grad_norm": 0.18582268059253693, "learning_rate": 3.3308616077036115e-06, "loss": 0.023, "step": 17780 }, { "epoch": 37.0625, "grad_norm": 0.14597022533416748, "learning_rate": 3.301255352572946e-06, "loss": 0.0226, "step": 17790 }, { "epoch": 37.083333333333336, "grad_norm": 0.2051922231912613, "learning_rate": 3.271776770026963e-06, "loss": 0.0261, "step": 17800 }, { "epoch": 37.104166666666664, "grad_norm": 0.1636652946472168, "learning_rate": 3.2424259406589664e-06, "loss": 0.0223, "step": 17810 }, { "epoch": 37.125, "grad_norm": 0.13192228972911835, "learning_rate": 3.213202944713023e-06, "loss": 0.0274, "step": 17820 }, { "epoch": 37.145833333333336, "grad_norm": 0.14873522520065308, "learning_rate": 3.1841078620836683e-06, "loss": 0.021, "step": 17830 }, { "epoch": 37.166666666666664, "grad_norm": 0.15446946024894714, "learning_rate": 3.155140772315773e-06, "loss": 0.0221, "step": 17840 }, { "epoch": 37.1875, "grad_norm": 0.08761195838451385, "learning_rate": 3.126301754604233e-06, "loss": 0.0196, "step": 17850 }, { "epoch": 37.208333333333336, "grad_norm": 0.11364039778709412, "learning_rate": 3.0975908877938277e-06, "loss": 0.024, "step": 17860 }, { "epoch": 37.229166666666664, "grad_norm": 0.19615811109542847, "learning_rate": 3.0690082503789742e-06, "loss": 0.034, "step": 17870 }, { "epoch": 37.25, "grad_norm": 0.1292184591293335, "learning_rate": 3.040553920503503e-06, "loss": 0.0214, "step": 17880 }, { "epoch": 37.270833333333336, "grad_norm": 0.1370302438735962, "learning_rate": 3.0122279759604745e-06, "loss": 0.0236, "step": 17890 }, { "epoch": 37.291666666666664, "grad_norm": 0.20875298976898193, "learning_rate": 2.9840304941919415e-06, "loss": 0.0233, "step": 17900 }, { "epoch": 37.3125, "grad_norm": 0.14244404435157776, "learning_rate": 2.9559615522887273e-06, "loss": 0.022, "step": 17910 }, { "epoch": 37.333333333333336, "grad_norm": 0.17626628279685974, "learning_rate": 2.928021226990263e-06, "loss": 0.025, "step": 17920 }, { "epoch": 37.354166666666664, "grad_norm": 0.18905684351921082, "learning_rate": 2.9002095946843277e-06, "loss": 0.0232, "step": 17930 }, { "epoch": 37.375, "grad_norm": 0.1696895956993103, "learning_rate": 2.8725267314068495e-06, "loss": 0.0265, "step": 17940 }, { "epoch": 37.395833333333336, "grad_norm": 0.2047557532787323, "learning_rate": 2.844972712841737e-06, "loss": 0.0234, "step": 17950 }, { "epoch": 37.416666666666664, "grad_norm": 0.14083042740821838, "learning_rate": 2.817547614320615e-06, "loss": 0.0233, "step": 17960 }, { "epoch": 37.4375, "grad_norm": 0.14195971190929413, "learning_rate": 2.790251510822661e-06, "loss": 0.0221, "step": 17970 }, { "epoch": 37.458333333333336, "grad_norm": 0.11834836006164551, "learning_rate": 2.7630844769743757e-06, "loss": 0.0226, "step": 17980 }, { "epoch": 37.479166666666664, "grad_norm": 0.10737286508083344, "learning_rate": 2.73604658704939e-06, "loss": 0.0264, "step": 17990 }, { "epoch": 37.5, "grad_norm": 0.1108802855014801, "learning_rate": 2.7091379149682685e-06, "loss": 0.0217, "step": 18000 }, { "epoch": 37.520833333333336, "grad_norm": 0.1109631210565567, "learning_rate": 2.682358534298285e-06, "loss": 0.026, "step": 18010 }, { "epoch": 37.541666666666664, "grad_norm": 0.14115609228610992, "learning_rate": 2.6557085182532582e-06, "loss": 0.0235, "step": 18020 }, { "epoch": 37.5625, "grad_norm": 0.24128219485282898, "learning_rate": 2.6291879396933004e-06, "loss": 0.026, "step": 18030 }, { "epoch": 37.583333333333336, "grad_norm": 0.12126708775758743, "learning_rate": 2.602796871124663e-06, "loss": 0.0234, "step": 18040 }, { "epoch": 37.604166666666664, "grad_norm": 0.11386851221323013, "learning_rate": 2.57653538469953e-06, "loss": 0.0278, "step": 18050 }, { "epoch": 37.625, "grad_norm": 0.24661333858966827, "learning_rate": 2.5504035522157854e-06, "loss": 0.0244, "step": 18060 }, { "epoch": 37.645833333333336, "grad_norm": 0.12861402332782745, "learning_rate": 2.5244014451168863e-06, "loss": 0.0272, "step": 18070 }, { "epoch": 37.666666666666664, "grad_norm": 0.10607652366161346, "learning_rate": 2.4985291344915674e-06, "loss": 0.0235, "step": 18080 }, { "epoch": 37.6875, "grad_norm": 0.1717478483915329, "learning_rate": 2.4727866910737583e-06, "loss": 0.02, "step": 18090 }, { "epoch": 37.708333333333336, "grad_norm": 0.18126657605171204, "learning_rate": 2.4471741852423237e-06, "loss": 0.0252, "step": 18100 }, { "epoch": 37.729166666666664, "grad_norm": 0.17440932989120483, "learning_rate": 2.421691687020855e-06, "loss": 0.0221, "step": 18110 }, { "epoch": 37.75, "grad_norm": 0.1398220807313919, "learning_rate": 2.3963392660775575e-06, "loss": 0.0197, "step": 18120 }, { "epoch": 37.770833333333336, "grad_norm": 0.23665182292461395, "learning_rate": 2.371116991724953e-06, "loss": 0.0272, "step": 18130 }, { "epoch": 37.791666666666664, "grad_norm": 0.13812412321567535, "learning_rate": 2.3460249329197824e-06, "loss": 0.0233, "step": 18140 }, { "epoch": 37.8125, "grad_norm": 0.1553175449371338, "learning_rate": 2.321063158262793e-06, "loss": 0.0186, "step": 18150 }, { "epoch": 37.833333333333336, "grad_norm": 0.1166754812002182, "learning_rate": 2.296231735998511e-06, "loss": 0.027, "step": 18160 }, { "epoch": 37.854166666666664, "grad_norm": 0.11789274215698242, "learning_rate": 2.271530734015104e-06, "loss": 0.0195, "step": 18170 }, { "epoch": 37.875, "grad_norm": 0.12410160899162292, "learning_rate": 2.2469602198441573e-06, "loss": 0.0268, "step": 18180 }, { "epoch": 37.895833333333336, "grad_norm": 0.14108265936374664, "learning_rate": 2.222520260660521e-06, "loss": 0.019, "step": 18190 }, { "epoch": 37.916666666666664, "grad_norm": 0.09544042497873306, "learning_rate": 2.1982109232821178e-06, "loss": 0.0259, "step": 18200 }, { "epoch": 37.9375, "grad_norm": 0.1439109742641449, "learning_rate": 2.174032274169746e-06, "loss": 0.0234, "step": 18210 }, { "epoch": 37.958333333333336, "grad_norm": 0.0818839967250824, "learning_rate": 2.149984379426906e-06, "loss": 0.0181, "step": 18220 }, { "epoch": 37.979166666666664, "grad_norm": 0.10022108256816864, "learning_rate": 2.1260673047996227e-06, "loss": 0.018, "step": 18230 }, { "epoch": 38.0, "grad_norm": 0.16835497319698334, "learning_rate": 2.102281115676258e-06, "loss": 0.0232, "step": 18240 }, { "epoch": 38.020833333333336, "grad_norm": 0.1380835920572281, "learning_rate": 2.0786258770873647e-06, "loss": 0.0237, "step": 18250 }, { "epoch": 38.041666666666664, "grad_norm": 0.20490941405296326, "learning_rate": 2.0551016537054493e-06, "loss": 0.0218, "step": 18260 }, { "epoch": 38.0625, "grad_norm": 0.16200585663318634, "learning_rate": 2.0317085098448372e-06, "loss": 0.025, "step": 18270 }, { "epoch": 38.083333333333336, "grad_norm": 0.21648405492305756, "learning_rate": 2.008446509461498e-06, "loss": 0.0213, "step": 18280 }, { "epoch": 38.104166666666664, "grad_norm": 0.14292752742767334, "learning_rate": 1.985315716152847e-06, "loss": 0.0249, "step": 18290 }, { "epoch": 38.125, "grad_norm": 0.16492432355880737, "learning_rate": 1.962316193157593e-06, "loss": 0.0226, "step": 18300 }, { "epoch": 38.145833333333336, "grad_norm": 0.15260908007621765, "learning_rate": 1.939448003355554e-06, "loss": 0.0229, "step": 18310 }, { "epoch": 38.166666666666664, "grad_norm": 0.2103824019432068, "learning_rate": 1.91671120926748e-06, "loss": 0.0241, "step": 18320 }, { "epoch": 38.1875, "grad_norm": 0.1236158162355423, "learning_rate": 1.8941058730549132e-06, "loss": 0.0219, "step": 18330 }, { "epoch": 38.208333333333336, "grad_norm": 0.11559797078371048, "learning_rate": 1.8716320565199618e-06, "loss": 0.0174, "step": 18340 }, { "epoch": 38.229166666666664, "grad_norm": 0.15268877148628235, "learning_rate": 1.849289821105199e-06, "loss": 0.0256, "step": 18350 }, { "epoch": 38.25, "grad_norm": 0.0859600305557251, "learning_rate": 1.8270792278934302e-06, "loss": 0.0205, "step": 18360 }, { "epoch": 38.270833333333336, "grad_norm": 0.06941073387861252, "learning_rate": 1.8050003376075707e-06, "loss": 0.0202, "step": 18370 }, { "epoch": 38.291666666666664, "grad_norm": 0.121831975877285, "learning_rate": 1.7830532106104747e-06, "loss": 0.0248, "step": 18380 }, { "epoch": 38.3125, "grad_norm": 0.13692060112953186, "learning_rate": 1.7612379069047335e-06, "loss": 0.0254, "step": 18390 }, { "epoch": 38.333333333333336, "grad_norm": 0.15285968780517578, "learning_rate": 1.7395544861325718e-06, "loss": 0.0224, "step": 18400 }, { "epoch": 38.354166666666664, "grad_norm": 0.19083692133426666, "learning_rate": 1.7180030075756136e-06, "loss": 0.0238, "step": 18410 }, { "epoch": 38.375, "grad_norm": 0.10604271292686462, "learning_rate": 1.696583530154794e-06, "loss": 0.0236, "step": 18420 }, { "epoch": 38.395833333333336, "grad_norm": 0.12294144928455353, "learning_rate": 1.6752961124301415e-06, "loss": 0.0243, "step": 18430 }, { "epoch": 38.416666666666664, "grad_norm": 0.08338333666324615, "learning_rate": 1.6541408126006463e-06, "loss": 0.0234, "step": 18440 }, { "epoch": 38.4375, "grad_norm": 0.14991627633571625, "learning_rate": 1.6331176885040878e-06, "loss": 0.0241, "step": 18450 }, { "epoch": 38.458333333333336, "grad_norm": 0.1551942527294159, "learning_rate": 1.6122267976168781e-06, "loss": 0.0215, "step": 18460 }, { "epoch": 38.479166666666664, "grad_norm": 0.12111771106719971, "learning_rate": 1.5914681970539192e-06, "loss": 0.0238, "step": 18470 }, { "epoch": 38.5, "grad_norm": 0.12126033753156662, "learning_rate": 1.5708419435684462e-06, "loss": 0.0248, "step": 18480 }, { "epoch": 38.520833333333336, "grad_norm": 0.18265478312969208, "learning_rate": 1.550348093551829e-06, "loss": 0.0195, "step": 18490 }, { "epoch": 38.541666666666664, "grad_norm": 0.1654772013425827, "learning_rate": 1.5299867030334814e-06, "loss": 0.0205, "step": 18500 }, { "epoch": 38.5625, "grad_norm": 0.15721118450164795, "learning_rate": 1.5097578276806633e-06, "loss": 0.0239, "step": 18510 }, { "epoch": 38.583333333333336, "grad_norm": 0.18395192921161652, "learning_rate": 1.4896615227983468e-06, "loss": 0.0215, "step": 18520 }, { "epoch": 38.604166666666664, "grad_norm": 0.2061062604188919, "learning_rate": 1.4696978433290653e-06, "loss": 0.0265, "step": 18530 }, { "epoch": 38.625, "grad_norm": 0.15215294063091278, "learning_rate": 1.4498668438527597e-06, "loss": 0.0202, "step": 18540 }, { "epoch": 38.645833333333336, "grad_norm": 0.1206362396478653, "learning_rate": 1.4301685785866214e-06, "loss": 0.0226, "step": 18550 }, { "epoch": 38.666666666666664, "grad_norm": 0.1330183446407318, "learning_rate": 1.4106031013849496e-06, "loss": 0.0284, "step": 18560 }, { "epoch": 38.6875, "grad_norm": 0.15661682188510895, "learning_rate": 1.3911704657390113e-06, "loss": 0.0213, "step": 18570 }, { "epoch": 38.708333333333336, "grad_norm": 0.1852177530527115, "learning_rate": 1.3718707247769135e-06, "loss": 0.0273, "step": 18580 }, { "epoch": 38.729166666666664, "grad_norm": 0.15584087371826172, "learning_rate": 1.3527039312633827e-06, "loss": 0.023, "step": 18590 }, { "epoch": 38.75, "grad_norm": 0.1637958288192749, "learning_rate": 1.333670137599713e-06, "loss": 0.0235, "step": 18600 }, { "epoch": 38.770833333333336, "grad_norm": 0.13893841207027435, "learning_rate": 1.3147693958235618e-06, "loss": 0.0207, "step": 18610 }, { "epoch": 38.791666666666664, "grad_norm": 0.12246241420507431, "learning_rate": 1.2960017576088446e-06, "loss": 0.0244, "step": 18620 }, { "epoch": 38.8125, "grad_norm": 0.16709212958812714, "learning_rate": 1.2773672742655784e-06, "loss": 0.0249, "step": 18630 }, { "epoch": 38.833333333333336, "grad_norm": 0.1567530632019043, "learning_rate": 1.2588659967397e-06, "loss": 0.0215, "step": 18640 }, { "epoch": 38.854166666666664, "grad_norm": 0.10350660979747772, "learning_rate": 1.2404979756130142e-06, "loss": 0.0213, "step": 18650 }, { "epoch": 38.875, "grad_norm": 0.10765370726585388, "learning_rate": 1.222263261102985e-06, "loss": 0.0187, "step": 18660 }, { "epoch": 38.895833333333336, "grad_norm": 0.11671974509954453, "learning_rate": 1.2041619030626284e-06, "loss": 0.0221, "step": 18670 }, { "epoch": 38.916666666666664, "grad_norm": 0.16069477796554565, "learning_rate": 1.1861939509803687e-06, "loss": 0.0224, "step": 18680 }, { "epoch": 38.9375, "grad_norm": 0.14842325448989868, "learning_rate": 1.1683594539798893e-06, "loss": 0.0346, "step": 18690 }, { "epoch": 38.958333333333336, "grad_norm": 0.11694792658090591, "learning_rate": 1.1506584608200367e-06, "loss": 0.0232, "step": 18700 }, { "epoch": 38.979166666666664, "grad_norm": 0.13744589686393738, "learning_rate": 1.1330910198946442e-06, "loss": 0.0235, "step": 18710 }, { "epoch": 39.0, "grad_norm": 0.23288197815418243, "learning_rate": 1.1156571792324211e-06, "loss": 0.0248, "step": 18720 }, { "epoch": 39.020833333333336, "grad_norm": 0.15083038806915283, "learning_rate": 1.0983569864968346e-06, "loss": 0.0225, "step": 18730 }, { "epoch": 39.041666666666664, "grad_norm": 0.13363659381866455, "learning_rate": 1.0811904889859336e-06, "loss": 0.0201, "step": 18740 }, { "epoch": 39.0625, "grad_norm": 0.16302518546581268, "learning_rate": 1.064157733632276e-06, "loss": 0.0208, "step": 18750 }, { "epoch": 39.083333333333336, "grad_norm": 0.15381503105163574, "learning_rate": 1.0472587670027678e-06, "loss": 0.0219, "step": 18760 }, { "epoch": 39.104166666666664, "grad_norm": 0.15584129095077515, "learning_rate": 1.030493635298535e-06, "loss": 0.0219, "step": 18770 }, { "epoch": 39.125, "grad_norm": 0.10339032858610153, "learning_rate": 1.0138623843548078e-06, "loss": 0.0195, "step": 18780 }, { "epoch": 39.145833333333336, "grad_norm": 0.1281452476978302, "learning_rate": 9.97365059640787e-07, "loss": 0.0201, "step": 18790 }, { "epoch": 39.166666666666664, "grad_norm": 0.16350942850112915, "learning_rate": 9.810017062595322e-07, "loss": 0.0215, "step": 18800 }, { "epoch": 39.1875, "grad_norm": 0.11233243346214294, "learning_rate": 9.647723689478305e-07, "loss": 0.0216, "step": 18810 }, { "epoch": 39.208333333333336, "grad_norm": 0.13322561979293823, "learning_rate": 9.486770920760668e-07, "loss": 0.0211, "step": 18820 }, { "epoch": 39.229166666666664, "grad_norm": 0.19665715098381042, "learning_rate": 9.327159196481138e-07, "loss": 0.0257, "step": 18830 }, { "epoch": 39.25, "grad_norm": 0.12923215329647064, "learning_rate": 9.168888953011989e-07, "loss": 0.0229, "step": 18840 }, { "epoch": 39.270833333333336, "grad_norm": 0.14877420663833618, "learning_rate": 9.011960623058202e-07, "loss": 0.0198, "step": 18850 }, { "epoch": 39.291666666666664, "grad_norm": 0.12237683683633804, "learning_rate": 8.856374635655695e-07, "loss": 0.021, "step": 18860 }, { "epoch": 39.3125, "grad_norm": 0.1434318572282791, "learning_rate": 8.702131416170656e-07, "loss": 0.0212, "step": 18870 }, { "epoch": 39.333333333333336, "grad_norm": 0.13668639957904816, "learning_rate": 8.549231386298151e-07, "loss": 0.0196, "step": 18880 }, { "epoch": 39.354166666666664, "grad_norm": 0.11038247495889664, "learning_rate": 8.397674964061075e-07, "loss": 0.0218, "step": 18890 }, { "epoch": 39.375, "grad_norm": 0.2591480016708374, "learning_rate": 8.247462563808817e-07, "loss": 0.0262, "step": 18900 }, { "epoch": 39.395833333333336, "grad_norm": 0.10609524697065353, "learning_rate": 8.098594596216424e-07, "loss": 0.0193, "step": 18910 }, { "epoch": 39.416666666666664, "grad_norm": 0.2034679353237152, "learning_rate": 7.951071468283167e-07, "loss": 0.0254, "step": 18920 }, { "epoch": 39.4375, "grad_norm": 0.16329681873321533, "learning_rate": 7.804893583331696e-07, "loss": 0.0189, "step": 18930 }, { "epoch": 39.458333333333336, "grad_norm": 0.18860331177711487, "learning_rate": 7.66006134100672e-07, "loss": 0.0256, "step": 18940 }, { "epoch": 39.479166666666664, "grad_norm": 0.1200537458062172, "learning_rate": 7.516575137274162e-07, "loss": 0.0234, "step": 18950 }, { "epoch": 39.5, "grad_norm": 0.11725293844938278, "learning_rate": 7.374435364419674e-07, "loss": 0.0223, "step": 18960 }, { "epoch": 39.520833333333336, "grad_norm": 0.08290833234786987, "learning_rate": 7.233642411048014e-07, "loss": 0.0197, "step": 18970 }, { "epoch": 39.541666666666664, "grad_norm": 0.16743946075439453, "learning_rate": 7.094196662081831e-07, "loss": 0.0253, "step": 18980 }, { "epoch": 39.5625, "grad_norm": 0.09560929983854294, "learning_rate": 6.956098498760389e-07, "loss": 0.0228, "step": 18990 }, { "epoch": 39.583333333333336, "grad_norm": 0.16522455215454102, "learning_rate": 6.819348298638839e-07, "loss": 0.0228, "step": 19000 }, { "epoch": 39.604166666666664, "grad_norm": 0.16279244422912598, "learning_rate": 6.683946435586952e-07, "loss": 0.0179, "step": 19010 }, { "epoch": 39.625, "grad_norm": 0.11831031739711761, "learning_rate": 6.549893279788277e-07, "loss": 0.0215, "step": 19020 }, { "epoch": 39.645833333333336, "grad_norm": 0.1516849547624588, "learning_rate": 6.417189197739093e-07, "loss": 0.0192, "step": 19030 }, { "epoch": 39.666666666666664, "grad_norm": 0.19064101576805115, "learning_rate": 6.285834552247128e-07, "loss": 0.026, "step": 19040 }, { "epoch": 39.6875, "grad_norm": 0.1280345320701599, "learning_rate": 6.15582970243117e-07, "loss": 0.024, "step": 19050 }, { "epoch": 39.708333333333336, "grad_norm": 0.1606086939573288, "learning_rate": 6.027175003719354e-07, "loss": 0.0226, "step": 19060 }, { "epoch": 39.729166666666664, "grad_norm": 0.23058423399925232, "learning_rate": 5.899870807848762e-07, "loss": 0.0199, "step": 19070 }, { "epoch": 39.75, "grad_norm": 0.1022648811340332, "learning_rate": 5.773917462864264e-07, "loss": 0.0186, "step": 19080 }, { "epoch": 39.770833333333336, "grad_norm": 0.11258068680763245, "learning_rate": 5.64931531311741e-07, "loss": 0.022, "step": 19090 }, { "epoch": 39.791666666666664, "grad_norm": 0.175550639629364, "learning_rate": 5.526064699265753e-07, "loss": 0.0217, "step": 19100 }, { "epoch": 39.8125, "grad_norm": 0.308420866727829, "learning_rate": 5.404165958271811e-07, "loss": 0.0226, "step": 19110 }, { "epoch": 39.833333333333336, "grad_norm": 0.15238110721111298, "learning_rate": 5.283619423401998e-07, "loss": 0.0199, "step": 19120 }, { "epoch": 39.854166666666664, "grad_norm": 0.16335316002368927, "learning_rate": 5.164425424226016e-07, "loss": 0.0196, "step": 19130 }, { "epoch": 39.875, "grad_norm": 0.07243193686008453, "learning_rate": 5.046584286615697e-07, "loss": 0.0205, "step": 19140 }, { "epoch": 39.895833333333336, "grad_norm": 0.16264262795448303, "learning_rate": 4.930096332744105e-07, "loss": 0.0246, "step": 19150 }, { "epoch": 39.916666666666664, "grad_norm": 0.11864721775054932, "learning_rate": 4.814961881085045e-07, "loss": 0.0214, "step": 19160 }, { "epoch": 39.9375, "grad_norm": 0.08440382033586502, "learning_rate": 4.701181246411501e-07, "loss": 0.0244, "step": 19170 }, { "epoch": 39.958333333333336, "grad_norm": 0.15321646630764008, "learning_rate": 4.5887547397955864e-07, "loss": 0.0242, "step": 19180 }, { "epoch": 39.979166666666664, "grad_norm": 0.14115700125694275, "learning_rate": 4.4776826686069305e-07, "loss": 0.026, "step": 19190 }, { "epoch": 40.0, "grad_norm": 0.23437701165676117, "learning_rate": 4.367965336512403e-07, "loss": 0.0238, "step": 19200 }, { "epoch": 40.020833333333336, "grad_norm": 0.14081211388111115, "learning_rate": 4.259603043475002e-07, "loss": 0.0216, "step": 19210 }, { "epoch": 40.041666666666664, "grad_norm": 0.12362350523471832, "learning_rate": 4.1525960857530243e-07, "loss": 0.0242, "step": 19220 }, { "epoch": 40.0625, "grad_norm": 0.13942702114582062, "learning_rate": 4.0469447558995065e-07, "loss": 0.0209, "step": 19230 }, { "epoch": 40.083333333333336, "grad_norm": 0.1271754652261734, "learning_rate": 3.9426493427611177e-07, "loss": 0.0188, "step": 19240 }, { "epoch": 40.104166666666664, "grad_norm": 0.13801415264606476, "learning_rate": 3.839710131477492e-07, "loss": 0.0217, "step": 19250 }, { "epoch": 40.125, "grad_norm": 0.17135387659072876, "learning_rate": 3.738127403480507e-07, "loss": 0.0228, "step": 19260 }, { "epoch": 40.145833333333336, "grad_norm": 0.08342558145523071, "learning_rate": 3.637901436493507e-07, "loss": 0.0216, "step": 19270 }, { "epoch": 40.166666666666664, "grad_norm": 0.15780648589134216, "learning_rate": 3.5390325045304706e-07, "loss": 0.0242, "step": 19280 }, { "epoch": 40.1875, "grad_norm": 0.132546529173851, "learning_rate": 3.441520877895288e-07, "loss": 0.0193, "step": 19290 }, { "epoch": 40.208333333333336, "grad_norm": 0.11082836985588074, "learning_rate": 3.3453668231809286e-07, "loss": 0.0246, "step": 19300 }, { "epoch": 40.229166666666664, "grad_norm": 0.3166157901287079, "learning_rate": 3.250570603268943e-07, "loss": 0.0257, "step": 19310 }, { "epoch": 40.25, "grad_norm": 0.14447128772735596, "learning_rate": 3.157132477328628e-07, "loss": 0.0217, "step": 19320 }, { "epoch": 40.270833333333336, "grad_norm": 0.1766761839389801, "learning_rate": 3.0650527008162513e-07, "loss": 0.0201, "step": 19330 }, { "epoch": 40.291666666666664, "grad_norm": 0.14688892662525177, "learning_rate": 2.9743315254743833e-07, "loss": 0.0218, "step": 19340 }, { "epoch": 40.3125, "grad_norm": 0.09542428702116013, "learning_rate": 2.8849691993311777e-07, "loss": 0.0222, "step": 19350 }, { "epoch": 40.333333333333336, "grad_norm": 0.1913931518793106, "learning_rate": 2.796965966699927e-07, "loss": 0.0206, "step": 19360 }, { "epoch": 40.354166666666664, "grad_norm": 0.14017024636268616, "learning_rate": 2.7103220681780615e-07, "loss": 0.0225, "step": 19370 }, { "epoch": 40.375, "grad_norm": 0.1239427849650383, "learning_rate": 2.625037740646763e-07, "loss": 0.018, "step": 19380 }, { "epoch": 40.395833333333336, "grad_norm": 0.12190783768892288, "learning_rate": 2.5411132172700194e-07, "loss": 0.0188, "step": 19390 }, { "epoch": 40.416666666666664, "grad_norm": 0.10360544919967651, "learning_rate": 2.458548727494292e-07, "loss": 0.0225, "step": 19400 }, { "epoch": 40.4375, "grad_norm": 0.19647842645645142, "learning_rate": 2.3773444970477955e-07, "loss": 0.0221, "step": 19410 }, { "epoch": 40.458333333333336, "grad_norm": 0.15573586523532867, "learning_rate": 2.2975007479397738e-07, "loss": 0.021, "step": 19420 }, { "epoch": 40.479166666666664, "grad_norm": 0.09653809666633606, "learning_rate": 2.219017698460002e-07, "loss": 0.0248, "step": 19430 }, { "epoch": 40.5, "grad_norm": 0.15675422549247742, "learning_rate": 2.1418955631781202e-07, "loss": 0.0216, "step": 19440 }, { "epoch": 40.520833333333336, "grad_norm": 0.11667545139789581, "learning_rate": 2.0661345529430775e-07, "loss": 0.0222, "step": 19450 }, { "epoch": 40.541666666666664, "grad_norm": 0.12641750276088715, "learning_rate": 1.9917348748826335e-07, "loss": 0.0196, "step": 19460 }, { "epoch": 40.5625, "grad_norm": 0.0732543021440506, "learning_rate": 1.918696732402636e-07, "loss": 0.0228, "step": 19470 }, { "epoch": 40.583333333333336, "grad_norm": 0.2223258912563324, "learning_rate": 1.847020325186577e-07, "loss": 0.0198, "step": 19480 }, { "epoch": 40.604166666666664, "grad_norm": 0.15499593317508698, "learning_rate": 1.776705849195037e-07, "loss": 0.0245, "step": 19490 }, { "epoch": 40.625, "grad_norm": 0.12829890847206116, "learning_rate": 1.7077534966650766e-07, "loss": 0.0272, "step": 19500 }, { "epoch": 40.645833333333336, "grad_norm": 0.15676407516002655, "learning_rate": 1.6401634561098444e-07, "loss": 0.0244, "step": 19510 }, { "epoch": 40.666666666666664, "grad_norm": 0.15368390083312988, "learning_rate": 1.5739359123178587e-07, "loss": 0.0211, "step": 19520 }, { "epoch": 40.6875, "grad_norm": 0.15950943529605865, "learning_rate": 1.5090710463527836e-07, "loss": 0.0233, "step": 19530 }, { "epoch": 40.708333333333336, "grad_norm": 0.15389256179332733, "learning_rate": 1.4455690355525964e-07, "loss": 0.0202, "step": 19540 }, { "epoch": 40.729166666666664, "grad_norm": 0.11047764867544174, "learning_rate": 1.383430053529422e-07, "loss": 0.0222, "step": 19550 }, { "epoch": 40.75, "grad_norm": 0.1544242650270462, "learning_rate": 1.3226542701689215e-07, "loss": 0.0204, "step": 19560 }, { "epoch": 40.770833333333336, "grad_norm": 0.18685339391231537, "learning_rate": 1.2632418516296262e-07, "loss": 0.0257, "step": 19570 }, { "epoch": 40.791666666666664, "grad_norm": 0.16653822362422943, "learning_rate": 1.2051929603428825e-07, "loss": 0.0252, "step": 19580 }, { "epoch": 40.8125, "grad_norm": 0.1565910428762436, "learning_rate": 1.1485077550122402e-07, "loss": 0.0282, "step": 19590 }, { "epoch": 40.833333333333336, "grad_norm": 0.11151504516601562, "learning_rate": 1.0931863906127327e-07, "loss": 0.0234, "step": 19600 }, { "epoch": 40.854166666666664, "grad_norm": 0.14001724123954773, "learning_rate": 1.0392290183909304e-07, "loss": 0.0208, "step": 19610 }, { "epoch": 40.875, "grad_norm": 0.2818574905395508, "learning_rate": 9.866357858642205e-08, "loss": 0.0212, "step": 19620 }, { "epoch": 40.895833333333336, "grad_norm": 0.16472849249839783, "learning_rate": 9.354068368204739e-08, "loss": 0.0195, "step": 19630 }, { "epoch": 40.916666666666664, "grad_norm": 0.18684165179729462, "learning_rate": 8.855423113177664e-08, "loss": 0.0221, "step": 19640 }, { "epoch": 40.9375, "grad_norm": 0.25070706009864807, "learning_rate": 8.37042345683714e-08, "loss": 0.0206, "step": 19650 }, { "epoch": 40.958333333333336, "grad_norm": 0.11270245164632797, "learning_rate": 7.899070725153613e-08, "loss": 0.0213, "step": 19660 }, { "epoch": 40.979166666666664, "grad_norm": 0.2906891405582428, "learning_rate": 7.44136620678848e-08, "loss": 0.0198, "step": 19670 }, { "epoch": 41.0, "grad_norm": 0.1439027041196823, "learning_rate": 6.997311153086883e-08, "loss": 0.0207, "step": 19680 }, { "epoch": 41.020833333333336, "grad_norm": 0.14469695091247559, "learning_rate": 6.566906778079917e-08, "loss": 0.0242, "step": 19690 }, { "epoch": 41.041666666666664, "grad_norm": 0.1569264829158783, "learning_rate": 6.150154258476315e-08, "loss": 0.0208, "step": 19700 }, { "epoch": 41.0625, "grad_norm": 0.1544530987739563, "learning_rate": 5.747054733660773e-08, "loss": 0.0187, "step": 19710 }, { "epoch": 41.083333333333336, "grad_norm": 0.19687093794345856, "learning_rate": 5.3576093056922906e-08, "loss": 0.0277, "step": 19720 }, { "epoch": 41.104166666666664, "grad_norm": 0.09723174571990967, "learning_rate": 4.981819039300284e-08, "loss": 0.0238, "step": 19730 }, { "epoch": 41.125, "grad_norm": 0.23742762207984924, "learning_rate": 4.619684961881254e-08, "loss": 0.0242, "step": 19740 }, { "epoch": 41.145833333333336, "grad_norm": 0.11913519352674484, "learning_rate": 4.2712080634949024e-08, "loss": 0.0222, "step": 19750 }, { "epoch": 41.166666666666664, "grad_norm": 0.1320926547050476, "learning_rate": 3.936389296864129e-08, "loss": 0.0249, "step": 19760 }, { "epoch": 41.1875, "grad_norm": 0.191814586520195, "learning_rate": 3.615229577371149e-08, "loss": 0.0259, "step": 19770 }, { "epoch": 41.208333333333336, "grad_norm": 0.13702751696109772, "learning_rate": 3.3077297830541584e-08, "loss": 0.0225, "step": 19780 }, { "epoch": 41.229166666666664, "grad_norm": 0.09626919031143188, "learning_rate": 3.01389075460512e-08, "loss": 0.0224, "step": 19790 }, { "epoch": 41.25, "grad_norm": 0.15692998468875885, "learning_rate": 2.7337132953697554e-08, "loss": 0.0254, "step": 19800 }, { "epoch": 41.270833333333336, "grad_norm": 0.10869717597961426, "learning_rate": 2.467198171342e-08, "loss": 0.024, "step": 19810 }, { "epoch": 41.291666666666664, "grad_norm": 0.12915265560150146, "learning_rate": 2.214346111164556e-08, "loss": 0.0219, "step": 19820 }, { "epoch": 41.3125, "grad_norm": 0.10162205994129181, "learning_rate": 1.9751578061244504e-08, "loss": 0.0225, "step": 19830 }, { "epoch": 41.333333333333336, "grad_norm": 0.08099523931741714, "learning_rate": 1.749633910153592e-08, "loss": 0.0182, "step": 19840 }, { "epoch": 41.354166666666664, "grad_norm": 0.16126158833503723, "learning_rate": 1.5377750398265502e-08, "loss": 0.0286, "step": 19850 }, { "epoch": 41.375, "grad_norm": 0.1085977852344513, "learning_rate": 1.3395817743561134e-08, "loss": 0.027, "step": 19860 }, { "epoch": 41.395833333333336, "grad_norm": 0.2079896479845047, "learning_rate": 1.1550546555960662e-08, "loss": 0.026, "step": 19870 }, { "epoch": 41.416666666666664, "grad_norm": 0.1421004682779312, "learning_rate": 9.841941880361916e-09, "loss": 0.0242, "step": 19880 }, { "epoch": 41.4375, "grad_norm": 0.17996691167354584, "learning_rate": 8.270008388022721e-09, "loss": 0.024, "step": 19890 }, { "epoch": 41.458333333333336, "grad_norm": 0.15206900238990784, "learning_rate": 6.834750376549792e-09, "loss": 0.0214, "step": 19900 }, { "epoch": 41.479166666666664, "grad_norm": 0.12741431593894958, "learning_rate": 5.536171769887632e-09, "loss": 0.0226, "step": 19910 }, { "epoch": 41.5, "grad_norm": 0.19114165008068085, "learning_rate": 4.3742761183018784e-09, "loss": 0.0211, "step": 19920 }, { "epoch": 41.520833333333336, "grad_norm": 0.17101441323757172, "learning_rate": 3.349066598362649e-09, "loss": 0.0224, "step": 19930 }, { "epoch": 41.541666666666664, "grad_norm": 0.16956055164337158, "learning_rate": 2.4605460129556445e-09, "loss": 0.0233, "step": 19940 }, { "epoch": 41.5625, "grad_norm": 0.1652633547782898, "learning_rate": 1.7087167912710478e-09, "loss": 0.0192, "step": 19950 }, { "epoch": 41.583333333333336, "grad_norm": 0.16819064319133759, "learning_rate": 1.0935809887702154e-09, "loss": 0.0188, "step": 19960 }, { "epoch": 41.604166666666664, "grad_norm": 0.204798623919487, "learning_rate": 6.151402872134337e-10, "loss": 0.0238, "step": 19970 }, { "epoch": 41.625, "grad_norm": 0.08952834457159042, "learning_rate": 2.7339599464326627e-10, "loss": 0.0239, "step": 19980 }, { "epoch": 41.645833333333336, "grad_norm": 0.17030465602874756, "learning_rate": 6.834904537900144e-11, "loss": 0.0233, "step": 19990 }, { "epoch": 41.666666666666664, "grad_norm": 0.16174878180027008, "learning_rate": 0.0, "loss": 0.0201, "step": 20000 } ], "logging_steps": 10, "max_steps": 20000, "num_input_tokens_seen": 0, "num_train_epochs": 42, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.4381841679557268e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null }