Invalid JSON: Unexpected token 'I', ..."ad_norm": Infinity,
"... is not valid JSON
| { | |
| "best_global_step": 37500, | |
| "best_metric": 0.06464081257581711, | |
| "best_model_checkpoint": "/work/HauSeq/train_results/results_t5/afriteva_base/checkpoint-37500", | |
| "epoch": 3.0, | |
| "eval_steps": 500, | |
| "global_step": 37500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.004, | |
| "grad_norm": 0.4229714572429657, | |
| "learning_rate": 0.0004993466666666667, | |
| "loss": 1.303, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.008, | |
| "grad_norm": 0.3655802607536316, | |
| "learning_rate": 0.00049868, | |
| "loss": 0.3165, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.012, | |
| "grad_norm": 0.3630603551864624, | |
| "learning_rate": 0.0004980133333333333, | |
| "loss": 0.2997, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 0.45444002747535706, | |
| "learning_rate": 0.0004973466666666667, | |
| "loss": 0.256, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 0.35107284784317017, | |
| "learning_rate": 0.00049668, | |
| "loss": 0.2401, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.024, | |
| "grad_norm": 0.44772854447364807, | |
| "learning_rate": 0.0004960133333333333, | |
| "loss": 0.2432, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.028, | |
| "grad_norm": 0.4152873158454895, | |
| "learning_rate": 0.0004953466666666667, | |
| "loss": 0.2313, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 0.38441726565361023, | |
| "learning_rate": 0.0004946800000000001, | |
| "loss": 0.2307, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.036, | |
| "grad_norm": 0.3539441227912903, | |
| "learning_rate": 0.0004940133333333333, | |
| "loss": 0.2214, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 0.30596527457237244, | |
| "learning_rate": 0.0004933466666666666, | |
| "loss": 0.2136, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.044, | |
| "grad_norm": 0.404630184173584, | |
| "learning_rate": 0.00049268, | |
| "loss": 0.2019, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 0.40630799531936646, | |
| "learning_rate": 0.0004920133333333334, | |
| "loss": 0.2132, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.052, | |
| "grad_norm": 0.30571243166923523, | |
| "learning_rate": 0.0004913466666666667, | |
| "loss": 0.199, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.056, | |
| "grad_norm": 0.2937255799770355, | |
| "learning_rate": 0.0004906800000000001, | |
| "loss": 0.202, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.6599734425544739, | |
| "learning_rate": 0.0004900133333333333, | |
| "loss": 0.2032, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 0.3124985694885254, | |
| "learning_rate": 0.0004893466666666666, | |
| "loss": 0.2049, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.068, | |
| "grad_norm": 0.519176721572876, | |
| "learning_rate": 0.00048868, | |
| "loss": 0.196, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.072, | |
| "grad_norm": 0.3471984267234802, | |
| "learning_rate": 0.00048801333333333335, | |
| "loss": 0.1861, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.076, | |
| "grad_norm": 0.34483274817466736, | |
| "learning_rate": 0.00048734666666666663, | |
| "loss": 0.1897, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.3205825686454773, | |
| "learning_rate": 0.00048668, | |
| "loss": 0.1926, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.084, | |
| "grad_norm": 0.3397858738899231, | |
| "learning_rate": 0.00048601333333333336, | |
| "loss": 0.182, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.088, | |
| "grad_norm": 0.3085794448852539, | |
| "learning_rate": 0.00048534666666666664, | |
| "loss": 0.1793, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.092, | |
| "grad_norm": 0.34927502274513245, | |
| "learning_rate": 0.00048468000000000003, | |
| "loss": 0.1776, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 0.3008064925670624, | |
| "learning_rate": 0.00048401333333333336, | |
| "loss": 0.1865, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.42673206329345703, | |
| "learning_rate": 0.00048334666666666664, | |
| "loss": 0.1771, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 0.104, | |
| "grad_norm": 0.33834195137023926, | |
| "learning_rate": 0.00048268000000000003, | |
| "loss": 0.1778, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.108, | |
| "grad_norm": 0.37054744362831116, | |
| "learning_rate": 0.00048201333333333337, | |
| "loss": 0.1695, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 0.112, | |
| "grad_norm": 0.33975929021835327, | |
| "learning_rate": 0.00048134666666666665, | |
| "loss": 0.1729, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.116, | |
| "grad_norm": 0.35063380002975464, | |
| "learning_rate": 0.00048068, | |
| "loss": 0.173, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 0.3946320116519928, | |
| "learning_rate": 0.0004800133333333334, | |
| "loss": 0.1763, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.124, | |
| "grad_norm": 0.33820509910583496, | |
| "learning_rate": 0.00047934666666666666, | |
| "loss": 0.1706, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 0.128, | |
| "grad_norm": 0.350435733795166, | |
| "learning_rate": 0.00047868, | |
| "loss": 0.1623, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.132, | |
| "grad_norm": 0.32703104615211487, | |
| "learning_rate": 0.0004780133333333334, | |
| "loss": 0.1681, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 0.136, | |
| "grad_norm": 0.33553004264831543, | |
| "learning_rate": 0.00047734666666666666, | |
| "loss": 0.1684, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 0.4026033580303192, | |
| "learning_rate": 0.00047668, | |
| "loss": 0.1585, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 0.144, | |
| "grad_norm": 0.3150489330291748, | |
| "learning_rate": 0.00047601333333333333, | |
| "loss": 0.1594, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.148, | |
| "grad_norm": 0.36099255084991455, | |
| "learning_rate": 0.00047534666666666667, | |
| "loss": 0.1649, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 0.152, | |
| "grad_norm": 0.2926400899887085, | |
| "learning_rate": 0.00047468, | |
| "loss": 0.1712, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.156, | |
| "grad_norm": 0.43064406514167786, | |
| "learning_rate": 0.00047401333333333334, | |
| "loss": 0.162, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 0.35143327713012695, | |
| "learning_rate": 0.0004733466666666667, | |
| "loss": 0.1619, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.164, | |
| "grad_norm": 0.3765661120414734, | |
| "learning_rate": 0.00047268, | |
| "loss": 0.158, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 0.168, | |
| "grad_norm": 0.4075720012187958, | |
| "learning_rate": 0.00047201333333333334, | |
| "loss": 0.1512, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.172, | |
| "grad_norm": 0.24842144548892975, | |
| "learning_rate": 0.0004713466666666667, | |
| "loss": 0.1513, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 0.176, | |
| "grad_norm": 0.32617154717445374, | |
| "learning_rate": 0.00047068, | |
| "loss": 0.1551, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "grad_norm": 0.2835245728492737, | |
| "learning_rate": 0.00047001333333333335, | |
| "loss": 0.1568, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 0.184, | |
| "grad_norm": 0.3956541419029236, | |
| "learning_rate": 0.0004693466666666667, | |
| "loss": 0.1522, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.188, | |
| "grad_norm": 0.31908947229385376, | |
| "learning_rate": 0.00046868, | |
| "loss": 0.1499, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 0.192, | |
| "grad_norm": 0.29614248871803284, | |
| "learning_rate": 0.00046801333333333335, | |
| "loss": 0.1505, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.196, | |
| "grad_norm": 0.3086725175380707, | |
| "learning_rate": 0.0004673466666666667, | |
| "loss": 0.1572, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.2859736979007721, | |
| "learning_rate": 0.00046667999999999997, | |
| "loss": 0.1478, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.204, | |
| "grad_norm": 0.3116655647754669, | |
| "learning_rate": 0.00046601333333333336, | |
| "loss": 0.1522, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 0.208, | |
| "grad_norm": 0.4201260209083557, | |
| "learning_rate": 0.0004653466666666667, | |
| "loss": 0.1551, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.212, | |
| "grad_norm": 0.380664587020874, | |
| "learning_rate": 0.00046468, | |
| "loss": 0.1399, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 0.216, | |
| "grad_norm": 0.40474382042884827, | |
| "learning_rate": 0.00046401333333333337, | |
| "loss": 0.1476, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.22, | |
| "grad_norm": 0.3483235538005829, | |
| "learning_rate": 0.0004633466666666667, | |
| "loss": 0.15, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 0.224, | |
| "grad_norm": 0.2913842797279358, | |
| "learning_rate": 0.00046268, | |
| "loss": 0.1405, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.228, | |
| "grad_norm": 0.3443075716495514, | |
| "learning_rate": 0.0004620133333333333, | |
| "loss": 0.1458, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 0.232, | |
| "grad_norm": 0.29480427503585815, | |
| "learning_rate": 0.0004613466666666667, | |
| "loss": 0.1506, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.236, | |
| "grad_norm": 0.35301488637924194, | |
| "learning_rate": 0.00046068, | |
| "loss": 0.1461, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 0.4321579039096832, | |
| "learning_rate": 0.0004600133333333333, | |
| "loss": 0.1441, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.244, | |
| "grad_norm": 0.31260576844215393, | |
| "learning_rate": 0.0004593466666666667, | |
| "loss": 0.1376, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 0.248, | |
| "grad_norm": 0.26467442512512207, | |
| "learning_rate": 0.00045868, | |
| "loss": 0.147, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.252, | |
| "grad_norm": 0.2670769691467285, | |
| "learning_rate": 0.00045801333333333333, | |
| "loss": 0.1399, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 0.25551164150238037, | |
| "learning_rate": 0.00045734666666666666, | |
| "loss": 0.1415, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "grad_norm": 0.45922398567199707, | |
| "learning_rate": 0.00045668, | |
| "loss": 0.1382, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 0.264, | |
| "grad_norm": 0.36736756563186646, | |
| "learning_rate": 0.00045601333333333333, | |
| "loss": 0.1403, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.268, | |
| "grad_norm": 0.2813786268234253, | |
| "learning_rate": 0.00045534666666666667, | |
| "loss": 0.1371, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 0.272, | |
| "grad_norm": 0.2783838212490082, | |
| "learning_rate": 0.00045468, | |
| "loss": 0.1332, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.276, | |
| "grad_norm": 0.3541954755783081, | |
| "learning_rate": 0.00045401333333333334, | |
| "loss": 0.1492, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.5138278007507324, | |
| "learning_rate": 0.0004533466666666667, | |
| "loss": 0.1447, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.284, | |
| "grad_norm": 0.3598063886165619, | |
| "learning_rate": 0.00045268, | |
| "loss": 0.137, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 0.288, | |
| "grad_norm": 0.25522947311401367, | |
| "learning_rate": 0.00045201333333333334, | |
| "loss": 0.1336, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.292, | |
| "grad_norm": 0.37373584508895874, | |
| "learning_rate": 0.0004513466666666667, | |
| "loss": 0.149, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 0.296, | |
| "grad_norm": 0.2795221507549286, | |
| "learning_rate": 0.00045068, | |
| "loss": 0.1429, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.2867755591869354, | |
| "learning_rate": 0.00045001333333333335, | |
| "loss": 0.1415, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 0.304, | |
| "grad_norm": 0.27431586384773254, | |
| "learning_rate": 0.0004493466666666667, | |
| "loss": 0.1411, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.308, | |
| "grad_norm": 0.34126195311546326, | |
| "learning_rate": 0.00044868, | |
| "loss": 0.1347, | |
| "step": 3850 | |
| }, | |
| { | |
| "epoch": 0.312, | |
| "grad_norm": 0.3728994131088257, | |
| "learning_rate": 0.0004480133333333333, | |
| "loss": 0.1423, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.316, | |
| "grad_norm": 0.2699461281299591, | |
| "learning_rate": 0.0004473466666666667, | |
| "loss": 0.1363, | |
| "step": 3950 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 0.27666351199150085, | |
| "learning_rate": 0.00044668, | |
| "loss": 0.1372, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.324, | |
| "grad_norm": 0.2535950243473053, | |
| "learning_rate": 0.0004460133333333333, | |
| "loss": 0.1339, | |
| "step": 4050 | |
| }, | |
| { | |
| "epoch": 0.328, | |
| "grad_norm": 0.22409546375274658, | |
| "learning_rate": 0.0004453466666666667, | |
| "loss": 0.1325, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.332, | |
| "grad_norm": 0.35313859581947327, | |
| "learning_rate": 0.00044468000000000003, | |
| "loss": 0.1409, | |
| "step": 4150 | |
| }, | |
| { | |
| "epoch": 0.336, | |
| "grad_norm": 0.3109265863895416, | |
| "learning_rate": 0.0004440133333333333, | |
| "loss": 0.1377, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.34, | |
| "grad_norm": 0.29320570826530457, | |
| "learning_rate": 0.0004433466666666667, | |
| "loss": 0.1404, | |
| "step": 4250 | |
| }, | |
| { | |
| "epoch": 0.344, | |
| "grad_norm": 0.3062049150466919, | |
| "learning_rate": 0.00044268000000000004, | |
| "loss": 0.1418, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.348, | |
| "grad_norm": 0.4558134973049164, | |
| "learning_rate": 0.0004420133333333333, | |
| "loss": 0.136, | |
| "step": 4350 | |
| }, | |
| { | |
| "epoch": 0.352, | |
| "grad_norm": 0.36806365847587585, | |
| "learning_rate": 0.00044134666666666665, | |
| "loss": 0.1332, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.356, | |
| "grad_norm": 0.30977863073349, | |
| "learning_rate": 0.00044068000000000004, | |
| "loss": 0.1328, | |
| "step": 4450 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 0.25744301080703735, | |
| "learning_rate": 0.0004400133333333333, | |
| "loss": 0.1314, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.364, | |
| "grad_norm": 0.39795854687690735, | |
| "learning_rate": 0.00043934666666666666, | |
| "loss": 0.1386, | |
| "step": 4550 | |
| }, | |
| { | |
| "epoch": 0.368, | |
| "grad_norm": 0.30591073632240295, | |
| "learning_rate": 0.00043868000000000005, | |
| "loss": 0.1342, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.372, | |
| "grad_norm": 0.26261255145072937, | |
| "learning_rate": 0.00043801333333333333, | |
| "loss": 0.1311, | |
| "step": 4650 | |
| }, | |
| { | |
| "epoch": 0.376, | |
| "grad_norm": 0.3383219540119171, | |
| "learning_rate": 0.00043734666666666666, | |
| "loss": 0.1387, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "grad_norm": 0.41562071442604065, | |
| "learning_rate": 0.00043668, | |
| "loss": 0.1266, | |
| "step": 4750 | |
| }, | |
| { | |
| "epoch": 0.384, | |
| "grad_norm": 0.2666351795196533, | |
| "learning_rate": 0.00043601333333333334, | |
| "loss": 0.1405, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.388, | |
| "grad_norm": 0.29252052307128906, | |
| "learning_rate": 0.00043534666666666667, | |
| "loss": 0.1337, | |
| "step": 4850 | |
| }, | |
| { | |
| "epoch": 0.392, | |
| "grad_norm": 0.24506618082523346, | |
| "learning_rate": 0.00043468, | |
| "loss": 0.1352, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.396, | |
| "grad_norm": 0.32274022698402405, | |
| "learning_rate": 0.00043401333333333334, | |
| "loss": 0.1237, | |
| "step": 4950 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.23463253676891327, | |
| "learning_rate": 0.0004333466666666667, | |
| "loss": 0.1362, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.404, | |
| "grad_norm": 0.21378712356090546, | |
| "learning_rate": 0.00043268, | |
| "loss": 0.1289, | |
| "step": 5050 | |
| }, | |
| { | |
| "epoch": 0.408, | |
| "grad_norm": 0.3246195316314697, | |
| "learning_rate": 0.00043201333333333335, | |
| "loss": 0.1312, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.412, | |
| "grad_norm": 0.2642420828342438, | |
| "learning_rate": 0.0004313466666666667, | |
| "loss": 0.1319, | |
| "step": 5150 | |
| }, | |
| { | |
| "epoch": 0.416, | |
| "grad_norm": 0.23217539489269257, | |
| "learning_rate": 0.00043068, | |
| "loss": 0.1327, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "grad_norm": 0.28077617287635803, | |
| "learning_rate": 0.00043001333333333335, | |
| "loss": 0.1252, | |
| "step": 5250 | |
| }, | |
| { | |
| "epoch": 0.424, | |
| "grad_norm": 0.23327602446079254, | |
| "learning_rate": 0.0004293466666666667, | |
| "loss": 0.1314, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.428, | |
| "grad_norm": 0.32336166501045227, | |
| "learning_rate": 0.00042868, | |
| "loss": 0.1334, | |
| "step": 5350 | |
| }, | |
| { | |
| "epoch": 0.432, | |
| "grad_norm": 0.2683130204677582, | |
| "learning_rate": 0.00042801333333333336, | |
| "loss": 0.1269, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.436, | |
| "grad_norm": 0.37683817744255066, | |
| "learning_rate": 0.00042734666666666664, | |
| "loss": 0.1259, | |
| "step": 5450 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 0.25164368748664856, | |
| "learning_rate": 0.00042668000000000003, | |
| "loss": 0.1267, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.444, | |
| "grad_norm": 0.27467766404151917, | |
| "learning_rate": 0.00042601333333333336, | |
| "loss": 0.1285, | |
| "step": 5550 | |
| }, | |
| { | |
| "epoch": 0.448, | |
| "grad_norm": 0.2619174122810364, | |
| "learning_rate": 0.00042534666666666664, | |
| "loss": 0.1227, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.452, | |
| "grad_norm": 0.3595253825187683, | |
| "learning_rate": 0.00042468000000000003, | |
| "loss": 0.1295, | |
| "step": 5650 | |
| }, | |
| { | |
| "epoch": 0.456, | |
| "grad_norm": 0.25623413920402527, | |
| "learning_rate": 0.00042401333333333337, | |
| "loss": 0.1221, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "grad_norm": 0.18799343705177307, | |
| "learning_rate": 0.00042334666666666665, | |
| "loss": 0.1208, | |
| "step": 5750 | |
| }, | |
| { | |
| "epoch": 0.464, | |
| "grad_norm": 0.3294687271118164, | |
| "learning_rate": 0.00042268, | |
| "loss": 0.1317, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.468, | |
| "grad_norm": 0.34688085317611694, | |
| "learning_rate": 0.0004220133333333334, | |
| "loss": 0.1265, | |
| "step": 5850 | |
| }, | |
| { | |
| "epoch": 0.472, | |
| "grad_norm": 0.2648169994354248, | |
| "learning_rate": 0.00042134666666666666, | |
| "loss": 0.1316, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 0.476, | |
| "grad_norm": 0.2992514967918396, | |
| "learning_rate": 0.00042068, | |
| "loss": 0.1269, | |
| "step": 5950 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 0.24358795583248138, | |
| "learning_rate": 0.0004200133333333334, | |
| "loss": 0.1207, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.484, | |
| "grad_norm": 0.31985026597976685, | |
| "learning_rate": 0.00041934666666666666, | |
| "loss": 0.1268, | |
| "step": 6050 | |
| }, | |
| { | |
| "epoch": 0.488, | |
| "grad_norm": 0.3150685727596283, | |
| "learning_rate": 0.00041868, | |
| "loss": 0.1292, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 0.492, | |
| "grad_norm": 0.3584667146205902, | |
| "learning_rate": 0.00041801333333333333, | |
| "loss": 0.1259, | |
| "step": 6150 | |
| }, | |
| { | |
| "epoch": 0.496, | |
| "grad_norm": 0.4050168991088867, | |
| "learning_rate": 0.00041734666666666667, | |
| "loss": 0.126, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.2645140290260315, | |
| "learning_rate": 0.00041668, | |
| "loss": 0.1306, | |
| "step": 6250 | |
| }, | |
| { | |
| "epoch": 0.504, | |
| "grad_norm": 0.3278518319129944, | |
| "learning_rate": 0.00041601333333333334, | |
| "loss": 0.1301, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 0.508, | |
| "grad_norm": 0.33174967765808105, | |
| "learning_rate": 0.00041534666666666667, | |
| "loss": 0.1229, | |
| "step": 6350 | |
| }, | |
| { | |
| "epoch": 0.512, | |
| "grad_norm": 0.3319082260131836, | |
| "learning_rate": 0.00041468, | |
| "loss": 0.1277, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.516, | |
| "grad_norm": 0.22325311601161957, | |
| "learning_rate": 0.00041401333333333334, | |
| "loss": 0.1316, | |
| "step": 6450 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 0.2747171223163605, | |
| "learning_rate": 0.0004133466666666666, | |
| "loss": 0.1263, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.524, | |
| "grad_norm": 0.2940518856048584, | |
| "learning_rate": 0.00041268, | |
| "loss": 0.1203, | |
| "step": 6550 | |
| }, | |
| { | |
| "epoch": 0.528, | |
| "grad_norm": 0.30452102422714233, | |
| "learning_rate": 0.00041201333333333335, | |
| "loss": 0.1246, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.532, | |
| "grad_norm": 0.2692897915840149, | |
| "learning_rate": 0.0004113466666666667, | |
| "loss": 0.123, | |
| "step": 6650 | |
| }, | |
| { | |
| "epoch": 0.536, | |
| "grad_norm": 0.2231215387582779, | |
| "learning_rate": 0.00041068, | |
| "loss": 0.117, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 0.54, | |
| "grad_norm": 0.39939913153648376, | |
| "learning_rate": 0.00041001333333333335, | |
| "loss": 0.1221, | |
| "step": 6750 | |
| }, | |
| { | |
| "epoch": 0.544, | |
| "grad_norm": 0.23173801600933075, | |
| "learning_rate": 0.0004093466666666667, | |
| "loss": 0.1212, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.548, | |
| "grad_norm": 0.21868376433849335, | |
| "learning_rate": 0.00040867999999999997, | |
| "loss": 0.1213, | |
| "step": 6850 | |
| }, | |
| { | |
| "epoch": 0.552, | |
| "grad_norm": 0.36323943734169006, | |
| "learning_rate": 0.00040801333333333336, | |
| "loss": 0.1258, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 0.556, | |
| "grad_norm": 0.1974065750837326, | |
| "learning_rate": 0.0004073466666666667, | |
| "loss": 0.125, | |
| "step": 6950 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 0.27536487579345703, | |
| "learning_rate": 0.00040668, | |
| "loss": 0.1213, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.564, | |
| "grad_norm": 0.2248266637325287, | |
| "learning_rate": 0.00040601333333333336, | |
| "loss": 0.1154, | |
| "step": 7050 | |
| }, | |
| { | |
| "epoch": 0.568, | |
| "grad_norm": 0.28172773122787476, | |
| "learning_rate": 0.0004053466666666667, | |
| "loss": 0.1217, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 0.572, | |
| "grad_norm": 0.3387462794780731, | |
| "learning_rate": 0.00040468, | |
| "loss": 0.1322, | |
| "step": 7150 | |
| }, | |
| { | |
| "epoch": 0.576, | |
| "grad_norm": 0.4567801058292389, | |
| "learning_rate": 0.00040401333333333337, | |
| "loss": 0.1213, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 0.58, | |
| "grad_norm": 0.3833144009113312, | |
| "learning_rate": 0.0004033466666666667, | |
| "loss": 0.1171, | |
| "step": 7250 | |
| }, | |
| { | |
| "epoch": 0.584, | |
| "grad_norm": 0.27579227089881897, | |
| "learning_rate": 0.00040268, | |
| "loss": 0.1254, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 0.588, | |
| "grad_norm": 0.2815653681755066, | |
| "learning_rate": 0.0004020133333333333, | |
| "loss": 0.125, | |
| "step": 7350 | |
| }, | |
| { | |
| "epoch": 0.592, | |
| "grad_norm": 0.2803318202495575, | |
| "learning_rate": 0.0004013466666666667, | |
| "loss": 0.1234, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 0.596, | |
| "grad_norm": 0.258409708738327, | |
| "learning_rate": 0.00040068, | |
| "loss": 0.12, | |
| "step": 7450 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.28257623314857483, | |
| "learning_rate": 0.00040001333333333333, | |
| "loss": 0.1222, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 0.604, | |
| "grad_norm": 0.3408535122871399, | |
| "learning_rate": 0.0003993466666666667, | |
| "loss": 0.1216, | |
| "step": 7550 | |
| }, | |
| { | |
| "epoch": 0.608, | |
| "grad_norm": 0.28590071201324463, | |
| "learning_rate": 0.00039868, | |
| "loss": 0.1183, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 0.612, | |
| "grad_norm": 0.33563855290412903, | |
| "learning_rate": 0.00039801333333333333, | |
| "loss": 0.1203, | |
| "step": 7650 | |
| }, | |
| { | |
| "epoch": 0.616, | |
| "grad_norm": 0.35889625549316406, | |
| "learning_rate": 0.00039734666666666667, | |
| "loss": 0.1259, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 0.62, | |
| "grad_norm": 0.27481159567832947, | |
| "learning_rate": 0.00039668, | |
| "loss": 0.1212, | |
| "step": 7750 | |
| }, | |
| { | |
| "epoch": 0.624, | |
| "grad_norm": 0.21914786100387573, | |
| "learning_rate": 0.00039601333333333334, | |
| "loss": 0.1185, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 0.628, | |
| "grad_norm": 0.39484697580337524, | |
| "learning_rate": 0.0003953466666666667, | |
| "loss": 0.1194, | |
| "step": 7850 | |
| }, | |
| { | |
| "epoch": 0.632, | |
| "grad_norm": 0.3561183214187622, | |
| "learning_rate": 0.00039468, | |
| "loss": 0.1151, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 0.636, | |
| "grad_norm": 0.3247445821762085, | |
| "learning_rate": 0.00039401333333333334, | |
| "loss": 0.1193, | |
| "step": 7950 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 0.20768076181411743, | |
| "learning_rate": 0.0003933466666666667, | |
| "loss": 0.1235, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 0.644, | |
| "grad_norm": 0.24829289317131042, | |
| "learning_rate": 0.00039267999999999996, | |
| "loss": 0.1194, | |
| "step": 8050 | |
| }, | |
| { | |
| "epoch": 0.648, | |
| "grad_norm": 0.30845412611961365, | |
| "learning_rate": 0.00039201333333333335, | |
| "loss": 0.1233, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 0.652, | |
| "grad_norm": 0.21418455243110657, | |
| "learning_rate": 0.0003913466666666667, | |
| "loss": 0.123, | |
| "step": 8150 | |
| }, | |
| { | |
| "epoch": 0.656, | |
| "grad_norm": 0.23309463262557983, | |
| "learning_rate": 0.00039068, | |
| "loss": 0.1156, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 0.66, | |
| "grad_norm": 0.2788376808166504, | |
| "learning_rate": 0.00039001333333333336, | |
| "loss": 0.1217, | |
| "step": 8250 | |
| }, | |
| { | |
| "epoch": 0.664, | |
| "grad_norm": 0.2524823546409607, | |
| "learning_rate": 0.0003893466666666667, | |
| "loss": 0.124, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 0.668, | |
| "grad_norm": 0.2665005028247833, | |
| "learning_rate": 0.00038868, | |
| "loss": 0.1194, | |
| "step": 8350 | |
| }, | |
| { | |
| "epoch": 0.672, | |
| "grad_norm": 0.26631322503089905, | |
| "learning_rate": 0.0003880133333333333, | |
| "loss": 0.1238, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 0.676, | |
| "grad_norm": 0.2749951481819153, | |
| "learning_rate": 0.0003873466666666667, | |
| "loss": 0.1224, | |
| "step": 8450 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 0.2816082239151001, | |
| "learning_rate": 0.00038668000000000003, | |
| "loss": 0.1209, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 0.684, | |
| "grad_norm": 0.2927171587944031, | |
| "learning_rate": 0.0003860133333333333, | |
| "loss": 0.115, | |
| "step": 8550 | |
| }, | |
| { | |
| "epoch": 0.688, | |
| "grad_norm": 0.29799237847328186, | |
| "learning_rate": 0.0003853466666666667, | |
| "loss": 0.1231, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 0.692, | |
| "grad_norm": 0.2634279131889343, | |
| "learning_rate": 0.00038468000000000004, | |
| "loss": 0.1239, | |
| "step": 8650 | |
| }, | |
| { | |
| "epoch": 0.696, | |
| "grad_norm": 0.41674643754959106, | |
| "learning_rate": 0.0003840133333333333, | |
| "loss": 0.1206, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.2485562264919281, | |
| "learning_rate": 0.00038334666666666665, | |
| "loss": 0.1199, | |
| "step": 8750 | |
| }, | |
| { | |
| "epoch": 0.704, | |
| "grad_norm": 0.2175719439983368, | |
| "learning_rate": 0.00038268000000000004, | |
| "loss": 0.1151, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 0.708, | |
| "grad_norm": 0.24512478709220886, | |
| "learning_rate": 0.0003820133333333333, | |
| "loss": 0.118, | |
| "step": 8850 | |
| }, | |
| { | |
| "epoch": 0.712, | |
| "grad_norm": 0.3166313171386719, | |
| "learning_rate": 0.00038134666666666666, | |
| "loss": 0.1177, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 0.716, | |
| "grad_norm": 0.287725031375885, | |
| "learning_rate": 0.00038068000000000005, | |
| "loss": 0.112, | |
| "step": 8950 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 0.25694581866264343, | |
| "learning_rate": 0.00038001333333333333, | |
| "loss": 0.1201, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 0.724, | |
| "grad_norm": 0.23438376188278198, | |
| "learning_rate": 0.00037934666666666666, | |
| "loss": 0.1204, | |
| "step": 9050 | |
| }, | |
| { | |
| "epoch": 0.728, | |
| "grad_norm": 0.22338761389255524, | |
| "learning_rate": 0.00037868, | |
| "loss": 0.1185, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 0.732, | |
| "grad_norm": 0.2585461437702179, | |
| "learning_rate": 0.00037801333333333333, | |
| "loss": 0.1156, | |
| "step": 9150 | |
| }, | |
| { | |
| "epoch": 0.736, | |
| "grad_norm": 0.2435763031244278, | |
| "learning_rate": 0.00037734666666666667, | |
| "loss": 0.1247, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 0.74, | |
| "grad_norm": 0.3154924213886261, | |
| "learning_rate": 0.00037668, | |
| "loss": 0.1117, | |
| "step": 9250 | |
| }, | |
| { | |
| "epoch": 0.744, | |
| "grad_norm": 0.2280927151441574, | |
| "learning_rate": 0.00037601333333333334, | |
| "loss": 0.1118, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 0.748, | |
| "grad_norm": 0.4054214656352997, | |
| "learning_rate": 0.0003753466666666667, | |
| "loss": 0.1191, | |
| "step": 9350 | |
| }, | |
| { | |
| "epoch": 0.752, | |
| "grad_norm": 0.2602537274360657, | |
| "learning_rate": 0.00037468, | |
| "loss": 0.1145, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 0.756, | |
| "grad_norm": 0.22157077491283417, | |
| "learning_rate": 0.0003740133333333333, | |
| "loss": 0.1155, | |
| "step": 9450 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 0.2932474613189697, | |
| "learning_rate": 0.0003733466666666667, | |
| "loss": 0.1154, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 0.764, | |
| "grad_norm": 0.19544807076454163, | |
| "learning_rate": 0.00037268, | |
| "loss": 0.121, | |
| "step": 9550 | |
| }, | |
| { | |
| "epoch": 0.768, | |
| "grad_norm": 0.2587251663208008, | |
| "learning_rate": 0.0003720133333333333, | |
| "loss": 0.1241, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 0.772, | |
| "grad_norm": 0.35624054074287415, | |
| "learning_rate": 0.0003713466666666667, | |
| "loss": 0.1154, | |
| "step": 9650 | |
| }, | |
| { | |
| "epoch": 0.776, | |
| "grad_norm": 0.27137550711631775, | |
| "learning_rate": 0.00037068, | |
| "loss": 0.1105, | |
| "step": 9700 | |
| }, | |
| { | |
| "epoch": 0.78, | |
| "grad_norm": 0.24052052199840546, | |
| "learning_rate": 0.00037001333333333336, | |
| "loss": 0.1153, | |
| "step": 9750 | |
| }, | |
| { | |
| "epoch": 0.784, | |
| "grad_norm": 0.26848918199539185, | |
| "learning_rate": 0.00036934666666666664, | |
| "loss": 0.1096, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 0.788, | |
| "grad_norm": 0.24092894792556763, | |
| "learning_rate": 0.00036868000000000003, | |
| "loss": 0.1155, | |
| "step": 9850 | |
| }, | |
| { | |
| "epoch": 0.792, | |
| "grad_norm": 0.30592474341392517, | |
| "learning_rate": 0.00036801333333333336, | |
| "loss": 0.112, | |
| "step": 9900 | |
| }, | |
| { | |
| "epoch": 0.796, | |
| "grad_norm": 0.2453821450471878, | |
| "learning_rate": 0.00036734666666666664, | |
| "loss": 0.1162, | |
| "step": 9950 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.20247116684913635, | |
| "learning_rate": 0.00036668000000000003, | |
| "loss": 0.1168, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 0.804, | |
| "grad_norm": 0.24883297085762024, | |
| "learning_rate": 0.00036601333333333337, | |
| "loss": 0.1166, | |
| "step": 10050 | |
| }, | |
| { | |
| "epoch": 0.808, | |
| "grad_norm": 0.25468069314956665, | |
| "learning_rate": 0.00036534666666666665, | |
| "loss": 0.1167, | |
| "step": 10100 | |
| }, | |
| { | |
| "epoch": 0.812, | |
| "grad_norm": 0.43159544467926025, | |
| "learning_rate": 0.00036468000000000004, | |
| "loss": 0.1151, | |
| "step": 10150 | |
| }, | |
| { | |
| "epoch": 0.816, | |
| "grad_norm": 0.25406619906425476, | |
| "learning_rate": 0.0003640133333333334, | |
| "loss": 0.1129, | |
| "step": 10200 | |
| }, | |
| { | |
| "epoch": 0.82, | |
| "grad_norm": 0.2610423266887665, | |
| "learning_rate": 0.00036334666666666666, | |
| "loss": 0.1194, | |
| "step": 10250 | |
| }, | |
| { | |
| "epoch": 0.824, | |
| "grad_norm": 0.22796395421028137, | |
| "learning_rate": 0.00036268, | |
| "loss": 0.1148, | |
| "step": 10300 | |
| }, | |
| { | |
| "epoch": 0.828, | |
| "grad_norm": 0.19659651815891266, | |
| "learning_rate": 0.0003620133333333334, | |
| "loss": 0.1181, | |
| "step": 10350 | |
| }, | |
| { | |
| "epoch": 0.832, | |
| "grad_norm": 0.27531611919403076, | |
| "learning_rate": 0.00036134666666666666, | |
| "loss": 0.1085, | |
| "step": 10400 | |
| }, | |
| { | |
| "epoch": 0.836, | |
| "grad_norm": 0.32908621430397034, | |
| "learning_rate": 0.00036068, | |
| "loss": 0.1129, | |
| "step": 10450 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 0.2851516008377075, | |
| "learning_rate": 0.0003600133333333334, | |
| "loss": 0.1191, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 0.844, | |
| "grad_norm": 0.2440805584192276, | |
| "learning_rate": 0.00035934666666666667, | |
| "loss": 0.1128, | |
| "step": 10550 | |
| }, | |
| { | |
| "epoch": 0.848, | |
| "grad_norm": 0.19662600755691528, | |
| "learning_rate": 0.00035868, | |
| "loss": 0.1119, | |
| "step": 10600 | |
| }, | |
| { | |
| "epoch": 0.852, | |
| "grad_norm": 0.24286030232906342, | |
| "learning_rate": 0.00035801333333333334, | |
| "loss": 0.11, | |
| "step": 10650 | |
| }, | |
| { | |
| "epoch": 0.856, | |
| "grad_norm": 0.2508145570755005, | |
| "learning_rate": 0.00035734666666666667, | |
| "loss": 0.1152, | |
| "step": 10700 | |
| }, | |
| { | |
| "epoch": 0.86, | |
| "grad_norm": 0.25481265783309937, | |
| "learning_rate": 0.00035668, | |
| "loss": 0.1137, | |
| "step": 10750 | |
| }, | |
| { | |
| "epoch": 0.864, | |
| "grad_norm": 0.33820009231567383, | |
| "learning_rate": 0.00035601333333333334, | |
| "loss": 0.1109, | |
| "step": 10800 | |
| }, | |
| { | |
| "epoch": 0.868, | |
| "grad_norm": 0.1863001435995102, | |
| "learning_rate": 0.0003553466666666667, | |
| "loss": 0.1095, | |
| "step": 10850 | |
| }, | |
| { | |
| "epoch": 0.872, | |
| "grad_norm": 0.32804396748542786, | |
| "learning_rate": 0.00035468, | |
| "loss": 0.115, | |
| "step": 10900 | |
| }, | |
| { | |
| "epoch": 0.876, | |
| "grad_norm": 0.3645174205303192, | |
| "learning_rate": 0.00035401333333333335, | |
| "loss": 0.1163, | |
| "step": 10950 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 0.2994581162929535, | |
| "learning_rate": 0.00035334666666666663, | |
| "loss": 0.1161, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 0.884, | |
| "grad_norm": 0.28059738874435425, | |
| "learning_rate": 0.00035268, | |
| "loss": 0.1083, | |
| "step": 11050 | |
| }, | |
| { | |
| "epoch": 0.888, | |
| "grad_norm": 0.22333845496177673, | |
| "learning_rate": 0.00035201333333333335, | |
| "loss": 0.1087, | |
| "step": 11100 | |
| }, | |
| { | |
| "epoch": 0.892, | |
| "grad_norm": 0.4607069492340088, | |
| "learning_rate": 0.00035134666666666663, | |
| "loss": 0.1122, | |
| "step": 11150 | |
| }, | |
| { | |
| "epoch": 0.896, | |
| "grad_norm": 0.271627813577652, | |
| "learning_rate": 0.00035068, | |
| "loss": 0.1134, | |
| "step": 11200 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 0.29630452394485474, | |
| "learning_rate": 0.00035001333333333336, | |
| "loss": 0.1171, | |
| "step": 11250 | |
| }, | |
| { | |
| "epoch": 0.904, | |
| "grad_norm": 0.23763808608055115, | |
| "learning_rate": 0.0003493466666666667, | |
| "loss": 0.117, | |
| "step": 11300 | |
| }, | |
| { | |
| "epoch": 0.908, | |
| "grad_norm": 0.20356318354606628, | |
| "learning_rate": 0.00034868, | |
| "loss": 0.1122, | |
| "step": 11350 | |
| }, | |
| { | |
| "epoch": 0.912, | |
| "grad_norm": 0.25375956296920776, | |
| "learning_rate": 0.00034801333333333336, | |
| "loss": 0.1137, | |
| "step": 11400 | |
| }, | |
| { | |
| "epoch": 0.916, | |
| "grad_norm": 0.38738223910331726, | |
| "learning_rate": 0.0003473466666666667, | |
| "loss": 0.1088, | |
| "step": 11450 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 0.26707857847213745, | |
| "learning_rate": 0.00034668, | |
| "loss": 0.1172, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 0.924, | |
| "grad_norm": 0.2662171423435211, | |
| "learning_rate": 0.00034601333333333337, | |
| "loss": 0.1157, | |
| "step": 11550 | |
| }, | |
| { | |
| "epoch": 0.928, | |
| "grad_norm": 0.21078245341777802, | |
| "learning_rate": 0.0003453466666666667, | |
| "loss": 0.1133, | |
| "step": 11600 | |
| }, | |
| { | |
| "epoch": 0.932, | |
| "grad_norm": 0.29924023151397705, | |
| "learning_rate": 0.00034468, | |
| "loss": 0.1091, | |
| "step": 11650 | |
| }, | |
| { | |
| "epoch": 0.936, | |
| "grad_norm": 0.2189929187297821, | |
| "learning_rate": 0.0003440133333333333, | |
| "loss": 0.1085, | |
| "step": 11700 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "grad_norm": 0.3399890959262848, | |
| "learning_rate": 0.0003433466666666667, | |
| "loss": 0.1124, | |
| "step": 11750 | |
| }, | |
| { | |
| "epoch": 0.944, | |
| "grad_norm": 0.20061999559402466, | |
| "learning_rate": 0.00034268, | |
| "loss": 0.1081, | |
| "step": 11800 | |
| }, | |
| { | |
| "epoch": 0.948, | |
| "grad_norm": 0.2078680843114853, | |
| "learning_rate": 0.00034201333333333333, | |
| "loss": 0.1107, | |
| "step": 11850 | |
| }, | |
| { | |
| "epoch": 0.952, | |
| "grad_norm": 0.2486763298511505, | |
| "learning_rate": 0.0003413466666666667, | |
| "loss": 0.1118, | |
| "step": 11900 | |
| }, | |
| { | |
| "epoch": 0.956, | |
| "grad_norm": 0.27669790387153625, | |
| "learning_rate": 0.00034068, | |
| "loss": 0.114, | |
| "step": 11950 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 0.1948775351047516, | |
| "learning_rate": 0.00034001333333333333, | |
| "loss": 0.1093, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 0.964, | |
| "grad_norm": 0.26057928800582886, | |
| "learning_rate": 0.00033936, | |
| "loss": 0.109, | |
| "step": 12050 | |
| }, | |
| { | |
| "epoch": 0.968, | |
| "grad_norm": 0.21452157199382782, | |
| "learning_rate": 0.00033869333333333337, | |
| "loss": 0.1093, | |
| "step": 12100 | |
| }, | |
| { | |
| "epoch": 0.972, | |
| "grad_norm": 0.24116620421409607, | |
| "learning_rate": 0.00033802666666666665, | |
| "loss": 0.1165, | |
| "step": 12150 | |
| }, | |
| { | |
| "epoch": 0.976, | |
| "grad_norm": 0.4208299517631531, | |
| "learning_rate": 0.00033736, | |
| "loss": 0.1127, | |
| "step": 12200 | |
| }, | |
| { | |
| "epoch": 0.98, | |
| "grad_norm": 0.20785650610923767, | |
| "learning_rate": 0.00033669333333333337, | |
| "loss": 0.1178, | |
| "step": 12250 | |
| }, | |
| { | |
| "epoch": 0.984, | |
| "grad_norm": 0.28812840580940247, | |
| "learning_rate": 0.00033602666666666665, | |
| "loss": 0.1139, | |
| "step": 12300 | |
| }, | |
| { | |
| "epoch": 0.988, | |
| "grad_norm": 0.25472357869148254, | |
| "learning_rate": 0.00033536, | |
| "loss": 0.1108, | |
| "step": 12350 | |
| }, | |
| { | |
| "epoch": 0.992, | |
| "grad_norm": 0.23620042204856873, | |
| "learning_rate": 0.0003346933333333333, | |
| "loss": 0.1094, | |
| "step": 12400 | |
| }, | |
| { | |
| "epoch": 0.996, | |
| "grad_norm": 0.28688985109329224, | |
| "learning_rate": 0.0003340266666666667, | |
| "loss": 0.1099, | |
| "step": 12450 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.32806557416915894, | |
| "learning_rate": 0.00033336, | |
| "loss": 0.1101, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_bleu": 0.7245649317318436, | |
| "eval_cer": 0.07201556575822805, | |
| "eval_f1": 0.8700095530256174, | |
| "eval_loss": 0.08197112381458282, | |
| "eval_meteor": 0.8520176764229501, | |
| "eval_runtime": 431.6446, | |
| "eval_samples_per_second": 11.584, | |
| "eval_steps_per_second": 0.364, | |
| "eval_wer": 0.16697540829909932, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.004, | |
| "grad_norm": 0.203416645526886, | |
| "learning_rate": 0.00033269333333333333, | |
| "loss": 0.1096, | |
| "step": 12550 | |
| }, | |
| { | |
| "epoch": 1.008, | |
| "grad_norm": 0.26712116599082947, | |
| "learning_rate": 0.0003320266666666667, | |
| "loss": 0.108, | |
| "step": 12600 | |
| }, | |
| { | |
| "epoch": 1.012, | |
| "grad_norm": 0.27277806401252747, | |
| "learning_rate": 0.00033136, | |
| "loss": 0.1079, | |
| "step": 12650 | |
| }, | |
| { | |
| "epoch": 1.016, | |
| "grad_norm": 0.2159654200077057, | |
| "learning_rate": 0.00033069333333333333, | |
| "loss": 0.1072, | |
| "step": 12700 | |
| }, | |
| { | |
| "epoch": 1.02, | |
| "grad_norm": 0.2719646394252777, | |
| "learning_rate": 0.0003300266666666667, | |
| "loss": 0.106, | |
| "step": 12750 | |
| }, | |
| { | |
| "epoch": 1.024, | |
| "grad_norm": 0.2720971405506134, | |
| "learning_rate": 0.00032936, | |
| "loss": 0.1122, | |
| "step": 12800 | |
| }, | |
| { | |
| "epoch": 1.028, | |
| "grad_norm": 0.2665039300918579, | |
| "learning_rate": 0.00032869333333333334, | |
| "loss": 0.1069, | |
| "step": 12850 | |
| }, | |
| { | |
| "epoch": 1.032, | |
| "grad_norm": 0.25684985518455505, | |
| "learning_rate": 0.0003280266666666667, | |
| "loss": 0.1074, | |
| "step": 12900 | |
| }, | |
| { | |
| "epoch": 1.036, | |
| "grad_norm": 0.2191096395254135, | |
| "learning_rate": 0.00032736, | |
| "loss": 0.1082, | |
| "step": 12950 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 0.23049311339855194, | |
| "learning_rate": 0.00032669333333333335, | |
| "loss": 0.1084, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 1.044, | |
| "grad_norm": 0.2900020182132721, | |
| "learning_rate": 0.0003260266666666667, | |
| "loss": 0.1043, | |
| "step": 13050 | |
| }, | |
| { | |
| "epoch": 1.048, | |
| "grad_norm": 0.2335173338651657, | |
| "learning_rate": 0.00032536, | |
| "loss": 0.1141, | |
| "step": 13100 | |
| }, | |
| { | |
| "epoch": 1.052, | |
| "grad_norm": 0.27794286608695984, | |
| "learning_rate": 0.00032469333333333335, | |
| "loss": 0.1042, | |
| "step": 13150 | |
| }, | |
| { | |
| "epoch": 1.056, | |
| "grad_norm": 0.23802214860916138, | |
| "learning_rate": 0.0003240266666666667, | |
| "loss": 0.1032, | |
| "step": 13200 | |
| }, | |
| { | |
| "epoch": 1.06, | |
| "grad_norm": 0.2515735626220703, | |
| "learning_rate": 0.00032335999999999997, | |
| "loss": 0.1105, | |
| "step": 13250 | |
| }, | |
| { | |
| "epoch": 1.064, | |
| "grad_norm": 0.2449580729007721, | |
| "learning_rate": 0.00032269333333333336, | |
| "loss": 0.1072, | |
| "step": 13300 | |
| }, | |
| { | |
| "epoch": 1.068, | |
| "grad_norm": 0.23646076023578644, | |
| "learning_rate": 0.0003220266666666667, | |
| "loss": 0.1029, | |
| "step": 13350 | |
| }, | |
| { | |
| "epoch": 1.072, | |
| "grad_norm": 0.1982038915157318, | |
| "learning_rate": 0.00032135999999999997, | |
| "loss": 0.1067, | |
| "step": 13400 | |
| }, | |
| { | |
| "epoch": 1.076, | |
| "grad_norm": 0.24522583186626434, | |
| "learning_rate": 0.00032069333333333336, | |
| "loss": 0.1129, | |
| "step": 13450 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 0.2403922975063324, | |
| "learning_rate": 0.0003200266666666667, | |
| "loss": 0.1144, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 1.084, | |
| "grad_norm": 0.39665889739990234, | |
| "learning_rate": 0.00031936, | |
| "loss": 0.1114, | |
| "step": 13550 | |
| }, | |
| { | |
| "epoch": 1.088, | |
| "grad_norm": 0.25977623462677, | |
| "learning_rate": 0.0003186933333333333, | |
| "loss": 0.1061, | |
| "step": 13600 | |
| }, | |
| { | |
| "epoch": 1.092, | |
| "grad_norm": 0.22872507572174072, | |
| "learning_rate": 0.0003180266666666667, | |
| "loss": 0.1028, | |
| "step": 13650 | |
| }, | |
| { | |
| "epoch": 1.096, | |
| "grad_norm": 0.25809502601623535, | |
| "learning_rate": 0.00031736, | |
| "loss": 0.1138, | |
| "step": 13700 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 0.2050534039735794, | |
| "learning_rate": 0.0003166933333333333, | |
| "loss": 0.1057, | |
| "step": 13750 | |
| }, | |
| { | |
| "epoch": 1.104, | |
| "grad_norm": 0.2794061303138733, | |
| "learning_rate": 0.0003160266666666667, | |
| "loss": 0.1053, | |
| "step": 13800 | |
| }, | |
| { | |
| "epoch": 1.108, | |
| "grad_norm": 0.2156197428703308, | |
| "learning_rate": 0.00031537333333333335, | |
| "loss": 0.1063, | |
| "step": 13850 | |
| }, | |
| { | |
| "epoch": 1.112, | |
| "grad_norm": 0.217901811003685, | |
| "learning_rate": 0.0003147066666666667, | |
| "loss": 0.1052, | |
| "step": 13900 | |
| }, | |
| { | |
| "epoch": 1.116, | |
| "grad_norm": 0.5050061941146851, | |
| "learning_rate": 0.00031403999999999997, | |
| "loss": 0.1158, | |
| "step": 13950 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 0.22607138752937317, | |
| "learning_rate": 0.00031337333333333336, | |
| "loss": 0.1059, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 1.124, | |
| "grad_norm": 0.2363385260105133, | |
| "learning_rate": 0.0003127066666666667, | |
| "loss": 0.1014, | |
| "step": 14050 | |
| }, | |
| { | |
| "epoch": 1.1280000000000001, | |
| "grad_norm": 0.2545631229877472, | |
| "learning_rate": 0.00031204, | |
| "loss": 0.1118, | |
| "step": 14100 | |
| }, | |
| { | |
| "epoch": 1.1320000000000001, | |
| "grad_norm": 0.21566163003444672, | |
| "learning_rate": 0.00031137333333333336, | |
| "loss": 0.1132, | |
| "step": 14150 | |
| }, | |
| { | |
| "epoch": 1.1360000000000001, | |
| "grad_norm": 0.3177318572998047, | |
| "learning_rate": 0.0003107066666666667, | |
| "loss": 0.1154, | |
| "step": 14200 | |
| }, | |
| { | |
| "epoch": 1.1400000000000001, | |
| "grad_norm": 0.2999746799468994, | |
| "learning_rate": 0.00031004, | |
| "loss": 0.1091, | |
| "step": 14250 | |
| }, | |
| { | |
| "epoch": 1.144, | |
| "grad_norm": 0.4958677291870117, | |
| "learning_rate": 0.0003093733333333333, | |
| "loss": 0.1082, | |
| "step": 14300 | |
| }, | |
| { | |
| "epoch": 1.148, | |
| "grad_norm": 0.2852497100830078, | |
| "learning_rate": 0.0003087066666666667, | |
| "loss": 0.1068, | |
| "step": 14350 | |
| }, | |
| { | |
| "epoch": 1.152, | |
| "grad_norm": 0.23224477469921112, | |
| "learning_rate": 0.00030804, | |
| "loss": 0.1124, | |
| "step": 14400 | |
| }, | |
| { | |
| "epoch": 1.156, | |
| "grad_norm": 0.30058586597442627, | |
| "learning_rate": 0.0003073733333333333, | |
| "loss": 0.1099, | |
| "step": 14450 | |
| }, | |
| { | |
| "epoch": 1.16, | |
| "grad_norm": 0.24871258437633514, | |
| "learning_rate": 0.0003067066666666667, | |
| "loss": 0.1053, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 1.164, | |
| "grad_norm": 0.23978309333324432, | |
| "learning_rate": 0.00030604, | |
| "loss": 0.106, | |
| "step": 14550 | |
| }, | |
| { | |
| "epoch": 1.168, | |
| "grad_norm": 0.22906185686588287, | |
| "learning_rate": 0.0003053733333333333, | |
| "loss": 0.1052, | |
| "step": 14600 | |
| }, | |
| { | |
| "epoch": 1.172, | |
| "grad_norm": 0.29577410221099854, | |
| "learning_rate": 0.00030470666666666666, | |
| "loss": 0.1078, | |
| "step": 14650 | |
| }, | |
| { | |
| "epoch": 1.176, | |
| "grad_norm": 0.20517757534980774, | |
| "learning_rate": 0.00030404, | |
| "loss": 0.11, | |
| "step": 14700 | |
| }, | |
| { | |
| "epoch": 1.18, | |
| "grad_norm": 0.20000457763671875, | |
| "learning_rate": 0.00030337333333333333, | |
| "loss": 0.099, | |
| "step": 14750 | |
| }, | |
| { | |
| "epoch": 1.184, | |
| "grad_norm": 0.23221513628959656, | |
| "learning_rate": 0.00030270666666666667, | |
| "loss": 0.1125, | |
| "step": 14800 | |
| }, | |
| { | |
| "epoch": 1.188, | |
| "grad_norm": 0.23609760403633118, | |
| "learning_rate": 0.00030204, | |
| "loss": 0.1039, | |
| "step": 14850 | |
| }, | |
| { | |
| "epoch": 1.192, | |
| "grad_norm": 0.17743773758411407, | |
| "learning_rate": 0.00030137333333333334, | |
| "loss": 0.0998, | |
| "step": 14900 | |
| }, | |
| { | |
| "epoch": 1.196, | |
| "grad_norm": 0.2515440881252289, | |
| "learning_rate": 0.00030070666666666667, | |
| "loss": 0.1032, | |
| "step": 14950 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.28638193011283875, | |
| "learning_rate": 0.00030003999999999995, | |
| "loss": 0.105, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 1.204, | |
| "grad_norm": 0.27624014019966125, | |
| "learning_rate": 0.00029937333333333334, | |
| "loss": 0.1041, | |
| "step": 15050 | |
| }, | |
| { | |
| "epoch": 1.208, | |
| "grad_norm": 0.3059754967689514, | |
| "learning_rate": 0.0002987066666666667, | |
| "loss": 0.113, | |
| "step": 15100 | |
| }, | |
| { | |
| "epoch": 1.212, | |
| "grad_norm": 0.2752368748188019, | |
| "learning_rate": 0.00029804, | |
| "loss": 0.1079, | |
| "step": 15150 | |
| }, | |
| { | |
| "epoch": 1.216, | |
| "grad_norm": 0.2642519474029541, | |
| "learning_rate": 0.00029737333333333335, | |
| "loss": 0.1059, | |
| "step": 15200 | |
| }, | |
| { | |
| "epoch": 1.22, | |
| "grad_norm": 0.2945667803287506, | |
| "learning_rate": 0.0002967066666666667, | |
| "loss": 0.1076, | |
| "step": 15250 | |
| }, | |
| { | |
| "epoch": 1.224, | |
| "grad_norm": 0.3482271730899811, | |
| "learning_rate": 0.00029604, | |
| "loss": 0.1056, | |
| "step": 15300 | |
| }, | |
| { | |
| "epoch": 1.228, | |
| "grad_norm": 0.2275436371564865, | |
| "learning_rate": 0.00029537333333333335, | |
| "loss": 0.109, | |
| "step": 15350 | |
| }, | |
| { | |
| "epoch": 1.232, | |
| "grad_norm": 0.20721985399723053, | |
| "learning_rate": 0.0002947066666666667, | |
| "loss": 0.1025, | |
| "step": 15400 | |
| }, | |
| { | |
| "epoch": 1.236, | |
| "grad_norm": 0.19751586019992828, | |
| "learning_rate": 0.00029404, | |
| "loss": 0.1087, | |
| "step": 15450 | |
| }, | |
| { | |
| "epoch": 1.24, | |
| "grad_norm": 0.21022287011146545, | |
| "learning_rate": 0.0002933733333333333, | |
| "loss": 0.1042, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 1.244, | |
| "grad_norm": 0.2483692318201065, | |
| "learning_rate": 0.0002927066666666667, | |
| "loss": 0.1067, | |
| "step": 15550 | |
| }, | |
| { | |
| "epoch": 1.248, | |
| "grad_norm": 0.21987445652484894, | |
| "learning_rate": 0.00029204000000000003, | |
| "loss": 0.104, | |
| "step": 15600 | |
| }, | |
| { | |
| "epoch": 1.252, | |
| "grad_norm": 0.22605866193771362, | |
| "learning_rate": 0.0002913733333333333, | |
| "loss": 0.1092, | |
| "step": 15650 | |
| }, | |
| { | |
| "epoch": 1.256, | |
| "grad_norm": 0.28659340739250183, | |
| "learning_rate": 0.0002907066666666667, | |
| "loss": 0.1064, | |
| "step": 15700 | |
| }, | |
| { | |
| "epoch": 1.26, | |
| "grad_norm": 0.27813899517059326, | |
| "learning_rate": 0.00029004000000000004, | |
| "loss": 0.1019, | |
| "step": 15750 | |
| }, | |
| { | |
| "epoch": 1.264, | |
| "grad_norm": 0.20320214331150055, | |
| "learning_rate": 0.0002893733333333333, | |
| "loss": 0.1027, | |
| "step": 15800 | |
| }, | |
| { | |
| "epoch": 1.268, | |
| "grad_norm": 0.5710214376449585, | |
| "learning_rate": 0.00028870666666666665, | |
| "loss": 0.1067, | |
| "step": 15850 | |
| }, | |
| { | |
| "epoch": 1.272, | |
| "grad_norm": 0.3051242530345917, | |
| "learning_rate": 0.00028804000000000004, | |
| "loss": 0.1035, | |
| "step": 15900 | |
| }, | |
| { | |
| "epoch": 1.276, | |
| "grad_norm": 0.2752295136451721, | |
| "learning_rate": 0.0002873733333333333, | |
| "loss": 0.1101, | |
| "step": 15950 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 0.2557644248008728, | |
| "learning_rate": 0.00028670666666666666, | |
| "loss": 0.1052, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 1.284, | |
| "grad_norm": 0.2318081259727478, | |
| "learning_rate": 0.00028604000000000005, | |
| "loss": 0.1034, | |
| "step": 16050 | |
| }, | |
| { | |
| "epoch": 1.288, | |
| "grad_norm": 0.25568005442619324, | |
| "learning_rate": 0.00028537333333333333, | |
| "loss": 0.1096, | |
| "step": 16100 | |
| }, | |
| { | |
| "epoch": 1.292, | |
| "grad_norm": 0.23388169705867767, | |
| "learning_rate": 0.00028470666666666666, | |
| "loss": 0.1038, | |
| "step": 16150 | |
| }, | |
| { | |
| "epoch": 1.296, | |
| "grad_norm": 0.4373234212398529, | |
| "learning_rate": 0.00028404, | |
| "loss": 0.1059, | |
| "step": 16200 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 0.3065105676651001, | |
| "learning_rate": 0.00028337333333333333, | |
| "loss": 0.1013, | |
| "step": 16250 | |
| }, | |
| { | |
| "epoch": 1.304, | |
| "grad_norm": 0.22157271206378937, | |
| "learning_rate": 0.00028270666666666667, | |
| "loss": 0.0998, | |
| "step": 16300 | |
| }, | |
| { | |
| "epoch": 1.308, | |
| "grad_norm": 0.21810811758041382, | |
| "learning_rate": 0.00028204, | |
| "loss": 0.0982, | |
| "step": 16350 | |
| }, | |
| { | |
| "epoch": 1.312, | |
| "grad_norm": 0.3931242823600769, | |
| "learning_rate": 0.00028137333333333334, | |
| "loss": 0.1072, | |
| "step": 16400 | |
| }, | |
| { | |
| "epoch": 1.316, | |
| "grad_norm": 0.2347465455532074, | |
| "learning_rate": 0.0002807066666666667, | |
| "loss": 0.1093, | |
| "step": 16450 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 0.25813719630241394, | |
| "learning_rate": 0.00028004, | |
| "loss": 0.1005, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 1.324, | |
| "grad_norm": 0.2622917890548706, | |
| "learning_rate": 0.0002793733333333333, | |
| "loss": 0.1015, | |
| "step": 16550 | |
| }, | |
| { | |
| "epoch": 1.328, | |
| "grad_norm": 0.2077164500951767, | |
| "learning_rate": 0.0002787066666666667, | |
| "loss": 0.1026, | |
| "step": 16600 | |
| }, | |
| { | |
| "epoch": 1.332, | |
| "grad_norm": 0.26241517066955566, | |
| "learning_rate": 0.00027804, | |
| "loss": 0.1019, | |
| "step": 16650 | |
| }, | |
| { | |
| "epoch": 1.336, | |
| "grad_norm": 0.2513575851917267, | |
| "learning_rate": 0.00027737333333333335, | |
| "loss": 0.1027, | |
| "step": 16700 | |
| }, | |
| { | |
| "epoch": 1.34, | |
| "grad_norm": 0.22206172347068787, | |
| "learning_rate": 0.0002767066666666667, | |
| "loss": 0.1055, | |
| "step": 16750 | |
| }, | |
| { | |
| "epoch": 1.3439999999999999, | |
| "grad_norm": 0.20883485674858093, | |
| "learning_rate": 0.00027604, | |
| "loss": 0.1121, | |
| "step": 16800 | |
| }, | |
| { | |
| "epoch": 1.3479999999999999, | |
| "grad_norm": 0.18577028810977936, | |
| "learning_rate": 0.00027537333333333336, | |
| "loss": 0.1037, | |
| "step": 16850 | |
| }, | |
| { | |
| "epoch": 1.3519999999999999, | |
| "grad_norm": 0.1780364066362381, | |
| "learning_rate": 0.00027470666666666664, | |
| "loss": 0.0977, | |
| "step": 16900 | |
| }, | |
| { | |
| "epoch": 1.3559999999999999, | |
| "grad_norm": 0.21006031334400177, | |
| "learning_rate": 0.00027404, | |
| "loss": 0.1061, | |
| "step": 16950 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 0.3603670001029968, | |
| "learning_rate": 0.00027337333333333336, | |
| "loss": 0.1013, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 1.3639999999999999, | |
| "grad_norm": 0.3610692024230957, | |
| "learning_rate": 0.00027270666666666664, | |
| "loss": 0.0969, | |
| "step": 17050 | |
| }, | |
| { | |
| "epoch": 1.3679999999999999, | |
| "grad_norm": 0.35493984818458557, | |
| "learning_rate": 0.00027204000000000003, | |
| "loss": 0.1043, | |
| "step": 17100 | |
| }, | |
| { | |
| "epoch": 1.3719999999999999, | |
| "grad_norm": 0.2534456253051758, | |
| "learning_rate": 0.00027137333333333337, | |
| "loss": 0.1041, | |
| "step": 17150 | |
| }, | |
| { | |
| "epoch": 1.376, | |
| "grad_norm": 0.24281184375286102, | |
| "learning_rate": 0.00027070666666666665, | |
| "loss": 0.0999, | |
| "step": 17200 | |
| }, | |
| { | |
| "epoch": 1.38, | |
| "grad_norm": 0.2531202733516693, | |
| "learning_rate": 0.00027004, | |
| "loss": 0.103, | |
| "step": 17250 | |
| }, | |
| { | |
| "epoch": 1.384, | |
| "grad_norm": 0.27881327271461487, | |
| "learning_rate": 0.00026937333333333337, | |
| "loss": 0.1001, | |
| "step": 17300 | |
| }, | |
| { | |
| "epoch": 1.388, | |
| "grad_norm": 0.23772627115249634, | |
| "learning_rate": 0.00026870666666666665, | |
| "loss": 0.102, | |
| "step": 17350 | |
| }, | |
| { | |
| "epoch": 1.392, | |
| "grad_norm": 0.33432236313819885, | |
| "learning_rate": 0.00026804, | |
| "loss": 0.0995, | |
| "step": 17400 | |
| }, | |
| { | |
| "epoch": 1.396, | |
| "grad_norm": 0.22236162424087524, | |
| "learning_rate": 0.0002673733333333334, | |
| "loss": 0.1012, | |
| "step": 17450 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 0.22492028772830963, | |
| "learning_rate": 0.00026670666666666666, | |
| "loss": 0.1035, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 1.404, | |
| "grad_norm": 0.20144842565059662, | |
| "learning_rate": 0.00026604, | |
| "loss": 0.1044, | |
| "step": 17550 | |
| }, | |
| { | |
| "epoch": 1.408, | |
| "grad_norm": 0.2329581379890442, | |
| "learning_rate": 0.00026537333333333333, | |
| "loss": 0.1027, | |
| "step": 17600 | |
| }, | |
| { | |
| "epoch": 1.412, | |
| "grad_norm": 0.26901760697364807, | |
| "learning_rate": 0.00026470666666666666, | |
| "loss": 0.1057, | |
| "step": 17650 | |
| }, | |
| { | |
| "epoch": 1.416, | |
| "grad_norm": 0.27820977568626404, | |
| "learning_rate": 0.00026404, | |
| "loss": 0.105, | |
| "step": 17700 | |
| }, | |
| { | |
| "epoch": 1.42, | |
| "grad_norm": 0.18836116790771484, | |
| "learning_rate": 0.00026337333333333333, | |
| "loss": 0.1014, | |
| "step": 17750 | |
| }, | |
| { | |
| "epoch": 1.424, | |
| "grad_norm": 0.24036255478858948, | |
| "learning_rate": 0.00026270666666666667, | |
| "loss": 0.1019, | |
| "step": 17800 | |
| }, | |
| { | |
| "epoch": 1.428, | |
| "grad_norm": 0.31856632232666016, | |
| "learning_rate": 0.00026204, | |
| "loss": 0.103, | |
| "step": 17850 | |
| }, | |
| { | |
| "epoch": 1.432, | |
| "grad_norm": 0.19870194792747498, | |
| "learning_rate": 0.00026137333333333334, | |
| "loss": 0.0996, | |
| "step": 17900 | |
| }, | |
| { | |
| "epoch": 1.436, | |
| "grad_norm": 0.2245233803987503, | |
| "learning_rate": 0.0002607066666666666, | |
| "loss": 0.1005, | |
| "step": 17950 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 0.1980917602777481, | |
| "learning_rate": 0.0002600533333333334, | |
| "loss": 0.1062, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 1.444, | |
| "grad_norm": 0.22609396278858185, | |
| "learning_rate": 0.00025938666666666665, | |
| "loss": 0.1026, | |
| "step": 18050 | |
| }, | |
| { | |
| "epoch": 1.448, | |
| "grad_norm": 0.23193933069705963, | |
| "learning_rate": 0.00025872, | |
| "loss": 0.1064, | |
| "step": 18100 | |
| }, | |
| { | |
| "epoch": 1.452, | |
| "grad_norm": 0.2720752954483032, | |
| "learning_rate": 0.0002580533333333334, | |
| "loss": 0.1048, | |
| "step": 18150 | |
| }, | |
| { | |
| "epoch": 1.456, | |
| "grad_norm": 0.2168034315109253, | |
| "learning_rate": 0.00025738666666666666, | |
| "loss": 0.0996, | |
| "step": 18200 | |
| }, | |
| { | |
| "epoch": 1.46, | |
| "grad_norm": 0.20666222274303436, | |
| "learning_rate": 0.00025672, | |
| "loss": 0.1022, | |
| "step": 18250 | |
| }, | |
| { | |
| "epoch": 1.464, | |
| "grad_norm": 0.25755491852760315, | |
| "learning_rate": 0.0002560533333333334, | |
| "loss": 0.1057, | |
| "step": 18300 | |
| }, | |
| { | |
| "epoch": 1.468, | |
| "grad_norm": 0.25934773683547974, | |
| "learning_rate": 0.00025538666666666667, | |
| "loss": 0.0998, | |
| "step": 18350 | |
| }, | |
| { | |
| "epoch": 1.472, | |
| "grad_norm": 0.20514898002147675, | |
| "learning_rate": 0.00025472, | |
| "loss": 0.102, | |
| "step": 18400 | |
| }, | |
| { | |
| "epoch": 1.476, | |
| "grad_norm": 0.27495962381362915, | |
| "learning_rate": 0.00025405333333333334, | |
| "loss": 0.0972, | |
| "step": 18450 | |
| }, | |
| { | |
| "epoch": 1.48, | |
| "grad_norm": 0.23019951581954956, | |
| "learning_rate": 0.00025338666666666667, | |
| "loss": 0.104, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 1.484, | |
| "grad_norm": 0.23822638392448425, | |
| "learning_rate": 0.00025272, | |
| "loss": 0.0992, | |
| "step": 18550 | |
| }, | |
| { | |
| "epoch": 1.488, | |
| "grad_norm": 0.2010946124792099, | |
| "learning_rate": 0.00025205333333333334, | |
| "loss": 0.0995, | |
| "step": 18600 | |
| }, | |
| { | |
| "epoch": 1.492, | |
| "grad_norm": 0.22659046947956085, | |
| "learning_rate": 0.0002513866666666667, | |
| "loss": 0.0996, | |
| "step": 18650 | |
| }, | |
| { | |
| "epoch": 1.496, | |
| "grad_norm": 0.1782856434583664, | |
| "learning_rate": 0.00025072, | |
| "loss": 0.0967, | |
| "step": 18700 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.1932106614112854, | |
| "learning_rate": 0.00025005333333333335, | |
| "loss": 0.098, | |
| "step": 18750 | |
| }, | |
| { | |
| "epoch": 1.504, | |
| "grad_norm": 0.22605101764202118, | |
| "learning_rate": 0.0002493866666666667, | |
| "loss": 0.1001, | |
| "step": 18800 | |
| }, | |
| { | |
| "epoch": 1.508, | |
| "grad_norm": 0.2058039754629135, | |
| "learning_rate": 0.00024872, | |
| "loss": 0.0975, | |
| "step": 18850 | |
| }, | |
| { | |
| "epoch": 1.512, | |
| "grad_norm": 0.28619569540023804, | |
| "learning_rate": 0.0002480533333333333, | |
| "loss": 0.0997, | |
| "step": 18900 | |
| }, | |
| { | |
| "epoch": 1.516, | |
| "grad_norm": 0.2362048625946045, | |
| "learning_rate": 0.0002473866666666667, | |
| "loss": 0.0998, | |
| "step": 18950 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 0.2140110582113266, | |
| "learning_rate": 0.00024672, | |
| "loss": 0.1006, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 1.524, | |
| "grad_norm": 0.2815365195274353, | |
| "learning_rate": 0.00024605333333333336, | |
| "loss": 0.0985, | |
| "step": 19050 | |
| }, | |
| { | |
| "epoch": 1.528, | |
| "grad_norm": 0.23792493343353271, | |
| "learning_rate": 0.0002453866666666667, | |
| "loss": 0.0985, | |
| "step": 19100 | |
| }, | |
| { | |
| "epoch": 1.532, | |
| "grad_norm": 0.24050192534923553, | |
| "learning_rate": 0.00024472, | |
| "loss": 0.1029, | |
| "step": 19150 | |
| }, | |
| { | |
| "epoch": 1.536, | |
| "grad_norm": 0.19741007685661316, | |
| "learning_rate": 0.00024405333333333334, | |
| "loss": 0.0973, | |
| "step": 19200 | |
| }, | |
| { | |
| "epoch": 1.54, | |
| "grad_norm": 0.21945957839488983, | |
| "learning_rate": 0.0002434, | |
| "loss": 0.1022, | |
| "step": 19250 | |
| }, | |
| { | |
| "epoch": 1.544, | |
| "grad_norm": 0.3001999855041504, | |
| "learning_rate": 0.00024273333333333334, | |
| "loss": 0.1052, | |
| "step": 19300 | |
| }, | |
| { | |
| "epoch": 1.548, | |
| "grad_norm": 0.31261563301086426, | |
| "learning_rate": 0.00024206666666666668, | |
| "loss": 0.0999, | |
| "step": 19350 | |
| }, | |
| { | |
| "epoch": 1.552, | |
| "grad_norm": 0.22109061479568481, | |
| "learning_rate": 0.0002414, | |
| "loss": 0.0988, | |
| "step": 19400 | |
| }, | |
| { | |
| "epoch": 1.556, | |
| "grad_norm": 0.1714560091495514, | |
| "learning_rate": 0.00024073333333333332, | |
| "loss": 0.1004, | |
| "step": 19450 | |
| }, | |
| { | |
| "epoch": 1.56, | |
| "grad_norm": 0.2009434998035431, | |
| "learning_rate": 0.00024006666666666668, | |
| "loss": 0.1021, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 1.564, | |
| "grad_norm": 0.23158317804336548, | |
| "learning_rate": 0.00023940000000000002, | |
| "loss": 0.0995, | |
| "step": 19550 | |
| }, | |
| { | |
| "epoch": 1.568, | |
| "grad_norm": 0.25731074810028076, | |
| "learning_rate": 0.00023873333333333333, | |
| "loss": 0.0953, | |
| "step": 19600 | |
| }, | |
| { | |
| "epoch": 1.572, | |
| "grad_norm": 0.25789958238601685, | |
| "learning_rate": 0.0002380666666666667, | |
| "loss": 0.1006, | |
| "step": 19650 | |
| }, | |
| { | |
| "epoch": 1.576, | |
| "grad_norm": 0.208343043923378, | |
| "learning_rate": 0.0002374, | |
| "loss": 0.0987, | |
| "step": 19700 | |
| }, | |
| { | |
| "epoch": 1.58, | |
| "grad_norm": 0.2301381230354309, | |
| "learning_rate": 0.00023673333333333333, | |
| "loss": 0.0985, | |
| "step": 19750 | |
| }, | |
| { | |
| "epoch": 1.584, | |
| "grad_norm": 0.3806595802307129, | |
| "learning_rate": 0.00023606666666666667, | |
| "loss": 0.1015, | |
| "step": 19800 | |
| }, | |
| { | |
| "epoch": 1.588, | |
| "grad_norm": 0.19410601258277893, | |
| "learning_rate": 0.0002354, | |
| "loss": 0.1008, | |
| "step": 19850 | |
| }, | |
| { | |
| "epoch": 1.592, | |
| "grad_norm": 0.19073770940303802, | |
| "learning_rate": 0.00023473333333333334, | |
| "loss": 0.1031, | |
| "step": 19900 | |
| }, | |
| { | |
| "epoch": 1.596, | |
| "grad_norm": 0.16557800769805908, | |
| "learning_rate": 0.00023406666666666667, | |
| "loss": 0.103, | |
| "step": 19950 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.22984585165977478, | |
| "learning_rate": 0.0002334, | |
| "loss": 0.102, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 1.604, | |
| "grad_norm": 0.2250978648662567, | |
| "learning_rate": 0.00023273333333333332, | |
| "loss": 0.1027, | |
| "step": 20050 | |
| }, | |
| { | |
| "epoch": 1.608, | |
| "grad_norm": 0.2287983000278473, | |
| "learning_rate": 0.00023206666666666668, | |
| "loss": 0.1021, | |
| "step": 20100 | |
| }, | |
| { | |
| "epoch": 1.612, | |
| "grad_norm": 0.23876091837882996, | |
| "learning_rate": 0.0002314, | |
| "loss": 0.0983, | |
| "step": 20150 | |
| }, | |
| { | |
| "epoch": 1.616, | |
| "grad_norm": 0.19170551002025604, | |
| "learning_rate": 0.00023073333333333335, | |
| "loss": 0.0991, | |
| "step": 20200 | |
| }, | |
| { | |
| "epoch": 1.62, | |
| "grad_norm": 0.2464160919189453, | |
| "learning_rate": 0.00023006666666666668, | |
| "loss": 0.0981, | |
| "step": 20250 | |
| }, | |
| { | |
| "epoch": 1.624, | |
| "grad_norm": 0.22927983105182648, | |
| "learning_rate": 0.0002294, | |
| "loss": 0.0939, | |
| "step": 20300 | |
| }, | |
| { | |
| "epoch": 1.6280000000000001, | |
| "grad_norm": 0.33568695187568665, | |
| "learning_rate": 0.00022873333333333335, | |
| "loss": 0.0965, | |
| "step": 20350 | |
| }, | |
| { | |
| "epoch": 1.6320000000000001, | |
| "grad_norm": 0.2054143100976944, | |
| "learning_rate": 0.00022806666666666666, | |
| "loss": 0.0957, | |
| "step": 20400 | |
| }, | |
| { | |
| "epoch": 1.6360000000000001, | |
| "grad_norm": 0.21608911454677582, | |
| "learning_rate": 0.0002274, | |
| "loss": 0.093, | |
| "step": 20450 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 0.16993121802806854, | |
| "learning_rate": 0.00022673333333333336, | |
| "loss": 0.1003, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 1.6440000000000001, | |
| "grad_norm": 0.2532404363155365, | |
| "learning_rate": 0.00022606666666666667, | |
| "loss": 0.0946, | |
| "step": 20550 | |
| }, | |
| { | |
| "epoch": 1.6480000000000001, | |
| "grad_norm": 0.36520078778266907, | |
| "learning_rate": 0.0002254, | |
| "loss": 0.0997, | |
| "step": 20600 | |
| }, | |
| { | |
| "epoch": 1.6520000000000001, | |
| "grad_norm": 0.20923836529254913, | |
| "learning_rate": 0.00022473333333333334, | |
| "loss": 0.1014, | |
| "step": 20650 | |
| }, | |
| { | |
| "epoch": 1.6560000000000001, | |
| "grad_norm": 0.27218562364578247, | |
| "learning_rate": 0.00022406666666666667, | |
| "loss": 0.098, | |
| "step": 20700 | |
| }, | |
| { | |
| "epoch": 1.6600000000000001, | |
| "grad_norm": 0.24026131629943848, | |
| "learning_rate": 0.00022339999999999998, | |
| "loss": 0.0992, | |
| "step": 20750 | |
| }, | |
| { | |
| "epoch": 1.6640000000000001, | |
| "grad_norm": 0.26792702078819275, | |
| "learning_rate": 0.00022273333333333334, | |
| "loss": 0.1026, | |
| "step": 20800 | |
| }, | |
| { | |
| "epoch": 1.6680000000000001, | |
| "grad_norm": 0.23262536525726318, | |
| "learning_rate": 0.00022206666666666668, | |
| "loss": 0.1011, | |
| "step": 20850 | |
| }, | |
| { | |
| "epoch": 1.6720000000000002, | |
| "grad_norm": 0.1864081174135208, | |
| "learning_rate": 0.00022140000000000001, | |
| "loss": 0.0976, | |
| "step": 20900 | |
| }, | |
| { | |
| "epoch": 1.6760000000000002, | |
| "grad_norm": 0.2924767732620239, | |
| "learning_rate": 0.00022073333333333335, | |
| "loss": 0.0972, | |
| "step": 20950 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 0.22722579538822174, | |
| "learning_rate": 0.00022006666666666666, | |
| "loss": 0.1042, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 1.6840000000000002, | |
| "grad_norm": 0.21383854746818542, | |
| "learning_rate": 0.00021940000000000002, | |
| "loss": 0.1031, | |
| "step": 21050 | |
| }, | |
| { | |
| "epoch": 1.688, | |
| "grad_norm": 0.26529747247695923, | |
| "learning_rate": 0.00021873333333333333, | |
| "loss": 0.0973, | |
| "step": 21100 | |
| }, | |
| { | |
| "epoch": 1.692, | |
| "grad_norm": 0.18593254685401917, | |
| "learning_rate": 0.00021806666666666666, | |
| "loss": 0.1007, | |
| "step": 21150 | |
| }, | |
| { | |
| "epoch": 1.696, | |
| "grad_norm": 0.28404226899147034, | |
| "learning_rate": 0.00021740000000000003, | |
| "loss": 0.0974, | |
| "step": 21200 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 0.23218747973442078, | |
| "learning_rate": 0.00021673333333333333, | |
| "loss": 0.0962, | |
| "step": 21250 | |
| }, | |
| { | |
| "epoch": 1.704, | |
| "grad_norm": 0.21459394693374634, | |
| "learning_rate": 0.00021606666666666667, | |
| "loss": 0.0991, | |
| "step": 21300 | |
| }, | |
| { | |
| "epoch": 1.708, | |
| "grad_norm": 0.2478722631931305, | |
| "learning_rate": 0.0002154, | |
| "loss": 0.098, | |
| "step": 21350 | |
| }, | |
| { | |
| "epoch": 1.712, | |
| "grad_norm": 0.27548903226852417, | |
| "learning_rate": 0.00021473333333333334, | |
| "loss": 0.1007, | |
| "step": 21400 | |
| }, | |
| { | |
| "epoch": 1.716, | |
| "grad_norm": 0.28195297718048096, | |
| "learning_rate": 0.00021406666666666665, | |
| "loss": 0.0939, | |
| "step": 21450 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "grad_norm": 0.28081363439559937, | |
| "learning_rate": 0.0002134, | |
| "loss": 0.0962, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 1.724, | |
| "grad_norm": 0.20984509587287903, | |
| "learning_rate": 0.00021273333333333335, | |
| "loss": 0.1004, | |
| "step": 21550 | |
| }, | |
| { | |
| "epoch": 1.728, | |
| "grad_norm": 0.22344695031642914, | |
| "learning_rate": 0.00021206666666666665, | |
| "loss": 0.0945, | |
| "step": 21600 | |
| }, | |
| { | |
| "epoch": 1.732, | |
| "grad_norm": 0.2176051288843155, | |
| "learning_rate": 0.00021140000000000002, | |
| "loss": 0.0967, | |
| "step": 21650 | |
| }, | |
| { | |
| "epoch": 1.736, | |
| "grad_norm": 0.24116480350494385, | |
| "learning_rate": 0.00021073333333333332, | |
| "loss": 0.0998, | |
| "step": 21700 | |
| }, | |
| { | |
| "epoch": 1.74, | |
| "grad_norm": 0.21409527957439423, | |
| "learning_rate": 0.00021006666666666669, | |
| "loss": 0.0925, | |
| "step": 21750 | |
| }, | |
| { | |
| "epoch": 1.744, | |
| "grad_norm": 0.2472206950187683, | |
| "learning_rate": 0.0002094, | |
| "loss": 0.096, | |
| "step": 21800 | |
| }, | |
| { | |
| "epoch": 1.748, | |
| "grad_norm": 0.20761418342590332, | |
| "learning_rate": 0.00020873333333333333, | |
| "loss": 0.102, | |
| "step": 21850 | |
| }, | |
| { | |
| "epoch": 1.752, | |
| "grad_norm": 0.18102049827575684, | |
| "learning_rate": 0.0002080666666666667, | |
| "loss": 0.1004, | |
| "step": 21900 | |
| }, | |
| { | |
| "epoch": 1.756, | |
| "grad_norm": 0.271121084690094, | |
| "learning_rate": 0.0002074, | |
| "loss": 0.0955, | |
| "step": 21950 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 0.2832687795162201, | |
| "learning_rate": 0.00020673333333333333, | |
| "loss": 0.0951, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 1.764, | |
| "grad_norm": 0.3460868000984192, | |
| "learning_rate": 0.00020606666666666667, | |
| "loss": 0.0994, | |
| "step": 22050 | |
| }, | |
| { | |
| "epoch": 1.768, | |
| "grad_norm": 0.2382122129201889, | |
| "learning_rate": 0.0002054, | |
| "loss": 0.0973, | |
| "step": 22100 | |
| }, | |
| { | |
| "epoch": 1.772, | |
| "grad_norm": 0.17525139451026917, | |
| "learning_rate": 0.00020473333333333334, | |
| "loss": 0.0982, | |
| "step": 22150 | |
| }, | |
| { | |
| "epoch": 1.776, | |
| "grad_norm": 0.25909289717674255, | |
| "learning_rate": 0.00020406666666666668, | |
| "loss": 0.0923, | |
| "step": 22200 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "grad_norm": 0.24438203871250153, | |
| "learning_rate": 0.0002034, | |
| "loss": 0.0947, | |
| "step": 22250 | |
| }, | |
| { | |
| "epoch": 1.784, | |
| "grad_norm": 0.1978597342967987, | |
| "learning_rate": 0.00020273333333333332, | |
| "loss": 0.0936, | |
| "step": 22300 | |
| }, | |
| { | |
| "epoch": 1.788, | |
| "grad_norm": 0.2565781772136688, | |
| "learning_rate": 0.00020206666666666668, | |
| "loss": 0.0947, | |
| "step": 22350 | |
| }, | |
| { | |
| "epoch": 1.792, | |
| "grad_norm": 0.23551757633686066, | |
| "learning_rate": 0.0002014, | |
| "loss": 0.0931, | |
| "step": 22400 | |
| }, | |
| { | |
| "epoch": 1.796, | |
| "grad_norm": 0.2416568547487259, | |
| "learning_rate": 0.00020073333333333335, | |
| "loss": 0.0903, | |
| "step": 22450 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 0.22411084175109863, | |
| "learning_rate": 0.0002000666666666667, | |
| "loss": 0.0919, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 1.804, | |
| "grad_norm": 0.16693849861621857, | |
| "learning_rate": 0.0001994, | |
| "loss": 0.0959, | |
| "step": 22550 | |
| }, | |
| { | |
| "epoch": 1.808, | |
| "grad_norm": 0.3097151815891266, | |
| "learning_rate": 0.00019873333333333336, | |
| "loss": 0.096, | |
| "step": 22600 | |
| }, | |
| { | |
| "epoch": 1.812, | |
| "grad_norm": 0.30824562907218933, | |
| "learning_rate": 0.00019806666666666667, | |
| "loss": 0.0972, | |
| "step": 22650 | |
| }, | |
| { | |
| "epoch": 1.8159999999999998, | |
| "grad_norm": 0.3745375871658325, | |
| "learning_rate": 0.0001974, | |
| "loss": 0.1012, | |
| "step": 22700 | |
| }, | |
| { | |
| "epoch": 1.8199999999999998, | |
| "grad_norm": 0.20636779069900513, | |
| "learning_rate": 0.00019673333333333334, | |
| "loss": 0.0998, | |
| "step": 22750 | |
| }, | |
| { | |
| "epoch": 1.8239999999999998, | |
| "grad_norm": 0.21352791786193848, | |
| "learning_rate": 0.00019606666666666667, | |
| "loss": 0.096, | |
| "step": 22800 | |
| }, | |
| { | |
| "epoch": 1.8279999999999998, | |
| "grad_norm": 0.215152308344841, | |
| "learning_rate": 0.0001954, | |
| "loss": 0.0964, | |
| "step": 22850 | |
| }, | |
| { | |
| "epoch": 1.8319999999999999, | |
| "grad_norm": 0.27092379331588745, | |
| "learning_rate": 0.00019473333333333334, | |
| "loss": 0.0964, | |
| "step": 22900 | |
| }, | |
| { | |
| "epoch": 1.8359999999999999, | |
| "grad_norm": 0.3140583634376526, | |
| "learning_rate": 0.00019406666666666668, | |
| "loss": 0.0938, | |
| "step": 22950 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 0.24267660081386566, | |
| "learning_rate": 0.00019339999999999998, | |
| "loss": 0.0966, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 1.8439999999999999, | |
| "grad_norm": 0.2230687290430069, | |
| "learning_rate": 0.00019273333333333335, | |
| "loss": 0.0971, | |
| "step": 23050 | |
| }, | |
| { | |
| "epoch": 1.8479999999999999, | |
| "grad_norm": 0.2186090052127838, | |
| "learning_rate": 0.00019206666666666666, | |
| "loss": 0.0985, | |
| "step": 23100 | |
| }, | |
| { | |
| "epoch": 1.8519999999999999, | |
| "grad_norm": 0.16841334104537964, | |
| "learning_rate": 0.0001914, | |
| "loss": 0.0937, | |
| "step": 23150 | |
| }, | |
| { | |
| "epoch": 1.8559999999999999, | |
| "grad_norm": 0.20611703395843506, | |
| "learning_rate": 0.00019073333333333335, | |
| "loss": 0.0892, | |
| "step": 23200 | |
| }, | |
| { | |
| "epoch": 1.8599999999999999, | |
| "grad_norm": 0.2951543927192688, | |
| "learning_rate": 0.00019006666666666666, | |
| "loss": 0.0957, | |
| "step": 23250 | |
| }, | |
| { | |
| "epoch": 1.8639999999999999, | |
| "grad_norm": 0.2137622833251953, | |
| "learning_rate": 0.00018940000000000002, | |
| "loss": 0.0984, | |
| "step": 23300 | |
| }, | |
| { | |
| "epoch": 1.8679999999999999, | |
| "grad_norm": 0.516408383846283, | |
| "learning_rate": 0.00018873333333333333, | |
| "loss": 0.102, | |
| "step": 23350 | |
| }, | |
| { | |
| "epoch": 1.8719999999999999, | |
| "grad_norm": 0.21362626552581787, | |
| "learning_rate": 0.00018806666666666667, | |
| "loss": 0.0955, | |
| "step": 23400 | |
| }, | |
| { | |
| "epoch": 1.876, | |
| "grad_norm": 0.24008683860301971, | |
| "learning_rate": 0.0001874, | |
| "loss": 0.0949, | |
| "step": 23450 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "grad_norm": 0.23030638694763184, | |
| "learning_rate": 0.00018673333333333334, | |
| "loss": 0.0991, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 1.884, | |
| "grad_norm": 0.2117072492837906, | |
| "learning_rate": 0.00018606666666666667, | |
| "loss": 0.0965, | |
| "step": 23550 | |
| }, | |
| { | |
| "epoch": 1.888, | |
| "grad_norm": 0.23826780915260315, | |
| "learning_rate": 0.0001854, | |
| "loss": 0.0973, | |
| "step": 23600 | |
| }, | |
| { | |
| "epoch": 1.892, | |
| "grad_norm": 0.21507634222507477, | |
| "learning_rate": 0.00018473333333333334, | |
| "loss": 0.0961, | |
| "step": 23650 | |
| }, | |
| { | |
| "epoch": 1.896, | |
| "grad_norm": 0.17030704021453857, | |
| "learning_rate": 0.00018406666666666665, | |
| "loss": 0.0917, | |
| "step": 23700 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 0.2302972972393036, | |
| "learning_rate": 0.0001834, | |
| "loss": 0.0953, | |
| "step": 23750 | |
| }, | |
| { | |
| "epoch": 1.904, | |
| "grad_norm": 0.22521911561489105, | |
| "learning_rate": 0.00018273333333333335, | |
| "loss": 0.0994, | |
| "step": 23800 | |
| }, | |
| { | |
| "epoch": 1.908, | |
| "grad_norm": 0.2880847156047821, | |
| "learning_rate": 0.00018206666666666666, | |
| "loss": 0.095, | |
| "step": 23850 | |
| }, | |
| { | |
| "epoch": 1.912, | |
| "grad_norm": 0.2082323282957077, | |
| "learning_rate": 0.00018140000000000002, | |
| "loss": 0.0954, | |
| "step": 23900 | |
| }, | |
| { | |
| "epoch": 1.916, | |
| "grad_norm": 0.2909707725048065, | |
| "learning_rate": 0.00018073333333333333, | |
| "loss": 0.0914, | |
| "step": 23950 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 0.28753381967544556, | |
| "learning_rate": 0.0001800666666666667, | |
| "loss": 0.0977, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 1.924, | |
| "grad_norm": 0.18813857436180115, | |
| "learning_rate": 0.0001794, | |
| "loss": 0.0987, | |
| "step": 24050 | |
| }, | |
| { | |
| "epoch": 1.928, | |
| "grad_norm": 0.27837562561035156, | |
| "learning_rate": 0.00017874666666666667, | |
| "loss": 0.097, | |
| "step": 24100 | |
| }, | |
| { | |
| "epoch": 1.932, | |
| "grad_norm": 0.1635880172252655, | |
| "learning_rate": 0.00017808, | |
| "loss": 0.0907, | |
| "step": 24150 | |
| }, | |
| { | |
| "epoch": 1.936, | |
| "grad_norm": 0.3062436282634735, | |
| "learning_rate": 0.00017741333333333334, | |
| "loss": 0.0967, | |
| "step": 24200 | |
| }, | |
| { | |
| "epoch": 1.94, | |
| "grad_norm": 0.2310294657945633, | |
| "learning_rate": 0.00017674666666666667, | |
| "loss": 0.0891, | |
| "step": 24250 | |
| }, | |
| { | |
| "epoch": 1.944, | |
| "grad_norm": 0.2638888359069824, | |
| "learning_rate": 0.00017607999999999998, | |
| "loss": 0.0962, | |
| "step": 24300 | |
| }, | |
| { | |
| "epoch": 1.948, | |
| "grad_norm": 0.18110202252864838, | |
| "learning_rate": 0.00017541333333333334, | |
| "loss": 0.099, | |
| "step": 24350 | |
| }, | |
| { | |
| "epoch": 1.952, | |
| "grad_norm": 0.220000758767128, | |
| "learning_rate": 0.00017474666666666665, | |
| "loss": 0.0965, | |
| "step": 24400 | |
| }, | |
| { | |
| "epoch": 1.956, | |
| "grad_norm": 0.25264841318130493, | |
| "learning_rate": 0.00017408000000000001, | |
| "loss": 0.0925, | |
| "step": 24450 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "grad_norm": 0.19951793551445007, | |
| "learning_rate": 0.00017341333333333335, | |
| "loss": 0.0882, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 1.964, | |
| "grad_norm": 0.21039803326129913, | |
| "learning_rate": 0.00017274666666666666, | |
| "loss": 0.0996, | |
| "step": 24550 | |
| }, | |
| { | |
| "epoch": 1.968, | |
| "grad_norm": 0.2454528510570526, | |
| "learning_rate": 0.00017208000000000002, | |
| "loss": 0.0994, | |
| "step": 24600 | |
| }, | |
| { | |
| "epoch": 1.972, | |
| "grad_norm": 0.21500472724437714, | |
| "learning_rate": 0.00017141333333333333, | |
| "loss": 0.0931, | |
| "step": 24650 | |
| }, | |
| { | |
| "epoch": 1.976, | |
| "grad_norm": 0.20379500091075897, | |
| "learning_rate": 0.00017074666666666666, | |
| "loss": 0.0908, | |
| "step": 24700 | |
| }, | |
| { | |
| "epoch": 1.98, | |
| "grad_norm": 0.20759478211402893, | |
| "learning_rate": 0.00017008000000000002, | |
| "loss": 0.0962, | |
| "step": 24750 | |
| }, | |
| { | |
| "epoch": 1.984, | |
| "grad_norm": 0.2299523800611496, | |
| "learning_rate": 0.00016941333333333333, | |
| "loss": 0.0919, | |
| "step": 24800 | |
| }, | |
| { | |
| "epoch": 1.988, | |
| "grad_norm": 0.24986626207828522, | |
| "learning_rate": 0.00016874666666666667, | |
| "loss": 0.0889, | |
| "step": 24850 | |
| }, | |
| { | |
| "epoch": 1.992, | |
| "grad_norm": 0.17685040831565857, | |
| "learning_rate": 0.00016808, | |
| "loss": 0.0943, | |
| "step": 24900 | |
| }, | |
| { | |
| "epoch": 1.996, | |
| "grad_norm": 0.23314331471920013, | |
| "learning_rate": 0.00016741333333333334, | |
| "loss": 0.0909, | |
| "step": 24950 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.22461727261543274, | |
| "learning_rate": 0.00016674666666666665, | |
| "loss": 0.0937, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_bleu": 0.7584765596195855, | |
| "eval_cer": 0.04812600100579273, | |
| "eval_f1": 0.8841696198078911, | |
| "eval_loss": 0.07006627321243286, | |
| "eval_meteor": 0.871885720960742, | |
| "eval_runtime": 415.0904, | |
| "eval_samples_per_second": 12.046, | |
| "eval_steps_per_second": 0.378, | |
| "eval_wer": 0.13855322390092617, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.004, | |
| "grad_norm": 0.1918308287858963, | |
| "learning_rate": 0.00016608, | |
| "loss": 0.0931, | |
| "step": 25050 | |
| }, | |
| { | |
| "epoch": 2.008, | |
| "grad_norm": 0.19087722897529602, | |
| "learning_rate": 0.00016541333333333334, | |
| "loss": 0.0887, | |
| "step": 25100 | |
| }, | |
| { | |
| "epoch": 2.012, | |
| "grad_norm": 0.2491445094347, | |
| "learning_rate": 0.00016474666666666668, | |
| "loss": 0.0893, | |
| "step": 25150 | |
| }, | |
| { | |
| "epoch": 2.016, | |
| "grad_norm": 0.22075115144252777, | |
| "learning_rate": 0.00016408000000000001, | |
| "loss": 0.094, | |
| "step": 25200 | |
| }, | |
| { | |
| "epoch": 2.02, | |
| "grad_norm": 0.15918150544166565, | |
| "learning_rate": 0.00016341333333333332, | |
| "loss": 0.0925, | |
| "step": 25250 | |
| }, | |
| { | |
| "epoch": 2.024, | |
| "grad_norm": 0.24132931232452393, | |
| "learning_rate": 0.00016274666666666669, | |
| "loss": 0.0966, | |
| "step": 25300 | |
| }, | |
| { | |
| "epoch": 2.028, | |
| "grad_norm": 0.1744636595249176, | |
| "learning_rate": 0.00016208, | |
| "loss": 0.0895, | |
| "step": 25350 | |
| }, | |
| { | |
| "epoch": 2.032, | |
| "grad_norm": 0.337926983833313, | |
| "learning_rate": 0.00016141333333333333, | |
| "loss": 0.0952, | |
| "step": 25400 | |
| }, | |
| { | |
| "epoch": 2.036, | |
| "grad_norm": 0.19350071251392365, | |
| "learning_rate": 0.0001607466666666667, | |
| "loss": 0.0936, | |
| "step": 25450 | |
| }, | |
| { | |
| "epoch": 2.04, | |
| "grad_norm": 0.1865643411874771, | |
| "learning_rate": 0.00016008, | |
| "loss": 0.0916, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 2.044, | |
| "grad_norm": 0.2261430025100708, | |
| "learning_rate": 0.00015941333333333333, | |
| "loss": 0.0881, | |
| "step": 25550 | |
| }, | |
| { | |
| "epoch": 2.048, | |
| "grad_norm": 0.17269006371498108, | |
| "learning_rate": 0.00015874666666666667, | |
| "loss": 0.0921, | |
| "step": 25600 | |
| }, | |
| { | |
| "epoch": 2.052, | |
| "grad_norm": 0.1899922490119934, | |
| "learning_rate": 0.00015808, | |
| "loss": 0.0941, | |
| "step": 25650 | |
| }, | |
| { | |
| "epoch": 2.056, | |
| "grad_norm": 0.1717832237482071, | |
| "learning_rate": 0.0001574133333333333, | |
| "loss": 0.0922, | |
| "step": 25700 | |
| }, | |
| { | |
| "epoch": 2.06, | |
| "grad_norm": 0.20776066184043884, | |
| "learning_rate": 0.00015674666666666667, | |
| "loss": 0.0942, | |
| "step": 25750 | |
| }, | |
| { | |
| "epoch": 2.064, | |
| "grad_norm": 0.24024030566215515, | |
| "learning_rate": 0.00015608, | |
| "loss": 0.0963, | |
| "step": 25800 | |
| }, | |
| { | |
| "epoch": 2.068, | |
| "grad_norm": 0.28642788529396057, | |
| "learning_rate": 0.00015541333333333332, | |
| "loss": 0.0914, | |
| "step": 25850 | |
| }, | |
| { | |
| "epoch": 2.072, | |
| "grad_norm": 0.23829784989356995, | |
| "learning_rate": 0.00015474666666666668, | |
| "loss": 0.0908, | |
| "step": 25900 | |
| }, | |
| { | |
| "epoch": 2.076, | |
| "grad_norm": 0.21415367722511292, | |
| "learning_rate": 0.00015408, | |
| "loss": 0.0931, | |
| "step": 25950 | |
| }, | |
| { | |
| "epoch": 2.08, | |
| "grad_norm": 0.24670569598674774, | |
| "learning_rate": 0.00015341333333333335, | |
| "loss": 0.0902, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 2.084, | |
| "grad_norm": 0.20270241796970367, | |
| "learning_rate": 0.00015274666666666669, | |
| "loss": 0.09, | |
| "step": 26050 | |
| }, | |
| { | |
| "epoch": 2.088, | |
| "grad_norm": 0.20840270817279816, | |
| "learning_rate": 0.00015208, | |
| "loss": 0.0894, | |
| "step": 26100 | |
| }, | |
| { | |
| "epoch": 2.092, | |
| "grad_norm": 0.2210851013660431, | |
| "learning_rate": 0.00015141333333333336, | |
| "loss": 0.0935, | |
| "step": 26150 | |
| }, | |
| { | |
| "epoch": 2.096, | |
| "grad_norm": 0.18971370160579681, | |
| "learning_rate": 0.00015074666666666666, | |
| "loss": 0.0937, | |
| "step": 26200 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "grad_norm": 0.16335748136043549, | |
| "learning_rate": 0.00015008, | |
| "loss": 0.0948, | |
| "step": 26250 | |
| }, | |
| { | |
| "epoch": 2.104, | |
| "grad_norm": 0.19551168382167816, | |
| "learning_rate": 0.00014941333333333333, | |
| "loss": 0.0942, | |
| "step": 26300 | |
| }, | |
| { | |
| "epoch": 2.108, | |
| "grad_norm": 0.21460063755512238, | |
| "learning_rate": 0.00014874666666666667, | |
| "loss": 0.0886, | |
| "step": 26350 | |
| }, | |
| { | |
| "epoch": 2.112, | |
| "grad_norm": 0.2157629430294037, | |
| "learning_rate": 0.00014808, | |
| "loss": 0.0901, | |
| "step": 26400 | |
| }, | |
| { | |
| "epoch": 2.116, | |
| "grad_norm": 0.21418321132659912, | |
| "learning_rate": 0.00014741333333333334, | |
| "loss": 0.0924, | |
| "step": 26450 | |
| }, | |
| { | |
| "epoch": 2.12, | |
| "grad_norm": 0.20961879193782806, | |
| "learning_rate": 0.00014674666666666668, | |
| "loss": 0.0939, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 2.124, | |
| "grad_norm": 0.22161448001861572, | |
| "learning_rate": 0.00014607999999999998, | |
| "loss": 0.0958, | |
| "step": 26550 | |
| }, | |
| { | |
| "epoch": 2.128, | |
| "grad_norm": 0.2018549144268036, | |
| "learning_rate": 0.00014541333333333335, | |
| "loss": 0.095, | |
| "step": 26600 | |
| }, | |
| { | |
| "epoch": 2.132, | |
| "grad_norm": 0.22858670353889465, | |
| "learning_rate": 0.00014474666666666665, | |
| "loss": 0.1006, | |
| "step": 26650 | |
| }, | |
| { | |
| "epoch": 2.136, | |
| "grad_norm": 0.2693220376968384, | |
| "learning_rate": 0.00014408000000000002, | |
| "loss": 0.0872, | |
| "step": 26700 | |
| }, | |
| { | |
| "epoch": 2.14, | |
| "grad_norm": 0.27582108974456787, | |
| "learning_rate": 0.00014341333333333335, | |
| "loss": 0.0933, | |
| "step": 26750 | |
| }, | |
| { | |
| "epoch": 2.144, | |
| "grad_norm": 0.2975514531135559, | |
| "learning_rate": 0.00014274666666666666, | |
| "loss": 0.0919, | |
| "step": 26800 | |
| }, | |
| { | |
| "epoch": 2.148, | |
| "grad_norm": 0.20857661962509155, | |
| "learning_rate": 0.00014208000000000002, | |
| "loss": 0.0905, | |
| "step": 26850 | |
| }, | |
| { | |
| "epoch": 2.152, | |
| "grad_norm": 0.2423287183046341, | |
| "learning_rate": 0.00014141333333333333, | |
| "loss": 0.0893, | |
| "step": 26900 | |
| }, | |
| { | |
| "epoch": 2.156, | |
| "grad_norm": 0.19489049911499023, | |
| "learning_rate": 0.00014074666666666667, | |
| "loss": 0.0925, | |
| "step": 26950 | |
| }, | |
| { | |
| "epoch": 2.16, | |
| "grad_norm": 0.19014471769332886, | |
| "learning_rate": 0.00014008, | |
| "loss": 0.0903, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 2.164, | |
| "grad_norm": 0.18251243233680725, | |
| "learning_rate": 0.00013941333333333334, | |
| "loss": 0.0905, | |
| "step": 27050 | |
| }, | |
| { | |
| "epoch": 2.168, | |
| "grad_norm": 0.1972397416830063, | |
| "learning_rate": 0.00013874666666666667, | |
| "loss": 0.0932, | |
| "step": 27100 | |
| }, | |
| { | |
| "epoch": 2.172, | |
| "grad_norm": 0.19670510292053223, | |
| "learning_rate": 0.00013808, | |
| "loss": 0.0909, | |
| "step": 27150 | |
| }, | |
| { | |
| "epoch": 2.176, | |
| "grad_norm": 0.1670660376548767, | |
| "learning_rate": 0.00013741333333333334, | |
| "loss": 0.0875, | |
| "step": 27200 | |
| }, | |
| { | |
| "epoch": 2.18, | |
| "grad_norm": 0.2227102518081665, | |
| "learning_rate": 0.00013674666666666665, | |
| "loss": 0.0915, | |
| "step": 27250 | |
| }, | |
| { | |
| "epoch": 2.184, | |
| "grad_norm": 0.21033388376235962, | |
| "learning_rate": 0.00013608, | |
| "loss": 0.0868, | |
| "step": 27300 | |
| }, | |
| { | |
| "epoch": 2.188, | |
| "grad_norm": 0.22479422390460968, | |
| "learning_rate": 0.00013541333333333332, | |
| "loss": 0.0899, | |
| "step": 27350 | |
| }, | |
| { | |
| "epoch": 2.192, | |
| "grad_norm": 0.2018345594406128, | |
| "learning_rate": 0.00013474666666666666, | |
| "loss": 0.0905, | |
| "step": 27400 | |
| }, | |
| { | |
| "epoch": 2.196, | |
| "grad_norm": 0.14909011125564575, | |
| "learning_rate": 0.00013408000000000002, | |
| "loss": 0.0854, | |
| "step": 27450 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "grad_norm": 0.2436288744211197, | |
| "learning_rate": 0.00013341333333333333, | |
| "loss": 0.09, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 2.204, | |
| "grad_norm": 0.21429184079170227, | |
| "learning_rate": 0.0001327466666666667, | |
| "loss": 0.0886, | |
| "step": 27550 | |
| }, | |
| { | |
| "epoch": 2.208, | |
| "grad_norm": 0.2759193181991577, | |
| "learning_rate": 0.00013208, | |
| "loss": 0.086, | |
| "step": 27600 | |
| }, | |
| { | |
| "epoch": 2.212, | |
| "grad_norm": 0.23570884764194489, | |
| "learning_rate": 0.00013141333333333333, | |
| "loss": 0.0938, | |
| "step": 27650 | |
| }, | |
| { | |
| "epoch": 2.216, | |
| "grad_norm": 0.22460907697677612, | |
| "learning_rate": 0.0001307466666666667, | |
| "loss": 0.092, | |
| "step": 27700 | |
| }, | |
| { | |
| "epoch": 2.22, | |
| "grad_norm": 0.17218901216983795, | |
| "learning_rate": 0.00013008, | |
| "loss": 0.0947, | |
| "step": 27750 | |
| }, | |
| { | |
| "epoch": 2.224, | |
| "grad_norm": 0.24056808650493622, | |
| "learning_rate": 0.00012941333333333334, | |
| "loss": 0.0929, | |
| "step": 27800 | |
| }, | |
| { | |
| "epoch": 2.228, | |
| "grad_norm": 0.2047436237335205, | |
| "learning_rate": 0.00012874666666666667, | |
| "loss": 0.0891, | |
| "step": 27850 | |
| }, | |
| { | |
| "epoch": 2.232, | |
| "grad_norm": 0.2183937281370163, | |
| "learning_rate": 0.00012808, | |
| "loss": 0.0913, | |
| "step": 27900 | |
| }, | |
| { | |
| "epoch": 2.2359999999999998, | |
| "grad_norm": 0.20861102640628815, | |
| "learning_rate": 0.00012741333333333332, | |
| "loss": 0.0919, | |
| "step": 27950 | |
| }, | |
| { | |
| "epoch": 2.24, | |
| "grad_norm": 0.21275122463703156, | |
| "learning_rate": 0.00012674666666666668, | |
| "loss": 0.0894, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 2.2439999999999998, | |
| "grad_norm": 0.1818036139011383, | |
| "learning_rate": 0.00012608, | |
| "loss": 0.0917, | |
| "step": 28050 | |
| }, | |
| { | |
| "epoch": 2.248, | |
| "grad_norm": 0.17047972977161407, | |
| "learning_rate": 0.00012541333333333332, | |
| "loss": 0.0908, | |
| "step": 28100 | |
| }, | |
| { | |
| "epoch": 2.252, | |
| "grad_norm": 0.19904403388500214, | |
| "learning_rate": 0.00012476, | |
| "loss": 0.0898, | |
| "step": 28150 | |
| }, | |
| { | |
| "epoch": 2.2560000000000002, | |
| "grad_norm": 0.31932684779167175, | |
| "learning_rate": 0.00012409333333333333, | |
| "loss": 0.0947, | |
| "step": 28200 | |
| }, | |
| { | |
| "epoch": 2.26, | |
| "grad_norm": 0.20696820318698883, | |
| "learning_rate": 0.00012342666666666666, | |
| "loss": 0.0874, | |
| "step": 28250 | |
| }, | |
| { | |
| "epoch": 2.2640000000000002, | |
| "grad_norm": 0.15870942175388336, | |
| "learning_rate": 0.00012276, | |
| "loss": 0.0896, | |
| "step": 28300 | |
| }, | |
| { | |
| "epoch": 2.268, | |
| "grad_norm": 0.2263340950012207, | |
| "learning_rate": 0.00012209333333333333, | |
| "loss": 0.0928, | |
| "step": 28350 | |
| }, | |
| { | |
| "epoch": 2.2720000000000002, | |
| "grad_norm": 0.17672806978225708, | |
| "learning_rate": 0.00012142666666666667, | |
| "loss": 0.0962, | |
| "step": 28400 | |
| }, | |
| { | |
| "epoch": 2.276, | |
| "grad_norm": 0.20680490136146545, | |
| "learning_rate": 0.00012076, | |
| "loss": 0.0896, | |
| "step": 28450 | |
| }, | |
| { | |
| "epoch": 2.2800000000000002, | |
| "grad_norm": 0.281303733587265, | |
| "learning_rate": 0.00012009333333333334, | |
| "loss": 0.1013, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 2.284, | |
| "grad_norm": 0.16331219673156738, | |
| "learning_rate": 0.00011942666666666667, | |
| "loss": 0.0893, | |
| "step": 28550 | |
| }, | |
| { | |
| "epoch": 2.288, | |
| "grad_norm": 0.2565614879131317, | |
| "learning_rate": 0.00011876000000000001, | |
| "loss": 0.095, | |
| "step": 28600 | |
| }, | |
| { | |
| "epoch": 2.292, | |
| "grad_norm": 0.20547527074813843, | |
| "learning_rate": 0.00011809333333333333, | |
| "loss": 0.0927, | |
| "step": 28650 | |
| }, | |
| { | |
| "epoch": 2.296, | |
| "grad_norm": 0.21284224092960358, | |
| "learning_rate": 0.00011742666666666666, | |
| "loss": 0.0922, | |
| "step": 28700 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 0.2905617654323578, | |
| "learning_rate": 0.00011676, | |
| "loss": 0.0881, | |
| "step": 28750 | |
| }, | |
| { | |
| "epoch": 2.304, | |
| "grad_norm": 0.17601975798606873, | |
| "learning_rate": 0.00011609333333333335, | |
| "loss": 0.0871, | |
| "step": 28800 | |
| }, | |
| { | |
| "epoch": 2.308, | |
| "grad_norm": 0.21487480401992798, | |
| "learning_rate": 0.00011542666666666667, | |
| "loss": 0.0878, | |
| "step": 28850 | |
| }, | |
| { | |
| "epoch": 2.312, | |
| "grad_norm": 0.3163113296031952, | |
| "learning_rate": 0.00011476, | |
| "loss": 0.0903, | |
| "step": 28900 | |
| }, | |
| { | |
| "epoch": 2.316, | |
| "grad_norm": 0.24858905375003815, | |
| "learning_rate": 0.00011409333333333334, | |
| "loss": 0.0889, | |
| "step": 28950 | |
| }, | |
| { | |
| "epoch": 2.32, | |
| "grad_norm": 0.2611665725708008, | |
| "learning_rate": 0.00011342666666666666, | |
| "loss": 0.0856, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 2.324, | |
| "grad_norm": 0.1971435695886612, | |
| "learning_rate": 0.00011276, | |
| "loss": 0.0893, | |
| "step": 29050 | |
| }, | |
| { | |
| "epoch": 2.328, | |
| "grad_norm": 0.20228393375873566, | |
| "learning_rate": 0.00011209333333333333, | |
| "loss": 0.0888, | |
| "step": 29100 | |
| }, | |
| { | |
| "epoch": 2.332, | |
| "grad_norm": 0.2049122154712677, | |
| "learning_rate": 0.00011142666666666667, | |
| "loss": 0.0883, | |
| "step": 29150 | |
| }, | |
| { | |
| "epoch": 2.336, | |
| "grad_norm": 0.24067771434783936, | |
| "learning_rate": 0.00011076, | |
| "loss": 0.0931, | |
| "step": 29200 | |
| }, | |
| { | |
| "epoch": 2.34, | |
| "grad_norm": 0.22698932886123657, | |
| "learning_rate": 0.00011009333333333334, | |
| "loss": 0.0909, | |
| "step": 29250 | |
| }, | |
| { | |
| "epoch": 2.344, | |
| "grad_norm": 0.2207707166671753, | |
| "learning_rate": 0.00010942666666666667, | |
| "loss": 0.0904, | |
| "step": 29300 | |
| }, | |
| { | |
| "epoch": 2.348, | |
| "grad_norm": Infinity, | |
| "learning_rate": 0.00010877333333333333, | |
| "loss": 0.0911, | |
| "step": 29350 | |
| }, | |
| { | |
| "epoch": 2.352, | |
| "grad_norm": 0.14839237928390503, | |
| "learning_rate": 0.00010810666666666667, | |
| "loss": 0.0903, | |
| "step": 29400 | |
| }, | |
| { | |
| "epoch": 2.356, | |
| "grad_norm": 0.2288137972354889, | |
| "learning_rate": 0.00010744, | |
| "loss": 0.0907, | |
| "step": 29450 | |
| }, | |
| { | |
| "epoch": 2.36, | |
| "grad_norm": 0.23181381821632385, | |
| "learning_rate": 0.00010677333333333334, | |
| "loss": 0.0928, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 2.364, | |
| "grad_norm": 0.17764176428318024, | |
| "learning_rate": 0.00010610666666666667, | |
| "loss": 0.0924, | |
| "step": 29550 | |
| }, | |
| { | |
| "epoch": 2.368, | |
| "grad_norm": 0.31259283423423767, | |
| "learning_rate": 0.00010544000000000001, | |
| "loss": 0.0924, | |
| "step": 29600 | |
| }, | |
| { | |
| "epoch": 2.372, | |
| "grad_norm": 0.27318131923675537, | |
| "learning_rate": 0.00010477333333333333, | |
| "loss": 0.0901, | |
| "step": 29650 | |
| }, | |
| { | |
| "epoch": 2.376, | |
| "grad_norm": 0.2297317087650299, | |
| "learning_rate": 0.00010410666666666666, | |
| "loss": 0.0841, | |
| "step": 29700 | |
| }, | |
| { | |
| "epoch": 2.38, | |
| "grad_norm": 0.22757749259471893, | |
| "learning_rate": 0.00010344000000000001, | |
| "loss": 0.0902, | |
| "step": 29750 | |
| }, | |
| { | |
| "epoch": 2.384, | |
| "grad_norm": 0.25088581442832947, | |
| "learning_rate": 0.00010277333333333333, | |
| "loss": 0.0911, | |
| "step": 29800 | |
| }, | |
| { | |
| "epoch": 2.388, | |
| "grad_norm": 0.31865358352661133, | |
| "learning_rate": 0.00010210666666666667, | |
| "loss": 0.0867, | |
| "step": 29850 | |
| }, | |
| { | |
| "epoch": 2.392, | |
| "grad_norm": 0.1795097142457962, | |
| "learning_rate": 0.00010144, | |
| "loss": 0.0887, | |
| "step": 29900 | |
| }, | |
| { | |
| "epoch": 2.396, | |
| "grad_norm": 0.20674064755439758, | |
| "learning_rate": 0.00010077333333333334, | |
| "loss": 0.0925, | |
| "step": 29950 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 0.2734236717224121, | |
| "learning_rate": 0.00010010666666666666, | |
| "loss": 0.0905, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 2.404, | |
| "grad_norm": 0.1435621827840805, | |
| "learning_rate": 9.944e-05, | |
| "loss": 0.0876, | |
| "step": 30050 | |
| }, | |
| { | |
| "epoch": 2.408, | |
| "grad_norm": 0.23577700555324554, | |
| "learning_rate": 9.877333333333335e-05, | |
| "loss": 0.0902, | |
| "step": 30100 | |
| }, | |
| { | |
| "epoch": 2.412, | |
| "grad_norm": 0.21699552237987518, | |
| "learning_rate": 9.810666666666667e-05, | |
| "loss": 0.0917, | |
| "step": 30150 | |
| }, | |
| { | |
| "epoch": 2.416, | |
| "grad_norm": 0.238655686378479, | |
| "learning_rate": 9.744e-05, | |
| "loss": 0.0889, | |
| "step": 30200 | |
| }, | |
| { | |
| "epoch": 2.42, | |
| "grad_norm": 0.20957131683826447, | |
| "learning_rate": 9.677333333333334e-05, | |
| "loss": 0.0917, | |
| "step": 30250 | |
| }, | |
| { | |
| "epoch": 2.424, | |
| "grad_norm": 0.2063513994216919, | |
| "learning_rate": 9.610666666666667e-05, | |
| "loss": 0.0954, | |
| "step": 30300 | |
| }, | |
| { | |
| "epoch": 2.428, | |
| "grad_norm": 0.20783770084381104, | |
| "learning_rate": 9.544e-05, | |
| "loss": 0.085, | |
| "step": 30350 | |
| }, | |
| { | |
| "epoch": 2.432, | |
| "grad_norm": 0.25300976634025574, | |
| "learning_rate": 9.477333333333334e-05, | |
| "loss": 0.0909, | |
| "step": 30400 | |
| }, | |
| { | |
| "epoch": 2.436, | |
| "grad_norm": 0.18006733059883118, | |
| "learning_rate": 9.410666666666668e-05, | |
| "loss": 0.0875, | |
| "step": 30450 | |
| }, | |
| { | |
| "epoch": 2.44, | |
| "grad_norm": 0.20210473239421844, | |
| "learning_rate": 9.344e-05, | |
| "loss": 0.0825, | |
| "step": 30500 | |
| }, | |
| { | |
| "epoch": 2.444, | |
| "grad_norm": 0.17532627284526825, | |
| "learning_rate": 9.277333333333334e-05, | |
| "loss": 0.0904, | |
| "step": 30550 | |
| }, | |
| { | |
| "epoch": 2.448, | |
| "grad_norm": 0.16695033013820648, | |
| "learning_rate": 9.210666666666667e-05, | |
| "loss": 0.0878, | |
| "step": 30600 | |
| }, | |
| { | |
| "epoch": 2.452, | |
| "grad_norm": 0.19976134598255157, | |
| "learning_rate": 9.143999999999999e-05, | |
| "loss": 0.0907, | |
| "step": 30650 | |
| }, | |
| { | |
| "epoch": 2.456, | |
| "grad_norm": 0.1923692673444748, | |
| "learning_rate": 9.077333333333333e-05, | |
| "loss": 0.0858, | |
| "step": 30700 | |
| }, | |
| { | |
| "epoch": 2.46, | |
| "grad_norm": 0.21939215064048767, | |
| "learning_rate": 9.010666666666668e-05, | |
| "loss": 0.0902, | |
| "step": 30750 | |
| }, | |
| { | |
| "epoch": 2.464, | |
| "grad_norm": 0.18491357564926147, | |
| "learning_rate": 8.944000000000001e-05, | |
| "loss": 0.0859, | |
| "step": 30800 | |
| }, | |
| { | |
| "epoch": 2.468, | |
| "grad_norm": 0.29030641913414, | |
| "learning_rate": 8.877333333333333e-05, | |
| "loss": 0.0856, | |
| "step": 30850 | |
| }, | |
| { | |
| "epoch": 2.472, | |
| "grad_norm": 0.19032958149909973, | |
| "learning_rate": 8.810666666666667e-05, | |
| "loss": 0.0877, | |
| "step": 30900 | |
| }, | |
| { | |
| "epoch": 2.476, | |
| "grad_norm": 0.24499177932739258, | |
| "learning_rate": 8.744e-05, | |
| "loss": 0.0897, | |
| "step": 30950 | |
| }, | |
| { | |
| "epoch": 2.48, | |
| "grad_norm": 0.18819601833820343, | |
| "learning_rate": 8.677333333333332e-05, | |
| "loss": 0.0886, | |
| "step": 31000 | |
| }, | |
| { | |
| "epoch": 2.484, | |
| "grad_norm": 0.1888425350189209, | |
| "learning_rate": 8.610666666666666e-05, | |
| "loss": 0.0878, | |
| "step": 31050 | |
| }, | |
| { | |
| "epoch": 2.488, | |
| "grad_norm": 0.24708664417266846, | |
| "learning_rate": 8.544000000000001e-05, | |
| "loss": 0.0868, | |
| "step": 31100 | |
| }, | |
| { | |
| "epoch": 2.492, | |
| "grad_norm": 0.2360064536333084, | |
| "learning_rate": 8.477333333333334e-05, | |
| "loss": 0.0879, | |
| "step": 31150 | |
| }, | |
| { | |
| "epoch": 2.496, | |
| "grad_norm": 0.1731237769126892, | |
| "learning_rate": 8.410666666666667e-05, | |
| "loss": 0.0854, | |
| "step": 31200 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.19347743690013885, | |
| "learning_rate": 8.344e-05, | |
| "loss": 0.0875, | |
| "step": 31250 | |
| }, | |
| { | |
| "epoch": 2.504, | |
| "grad_norm": 0.21939142048358917, | |
| "learning_rate": 8.277333333333334e-05, | |
| "loss": 0.0846, | |
| "step": 31300 | |
| }, | |
| { | |
| "epoch": 2.508, | |
| "grad_norm": 0.3236182928085327, | |
| "learning_rate": 8.210666666666666e-05, | |
| "loss": 0.083, | |
| "step": 31350 | |
| }, | |
| { | |
| "epoch": 2.512, | |
| "grad_norm": 0.2307000607252121, | |
| "learning_rate": 8.144e-05, | |
| "loss": 0.0903, | |
| "step": 31400 | |
| }, | |
| { | |
| "epoch": 2.516, | |
| "grad_norm": 0.19064326584339142, | |
| "learning_rate": 8.077333333333334e-05, | |
| "loss": 0.084, | |
| "step": 31450 | |
| }, | |
| { | |
| "epoch": 2.52, | |
| "grad_norm": 0.20783266425132751, | |
| "learning_rate": 8.010666666666668e-05, | |
| "loss": 0.0892, | |
| "step": 31500 | |
| }, | |
| { | |
| "epoch": 2.524, | |
| "grad_norm": 0.19805337488651276, | |
| "learning_rate": 7.944e-05, | |
| "loss": 0.09, | |
| "step": 31550 | |
| }, | |
| { | |
| "epoch": 2.528, | |
| "grad_norm": 0.20654939115047455, | |
| "learning_rate": 7.877333333333333e-05, | |
| "loss": 0.0898, | |
| "step": 31600 | |
| }, | |
| { | |
| "epoch": 2.532, | |
| "grad_norm": 0.20411235094070435, | |
| "learning_rate": 7.810666666666667e-05, | |
| "loss": 0.0878, | |
| "step": 31650 | |
| }, | |
| { | |
| "epoch": 2.536, | |
| "grad_norm": 0.22553130984306335, | |
| "learning_rate": 7.743999999999999e-05, | |
| "loss": 0.087, | |
| "step": 31700 | |
| }, | |
| { | |
| "epoch": 2.54, | |
| "grad_norm": 0.18775510787963867, | |
| "learning_rate": 7.677333333333334e-05, | |
| "loss": 0.0917, | |
| "step": 31750 | |
| }, | |
| { | |
| "epoch": 2.544, | |
| "grad_norm": 0.22261299192905426, | |
| "learning_rate": 7.610666666666667e-05, | |
| "loss": 0.0877, | |
| "step": 31800 | |
| }, | |
| { | |
| "epoch": 2.548, | |
| "grad_norm": 0.16394872963428497, | |
| "learning_rate": 7.544e-05, | |
| "loss": 0.0871, | |
| "step": 31850 | |
| }, | |
| { | |
| "epoch": 2.552, | |
| "grad_norm": 0.2235117256641388, | |
| "learning_rate": 7.477333333333333e-05, | |
| "loss": 0.089, | |
| "step": 31900 | |
| }, | |
| { | |
| "epoch": 2.556, | |
| "grad_norm": 0.19053585827350616, | |
| "learning_rate": 7.410666666666667e-05, | |
| "loss": 0.0917, | |
| "step": 31950 | |
| }, | |
| { | |
| "epoch": 2.56, | |
| "grad_norm": 0.21059653162956238, | |
| "learning_rate": 7.344e-05, | |
| "loss": 0.0892, | |
| "step": 32000 | |
| }, | |
| { | |
| "epoch": 2.564, | |
| "grad_norm": 0.16795092821121216, | |
| "learning_rate": 7.277333333333334e-05, | |
| "loss": 0.0854, | |
| "step": 32050 | |
| }, | |
| { | |
| "epoch": 2.568, | |
| "grad_norm": 0.17601776123046875, | |
| "learning_rate": 7.210666666666667e-05, | |
| "loss": 0.0877, | |
| "step": 32100 | |
| }, | |
| { | |
| "epoch": 2.572, | |
| "grad_norm": 0.19702458381652832, | |
| "learning_rate": 7.144000000000001e-05, | |
| "loss": 0.0877, | |
| "step": 32150 | |
| }, | |
| { | |
| "epoch": 2.576, | |
| "grad_norm": 0.2241951823234558, | |
| "learning_rate": 7.077333333333333e-05, | |
| "loss": 0.0877, | |
| "step": 32200 | |
| }, | |
| { | |
| "epoch": 2.58, | |
| "grad_norm": 0.24304185807704926, | |
| "learning_rate": 7.010666666666666e-05, | |
| "loss": 0.089, | |
| "step": 32250 | |
| }, | |
| { | |
| "epoch": 2.584, | |
| "grad_norm": 0.26914647221565247, | |
| "learning_rate": 6.944e-05, | |
| "loss": 0.0837, | |
| "step": 32300 | |
| }, | |
| { | |
| "epoch": 2.588, | |
| "grad_norm": 0.17809820175170898, | |
| "learning_rate": 6.877333333333333e-05, | |
| "loss": 0.0859, | |
| "step": 32350 | |
| }, | |
| { | |
| "epoch": 2.592, | |
| "grad_norm": 0.19347530603408813, | |
| "learning_rate": 6.810666666666667e-05, | |
| "loss": 0.0864, | |
| "step": 32400 | |
| }, | |
| { | |
| "epoch": 2.596, | |
| "grad_norm": 0.2959936261177063, | |
| "learning_rate": 6.744e-05, | |
| "loss": 0.0903, | |
| "step": 32450 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "grad_norm": 0.1920231133699417, | |
| "learning_rate": 6.677333333333334e-05, | |
| "loss": 0.0871, | |
| "step": 32500 | |
| }, | |
| { | |
| "epoch": 2.604, | |
| "grad_norm": 0.22431786358356476, | |
| "learning_rate": 6.610666666666666e-05, | |
| "loss": 0.0908, | |
| "step": 32550 | |
| }, | |
| { | |
| "epoch": 2.608, | |
| "grad_norm": 0.23826831579208374, | |
| "learning_rate": 6.544e-05, | |
| "loss": 0.0871, | |
| "step": 32600 | |
| }, | |
| { | |
| "epoch": 2.612, | |
| "grad_norm": 0.20620779693126678, | |
| "learning_rate": 6.477333333333333e-05, | |
| "loss": 0.0909, | |
| "step": 32650 | |
| }, | |
| { | |
| "epoch": 2.616, | |
| "grad_norm": 0.16725274920463562, | |
| "learning_rate": 6.410666666666668e-05, | |
| "loss": 0.0848, | |
| "step": 32700 | |
| }, | |
| { | |
| "epoch": 2.62, | |
| "grad_norm": 0.2946326732635498, | |
| "learning_rate": 6.344e-05, | |
| "loss": 0.0907, | |
| "step": 32750 | |
| }, | |
| { | |
| "epoch": 2.624, | |
| "grad_norm": 0.28128352761268616, | |
| "learning_rate": 6.277333333333334e-05, | |
| "loss": 0.0882, | |
| "step": 32800 | |
| }, | |
| { | |
| "epoch": 2.628, | |
| "grad_norm": 0.21484586596488953, | |
| "learning_rate": 6.210666666666666e-05, | |
| "loss": 0.0872, | |
| "step": 32850 | |
| }, | |
| { | |
| "epoch": 2.632, | |
| "grad_norm": 0.26515698432922363, | |
| "learning_rate": 6.144000000000001e-05, | |
| "loss": 0.084, | |
| "step": 32900 | |
| }, | |
| { | |
| "epoch": 2.636, | |
| "grad_norm": 0.20661959052085876, | |
| "learning_rate": 6.0773333333333336e-05, | |
| "loss": 0.0844, | |
| "step": 32950 | |
| }, | |
| { | |
| "epoch": 2.64, | |
| "grad_norm": 0.21165692806243896, | |
| "learning_rate": 6.010666666666667e-05, | |
| "loss": 0.0835, | |
| "step": 33000 | |
| }, | |
| { | |
| "epoch": 2.644, | |
| "grad_norm": 0.2088020294904709, | |
| "learning_rate": 5.944e-05, | |
| "loss": 0.0875, | |
| "step": 33050 | |
| }, | |
| { | |
| "epoch": 2.648, | |
| "grad_norm": 0.2278064340353012, | |
| "learning_rate": 5.877333333333333e-05, | |
| "loss": 0.0875, | |
| "step": 33100 | |
| }, | |
| { | |
| "epoch": 2.652, | |
| "grad_norm": 0.1700516939163208, | |
| "learning_rate": 5.810666666666667e-05, | |
| "loss": 0.0905, | |
| "step": 33150 | |
| }, | |
| { | |
| "epoch": 2.656, | |
| "grad_norm": 0.16382786631584167, | |
| "learning_rate": 5.744e-05, | |
| "loss": 0.0867, | |
| "step": 33200 | |
| }, | |
| { | |
| "epoch": 2.66, | |
| "grad_norm": 0.18333283066749573, | |
| "learning_rate": 5.6773333333333334e-05, | |
| "loss": 0.0849, | |
| "step": 33250 | |
| }, | |
| { | |
| "epoch": 2.664, | |
| "grad_norm": 0.32622042298316956, | |
| "learning_rate": 5.610666666666667e-05, | |
| "loss": 0.0894, | |
| "step": 33300 | |
| }, | |
| { | |
| "epoch": 2.668, | |
| "grad_norm": 0.21780076622962952, | |
| "learning_rate": 5.5440000000000005e-05, | |
| "loss": 0.0909, | |
| "step": 33350 | |
| }, | |
| { | |
| "epoch": 2.672, | |
| "grad_norm": 0.22400133311748505, | |
| "learning_rate": 5.478666666666667e-05, | |
| "loss": 0.0855, | |
| "step": 33400 | |
| }, | |
| { | |
| "epoch": 2.676, | |
| "grad_norm": 0.1957274079322815, | |
| "learning_rate": 5.4120000000000004e-05, | |
| "loss": 0.0871, | |
| "step": 33450 | |
| }, | |
| { | |
| "epoch": 2.68, | |
| "grad_norm": 0.28952232003211975, | |
| "learning_rate": 5.345333333333333e-05, | |
| "loss": 0.0844, | |
| "step": 33500 | |
| }, | |
| { | |
| "epoch": 2.684, | |
| "grad_norm": 0.17833209037780762, | |
| "learning_rate": 5.278666666666667e-05, | |
| "loss": 0.085, | |
| "step": 33550 | |
| }, | |
| { | |
| "epoch": 2.6879999999999997, | |
| "grad_norm": 0.19233302772045135, | |
| "learning_rate": 5.212e-05, | |
| "loss": 0.0865, | |
| "step": 33600 | |
| }, | |
| { | |
| "epoch": 2.692, | |
| "grad_norm": 0.23523558676242828, | |
| "learning_rate": 5.145333333333333e-05, | |
| "loss": 0.0858, | |
| "step": 33650 | |
| }, | |
| { | |
| "epoch": 2.6959999999999997, | |
| "grad_norm": 0.29405903816223145, | |
| "learning_rate": 5.0786666666666666e-05, | |
| "loss": 0.0848, | |
| "step": 33700 | |
| }, | |
| { | |
| "epoch": 2.7, | |
| "grad_norm": 0.2131974697113037, | |
| "learning_rate": 5.012e-05, | |
| "loss": 0.0852, | |
| "step": 33750 | |
| }, | |
| { | |
| "epoch": 2.7039999999999997, | |
| "grad_norm": 0.20506542921066284, | |
| "learning_rate": 4.9453333333333336e-05, | |
| "loss": 0.0876, | |
| "step": 33800 | |
| }, | |
| { | |
| "epoch": 2.708, | |
| "grad_norm": 0.16482611000537872, | |
| "learning_rate": 4.8786666666666665e-05, | |
| "loss": 0.0857, | |
| "step": 33850 | |
| }, | |
| { | |
| "epoch": 2.7119999999999997, | |
| "grad_norm": 0.24656833708286285, | |
| "learning_rate": 4.812000000000001e-05, | |
| "loss": 0.0875, | |
| "step": 33900 | |
| }, | |
| { | |
| "epoch": 2.716, | |
| "grad_norm": 0.21334756910800934, | |
| "learning_rate": 4.7453333333333335e-05, | |
| "loss": 0.0841, | |
| "step": 33950 | |
| }, | |
| { | |
| "epoch": 2.7199999999999998, | |
| "grad_norm": 0.2138374149799347, | |
| "learning_rate": 4.6786666666666664e-05, | |
| "loss": 0.0854, | |
| "step": 34000 | |
| }, | |
| { | |
| "epoch": 2.724, | |
| "grad_norm": 0.2026042938232422, | |
| "learning_rate": 4.612e-05, | |
| "loss": 0.0853, | |
| "step": 34050 | |
| }, | |
| { | |
| "epoch": 2.7279999999999998, | |
| "grad_norm": 0.3054521679878235, | |
| "learning_rate": 4.5453333333333334e-05, | |
| "loss": 0.0919, | |
| "step": 34100 | |
| }, | |
| { | |
| "epoch": 2.732, | |
| "grad_norm": 0.189595028758049, | |
| "learning_rate": 4.478666666666667e-05, | |
| "loss": 0.083, | |
| "step": 34150 | |
| }, | |
| { | |
| "epoch": 2.7359999999999998, | |
| "grad_norm": 0.17384038865566254, | |
| "learning_rate": 4.412e-05, | |
| "loss": 0.0823, | |
| "step": 34200 | |
| }, | |
| { | |
| "epoch": 2.74, | |
| "grad_norm": 0.1781201809644699, | |
| "learning_rate": 4.345333333333333e-05, | |
| "loss": 0.0885, | |
| "step": 34250 | |
| }, | |
| { | |
| "epoch": 2.7439999999999998, | |
| "grad_norm": 0.1754325032234192, | |
| "learning_rate": 4.278666666666667e-05, | |
| "loss": 0.0855, | |
| "step": 34300 | |
| }, | |
| { | |
| "epoch": 2.748, | |
| "grad_norm": 0.2937111556529999, | |
| "learning_rate": 4.213333333333334e-05, | |
| "loss": 0.0897, | |
| "step": 34350 | |
| }, | |
| { | |
| "epoch": 2.752, | |
| "grad_norm": 0.1840573400259018, | |
| "learning_rate": 4.146666666666667e-05, | |
| "loss": 0.0844, | |
| "step": 34400 | |
| }, | |
| { | |
| "epoch": 2.7560000000000002, | |
| "grad_norm": 0.2626326382160187, | |
| "learning_rate": 4.08e-05, | |
| "loss": 0.0892, | |
| "step": 34450 | |
| }, | |
| { | |
| "epoch": 2.76, | |
| "grad_norm": 0.39753636717796326, | |
| "learning_rate": 4.013333333333333e-05, | |
| "loss": 0.0921, | |
| "step": 34500 | |
| }, | |
| { | |
| "epoch": 2.7640000000000002, | |
| "grad_norm": 0.2680840790271759, | |
| "learning_rate": 3.9466666666666666e-05, | |
| "loss": 0.0859, | |
| "step": 34550 | |
| }, | |
| { | |
| "epoch": 2.768, | |
| "grad_norm": 0.24490097165107727, | |
| "learning_rate": 3.88e-05, | |
| "loss": 0.0898, | |
| "step": 34600 | |
| }, | |
| { | |
| "epoch": 2.7720000000000002, | |
| "grad_norm": 0.1576889604330063, | |
| "learning_rate": 3.813333333333333e-05, | |
| "loss": 0.088, | |
| "step": 34650 | |
| }, | |
| { | |
| "epoch": 2.776, | |
| "grad_norm": 0.15344563126564026, | |
| "learning_rate": 3.746666666666667e-05, | |
| "loss": 0.0844, | |
| "step": 34700 | |
| }, | |
| { | |
| "epoch": 2.7800000000000002, | |
| "grad_norm": 0.1882135272026062, | |
| "learning_rate": 3.68e-05, | |
| "loss": 0.0877, | |
| "step": 34750 | |
| }, | |
| { | |
| "epoch": 2.784, | |
| "grad_norm": 0.2342829406261444, | |
| "learning_rate": 3.6133333333333335e-05, | |
| "loss": 0.0883, | |
| "step": 34800 | |
| }, | |
| { | |
| "epoch": 2.7880000000000003, | |
| "grad_norm": 0.19654367864131927, | |
| "learning_rate": 3.546666666666667e-05, | |
| "loss": 0.0912, | |
| "step": 34850 | |
| }, | |
| { | |
| "epoch": 2.792, | |
| "grad_norm": 0.21767853200435638, | |
| "learning_rate": 3.48e-05, | |
| "loss": 0.0845, | |
| "step": 34900 | |
| }, | |
| { | |
| "epoch": 2.7960000000000003, | |
| "grad_norm": 0.20185644924640656, | |
| "learning_rate": 3.4133333333333334e-05, | |
| "loss": 0.0896, | |
| "step": 34950 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 0.19200202822685242, | |
| "learning_rate": 3.346666666666667e-05, | |
| "loss": 0.0863, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 2.8040000000000003, | |
| "grad_norm": 0.1652933657169342, | |
| "learning_rate": 3.2800000000000004e-05, | |
| "loss": 0.0873, | |
| "step": 35050 | |
| }, | |
| { | |
| "epoch": 2.808, | |
| "grad_norm": 0.19548176229000092, | |
| "learning_rate": 3.213333333333333e-05, | |
| "loss": 0.085, | |
| "step": 35100 | |
| }, | |
| { | |
| "epoch": 2.8120000000000003, | |
| "grad_norm": 0.19463133811950684, | |
| "learning_rate": 3.146666666666666e-05, | |
| "loss": 0.0834, | |
| "step": 35150 | |
| }, | |
| { | |
| "epoch": 2.816, | |
| "grad_norm": 0.2326621562242508, | |
| "learning_rate": 3.08e-05, | |
| "loss": 0.0829, | |
| "step": 35200 | |
| }, | |
| { | |
| "epoch": 2.82, | |
| "grad_norm": 0.21109482645988464, | |
| "learning_rate": 3.0133333333333335e-05, | |
| "loss": 0.0858, | |
| "step": 35250 | |
| }, | |
| { | |
| "epoch": 2.824, | |
| "grad_norm": 0.17460975050926208, | |
| "learning_rate": 2.9466666666666667e-05, | |
| "loss": 0.085, | |
| "step": 35300 | |
| }, | |
| { | |
| "epoch": 2.828, | |
| "grad_norm": 0.19701725244522095, | |
| "learning_rate": 2.88e-05, | |
| "loss": 0.0872, | |
| "step": 35350 | |
| }, | |
| { | |
| "epoch": 2.832, | |
| "grad_norm": 0.19849060475826263, | |
| "learning_rate": 2.8133333333333334e-05, | |
| "loss": 0.0891, | |
| "step": 35400 | |
| }, | |
| { | |
| "epoch": 2.836, | |
| "grad_norm": 0.2128831446170807, | |
| "learning_rate": 2.746666666666667e-05, | |
| "loss": 0.0826, | |
| "step": 35450 | |
| }, | |
| { | |
| "epoch": 2.84, | |
| "grad_norm": 0.18365369737148285, | |
| "learning_rate": 2.68e-05, | |
| "loss": 0.085, | |
| "step": 35500 | |
| }, | |
| { | |
| "epoch": 2.844, | |
| "grad_norm": 0.1680859476327896, | |
| "learning_rate": 2.6133333333333336e-05, | |
| "loss": 0.0875, | |
| "step": 35550 | |
| }, | |
| { | |
| "epoch": 2.848, | |
| "grad_norm": 0.2829771637916565, | |
| "learning_rate": 2.5466666666666665e-05, | |
| "loss": 0.0848, | |
| "step": 35600 | |
| }, | |
| { | |
| "epoch": 2.852, | |
| "grad_norm": 0.15736761689186096, | |
| "learning_rate": 2.48e-05, | |
| "loss": 0.0844, | |
| "step": 35650 | |
| }, | |
| { | |
| "epoch": 2.856, | |
| "grad_norm": 0.2066882848739624, | |
| "learning_rate": 2.4133333333333335e-05, | |
| "loss": 0.0863, | |
| "step": 35700 | |
| }, | |
| { | |
| "epoch": 2.86, | |
| "grad_norm": 0.24150507152080536, | |
| "learning_rate": 2.3466666666666667e-05, | |
| "loss": 0.0883, | |
| "step": 35750 | |
| }, | |
| { | |
| "epoch": 2.864, | |
| "grad_norm": 0.15966977179050446, | |
| "learning_rate": 2.2800000000000002e-05, | |
| "loss": 0.0857, | |
| "step": 35800 | |
| }, | |
| { | |
| "epoch": 2.868, | |
| "grad_norm": 0.3289653956890106, | |
| "learning_rate": 2.2133333333333334e-05, | |
| "loss": 0.0845, | |
| "step": 35850 | |
| }, | |
| { | |
| "epoch": 2.872, | |
| "grad_norm": 0.2089441865682602, | |
| "learning_rate": 2.1466666666666666e-05, | |
| "loss": 0.0826, | |
| "step": 35900 | |
| }, | |
| { | |
| "epoch": 2.876, | |
| "grad_norm": 0.15653766691684723, | |
| "learning_rate": 2.08e-05, | |
| "loss": 0.0822, | |
| "step": 35950 | |
| }, | |
| { | |
| "epoch": 2.88, | |
| "grad_norm": 0.18996739387512207, | |
| "learning_rate": 2.0133333333333333e-05, | |
| "loss": 0.089, | |
| "step": 36000 | |
| }, | |
| { | |
| "epoch": 2.884, | |
| "grad_norm": 0.20517054200172424, | |
| "learning_rate": 1.9466666666666668e-05, | |
| "loss": 0.092, | |
| "step": 36050 | |
| }, | |
| { | |
| "epoch": 2.888, | |
| "grad_norm": 0.16902655363082886, | |
| "learning_rate": 1.88e-05, | |
| "loss": 0.0857, | |
| "step": 36100 | |
| }, | |
| { | |
| "epoch": 2.892, | |
| "grad_norm": 0.22493144869804382, | |
| "learning_rate": 1.8133333333333335e-05, | |
| "loss": 0.0864, | |
| "step": 36150 | |
| }, | |
| { | |
| "epoch": 2.896, | |
| "grad_norm": 0.16529057919979095, | |
| "learning_rate": 1.7466666666666667e-05, | |
| "loss": 0.0913, | |
| "step": 36200 | |
| }, | |
| { | |
| "epoch": 2.9, | |
| "grad_norm": 0.1654864251613617, | |
| "learning_rate": 1.68e-05, | |
| "loss": 0.0837, | |
| "step": 36250 | |
| }, | |
| { | |
| "epoch": 2.904, | |
| "grad_norm": 0.18146716058254242, | |
| "learning_rate": 1.6133333333333334e-05, | |
| "loss": 0.0872, | |
| "step": 36300 | |
| }, | |
| { | |
| "epoch": 2.908, | |
| "grad_norm": 0.17398609220981598, | |
| "learning_rate": 1.5466666666666665e-05, | |
| "loss": 0.0863, | |
| "step": 36350 | |
| }, | |
| { | |
| "epoch": 2.912, | |
| "grad_norm": 0.2171885371208191, | |
| "learning_rate": 1.48e-05, | |
| "loss": 0.0882, | |
| "step": 36400 | |
| }, | |
| { | |
| "epoch": 2.916, | |
| "grad_norm": 0.17228269577026367, | |
| "learning_rate": 1.4133333333333332e-05, | |
| "loss": 0.086, | |
| "step": 36450 | |
| }, | |
| { | |
| "epoch": 2.92, | |
| "grad_norm": 0.178496316075325, | |
| "learning_rate": 1.3466666666666668e-05, | |
| "loss": 0.0864, | |
| "step": 36500 | |
| }, | |
| { | |
| "epoch": 2.924, | |
| "grad_norm": 0.1769087165594101, | |
| "learning_rate": 1.2813333333333333e-05, | |
| "loss": 0.0882, | |
| "step": 36550 | |
| }, | |
| { | |
| "epoch": 2.928, | |
| "grad_norm": 0.1856936663389206, | |
| "learning_rate": 1.2146666666666667e-05, | |
| "loss": 0.0878, | |
| "step": 36600 | |
| }, | |
| { | |
| "epoch": 2.932, | |
| "grad_norm": 0.16443076729774475, | |
| "learning_rate": 1.148e-05, | |
| "loss": 0.0837, | |
| "step": 36650 | |
| }, | |
| { | |
| "epoch": 2.936, | |
| "grad_norm": 0.16928733885288239, | |
| "learning_rate": 1.0813333333333334e-05, | |
| "loss": 0.0894, | |
| "step": 36700 | |
| }, | |
| { | |
| "epoch": 2.94, | |
| "grad_norm": 0.21032454073429108, | |
| "learning_rate": 1.0146666666666667e-05, | |
| "loss": 0.0835, | |
| "step": 36750 | |
| }, | |
| { | |
| "epoch": 2.944, | |
| "grad_norm": 0.1929883509874344, | |
| "learning_rate": 9.48e-06, | |
| "loss": 0.0851, | |
| "step": 36800 | |
| }, | |
| { | |
| "epoch": 2.948, | |
| "grad_norm": 0.2984227240085602, | |
| "learning_rate": 8.813333333333333e-06, | |
| "loss": 0.0879, | |
| "step": 36850 | |
| }, | |
| { | |
| "epoch": 2.952, | |
| "grad_norm": 0.29494965076446533, | |
| "learning_rate": 8.146666666666666e-06, | |
| "loss": 0.0897, | |
| "step": 36900 | |
| }, | |
| { | |
| "epoch": 2.956, | |
| "grad_norm": 0.22723336517810822, | |
| "learning_rate": 7.4799999999999995e-06, | |
| "loss": 0.0871, | |
| "step": 36950 | |
| }, | |
| { | |
| "epoch": 2.96, | |
| "grad_norm": 0.1965370625257492, | |
| "learning_rate": 6.813333333333334e-06, | |
| "loss": 0.0883, | |
| "step": 37000 | |
| }, | |
| { | |
| "epoch": 2.964, | |
| "grad_norm": 0.3549789786338806, | |
| "learning_rate": 6.1466666666666665e-06, | |
| "loss": 0.0865, | |
| "step": 37050 | |
| }, | |
| { | |
| "epoch": 2.968, | |
| "grad_norm": 0.20470285415649414, | |
| "learning_rate": 5.48e-06, | |
| "loss": 0.0834, | |
| "step": 37100 | |
| }, | |
| { | |
| "epoch": 2.972, | |
| "grad_norm": 0.22195452451705933, | |
| "learning_rate": 4.8133333333333336e-06, | |
| "loss": 0.0825, | |
| "step": 37150 | |
| }, | |
| { | |
| "epoch": 2.976, | |
| "grad_norm": 0.17833751440048218, | |
| "learning_rate": 4.146666666666667e-06, | |
| "loss": 0.0873, | |
| "step": 37200 | |
| }, | |
| { | |
| "epoch": 2.98, | |
| "grad_norm": 0.22353601455688477, | |
| "learning_rate": 3.48e-06, | |
| "loss": 0.0857, | |
| "step": 37250 | |
| }, | |
| { | |
| "epoch": 2.984, | |
| "grad_norm": 0.18735244870185852, | |
| "learning_rate": 2.8133333333333336e-06, | |
| "loss": 0.0838, | |
| "step": 37300 | |
| }, | |
| { | |
| "epoch": 2.988, | |
| "grad_norm": 0.18968529999256134, | |
| "learning_rate": 2.1466666666666667e-06, | |
| "loss": 0.0786, | |
| "step": 37350 | |
| }, | |
| { | |
| "epoch": 2.992, | |
| "grad_norm": 0.1909502148628235, | |
| "learning_rate": 1.48e-06, | |
| "loss": 0.0846, | |
| "step": 37400 | |
| }, | |
| { | |
| "epoch": 2.996, | |
| "grad_norm": 0.1664125770330429, | |
| "learning_rate": 8.133333333333333e-07, | |
| "loss": 0.0808, | |
| "step": 37450 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.15928170084953308, | |
| "learning_rate": 1.4666666666666666e-07, | |
| "loss": 0.0854, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "eval_bleu": 0.7722329696979121, | |
| "eval_cer": 0.04304336097331497, | |
| "eval_f1": 0.8904994643433684, | |
| "eval_loss": 0.06464081257581711, | |
| "eval_meteor": 0.8794012553886823, | |
| "eval_runtime": 381.0164, | |
| "eval_samples_per_second": 13.123, | |
| "eval_steps_per_second": 0.412, | |
| "eval_wer": 0.128871189765601, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "step": 37500, | |
| "total_flos": 3.6863346035471155e+17, | |
| "train_loss": 0.11038784611384074, | |
| "train_runtime": 6824.6117, | |
| "train_samples_per_second": 175.833, | |
| "train_steps_per_second": 5.495 | |
| } | |
| ], | |
| "logging_steps": 50, | |
| "max_steps": 37500, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 3.6863346035471155e+17, | |
| "train_batch_size": 32, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |