| { | |
| "best_global_step": 37500, | |
| "best_metric": 0.3820163309574127, | |
| "best_model_checkpoint": "/work/HauSeq/train_results/results_bart/opus-mt-ha-en/checkpoint-37500", | |
| "epoch": 3.0, | |
| "eval_steps": 500, | |
| "global_step": 37500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.004, | |
| "grad_norm": 0.2092275619506836, | |
| "learning_rate": 0.0004993333333333334, | |
| "loss": 1.6076, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.008, | |
| "grad_norm": 0.19429421424865723, | |
| "learning_rate": 0.0004986666666666667, | |
| "loss": 1.0458, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.012, | |
| "grad_norm": 0.16413410007953644, | |
| "learning_rate": 0.000498, | |
| "loss": 0.9986, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 0.22776064276695251, | |
| "learning_rate": 0.0004973333333333334, | |
| "loss": 0.917, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 0.2378893941640854, | |
| "learning_rate": 0.0004966666666666666, | |
| "loss": 0.8685, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.024, | |
| "grad_norm": 0.22648729383945465, | |
| "learning_rate": 0.000496, | |
| "loss": 0.8854, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.028, | |
| "grad_norm": 0.21825851500034332, | |
| "learning_rate": 0.0004953333333333334, | |
| "loss": 0.85, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 0.23655818402767181, | |
| "learning_rate": 0.0004946666666666667, | |
| "loss": 0.827, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.036, | |
| "grad_norm": 0.22567935287952423, | |
| "learning_rate": 0.000494, | |
| "loss": 0.8075, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 0.25502583384513855, | |
| "learning_rate": 0.0004933333333333334, | |
| "loss": 0.7793, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.044, | |
| "grad_norm": 0.2530737519264221, | |
| "learning_rate": 0.0004926666666666666, | |
| "loss": 0.7396, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 0.21066267788410187, | |
| "learning_rate": 0.000492, | |
| "loss": 0.7633, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.052, | |
| "grad_norm": 0.2631346583366394, | |
| "learning_rate": 0.0004913333333333333, | |
| "loss": 0.7386, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.056, | |
| "grad_norm": 0.2566450238227844, | |
| "learning_rate": 0.0004906666666666667, | |
| "loss": 0.7198, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.32363173365592957, | |
| "learning_rate": 0.00049, | |
| "loss": 0.7249, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 0.32649219036102295, | |
| "learning_rate": 0.0004893333333333334, | |
| "loss": 0.7205, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.068, | |
| "grad_norm": 0.2959788143634796, | |
| "learning_rate": 0.0004886666666666667, | |
| "loss": 0.7081, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.072, | |
| "grad_norm": 0.29660218954086304, | |
| "learning_rate": 0.000488, | |
| "loss": 0.6834, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.076, | |
| "grad_norm": 0.31737223267555237, | |
| "learning_rate": 0.0004873333333333333, | |
| "loss": 0.689, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.25910162925720215, | |
| "learning_rate": 0.0004866666666666667, | |
| "loss": 0.6824, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.084, | |
| "grad_norm": 0.2807078957557678, | |
| "learning_rate": 0.000486, | |
| "loss": 0.6612, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.088, | |
| "grad_norm": 0.2435218095779419, | |
| "learning_rate": 0.00048533333333333333, | |
| "loss": 0.6562, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.092, | |
| "grad_norm": 0.24235914647579193, | |
| "learning_rate": 0.0004846666666666667, | |
| "loss": 0.6341, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 0.25228413939476013, | |
| "learning_rate": 0.000484, | |
| "loss": 0.6719, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.28678834438323975, | |
| "learning_rate": 0.00048333333333333334, | |
| "loss": 0.6499, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 0.104, | |
| "grad_norm": 0.32590362429618835, | |
| "learning_rate": 0.00048266666666666667, | |
| "loss": 0.6559, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.108, | |
| "grad_norm": 0.2543511390686035, | |
| "learning_rate": 0.000482, | |
| "loss": 0.6229, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 0.112, | |
| "grad_norm": 0.3108578324317932, | |
| "learning_rate": 0.00048133333333333334, | |
| "loss": 0.6348, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.116, | |
| "grad_norm": 0.2822752594947815, | |
| "learning_rate": 0.0004806666666666667, | |
| "loss": 0.6329, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 0.24767610430717468, | |
| "learning_rate": 0.00048, | |
| "loss": 0.6423, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.124, | |
| "grad_norm": 0.301263689994812, | |
| "learning_rate": 0.00047933333333333335, | |
| "loss": 0.6211, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 0.128, | |
| "grad_norm": 0.27373722195625305, | |
| "learning_rate": 0.0004786666666666667, | |
| "loss": 0.5986, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.132, | |
| "grad_norm": 0.3386150002479553, | |
| "learning_rate": 0.00047799999999999996, | |
| "loss": 0.6203, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 0.136, | |
| "grad_norm": 0.2716316878795624, | |
| "learning_rate": 0.00047733333333333335, | |
| "loss": 0.6215, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 0.346894234418869, | |
| "learning_rate": 0.0004766666666666667, | |
| "loss": 0.6022, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 0.144, | |
| "grad_norm": 0.281380832195282, | |
| "learning_rate": 0.00047599999999999997, | |
| "loss": 0.599, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.148, | |
| "grad_norm": 0.26682645082473755, | |
| "learning_rate": 0.00047533333333333336, | |
| "loss": 0.6149, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 0.152, | |
| "grad_norm": 0.29206788539886475, | |
| "learning_rate": 0.0004746666666666667, | |
| "loss": 0.624, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.156, | |
| "grad_norm": 0.3583109378814697, | |
| "learning_rate": 0.000474, | |
| "loss": 0.5927, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 0.31711962819099426, | |
| "learning_rate": 0.00047333333333333336, | |
| "loss": 0.6035, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.164, | |
| "grad_norm": 0.4020940959453583, | |
| "learning_rate": 0.0004726666666666667, | |
| "loss": 0.5989, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 0.168, | |
| "grad_norm": 0.35674795508384705, | |
| "learning_rate": 0.000472, | |
| "loss": 0.5828, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.172, | |
| "grad_norm": 0.24146874248981476, | |
| "learning_rate": 0.0004713333333333333, | |
| "loss": 0.5723, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 0.176, | |
| "grad_norm": 0.26548057794570923, | |
| "learning_rate": 0.0004706666666666667, | |
| "loss": 0.5588, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "grad_norm": 0.29983675479888916, | |
| "learning_rate": 0.00047, | |
| "loss": 0.605, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 0.184, | |
| "grad_norm": 0.28184646368026733, | |
| "learning_rate": 0.0004693333333333333, | |
| "loss": 0.5814, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.188, | |
| "grad_norm": 0.2990306615829468, | |
| "learning_rate": 0.0004686666666666667, | |
| "loss": 0.5636, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 0.192, | |
| "grad_norm": 0.2501387596130371, | |
| "learning_rate": 0.00046800000000000005, | |
| "loss": 0.5629, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.196, | |
| "grad_norm": 0.28481775522232056, | |
| "learning_rate": 0.0004673333333333333, | |
| "loss": 0.5898, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.31511107087135315, | |
| "learning_rate": 0.00046666666666666666, | |
| "loss": 0.5521, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.204, | |
| "grad_norm": 0.24317222833633423, | |
| "learning_rate": 0.00046600000000000005, | |
| "loss": 0.5751, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 0.208, | |
| "grad_norm": 0.26296958327293396, | |
| "learning_rate": 0.00046533333333333333, | |
| "loss": 0.5893, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.212, | |
| "grad_norm": 0.30075007677078247, | |
| "learning_rate": 0.00046466666666666667, | |
| "loss": 0.5307, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 0.216, | |
| "grad_norm": 0.34551864862442017, | |
| "learning_rate": 0.00046400000000000006, | |
| "loss": 0.5783, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.22, | |
| "grad_norm": 0.3560803234577179, | |
| "learning_rate": 0.00046333333333333334, | |
| "loss": 0.5645, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 0.224, | |
| "grad_norm": 0.23722952604293823, | |
| "learning_rate": 0.0004626666666666667, | |
| "loss": 0.5312, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.228, | |
| "grad_norm": 0.29451698064804077, | |
| "learning_rate": 0.000462, | |
| "loss": 0.5539, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 0.232, | |
| "grad_norm": 0.29222816228866577, | |
| "learning_rate": 0.00046133333333333334, | |
| "loss": 0.5679, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.236, | |
| "grad_norm": 0.2653771638870239, | |
| "learning_rate": 0.0004606666666666667, | |
| "loss": 0.5726, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 0.36674413084983826, | |
| "learning_rate": 0.00046, | |
| "loss": 0.5455, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.244, | |
| "grad_norm": 0.3437090218067169, | |
| "learning_rate": 0.00045933333333333335, | |
| "loss": 0.5303, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 0.248, | |
| "grad_norm": 0.2822039723396301, | |
| "learning_rate": 0.0004586666666666667, | |
| "loss": 0.5558, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.252, | |
| "grad_norm": 0.3630792498588562, | |
| "learning_rate": 0.000458, | |
| "loss": 0.5303, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 0.31400319933891296, | |
| "learning_rate": 0.0004573333333333333, | |
| "loss": 0.5505, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "grad_norm": 0.26585137844085693, | |
| "learning_rate": 0.0004566666666666667, | |
| "loss": 0.5287, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 0.264, | |
| "grad_norm": 0.280496746301651, | |
| "learning_rate": 0.000456, | |
| "loss": 0.5334, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.268, | |
| "grad_norm": 0.2909296452999115, | |
| "learning_rate": 0.0004553333333333333, | |
| "loss": 0.524, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 0.272, | |
| "grad_norm": 0.2805761992931366, | |
| "learning_rate": 0.0004546666666666667, | |
| "loss": 0.525, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.276, | |
| "grad_norm": 0.28053075075149536, | |
| "learning_rate": 0.00045400000000000003, | |
| "loss": 0.574, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.3268900513648987, | |
| "learning_rate": 0.0004533333333333333, | |
| "loss": 0.5573, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.284, | |
| "grad_norm": 0.26179447770118713, | |
| "learning_rate": 0.00045266666666666665, | |
| "loss": 0.5306, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 0.288, | |
| "grad_norm": 0.2379418909549713, | |
| "learning_rate": 0.00045200000000000004, | |
| "loss": 0.5285, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.292, | |
| "grad_norm": 0.36370590329170227, | |
| "learning_rate": 0.0004513333333333333, | |
| "loss": 0.5624, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 0.296, | |
| "grad_norm": 0.2831771671772003, | |
| "learning_rate": 0.00045066666666666665, | |
| "loss": 0.5541, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.3059931993484497, | |
| "learning_rate": 0.00045000000000000004, | |
| "loss": 0.5547, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 0.304, | |
| "grad_norm": 0.26222649216651917, | |
| "learning_rate": 0.0004493333333333333, | |
| "loss": 0.5497, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.308, | |
| "grad_norm": 0.24700266122817993, | |
| "learning_rate": 0.00044866666666666666, | |
| "loss": 0.5392, | |
| "step": 3850 | |
| }, | |
| { | |
| "epoch": 0.312, | |
| "grad_norm": 0.3365049362182617, | |
| "learning_rate": 0.000448, | |
| "loss": 0.5538, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.316, | |
| "grad_norm": 0.26579147577285767, | |
| "learning_rate": 0.0004473333333333334, | |
| "loss": 0.5482, | |
| "step": 3950 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 0.2766454219818115, | |
| "learning_rate": 0.00044666666666666666, | |
| "loss": 0.5277, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.324, | |
| "grad_norm": 0.2738679349422455, | |
| "learning_rate": 0.000446, | |
| "loss": 0.5227, | |
| "step": 4050 | |
| }, | |
| { | |
| "epoch": 0.328, | |
| "grad_norm": 0.2174311727285385, | |
| "learning_rate": 0.0004453333333333334, | |
| "loss": 0.5155, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.332, | |
| "grad_norm": 0.3532375395298004, | |
| "learning_rate": 0.00044466666666666667, | |
| "loss": 0.5488, | |
| "step": 4150 | |
| }, | |
| { | |
| "epoch": 0.336, | |
| "grad_norm": 0.28046268224716187, | |
| "learning_rate": 0.000444, | |
| "loss": 0.5411, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.34, | |
| "grad_norm": 0.2844601273536682, | |
| "learning_rate": 0.00044333333333333334, | |
| "loss": 0.5466, | |
| "step": 4250 | |
| }, | |
| { | |
| "epoch": 0.344, | |
| "grad_norm": 0.32266369462013245, | |
| "learning_rate": 0.0004426666666666667, | |
| "loss": 0.5548, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.348, | |
| "grad_norm": 0.27451226115226746, | |
| "learning_rate": 0.000442, | |
| "loss": 0.5261, | |
| "step": 4350 | |
| }, | |
| { | |
| "epoch": 0.352, | |
| "grad_norm": 0.3369055390357971, | |
| "learning_rate": 0.00044133333333333335, | |
| "loss": 0.5309, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.356, | |
| "grad_norm": 0.329650342464447, | |
| "learning_rate": 0.0004406666666666667, | |
| "loss": 0.5301, | |
| "step": 4450 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 0.26292499899864197, | |
| "learning_rate": 0.00044, | |
| "loss": 0.5233, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.364, | |
| "grad_norm": 0.37950268387794495, | |
| "learning_rate": 0.00043933333333333335, | |
| "loss": 0.5517, | |
| "step": 4550 | |
| }, | |
| { | |
| "epoch": 0.368, | |
| "grad_norm": 0.2780044376850128, | |
| "learning_rate": 0.00043866666666666663, | |
| "loss": 0.5194, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.372, | |
| "grad_norm": 0.2816406488418579, | |
| "learning_rate": 0.000438, | |
| "loss": 0.5183, | |
| "step": 4650 | |
| }, | |
| { | |
| "epoch": 0.376, | |
| "grad_norm": 0.26864293217658997, | |
| "learning_rate": 0.00043733333333333336, | |
| "loss": 0.5307, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "grad_norm": 0.33374643325805664, | |
| "learning_rate": 0.00043666666666666664, | |
| "loss": 0.5028, | |
| "step": 4750 | |
| }, | |
| { | |
| "epoch": 0.384, | |
| "grad_norm": 0.2985057830810547, | |
| "learning_rate": 0.000436, | |
| "loss": 0.553, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.388, | |
| "grad_norm": 0.3004714548587799, | |
| "learning_rate": 0.00043533333333333336, | |
| "loss": 0.5238, | |
| "step": 4850 | |
| }, | |
| { | |
| "epoch": 0.392, | |
| "grad_norm": 0.3005458116531372, | |
| "learning_rate": 0.00043466666666666664, | |
| "loss": 0.5283, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.396, | |
| "grad_norm": 0.29443225264549255, | |
| "learning_rate": 0.00043400000000000003, | |
| "loss": 0.4893, | |
| "step": 4950 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.28742876648902893, | |
| "learning_rate": 0.00043333333333333337, | |
| "loss": 0.5341, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.404, | |
| "grad_norm": 0.25487369298934937, | |
| "learning_rate": 0.00043266666666666665, | |
| "loss": 0.5188, | |
| "step": 5050 | |
| }, | |
| { | |
| "epoch": 0.408, | |
| "grad_norm": 0.29729726910591125, | |
| "learning_rate": 0.000432, | |
| "loss": 0.5287, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.412, | |
| "grad_norm": 0.22507429122924805, | |
| "learning_rate": 0.0004313333333333334, | |
| "loss": 0.527, | |
| "step": 5150 | |
| }, | |
| { | |
| "epoch": 0.416, | |
| "grad_norm": 0.25595012307167053, | |
| "learning_rate": 0.00043066666666666665, | |
| "loss": 0.5246, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "grad_norm": 0.36088213324546814, | |
| "learning_rate": 0.00043, | |
| "loss": 0.5077, | |
| "step": 5250 | |
| }, | |
| { | |
| "epoch": 0.424, | |
| "grad_norm": 0.2459583580493927, | |
| "learning_rate": 0.0004293333333333334, | |
| "loss": 0.5255, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.428, | |
| "grad_norm": 0.32024478912353516, | |
| "learning_rate": 0.00042866666666666666, | |
| "loss": 0.5221, | |
| "step": 5350 | |
| }, | |
| { | |
| "epoch": 0.432, | |
| "grad_norm": 0.24678969383239746, | |
| "learning_rate": 0.000428, | |
| "loss": 0.505, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.436, | |
| "grad_norm": 0.3292189836502075, | |
| "learning_rate": 0.00042733333333333333, | |
| "loss": 0.5102, | |
| "step": 5450 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 0.28699588775634766, | |
| "learning_rate": 0.0004266666666666667, | |
| "loss": 0.5053, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.444, | |
| "grad_norm": 0.2756653428077698, | |
| "learning_rate": 0.000426, | |
| "loss": 0.5175, | |
| "step": 5550 | |
| }, | |
| { | |
| "epoch": 0.448, | |
| "grad_norm": 0.2923598885536194, | |
| "learning_rate": 0.00042533333333333334, | |
| "loss": 0.4928, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.452, | |
| "grad_norm": 0.24447552859783173, | |
| "learning_rate": 0.0004246666666666667, | |
| "loss": 0.5214, | |
| "step": 5650 | |
| }, | |
| { | |
| "epoch": 0.456, | |
| "grad_norm": 0.1894371509552002, | |
| "learning_rate": 0.000424, | |
| "loss": 0.5062, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "grad_norm": 0.2202080637216568, | |
| "learning_rate": 0.00042333333333333334, | |
| "loss": 0.4852, | |
| "step": 5750 | |
| }, | |
| { | |
| "epoch": 0.464, | |
| "grad_norm": 0.2950378954410553, | |
| "learning_rate": 0.0004226666666666667, | |
| "loss": 0.5255, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.468, | |
| "grad_norm": 0.28961220383644104, | |
| "learning_rate": 0.000422, | |
| "loss": 0.5022, | |
| "step": 5850 | |
| }, | |
| { | |
| "epoch": 0.472, | |
| "grad_norm": 0.27346786856651306, | |
| "learning_rate": 0.00042133333333333335, | |
| "loss": 0.5307, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 0.476, | |
| "grad_norm": 0.24120746552944183, | |
| "learning_rate": 0.0004206666666666667, | |
| "loss": 0.5057, | |
| "step": 5950 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 0.24060021340847015, | |
| "learning_rate": 0.00042, | |
| "loss": 0.4926, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.484, | |
| "grad_norm": 0.3075903356075287, | |
| "learning_rate": 0.00041933333333333335, | |
| "loss": 0.5081, | |
| "step": 6050 | |
| }, | |
| { | |
| "epoch": 0.488, | |
| "grad_norm": 0.3022703528404236, | |
| "learning_rate": 0.0004186666666666667, | |
| "loss": 0.5212, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 0.492, | |
| "grad_norm": 0.3121025860309601, | |
| "learning_rate": 0.00041799999999999997, | |
| "loss": 0.5087, | |
| "step": 6150 | |
| }, | |
| { | |
| "epoch": 0.496, | |
| "grad_norm": 0.2926901578903198, | |
| "learning_rate": 0.00041733333333333336, | |
| "loss": 0.5042, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.3166695237159729, | |
| "learning_rate": 0.0004166666666666667, | |
| "loss": 0.5224, | |
| "step": 6250 | |
| }, | |
| { | |
| "epoch": 0.504, | |
| "grad_norm": 0.3136211037635803, | |
| "learning_rate": 0.000416, | |
| "loss": 0.527, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 0.508, | |
| "grad_norm": 0.26788851618766785, | |
| "learning_rate": 0.00041533333333333336, | |
| "loss": 0.5027, | |
| "step": 6350 | |
| }, | |
| { | |
| "epoch": 0.512, | |
| "grad_norm": 0.3324771225452423, | |
| "learning_rate": 0.0004146666666666667, | |
| "loss": 0.5086, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.516, | |
| "grad_norm": 0.35602742433547974, | |
| "learning_rate": 0.000414, | |
| "loss": 0.5364, | |
| "step": 6450 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 0.25825437903404236, | |
| "learning_rate": 0.0004133333333333333, | |
| "loss": 0.5221, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.524, | |
| "grad_norm": 0.287536084651947, | |
| "learning_rate": 0.0004126666666666667, | |
| "loss": 0.4937, | |
| "step": 6550 | |
| }, | |
| { | |
| "epoch": 0.528, | |
| "grad_norm": 0.29846829175949097, | |
| "learning_rate": 0.000412, | |
| "loss": 0.4978, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.532, | |
| "grad_norm": 0.2870037853717804, | |
| "learning_rate": 0.0004113333333333333, | |
| "loss": 0.5039, | |
| "step": 6650 | |
| }, | |
| { | |
| "epoch": 0.536, | |
| "grad_norm": 0.2645747661590576, | |
| "learning_rate": 0.0004106666666666667, | |
| "loss": 0.4901, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 0.54, | |
| "grad_norm": 0.2969241738319397, | |
| "learning_rate": 0.00041, | |
| "loss": 0.5184, | |
| "step": 6750 | |
| }, | |
| { | |
| "epoch": 0.544, | |
| "grad_norm": 0.2893584966659546, | |
| "learning_rate": 0.0004093333333333333, | |
| "loss": 0.5072, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.548, | |
| "grad_norm": 0.31742063164711, | |
| "learning_rate": 0.00040866666666666666, | |
| "loss": 0.5063, | |
| "step": 6850 | |
| }, | |
| { | |
| "epoch": 0.552, | |
| "grad_norm": 0.42868128418922424, | |
| "learning_rate": 0.000408, | |
| "loss": 0.503, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 0.556, | |
| "grad_norm": 0.23471830785274506, | |
| "learning_rate": 0.00040733333333333333, | |
| "loss": 0.5066, | |
| "step": 6950 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 0.28356945514678955, | |
| "learning_rate": 0.00040666666666666667, | |
| "loss": 0.4905, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.564, | |
| "grad_norm": 0.24515143036842346, | |
| "learning_rate": 0.00040600000000000006, | |
| "loss": 0.4765, | |
| "step": 7050 | |
| }, | |
| { | |
| "epoch": 0.568, | |
| "grad_norm": 0.23990851640701294, | |
| "learning_rate": 0.00040533333333333334, | |
| "loss": 0.5097, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 0.572, | |
| "grad_norm": 0.2748514413833618, | |
| "learning_rate": 0.00040466666666666667, | |
| "loss": 0.536, | |
| "step": 7150 | |
| }, | |
| { | |
| "epoch": 0.576, | |
| "grad_norm": 0.2917095720767975, | |
| "learning_rate": 0.000404, | |
| "loss": 0.4849, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 0.58, | |
| "grad_norm": 0.3138541281223297, | |
| "learning_rate": 0.00040333333333333334, | |
| "loss": 0.4821, | |
| "step": 7250 | |
| }, | |
| { | |
| "epoch": 0.584, | |
| "grad_norm": 0.2899429202079773, | |
| "learning_rate": 0.0004026666666666667, | |
| "loss": 0.5037, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 0.588, | |
| "grad_norm": 0.24574729800224304, | |
| "learning_rate": 0.000402, | |
| "loss": 0.5153, | |
| "step": 7350 | |
| }, | |
| { | |
| "epoch": 0.592, | |
| "grad_norm": 0.29740893840789795, | |
| "learning_rate": 0.00040133333333333335, | |
| "loss": 0.5093, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 0.596, | |
| "grad_norm": 0.33804550766944885, | |
| "learning_rate": 0.0004006666666666667, | |
| "loss": 0.5026, | |
| "step": 7450 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.26722225546836853, | |
| "learning_rate": 0.0004, | |
| "loss": 0.4991, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 0.604, | |
| "grad_norm": 0.3200959861278534, | |
| "learning_rate": 0.0003993333333333333, | |
| "loss": 0.498, | |
| "step": 7550 | |
| }, | |
| { | |
| "epoch": 0.608, | |
| "grad_norm": 0.26669803261756897, | |
| "learning_rate": 0.0003986666666666667, | |
| "loss": 0.4853, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 0.612, | |
| "grad_norm": 0.32375073432922363, | |
| "learning_rate": 0.000398, | |
| "loss": 0.5004, | |
| "step": 7650 | |
| }, | |
| { | |
| "epoch": 0.616, | |
| "grad_norm": 0.2246362268924713, | |
| "learning_rate": 0.0003973333333333333, | |
| "loss": 0.5056, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 0.62, | |
| "grad_norm": 0.2956292927265167, | |
| "learning_rate": 0.0003966666666666667, | |
| "loss": 0.4993, | |
| "step": 7750 | |
| }, | |
| { | |
| "epoch": 0.624, | |
| "grad_norm": 0.2602785527706146, | |
| "learning_rate": 0.00039600000000000003, | |
| "loss": 0.4869, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 0.628, | |
| "grad_norm": 0.2545652687549591, | |
| "learning_rate": 0.0003953333333333333, | |
| "loss": 0.492, | |
| "step": 7850 | |
| }, | |
| { | |
| "epoch": 0.632, | |
| "grad_norm": 0.35370874404907227, | |
| "learning_rate": 0.0003946666666666667, | |
| "loss": 0.4835, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 0.636, | |
| "grad_norm": 0.2842217683792114, | |
| "learning_rate": 0.00039400000000000004, | |
| "loss": 0.4992, | |
| "step": 7950 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 0.26199471950531006, | |
| "learning_rate": 0.0003933333333333333, | |
| "loss": 0.5011, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 0.644, | |
| "grad_norm": 0.3429638743400574, | |
| "learning_rate": 0.00039266666666666665, | |
| "loss": 0.4915, | |
| "step": 8050 | |
| }, | |
| { | |
| "epoch": 0.648, | |
| "grad_norm": 0.2959030270576477, | |
| "learning_rate": 0.00039200000000000004, | |
| "loss": 0.5061, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 0.652, | |
| "grad_norm": 0.2924007177352905, | |
| "learning_rate": 0.0003913333333333333, | |
| "loss": 0.5024, | |
| "step": 8150 | |
| }, | |
| { | |
| "epoch": 0.656, | |
| "grad_norm": 0.25861507654190063, | |
| "learning_rate": 0.00039066666666666666, | |
| "loss": 0.4824, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 0.66, | |
| "grad_norm": 0.3849674165248871, | |
| "learning_rate": 0.00039000000000000005, | |
| "loss": 0.5018, | |
| "step": 8250 | |
| }, | |
| { | |
| "epoch": 0.664, | |
| "grad_norm": 0.29498299956321716, | |
| "learning_rate": 0.00038933333333333333, | |
| "loss": 0.5049, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 0.668, | |
| "grad_norm": 0.316537469625473, | |
| "learning_rate": 0.00038866666666666666, | |
| "loss": 0.4912, | |
| "step": 8350 | |
| }, | |
| { | |
| "epoch": 0.672, | |
| "grad_norm": 0.27407020330429077, | |
| "learning_rate": 0.000388, | |
| "loss": 0.5119, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 0.676, | |
| "grad_norm": 0.2714451551437378, | |
| "learning_rate": 0.00038733333333333333, | |
| "loss": 0.5133, | |
| "step": 8450 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 0.29371556639671326, | |
| "learning_rate": 0.00038666666666666667, | |
| "loss": 0.5088, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 0.684, | |
| "grad_norm": 0.30629292130470276, | |
| "learning_rate": 0.000386, | |
| "loss": 0.4767, | |
| "step": 8550 | |
| }, | |
| { | |
| "epoch": 0.688, | |
| "grad_norm": 0.28031590580940247, | |
| "learning_rate": 0.0003853333333333334, | |
| "loss": 0.5005, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 0.692, | |
| "grad_norm": 0.25535598397254944, | |
| "learning_rate": 0.0003846666666666667, | |
| "loss": 0.5078, | |
| "step": 8650 | |
| }, | |
| { | |
| "epoch": 0.696, | |
| "grad_norm": 0.29329103231430054, | |
| "learning_rate": 0.000384, | |
| "loss": 0.5126, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.2747895121574402, | |
| "learning_rate": 0.00038333333333333334, | |
| "loss": 0.5086, | |
| "step": 8750 | |
| }, | |
| { | |
| "epoch": 0.704, | |
| "grad_norm": 0.25664788484573364, | |
| "learning_rate": 0.0003826666666666667, | |
| "loss": 0.4855, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 0.708, | |
| "grad_norm": 0.25921013951301575, | |
| "learning_rate": 0.000382, | |
| "loss": 0.49, | |
| "step": 8850 | |
| }, | |
| { | |
| "epoch": 0.712, | |
| "grad_norm": 0.26674720644950867, | |
| "learning_rate": 0.00038133333333333335, | |
| "loss": 0.4998, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 0.716, | |
| "grad_norm": 0.3254682123661041, | |
| "learning_rate": 0.0003806666666666667, | |
| "loss": 0.4741, | |
| "step": 8950 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 0.31250348687171936, | |
| "learning_rate": 0.00038, | |
| "loss": 0.5087, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 0.724, | |
| "grad_norm": 0.3126009702682495, | |
| "learning_rate": 0.00037933333333333336, | |
| "loss": 0.5051, | |
| "step": 9050 | |
| }, | |
| { | |
| "epoch": 0.728, | |
| "grad_norm": 0.298431396484375, | |
| "learning_rate": 0.00037866666666666664, | |
| "loss": 0.4892, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 0.732, | |
| "grad_norm": 0.24428126215934753, | |
| "learning_rate": 0.000378, | |
| "loss": 0.4953, | |
| "step": 9150 | |
| }, | |
| { | |
| "epoch": 0.736, | |
| "grad_norm": 0.23693284392356873, | |
| "learning_rate": 0.00037734666666666667, | |
| "loss": 0.5244, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 0.74, | |
| "grad_norm": 0.3449302911758423, | |
| "learning_rate": 0.00037668, | |
| "loss": 0.4747, | |
| "step": 9250 | |
| }, | |
| { | |
| "epoch": 0.744, | |
| "grad_norm": 0.3592759966850281, | |
| "learning_rate": 0.00037601333333333334, | |
| "loss": 0.4828, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 0.748, | |
| "grad_norm": 0.3167342245578766, | |
| "learning_rate": 0.0003753466666666667, | |
| "loss": 0.5001, | |
| "step": 9350 | |
| }, | |
| { | |
| "epoch": 0.752, | |
| "grad_norm": 0.32248446345329285, | |
| "learning_rate": 0.00037468, | |
| "loss": 0.485, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 0.756, | |
| "grad_norm": 0.25082477927207947, | |
| "learning_rate": 0.0003740133333333333, | |
| "loss": 0.4911, | |
| "step": 9450 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 0.2677770256996155, | |
| "learning_rate": 0.0003733466666666667, | |
| "loss": 0.504, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 0.764, | |
| "grad_norm": 0.24622194468975067, | |
| "learning_rate": 0.00037268, | |
| "loss": 0.5292, | |
| "step": 9550 | |
| }, | |
| { | |
| "epoch": 0.768, | |
| "grad_norm": 0.3372747004032135, | |
| "learning_rate": 0.0003720133333333333, | |
| "loss": 0.5291, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 0.772, | |
| "grad_norm": 0.3163023293018341, | |
| "learning_rate": 0.0003713466666666667, | |
| "loss": 0.4858, | |
| "step": 9650 | |
| }, | |
| { | |
| "epoch": 0.776, | |
| "grad_norm": 0.26732876896858215, | |
| "learning_rate": 0.00037068, | |
| "loss": 0.4571, | |
| "step": 9700 | |
| }, | |
| { | |
| "epoch": 0.78, | |
| "grad_norm": 0.36321815848350525, | |
| "learning_rate": 0.00037001333333333336, | |
| "loss": 0.4917, | |
| "step": 9750 | |
| }, | |
| { | |
| "epoch": 0.784, | |
| "grad_norm": 0.25806257128715515, | |
| "learning_rate": 0.00036934666666666664, | |
| "loss": 0.4576, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 0.788, | |
| "grad_norm": 0.35081419348716736, | |
| "learning_rate": 0.00036868000000000003, | |
| "loss": 0.4898, | |
| "step": 9850 | |
| }, | |
| { | |
| "epoch": 0.792, | |
| "grad_norm": 0.2805069088935852, | |
| "learning_rate": 0.00036801333333333336, | |
| "loss": 0.4735, | |
| "step": 9900 | |
| }, | |
| { | |
| "epoch": 0.796, | |
| "grad_norm": 0.2621886730194092, | |
| "learning_rate": 0.00036734666666666664, | |
| "loss": 0.4903, | |
| "step": 9950 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.2226247787475586, | |
| "learning_rate": 0.00036668000000000003, | |
| "loss": 0.4979, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 0.804, | |
| "grad_norm": 0.3263295292854309, | |
| "learning_rate": 0.00036601333333333337, | |
| "loss": 0.4898, | |
| "step": 10050 | |
| }, | |
| { | |
| "epoch": 0.808, | |
| "grad_norm": 0.3030853867530823, | |
| "learning_rate": 0.00036534666666666665, | |
| "loss": 0.4873, | |
| "step": 10100 | |
| }, | |
| { | |
| "epoch": 0.812, | |
| "grad_norm": 0.29938003420829773, | |
| "learning_rate": 0.00036468000000000004, | |
| "loss": 0.4866, | |
| "step": 10150 | |
| }, | |
| { | |
| "epoch": 0.816, | |
| "grad_norm": 0.2580682039260864, | |
| "learning_rate": 0.0003640133333333334, | |
| "loss": 0.4822, | |
| "step": 10200 | |
| }, | |
| { | |
| "epoch": 0.82, | |
| "grad_norm": 0.2789117693901062, | |
| "learning_rate": 0.00036334666666666666, | |
| "loss": 0.5055, | |
| "step": 10250 | |
| }, | |
| { | |
| "epoch": 0.824, | |
| "grad_norm": 0.26500239968299866, | |
| "learning_rate": 0.00036268, | |
| "loss": 0.4812, | |
| "step": 10300 | |
| }, | |
| { | |
| "epoch": 0.828, | |
| "grad_norm": 0.235749751329422, | |
| "learning_rate": 0.0003620133333333334, | |
| "loss": 0.4972, | |
| "step": 10350 | |
| }, | |
| { | |
| "epoch": 0.832, | |
| "grad_norm": 0.31979885697364807, | |
| "learning_rate": 0.00036134666666666666, | |
| "loss": 0.474, | |
| "step": 10400 | |
| }, | |
| { | |
| "epoch": 0.836, | |
| "grad_norm": 0.3086276352405548, | |
| "learning_rate": 0.00036068, | |
| "loss": 0.4794, | |
| "step": 10450 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 0.3262246251106262, | |
| "learning_rate": 0.0003600133333333334, | |
| "loss": 0.5247, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 0.844, | |
| "grad_norm": 0.2597404718399048, | |
| "learning_rate": 0.00035934666666666667, | |
| "loss": 0.4766, | |
| "step": 10550 | |
| }, | |
| { | |
| "epoch": 0.848, | |
| "grad_norm": 0.2788718640804291, | |
| "learning_rate": 0.00035868, | |
| "loss": 0.4772, | |
| "step": 10600 | |
| }, | |
| { | |
| "epoch": 0.852, | |
| "grad_norm": 0.30522826313972473, | |
| "learning_rate": 0.00035801333333333334, | |
| "loss": 0.4706, | |
| "step": 10650 | |
| }, | |
| { | |
| "epoch": 0.856, | |
| "grad_norm": 0.3109700679779053, | |
| "learning_rate": 0.00035734666666666667, | |
| "loss": 0.5005, | |
| "step": 10700 | |
| }, | |
| { | |
| "epoch": 0.86, | |
| "grad_norm": 0.34049564599990845, | |
| "learning_rate": 0.00035668, | |
| "loss": 0.4835, | |
| "step": 10750 | |
| }, | |
| { | |
| "epoch": 0.864, | |
| "grad_norm": 0.363732248544693, | |
| "learning_rate": 0.00035601333333333334, | |
| "loss": 0.4722, | |
| "step": 10800 | |
| }, | |
| { | |
| "epoch": 0.868, | |
| "grad_norm": 0.24134613573551178, | |
| "learning_rate": 0.0003553466666666667, | |
| "loss": 0.4813, | |
| "step": 10850 | |
| }, | |
| { | |
| "epoch": 0.872, | |
| "grad_norm": 0.24610887467861176, | |
| "learning_rate": 0.00035468, | |
| "loss": 0.4928, | |
| "step": 10900 | |
| }, | |
| { | |
| "epoch": 0.876, | |
| "grad_norm": 0.2842523157596588, | |
| "learning_rate": 0.00035401333333333335, | |
| "loss": 0.5107, | |
| "step": 10950 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 0.28073206543922424, | |
| "learning_rate": 0.00035334666666666663, | |
| "loss": 0.5066, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 0.884, | |
| "grad_norm": 0.3019973039627075, | |
| "learning_rate": 0.00035268, | |
| "loss": 0.4579, | |
| "step": 11050 | |
| }, | |
| { | |
| "epoch": 0.888, | |
| "grad_norm": 0.28878089785575867, | |
| "learning_rate": 0.00035201333333333335, | |
| "loss": 0.4786, | |
| "step": 11100 | |
| }, | |
| { | |
| "epoch": 0.892, | |
| "grad_norm": 0.343481183052063, | |
| "learning_rate": 0.00035134666666666663, | |
| "loss": 0.4873, | |
| "step": 11150 | |
| }, | |
| { | |
| "epoch": 0.896, | |
| "grad_norm": 0.2982073426246643, | |
| "learning_rate": 0.00035068, | |
| "loss": 0.4782, | |
| "step": 11200 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 0.26956865191459656, | |
| "learning_rate": 0.00035001333333333336, | |
| "loss": 0.5048, | |
| "step": 11250 | |
| }, | |
| { | |
| "epoch": 0.904, | |
| "grad_norm": 0.3186506927013397, | |
| "learning_rate": 0.0003493466666666667, | |
| "loss": 0.4989, | |
| "step": 11300 | |
| }, | |
| { | |
| "epoch": 0.908, | |
| "grad_norm": 0.2686464786529541, | |
| "learning_rate": 0.00034868, | |
| "loss": 0.4793, | |
| "step": 11350 | |
| }, | |
| { | |
| "epoch": 0.912, | |
| "grad_norm": 0.3437965512275696, | |
| "learning_rate": 0.00034801333333333336, | |
| "loss": 0.4868, | |
| "step": 11400 | |
| }, | |
| { | |
| "epoch": 0.916, | |
| "grad_norm": 0.30162402987480164, | |
| "learning_rate": 0.0003473466666666667, | |
| "loss": 0.4768, | |
| "step": 11450 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 0.2590392529964447, | |
| "learning_rate": 0.00034668, | |
| "loss": 0.5218, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 0.924, | |
| "grad_norm": 0.25861477851867676, | |
| "learning_rate": 0.00034601333333333337, | |
| "loss": 0.514, | |
| "step": 11550 | |
| }, | |
| { | |
| "epoch": 0.928, | |
| "grad_norm": 0.33041343092918396, | |
| "learning_rate": 0.0003453466666666667, | |
| "loss": 0.4927, | |
| "step": 11600 | |
| }, | |
| { | |
| "epoch": 0.932, | |
| "grad_norm": 0.31611981987953186, | |
| "learning_rate": 0.00034468, | |
| "loss": 0.4677, | |
| "step": 11650 | |
| }, | |
| { | |
| "epoch": 0.936, | |
| "grad_norm": 0.2589157223701477, | |
| "learning_rate": 0.0003440133333333333, | |
| "loss": 0.4782, | |
| "step": 11700 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "grad_norm": 0.38315385580062866, | |
| "learning_rate": 0.0003433466666666667, | |
| "loss": 0.4829, | |
| "step": 11750 | |
| }, | |
| { | |
| "epoch": 0.944, | |
| "grad_norm": 0.25485607981681824, | |
| "learning_rate": 0.00034268, | |
| "loss": 0.4698, | |
| "step": 11800 | |
| }, | |
| { | |
| "epoch": 0.948, | |
| "grad_norm": 0.21316327154636383, | |
| "learning_rate": 0.00034201333333333333, | |
| "loss": 0.4749, | |
| "step": 11850 | |
| }, | |
| { | |
| "epoch": 0.952, | |
| "grad_norm": 0.3039748966693878, | |
| "learning_rate": 0.0003413466666666667, | |
| "loss": 0.4785, | |
| "step": 11900 | |
| }, | |
| { | |
| "epoch": 0.956, | |
| "grad_norm": 0.26846805214881897, | |
| "learning_rate": 0.00034068, | |
| "loss": 0.4882, | |
| "step": 11950 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 0.23608337342739105, | |
| "learning_rate": 0.00034001333333333333, | |
| "loss": 0.4675, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 0.964, | |
| "grad_norm": 0.25088703632354736, | |
| "learning_rate": 0.00033934666666666667, | |
| "loss": 0.4792, | |
| "step": 12050 | |
| }, | |
| { | |
| "epoch": 0.968, | |
| "grad_norm": 0.22274646162986755, | |
| "learning_rate": 0.00033868, | |
| "loss": 0.4723, | |
| "step": 12100 | |
| }, | |
| { | |
| "epoch": 0.972, | |
| "grad_norm": 0.29319432377815247, | |
| "learning_rate": 0.00033801333333333334, | |
| "loss": 0.4849, | |
| "step": 12150 | |
| }, | |
| { | |
| "epoch": 0.976, | |
| "grad_norm": 0.3388037383556366, | |
| "learning_rate": 0.0003373466666666667, | |
| "loss": 0.4897, | |
| "step": 12200 | |
| }, | |
| { | |
| "epoch": 0.98, | |
| "grad_norm": 0.23492126166820526, | |
| "learning_rate": 0.00033668, | |
| "loss": 0.4793, | |
| "step": 12250 | |
| }, | |
| { | |
| "epoch": 0.984, | |
| "grad_norm": 0.24990254640579224, | |
| "learning_rate": 0.00033601333333333334, | |
| "loss": 0.487, | |
| "step": 12300 | |
| }, | |
| { | |
| "epoch": 0.988, | |
| "grad_norm": 0.35828229784965515, | |
| "learning_rate": 0.0003353466666666667, | |
| "loss": 0.4754, | |
| "step": 12350 | |
| }, | |
| { | |
| "epoch": 0.992, | |
| "grad_norm": 0.3121952414512634, | |
| "learning_rate": 0.00033467999999999996, | |
| "loss": 0.4709, | |
| "step": 12400 | |
| }, | |
| { | |
| "epoch": 0.996, | |
| "grad_norm": 0.31305962800979614, | |
| "learning_rate": 0.00033401333333333335, | |
| "loss": 0.4826, | |
| "step": 12450 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.36394309997558594, | |
| "learning_rate": 0.0003333466666666667, | |
| "loss": 0.4955, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_bleu": 0.31633361709195856, | |
| "eval_cer": 0.3026747580955153, | |
| "eval_f1": 0.599540907309233, | |
| "eval_loss": 0.40856873989105225, | |
| "eval_meteor": 0.5806295876419754, | |
| "eval_runtime": 240.7283, | |
| "eval_samples_per_second": 20.77, | |
| "eval_steps_per_second": 0.652, | |
| "eval_wer": 0.5200205971260555, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.004, | |
| "grad_norm": 0.2500036060810089, | |
| "learning_rate": 0.00033267999999999997, | |
| "loss": 0.4812, | |
| "step": 12550 | |
| }, | |
| { | |
| "epoch": 1.008, | |
| "grad_norm": 0.2867385149002075, | |
| "learning_rate": 0.00033201333333333336, | |
| "loss": 0.4682, | |
| "step": 12600 | |
| }, | |
| { | |
| "epoch": 1.012, | |
| "grad_norm": 0.3150795102119446, | |
| "learning_rate": 0.00033136, | |
| "loss": 0.4735, | |
| "step": 12650 | |
| }, | |
| { | |
| "epoch": 1.016, | |
| "grad_norm": 0.28218817710876465, | |
| "learning_rate": 0.00033069333333333333, | |
| "loss": 0.4744, | |
| "step": 12700 | |
| }, | |
| { | |
| "epoch": 1.02, | |
| "grad_norm": 0.30784672498703003, | |
| "learning_rate": 0.0003300266666666667, | |
| "loss": 0.4768, | |
| "step": 12750 | |
| }, | |
| { | |
| "epoch": 1.024, | |
| "grad_norm": 0.2979671359062195, | |
| "learning_rate": 0.00032936, | |
| "loss": 0.4874, | |
| "step": 12800 | |
| }, | |
| { | |
| "epoch": 1.028, | |
| "grad_norm": 0.2744097411632538, | |
| "learning_rate": 0.00032869333333333334, | |
| "loss": 0.473, | |
| "step": 12850 | |
| }, | |
| { | |
| "epoch": 1.032, | |
| "grad_norm": 0.282791405916214, | |
| "learning_rate": 0.0003280266666666667, | |
| "loss": 0.475, | |
| "step": 12900 | |
| }, | |
| { | |
| "epoch": 1.036, | |
| "grad_norm": 0.3006061315536499, | |
| "learning_rate": 0.00032736, | |
| "loss": 0.4709, | |
| "step": 12950 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 0.2986580729484558, | |
| "learning_rate": 0.00032669333333333335, | |
| "loss": 0.4856, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 1.044, | |
| "grad_norm": 0.3223816752433777, | |
| "learning_rate": 0.0003260266666666667, | |
| "loss": 0.4704, | |
| "step": 13050 | |
| }, | |
| { | |
| "epoch": 1.048, | |
| "grad_norm": 0.23746663331985474, | |
| "learning_rate": 0.00032536, | |
| "loss": 0.5102, | |
| "step": 13100 | |
| }, | |
| { | |
| "epoch": 1.052, | |
| "grad_norm": 0.35792630910873413, | |
| "learning_rate": 0.00032469333333333335, | |
| "loss": 0.4577, | |
| "step": 13150 | |
| }, | |
| { | |
| "epoch": 1.056, | |
| "grad_norm": 0.2772007882595062, | |
| "learning_rate": 0.0003240266666666667, | |
| "loss": 0.4649, | |
| "step": 13200 | |
| }, | |
| { | |
| "epoch": 1.06, | |
| "grad_norm": 0.2817031741142273, | |
| "learning_rate": 0.00032335999999999997, | |
| "loss": 0.4747, | |
| "step": 13250 | |
| }, | |
| { | |
| "epoch": 1.064, | |
| "grad_norm": 0.3015364408493042, | |
| "learning_rate": 0.00032269333333333336, | |
| "loss": 0.4766, | |
| "step": 13300 | |
| }, | |
| { | |
| "epoch": 1.068, | |
| "grad_norm": 0.2547887861728668, | |
| "learning_rate": 0.0003220266666666667, | |
| "loss": 0.4557, | |
| "step": 13350 | |
| }, | |
| { | |
| "epoch": 1.072, | |
| "grad_norm": 0.23996621370315552, | |
| "learning_rate": 0.00032135999999999997, | |
| "loss": 0.4683, | |
| "step": 13400 | |
| }, | |
| { | |
| "epoch": 1.076, | |
| "grad_norm": 0.2721744477748871, | |
| "learning_rate": 0.00032069333333333336, | |
| "loss": 0.4846, | |
| "step": 13450 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 0.28801387548446655, | |
| "learning_rate": 0.0003200266666666667, | |
| "loss": 0.503, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 1.084, | |
| "grad_norm": 0.3717672526836395, | |
| "learning_rate": 0.00031936, | |
| "loss": 0.4839, | |
| "step": 13550 | |
| }, | |
| { | |
| "epoch": 1.088, | |
| "grad_norm": 0.3002767264842987, | |
| "learning_rate": 0.0003186933333333333, | |
| "loss": 0.4679, | |
| "step": 13600 | |
| }, | |
| { | |
| "epoch": 1.092, | |
| "grad_norm": 0.23872257769107819, | |
| "learning_rate": 0.0003180266666666667, | |
| "loss": 0.4636, | |
| "step": 13650 | |
| }, | |
| { | |
| "epoch": 1.096, | |
| "grad_norm": 0.26545438170433044, | |
| "learning_rate": 0.00031736, | |
| "loss": 0.4935, | |
| "step": 13700 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 0.25952640175819397, | |
| "learning_rate": 0.0003166933333333333, | |
| "loss": 0.4792, | |
| "step": 13750 | |
| }, | |
| { | |
| "epoch": 1.104, | |
| "grad_norm": 0.28248780965805054, | |
| "learning_rate": 0.0003160266666666667, | |
| "loss": 0.4697, | |
| "step": 13800 | |
| }, | |
| { | |
| "epoch": 1.108, | |
| "grad_norm": 0.30348455905914307, | |
| "learning_rate": 0.00031536, | |
| "loss": 0.4755, | |
| "step": 13850 | |
| }, | |
| { | |
| "epoch": 1.112, | |
| "grad_norm": 0.2926234006881714, | |
| "learning_rate": 0.0003146933333333333, | |
| "loss": 0.4638, | |
| "step": 13900 | |
| }, | |
| { | |
| "epoch": 1.116, | |
| "grad_norm": 0.3370034694671631, | |
| "learning_rate": 0.00031402666666666666, | |
| "loss": 0.5214, | |
| "step": 13950 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 0.30350279808044434, | |
| "learning_rate": 0.00031336000000000005, | |
| "loss": 0.4753, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 1.124, | |
| "grad_norm": 0.2867070734500885, | |
| "learning_rate": 0.00031269333333333333, | |
| "loss": 0.4633, | |
| "step": 14050 | |
| }, | |
| { | |
| "epoch": 1.1280000000000001, | |
| "grad_norm": 0.23236282169818878, | |
| "learning_rate": 0.00031202666666666667, | |
| "loss": 0.4741, | |
| "step": 14100 | |
| }, | |
| { | |
| "epoch": 1.1320000000000001, | |
| "grad_norm": 0.32306379079818726, | |
| "learning_rate": 0.00031136000000000005, | |
| "loss": 0.4961, | |
| "step": 14150 | |
| }, | |
| { | |
| "epoch": 1.1360000000000001, | |
| "grad_norm": 0.3291684091091156, | |
| "learning_rate": 0.00031069333333333334, | |
| "loss": 0.5087, | |
| "step": 14200 | |
| }, | |
| { | |
| "epoch": 1.1400000000000001, | |
| "grad_norm": 0.27017146348953247, | |
| "learning_rate": 0.00031002666666666667, | |
| "loss": 0.4822, | |
| "step": 14250 | |
| }, | |
| { | |
| "epoch": 1.144, | |
| "grad_norm": 0.35017845034599304, | |
| "learning_rate": 0.00030936, | |
| "loss": 0.4983, | |
| "step": 14300 | |
| }, | |
| { | |
| "epoch": 1.148, | |
| "grad_norm": 0.3788470923900604, | |
| "learning_rate": 0.00030869333333333334, | |
| "loss": 0.4608, | |
| "step": 14350 | |
| }, | |
| { | |
| "epoch": 1.152, | |
| "grad_norm": 0.2836882174015045, | |
| "learning_rate": 0.0003080266666666667, | |
| "loss": 0.4775, | |
| "step": 14400 | |
| }, | |
| { | |
| "epoch": 1.156, | |
| "grad_norm": 0.3272930085659027, | |
| "learning_rate": 0.00030736, | |
| "loss": 0.4871, | |
| "step": 14450 | |
| }, | |
| { | |
| "epoch": 1.16, | |
| "grad_norm": 0.27939507365226746, | |
| "learning_rate": 0.00030669333333333335, | |
| "loss": 0.4753, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 1.164, | |
| "grad_norm": 0.23815886676311493, | |
| "learning_rate": 0.0003060266666666667, | |
| "loss": 0.4696, | |
| "step": 14550 | |
| }, | |
| { | |
| "epoch": 1.168, | |
| "grad_norm": 0.274541974067688, | |
| "learning_rate": 0.00030536, | |
| "loss": 0.4739, | |
| "step": 14600 | |
| }, | |
| { | |
| "epoch": 1.172, | |
| "grad_norm": 0.24817168712615967, | |
| "learning_rate": 0.0003046933333333333, | |
| "loss": 0.483, | |
| "step": 14650 | |
| }, | |
| { | |
| "epoch": 1.176, | |
| "grad_norm": 0.27509042620658875, | |
| "learning_rate": 0.0003040266666666667, | |
| "loss": 0.4898, | |
| "step": 14700 | |
| }, | |
| { | |
| "epoch": 1.18, | |
| "grad_norm": 0.276006817817688, | |
| "learning_rate": 0.00030336, | |
| "loss": 0.4609, | |
| "step": 14750 | |
| }, | |
| { | |
| "epoch": 1.184, | |
| "grad_norm": 0.30276405811309814, | |
| "learning_rate": 0.0003026933333333333, | |
| "loss": 0.4823, | |
| "step": 14800 | |
| }, | |
| { | |
| "epoch": 1.188, | |
| "grad_norm": 0.2664280831813812, | |
| "learning_rate": 0.00030204, | |
| "loss": 0.4647, | |
| "step": 14850 | |
| }, | |
| { | |
| "epoch": 1.192, | |
| "grad_norm": 0.20124799013137817, | |
| "learning_rate": 0.00030137333333333334, | |
| "loss": 0.4552, | |
| "step": 14900 | |
| }, | |
| { | |
| "epoch": 1.196, | |
| "grad_norm": 0.2490241974592209, | |
| "learning_rate": 0.00030070666666666667, | |
| "loss": 0.4614, | |
| "step": 14950 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.30199629068374634, | |
| "learning_rate": 0.00030003999999999995, | |
| "loss": 0.4797, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 1.204, | |
| "grad_norm": 0.3190577030181885, | |
| "learning_rate": 0.00029937333333333334, | |
| "loss": 0.4696, | |
| "step": 15050 | |
| }, | |
| { | |
| "epoch": 1.208, | |
| "grad_norm": 0.31624796986579895, | |
| "learning_rate": 0.0002987066666666667, | |
| "loss": 0.502, | |
| "step": 15100 | |
| }, | |
| { | |
| "epoch": 1.212, | |
| "grad_norm": 0.2972472310066223, | |
| "learning_rate": 0.00029804, | |
| "loss": 0.4785, | |
| "step": 15150 | |
| }, | |
| { | |
| "epoch": 1.216, | |
| "grad_norm": 0.2509859800338745, | |
| "learning_rate": 0.00029737333333333335, | |
| "loss": 0.4831, | |
| "step": 15200 | |
| }, | |
| { | |
| "epoch": 1.22, | |
| "grad_norm": 0.33859002590179443, | |
| "learning_rate": 0.0002967066666666667, | |
| "loss": 0.4866, | |
| "step": 15250 | |
| }, | |
| { | |
| "epoch": 1.224, | |
| "grad_norm": 0.3096024692058563, | |
| "learning_rate": 0.00029604, | |
| "loss": 0.4798, | |
| "step": 15300 | |
| }, | |
| { | |
| "epoch": 1.228, | |
| "grad_norm": 0.2664068341255188, | |
| "learning_rate": 0.00029537333333333335, | |
| "loss": 0.4899, | |
| "step": 15350 | |
| }, | |
| { | |
| "epoch": 1.232, | |
| "grad_norm": 0.2894981801509857, | |
| "learning_rate": 0.0002947066666666667, | |
| "loss": 0.4577, | |
| "step": 15400 | |
| }, | |
| { | |
| "epoch": 1.236, | |
| "grad_norm": 0.31407004594802856, | |
| "learning_rate": 0.00029404, | |
| "loss": 0.4933, | |
| "step": 15450 | |
| }, | |
| { | |
| "epoch": 1.24, | |
| "grad_norm": 0.29782843589782715, | |
| "learning_rate": 0.0002933733333333333, | |
| "loss": 0.4569, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 1.244, | |
| "grad_norm": 0.29805317521095276, | |
| "learning_rate": 0.0002927066666666667, | |
| "loss": 0.4851, | |
| "step": 15550 | |
| }, | |
| { | |
| "epoch": 1.248, | |
| "grad_norm": 0.27355390787124634, | |
| "learning_rate": 0.00029204000000000003, | |
| "loss": 0.4691, | |
| "step": 15600 | |
| }, | |
| { | |
| "epoch": 1.252, | |
| "grad_norm": 0.2702775001525879, | |
| "learning_rate": 0.0002913733333333333, | |
| "loss": 0.4778, | |
| "step": 15650 | |
| }, | |
| { | |
| "epoch": 1.256, | |
| "grad_norm": 0.2955879271030426, | |
| "learning_rate": 0.0002907066666666667, | |
| "loss": 0.4646, | |
| "step": 15700 | |
| }, | |
| { | |
| "epoch": 1.26, | |
| "grad_norm": 0.3229389488697052, | |
| "learning_rate": 0.00029004000000000004, | |
| "loss": 0.491, | |
| "step": 15750 | |
| }, | |
| { | |
| "epoch": 1.264, | |
| "grad_norm": 0.23525162041187286, | |
| "learning_rate": 0.0002893733333333333, | |
| "loss": 0.4692, | |
| "step": 15800 | |
| }, | |
| { | |
| "epoch": 1.268, | |
| "grad_norm": 0.289009690284729, | |
| "learning_rate": 0.00028870666666666665, | |
| "loss": 0.4899, | |
| "step": 15850 | |
| }, | |
| { | |
| "epoch": 1.272, | |
| "grad_norm": 0.32057586312294006, | |
| "learning_rate": 0.00028804000000000004, | |
| "loss": 0.4644, | |
| "step": 15900 | |
| }, | |
| { | |
| "epoch": 1.276, | |
| "grad_norm": 0.30154454708099365, | |
| "learning_rate": 0.0002873733333333333, | |
| "loss": 0.4955, | |
| "step": 15950 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 0.2960298955440521, | |
| "learning_rate": 0.00028670666666666666, | |
| "loss": 0.4797, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 1.284, | |
| "grad_norm": 0.28514572978019714, | |
| "learning_rate": 0.00028604000000000005, | |
| "loss": 0.4699, | |
| "step": 16050 | |
| }, | |
| { | |
| "epoch": 1.288, | |
| "grad_norm": 0.3209136128425598, | |
| "learning_rate": 0.00028537333333333333, | |
| "loss": 0.488, | |
| "step": 16100 | |
| }, | |
| { | |
| "epoch": 1.292, | |
| "grad_norm": 0.22408682107925415, | |
| "learning_rate": 0.00028470666666666666, | |
| "loss": 0.4655, | |
| "step": 16150 | |
| }, | |
| { | |
| "epoch": 1.296, | |
| "grad_norm": 0.29021069407463074, | |
| "learning_rate": 0.00028404, | |
| "loss": 0.4862, | |
| "step": 16200 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 0.29265522956848145, | |
| "learning_rate": 0.00028337333333333333, | |
| "loss": 0.4482, | |
| "step": 16250 | |
| }, | |
| { | |
| "epoch": 1.304, | |
| "grad_norm": 0.26601076126098633, | |
| "learning_rate": 0.00028270666666666667, | |
| "loss": 0.4509, | |
| "step": 16300 | |
| }, | |
| { | |
| "epoch": 1.308, | |
| "grad_norm": 0.3104246258735657, | |
| "learning_rate": 0.00028204, | |
| "loss": 0.4479, | |
| "step": 16350 | |
| }, | |
| { | |
| "epoch": 1.312, | |
| "grad_norm": 0.3156643509864807, | |
| "learning_rate": 0.00028137333333333334, | |
| "loss": 0.4964, | |
| "step": 16400 | |
| }, | |
| { | |
| "epoch": 1.316, | |
| "grad_norm": 0.2647090554237366, | |
| "learning_rate": 0.0002807066666666667, | |
| "loss": 0.4921, | |
| "step": 16450 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 0.28769049048423767, | |
| "learning_rate": 0.00028004, | |
| "loss": 0.4549, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 1.324, | |
| "grad_norm": 0.3155941069126129, | |
| "learning_rate": 0.0002793733333333333, | |
| "loss": 0.4536, | |
| "step": 16550 | |
| }, | |
| { | |
| "epoch": 1.328, | |
| "grad_norm": 0.3364107310771942, | |
| "learning_rate": 0.0002787066666666667, | |
| "loss": 0.4719, | |
| "step": 16600 | |
| }, | |
| { | |
| "epoch": 1.332, | |
| "grad_norm": 0.2532012462615967, | |
| "learning_rate": 0.00027804, | |
| "loss": 0.4723, | |
| "step": 16650 | |
| }, | |
| { | |
| "epoch": 1.336, | |
| "grad_norm": 0.3144409656524658, | |
| "learning_rate": 0.00027737333333333335, | |
| "loss": 0.4654, | |
| "step": 16700 | |
| }, | |
| { | |
| "epoch": 1.34, | |
| "grad_norm": 0.24520185589790344, | |
| "learning_rate": 0.0002767066666666667, | |
| "loss": 0.4774, | |
| "step": 16750 | |
| }, | |
| { | |
| "epoch": 1.3439999999999999, | |
| "grad_norm": 0.26547014713287354, | |
| "learning_rate": 0.00027604, | |
| "loss": 0.5014, | |
| "step": 16800 | |
| }, | |
| { | |
| "epoch": 1.3479999999999999, | |
| "grad_norm": 0.34588199853897095, | |
| "learning_rate": 0.00027537333333333336, | |
| "loss": 0.4698, | |
| "step": 16850 | |
| }, | |
| { | |
| "epoch": 1.3519999999999999, | |
| "grad_norm": 0.23689764738082886, | |
| "learning_rate": 0.00027470666666666664, | |
| "loss": 0.4527, | |
| "step": 16900 | |
| }, | |
| { | |
| "epoch": 1.3559999999999999, | |
| "grad_norm": 0.28324463963508606, | |
| "learning_rate": 0.00027404, | |
| "loss": 0.4828, | |
| "step": 16950 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 0.3084874153137207, | |
| "learning_rate": 0.00027337333333333336, | |
| "loss": 0.4666, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 1.3639999999999999, | |
| "grad_norm": 0.3006160855293274, | |
| "learning_rate": 0.00027270666666666664, | |
| "loss": 0.4417, | |
| "step": 17050 | |
| }, | |
| { | |
| "epoch": 1.3679999999999999, | |
| "grad_norm": 0.3295688033103943, | |
| "learning_rate": 0.00027204000000000003, | |
| "loss": 0.4746, | |
| "step": 17100 | |
| }, | |
| { | |
| "epoch": 1.3719999999999999, | |
| "grad_norm": 0.24469783902168274, | |
| "learning_rate": 0.00027137333333333337, | |
| "loss": 0.4769, | |
| "step": 17150 | |
| }, | |
| { | |
| "epoch": 1.376, | |
| "grad_norm": 0.3538406491279602, | |
| "learning_rate": 0.00027070666666666665, | |
| "loss": 0.4645, | |
| "step": 17200 | |
| }, | |
| { | |
| "epoch": 1.38, | |
| "grad_norm": 0.31772086024284363, | |
| "learning_rate": 0.00027004, | |
| "loss": 0.4822, | |
| "step": 17250 | |
| }, | |
| { | |
| "epoch": 1.384, | |
| "grad_norm": 0.3570919632911682, | |
| "learning_rate": 0.00026937333333333337, | |
| "loss": 0.4478, | |
| "step": 17300 | |
| }, | |
| { | |
| "epoch": 1.388, | |
| "grad_norm": 0.2592201232910156, | |
| "learning_rate": 0.00026870666666666665, | |
| "loss": 0.4605, | |
| "step": 17350 | |
| }, | |
| { | |
| "epoch": 1.392, | |
| "grad_norm": 0.2992711365222931, | |
| "learning_rate": 0.00026804, | |
| "loss": 0.4507, | |
| "step": 17400 | |
| }, | |
| { | |
| "epoch": 1.396, | |
| "grad_norm": 0.22785666584968567, | |
| "learning_rate": 0.0002673733333333334, | |
| "loss": 0.4515, | |
| "step": 17450 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 0.3160172700881958, | |
| "learning_rate": 0.00026670666666666666, | |
| "loss": 0.4746, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 1.404, | |
| "grad_norm": 0.2995624244213104, | |
| "learning_rate": 0.00026604, | |
| "loss": 0.4717, | |
| "step": 17550 | |
| }, | |
| { | |
| "epoch": 1.408, | |
| "grad_norm": 0.20798690617084503, | |
| "learning_rate": 0.00026537333333333333, | |
| "loss": 0.4568, | |
| "step": 17600 | |
| }, | |
| { | |
| "epoch": 1.412, | |
| "grad_norm": 0.27740103006362915, | |
| "learning_rate": 0.00026470666666666666, | |
| "loss": 0.4895, | |
| "step": 17650 | |
| }, | |
| { | |
| "epoch": 1.416, | |
| "grad_norm": 0.28020384907722473, | |
| "learning_rate": 0.00026404, | |
| "loss": 0.4738, | |
| "step": 17700 | |
| }, | |
| { | |
| "epoch": 1.42, | |
| "grad_norm": 0.41296902298927307, | |
| "learning_rate": 0.00026337333333333333, | |
| "loss": 0.4751, | |
| "step": 17750 | |
| }, | |
| { | |
| "epoch": 1.424, | |
| "grad_norm": 0.27197784185409546, | |
| "learning_rate": 0.00026270666666666667, | |
| "loss": 0.455, | |
| "step": 17800 | |
| }, | |
| { | |
| "epoch": 1.428, | |
| "grad_norm": 0.40654972195625305, | |
| "learning_rate": 0.00026204, | |
| "loss": 0.4736, | |
| "step": 17850 | |
| }, | |
| { | |
| "epoch": 1.432, | |
| "grad_norm": 0.2697378098964691, | |
| "learning_rate": 0.00026137333333333334, | |
| "loss": 0.453, | |
| "step": 17900 | |
| }, | |
| { | |
| "epoch": 1.436, | |
| "grad_norm": 0.3013555407524109, | |
| "learning_rate": 0.0002607066666666666, | |
| "loss": 0.4621, | |
| "step": 17950 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 0.24706317484378815, | |
| "learning_rate": 0.00026004, | |
| "loss": 0.4848, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 1.444, | |
| "grad_norm": 0.27455249428749084, | |
| "learning_rate": 0.00025937333333333335, | |
| "loss": 0.4659, | |
| "step": 18050 | |
| }, | |
| { | |
| "epoch": 1.448, | |
| "grad_norm": 0.27741050720214844, | |
| "learning_rate": 0.0002587066666666666, | |
| "loss": 0.4873, | |
| "step": 18100 | |
| }, | |
| { | |
| "epoch": 1.452, | |
| "grad_norm": 0.2550397217273712, | |
| "learning_rate": 0.00025804, | |
| "loss": 0.478, | |
| "step": 18150 | |
| }, | |
| { | |
| "epoch": 1.456, | |
| "grad_norm": 0.29555752873420715, | |
| "learning_rate": 0.00025737333333333335, | |
| "loss": 0.4496, | |
| "step": 18200 | |
| }, | |
| { | |
| "epoch": 1.46, | |
| "grad_norm": 0.2709548771381378, | |
| "learning_rate": 0.0002567066666666667, | |
| "loss": 0.4811, | |
| "step": 18250 | |
| }, | |
| { | |
| "epoch": 1.464, | |
| "grad_norm": 0.2967120110988617, | |
| "learning_rate": 0.00025604, | |
| "loss": 0.4851, | |
| "step": 18300 | |
| }, | |
| { | |
| "epoch": 1.468, | |
| "grad_norm": 0.31517747044563293, | |
| "learning_rate": 0.00025537333333333336, | |
| "loss": 0.4586, | |
| "step": 18350 | |
| }, | |
| { | |
| "epoch": 1.472, | |
| "grad_norm": 0.2162676900625229, | |
| "learning_rate": 0.0002547066666666667, | |
| "loss": 0.4695, | |
| "step": 18400 | |
| }, | |
| { | |
| "epoch": 1.476, | |
| "grad_norm": 0.31056004762649536, | |
| "learning_rate": 0.00025404, | |
| "loss": 0.4484, | |
| "step": 18450 | |
| }, | |
| { | |
| "epoch": 1.48, | |
| "grad_norm": 0.32838574051856995, | |
| "learning_rate": 0.00025337333333333336, | |
| "loss": 0.4852, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 1.484, | |
| "grad_norm": 0.2534690201282501, | |
| "learning_rate": 0.0002527066666666667, | |
| "loss": 0.4575, | |
| "step": 18550 | |
| }, | |
| { | |
| "epoch": 1.488, | |
| "grad_norm": 0.2541729509830475, | |
| "learning_rate": 0.00025204, | |
| "loss": 0.4567, | |
| "step": 18600 | |
| }, | |
| { | |
| "epoch": 1.492, | |
| "grad_norm": 0.28390800952911377, | |
| "learning_rate": 0.00025137333333333337, | |
| "loss": 0.475, | |
| "step": 18650 | |
| }, | |
| { | |
| "epoch": 1.496, | |
| "grad_norm": 0.3094373643398285, | |
| "learning_rate": 0.0002507066666666667, | |
| "loss": 0.4579, | |
| "step": 18700 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.25698211789131165, | |
| "learning_rate": 0.00025004, | |
| "loss": 0.4574, | |
| "step": 18750 | |
| }, | |
| { | |
| "epoch": 1.504, | |
| "grad_norm": 0.2955055236816406, | |
| "learning_rate": 0.0002493733333333333, | |
| "loss": 0.4542, | |
| "step": 18800 | |
| }, | |
| { | |
| "epoch": 1.508, | |
| "grad_norm": 0.27750635147094727, | |
| "learning_rate": 0.00024870666666666665, | |
| "loss": 0.4475, | |
| "step": 18850 | |
| }, | |
| { | |
| "epoch": 1.512, | |
| "grad_norm": 0.3643854260444641, | |
| "learning_rate": 0.0002480533333333333, | |
| "loss": 0.4545, | |
| "step": 18900 | |
| }, | |
| { | |
| "epoch": 1.516, | |
| "grad_norm": 0.2834565341472626, | |
| "learning_rate": 0.0002473866666666667, | |
| "loss": 0.4753, | |
| "step": 18950 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 0.2682524621486664, | |
| "learning_rate": 0.00024672, | |
| "loss": 0.464, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 1.524, | |
| "grad_norm": 0.26153242588043213, | |
| "learning_rate": 0.00024605333333333336, | |
| "loss": 0.4622, | |
| "step": 19050 | |
| }, | |
| { | |
| "epoch": 1.528, | |
| "grad_norm": 0.2866336405277252, | |
| "learning_rate": 0.0002453866666666667, | |
| "loss": 0.458, | |
| "step": 19100 | |
| }, | |
| { | |
| "epoch": 1.532, | |
| "grad_norm": 0.23598459362983704, | |
| "learning_rate": 0.00024472, | |
| "loss": 0.4743, | |
| "step": 19150 | |
| }, | |
| { | |
| "epoch": 1.536, | |
| "grad_norm": 0.2445322722196579, | |
| "learning_rate": 0.00024405333333333334, | |
| "loss": 0.4531, | |
| "step": 19200 | |
| }, | |
| { | |
| "epoch": 1.54, | |
| "grad_norm": 0.28900501132011414, | |
| "learning_rate": 0.00024338666666666667, | |
| "loss": 0.4672, | |
| "step": 19250 | |
| }, | |
| { | |
| "epoch": 1.544, | |
| "grad_norm": 0.29762062430381775, | |
| "learning_rate": 0.00024272, | |
| "loss": 0.481, | |
| "step": 19300 | |
| }, | |
| { | |
| "epoch": 1.548, | |
| "grad_norm": 0.345310777425766, | |
| "learning_rate": 0.00024205333333333334, | |
| "loss": 0.47, | |
| "step": 19350 | |
| }, | |
| { | |
| "epoch": 1.552, | |
| "grad_norm": 0.2770834267139435, | |
| "learning_rate": 0.0002414, | |
| "loss": 0.4584, | |
| "step": 19400 | |
| }, | |
| { | |
| "epoch": 1.556, | |
| "grad_norm": 0.25502651929855347, | |
| "learning_rate": 0.00024073333333333332, | |
| "loss": 0.4592, | |
| "step": 19450 | |
| }, | |
| { | |
| "epoch": 1.56, | |
| "grad_norm": 0.3983103930950165, | |
| "learning_rate": 0.00024006666666666668, | |
| "loss": 0.4736, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 1.564, | |
| "grad_norm": 0.26423758268356323, | |
| "learning_rate": 0.00023940000000000002, | |
| "loss": 0.4681, | |
| "step": 19550 | |
| }, | |
| { | |
| "epoch": 1.568, | |
| "grad_norm": 0.3226359784603119, | |
| "learning_rate": 0.00023873333333333333, | |
| "loss": 0.438, | |
| "step": 19600 | |
| }, | |
| { | |
| "epoch": 1.572, | |
| "grad_norm": 0.2670074701309204, | |
| "learning_rate": 0.0002380666666666667, | |
| "loss": 0.4769, | |
| "step": 19650 | |
| }, | |
| { | |
| "epoch": 1.576, | |
| "grad_norm": 0.22759200632572174, | |
| "learning_rate": 0.0002374, | |
| "loss": 0.4616, | |
| "step": 19700 | |
| }, | |
| { | |
| "epoch": 1.58, | |
| "grad_norm": 0.2426389902830124, | |
| "learning_rate": 0.00023673333333333333, | |
| "loss": 0.4457, | |
| "step": 19750 | |
| }, | |
| { | |
| "epoch": 1.584, | |
| "grad_norm": 0.2860774099826813, | |
| "learning_rate": 0.00023606666666666667, | |
| "loss": 0.4861, | |
| "step": 19800 | |
| }, | |
| { | |
| "epoch": 1.588, | |
| "grad_norm": 0.2793583273887634, | |
| "learning_rate": 0.0002354, | |
| "loss": 0.4716, | |
| "step": 19850 | |
| }, | |
| { | |
| "epoch": 1.592, | |
| "grad_norm": 0.276412695646286, | |
| "learning_rate": 0.00023473333333333334, | |
| "loss": 0.4806, | |
| "step": 19900 | |
| }, | |
| { | |
| "epoch": 1.596, | |
| "grad_norm": 0.2666271924972534, | |
| "learning_rate": 0.00023406666666666667, | |
| "loss": 0.4793, | |
| "step": 19950 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.2800932824611664, | |
| "learning_rate": 0.0002334, | |
| "loss": 0.4657, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 1.604, | |
| "grad_norm": 0.25909069180488586, | |
| "learning_rate": 0.00023273333333333332, | |
| "loss": 0.47, | |
| "step": 20050 | |
| }, | |
| { | |
| "epoch": 1.608, | |
| "grad_norm": 0.24460501968860626, | |
| "learning_rate": 0.00023206666666666668, | |
| "loss": 0.4824, | |
| "step": 20100 | |
| }, | |
| { | |
| "epoch": 1.612, | |
| "grad_norm": 0.2733166515827179, | |
| "learning_rate": 0.00023141333333333335, | |
| "loss": 0.4568, | |
| "step": 20150 | |
| }, | |
| { | |
| "epoch": 1.616, | |
| "grad_norm": 0.22740538418293, | |
| "learning_rate": 0.00023074666666666666, | |
| "loss": 0.4736, | |
| "step": 20200 | |
| }, | |
| { | |
| "epoch": 1.62, | |
| "grad_norm": 0.2770317494869232, | |
| "learning_rate": 0.00023008000000000002, | |
| "loss": 0.459, | |
| "step": 20250 | |
| }, | |
| { | |
| "epoch": 1.624, | |
| "grad_norm": 0.2701035737991333, | |
| "learning_rate": 0.00022941333333333333, | |
| "loss": 0.4438, | |
| "step": 20300 | |
| }, | |
| { | |
| "epoch": 1.6280000000000001, | |
| "grad_norm": 0.2947094738483429, | |
| "learning_rate": 0.00022874666666666666, | |
| "loss": 0.4623, | |
| "step": 20350 | |
| }, | |
| { | |
| "epoch": 1.6320000000000001, | |
| "grad_norm": 0.24584254622459412, | |
| "learning_rate": 0.00022808, | |
| "loss": 0.4546, | |
| "step": 20400 | |
| }, | |
| { | |
| "epoch": 1.6360000000000001, | |
| "grad_norm": 0.30227118730545044, | |
| "learning_rate": 0.00022741333333333333, | |
| "loss": 0.4332, | |
| "step": 20450 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 0.3074963688850403, | |
| "learning_rate": 0.0002267466666666667, | |
| "loss": 0.47, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 1.6440000000000001, | |
| "grad_norm": 0.2765690088272095, | |
| "learning_rate": 0.00022608, | |
| "loss": 0.4442, | |
| "step": 20550 | |
| }, | |
| { | |
| "epoch": 1.6480000000000001, | |
| "grad_norm": 0.3042277693748474, | |
| "learning_rate": 0.00022541333333333334, | |
| "loss": 0.4717, | |
| "step": 20600 | |
| }, | |
| { | |
| "epoch": 1.6520000000000001, | |
| "grad_norm": 0.3536015748977661, | |
| "learning_rate": 0.00022474666666666667, | |
| "loss": 0.4722, | |
| "step": 20650 | |
| }, | |
| { | |
| "epoch": 1.6560000000000001, | |
| "grad_norm": 0.24768327176570892, | |
| "learning_rate": 0.00022408, | |
| "loss": 0.4518, | |
| "step": 20700 | |
| }, | |
| { | |
| "epoch": 1.6600000000000001, | |
| "grad_norm": 0.265460342168808, | |
| "learning_rate": 0.00022341333333333332, | |
| "loss": 0.4695, | |
| "step": 20750 | |
| }, | |
| { | |
| "epoch": 1.6640000000000001, | |
| "grad_norm": 0.2603040337562561, | |
| "learning_rate": 0.00022274666666666668, | |
| "loss": 0.4855, | |
| "step": 20800 | |
| }, | |
| { | |
| "epoch": 1.6680000000000001, | |
| "grad_norm": 0.2699715495109558, | |
| "learning_rate": 0.00022208000000000002, | |
| "loss": 0.4807, | |
| "step": 20850 | |
| }, | |
| { | |
| "epoch": 1.6720000000000002, | |
| "grad_norm": 0.2546932101249695, | |
| "learning_rate": 0.00022141333333333332, | |
| "loss": 0.4644, | |
| "step": 20900 | |
| }, | |
| { | |
| "epoch": 1.6760000000000002, | |
| "grad_norm": 0.26244810223579407, | |
| "learning_rate": 0.00022074666666666669, | |
| "loss": 0.4546, | |
| "step": 20950 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 0.298951119184494, | |
| "learning_rate": 0.00022008, | |
| "loss": 0.4809, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 1.6840000000000002, | |
| "grad_norm": 0.37903425097465515, | |
| "learning_rate": 0.00021941333333333333, | |
| "loss": 0.4772, | |
| "step": 21050 | |
| }, | |
| { | |
| "epoch": 1.688, | |
| "grad_norm": 0.7026617527008057, | |
| "learning_rate": 0.00021874666666666666, | |
| "loss": 0.4678, | |
| "step": 21100 | |
| }, | |
| { | |
| "epoch": 1.692, | |
| "grad_norm": 0.25089162588119507, | |
| "learning_rate": 0.00021808, | |
| "loss": 0.4641, | |
| "step": 21150 | |
| }, | |
| { | |
| "epoch": 1.696, | |
| "grad_norm": 0.328753262758255, | |
| "learning_rate": 0.00021741333333333333, | |
| "loss": 0.4663, | |
| "step": 21200 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 0.28294557332992554, | |
| "learning_rate": 0.00021674666666666667, | |
| "loss": 0.4478, | |
| "step": 21250 | |
| }, | |
| { | |
| "epoch": 1.704, | |
| "grad_norm": 0.22784091532230377, | |
| "learning_rate": 0.00021608, | |
| "loss": 0.4683, | |
| "step": 21300 | |
| }, | |
| { | |
| "epoch": 1.708, | |
| "grad_norm": 0.37249916791915894, | |
| "learning_rate": 0.00021541333333333334, | |
| "loss": 0.4565, | |
| "step": 21350 | |
| }, | |
| { | |
| "epoch": 1.712, | |
| "grad_norm": 0.4652419686317444, | |
| "learning_rate": 0.00021474666666666668, | |
| "loss": 0.4668, | |
| "step": 21400 | |
| }, | |
| { | |
| "epoch": 1.716, | |
| "grad_norm": 0.2790099084377289, | |
| "learning_rate": 0.00021408, | |
| "loss": 0.4567, | |
| "step": 21450 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "grad_norm": 0.28255659341812134, | |
| "learning_rate": 0.00021341333333333335, | |
| "loss": 0.4456, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 1.724, | |
| "grad_norm": 0.28610745072364807, | |
| "learning_rate": 0.00021274666666666668, | |
| "loss": 0.4758, | |
| "step": 21550 | |
| }, | |
| { | |
| "epoch": 1.728, | |
| "grad_norm": 0.29554563760757446, | |
| "learning_rate": 0.00021208, | |
| "loss": 0.4542, | |
| "step": 21600 | |
| }, | |
| { | |
| "epoch": 1.732, | |
| "grad_norm": 0.2769472301006317, | |
| "learning_rate": 0.00021141333333333335, | |
| "loss": 0.4551, | |
| "step": 21650 | |
| }, | |
| { | |
| "epoch": 1.736, | |
| "grad_norm": 0.3376840353012085, | |
| "learning_rate": 0.00021074666666666666, | |
| "loss": 0.4634, | |
| "step": 21700 | |
| }, | |
| { | |
| "epoch": 1.74, | |
| "grad_norm": 0.2753366231918335, | |
| "learning_rate": 0.00021008, | |
| "loss": 0.436, | |
| "step": 21750 | |
| }, | |
| { | |
| "epoch": 1.744, | |
| "grad_norm": 0.3832499086856842, | |
| "learning_rate": 0.00020941333333333336, | |
| "loss": 0.4596, | |
| "step": 21800 | |
| }, | |
| { | |
| "epoch": 1.748, | |
| "grad_norm": 0.2914954721927643, | |
| "learning_rate": 0.00020874666666666666, | |
| "loss": 0.4736, | |
| "step": 21850 | |
| }, | |
| { | |
| "epoch": 1.752, | |
| "grad_norm": 0.2752770483493805, | |
| "learning_rate": 0.00020808, | |
| "loss": 0.4822, | |
| "step": 21900 | |
| }, | |
| { | |
| "epoch": 1.756, | |
| "grad_norm": 0.3437884747982025, | |
| "learning_rate": 0.00020741333333333334, | |
| "loss": 0.4554, | |
| "step": 21950 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 0.2697654664516449, | |
| "learning_rate": 0.00020674666666666667, | |
| "loss": 0.4533, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 1.764, | |
| "grad_norm": 0.3043977916240692, | |
| "learning_rate": 0.00020608, | |
| "loss": 0.4763, | |
| "step": 22050 | |
| }, | |
| { | |
| "epoch": 1.768, | |
| "grad_norm": 0.3610328435897827, | |
| "learning_rate": 0.00020541333333333334, | |
| "loss": 0.4652, | |
| "step": 22100 | |
| }, | |
| { | |
| "epoch": 1.772, | |
| "grad_norm": 0.2615935206413269, | |
| "learning_rate": 0.00020474666666666668, | |
| "loss": 0.4678, | |
| "step": 22150 | |
| }, | |
| { | |
| "epoch": 1.776, | |
| "grad_norm": 0.28010860085487366, | |
| "learning_rate": 0.00020408, | |
| "loss": 0.4569, | |
| "step": 22200 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "grad_norm": 0.27897879481315613, | |
| "learning_rate": 0.00020341333333333335, | |
| "loss": 0.4604, | |
| "step": 22250 | |
| }, | |
| { | |
| "epoch": 1.784, | |
| "grad_norm": 0.37449902296066284, | |
| "learning_rate": 0.00020274666666666665, | |
| "loss": 0.4496, | |
| "step": 22300 | |
| }, | |
| { | |
| "epoch": 1.788, | |
| "grad_norm": 0.4321173131465912, | |
| "learning_rate": 0.00020208000000000002, | |
| "loss": 0.4519, | |
| "step": 22350 | |
| }, | |
| { | |
| "epoch": 1.792, | |
| "grad_norm": 0.3634038269519806, | |
| "learning_rate": 0.00020141333333333332, | |
| "loss": 0.4319, | |
| "step": 22400 | |
| }, | |
| { | |
| "epoch": 1.796, | |
| "grad_norm": 0.2457379549741745, | |
| "learning_rate": 0.00020074666666666666, | |
| "loss": 0.4321, | |
| "step": 22450 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 0.2036055028438568, | |
| "learning_rate": 0.00020008000000000002, | |
| "loss": 0.4482, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 1.804, | |
| "grad_norm": 0.22888793051242828, | |
| "learning_rate": 0.00019941333333333333, | |
| "loss": 0.4598, | |
| "step": 22550 | |
| }, | |
| { | |
| "epoch": 1.808, | |
| "grad_norm": 0.28881940245628357, | |
| "learning_rate": 0.00019874666666666667, | |
| "loss": 0.4597, | |
| "step": 22600 | |
| }, | |
| { | |
| "epoch": 1.812, | |
| "grad_norm": 0.35653358697891235, | |
| "learning_rate": 0.00019808, | |
| "loss": 0.468, | |
| "step": 22650 | |
| }, | |
| { | |
| "epoch": 1.8159999999999998, | |
| "grad_norm": 0.3056986629962921, | |
| "learning_rate": 0.00019741333333333334, | |
| "loss": 0.4705, | |
| "step": 22700 | |
| }, | |
| { | |
| "epoch": 1.8199999999999998, | |
| "grad_norm": 0.3083111345767975, | |
| "learning_rate": 0.00019674666666666664, | |
| "loss": 0.4618, | |
| "step": 22750 | |
| }, | |
| { | |
| "epoch": 1.8239999999999998, | |
| "grad_norm": 0.2887648642063141, | |
| "learning_rate": 0.00019608, | |
| "loss": 0.4618, | |
| "step": 22800 | |
| }, | |
| { | |
| "epoch": 1.8279999999999998, | |
| "grad_norm": 0.308720201253891, | |
| "learning_rate": 0.00019541333333333334, | |
| "loss": 0.4641, | |
| "step": 22850 | |
| }, | |
| { | |
| "epoch": 1.8319999999999999, | |
| "grad_norm": 0.32696419954299927, | |
| "learning_rate": 0.00019474666666666668, | |
| "loss": 0.4411, | |
| "step": 22900 | |
| }, | |
| { | |
| "epoch": 1.8359999999999999, | |
| "grad_norm": 0.29909035563468933, | |
| "learning_rate": 0.00019408, | |
| "loss": 0.4526, | |
| "step": 22950 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 0.27794134616851807, | |
| "learning_rate": 0.00019341333333333332, | |
| "loss": 0.4621, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 1.8439999999999999, | |
| "grad_norm": 0.2632865309715271, | |
| "learning_rate": 0.00019274666666666668, | |
| "loss": 0.4497, | |
| "step": 23050 | |
| }, | |
| { | |
| "epoch": 1.8479999999999999, | |
| "grad_norm": 0.253614604473114, | |
| "learning_rate": 0.00019208000000000002, | |
| "loss": 0.4662, | |
| "step": 23100 | |
| }, | |
| { | |
| "epoch": 1.8519999999999999, | |
| "grad_norm": 0.2354058176279068, | |
| "learning_rate": 0.00019141333333333333, | |
| "loss": 0.45, | |
| "step": 23150 | |
| }, | |
| { | |
| "epoch": 1.8559999999999999, | |
| "grad_norm": 0.2517555356025696, | |
| "learning_rate": 0.0001907466666666667, | |
| "loss": 0.4364, | |
| "step": 23200 | |
| }, | |
| { | |
| "epoch": 1.8599999999999999, | |
| "grad_norm": 0.33812275528907776, | |
| "learning_rate": 0.00019008, | |
| "loss": 0.4593, | |
| "step": 23250 | |
| }, | |
| { | |
| "epoch": 1.8639999999999999, | |
| "grad_norm": 0.2925659418106079, | |
| "learning_rate": 0.00018941333333333333, | |
| "loss": 0.4775, | |
| "step": 23300 | |
| }, | |
| { | |
| "epoch": 1.8679999999999999, | |
| "grad_norm": 0.2653798758983612, | |
| "learning_rate": 0.00018874666666666667, | |
| "loss": 0.4871, | |
| "step": 23350 | |
| }, | |
| { | |
| "epoch": 1.8719999999999999, | |
| "grad_norm": 0.30115747451782227, | |
| "learning_rate": 0.00018808, | |
| "loss": 0.4709, | |
| "step": 23400 | |
| }, | |
| { | |
| "epoch": 1.876, | |
| "grad_norm": 0.36089083552360535, | |
| "learning_rate": 0.00018741333333333334, | |
| "loss": 0.4604, | |
| "step": 23450 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "grad_norm": 0.3408987522125244, | |
| "learning_rate": 0.00018674666666666667, | |
| "loss": 0.4802, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 1.884, | |
| "grad_norm": 0.2501823902130127, | |
| "learning_rate": 0.00018608, | |
| "loss": 0.447, | |
| "step": 23550 | |
| }, | |
| { | |
| "epoch": 1.888, | |
| "grad_norm": 0.3086705803871155, | |
| "learning_rate": 0.00018541333333333334, | |
| "loss": 0.4746, | |
| "step": 23600 | |
| }, | |
| { | |
| "epoch": 1.892, | |
| "grad_norm": 0.2390304058790207, | |
| "learning_rate": 0.00018474666666666668, | |
| "loss": 0.4553, | |
| "step": 23650 | |
| }, | |
| { | |
| "epoch": 1.896, | |
| "grad_norm": 0.3000665605068207, | |
| "learning_rate": 0.00018407999999999999, | |
| "loss": 0.4457, | |
| "step": 23700 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 0.2494654506444931, | |
| "learning_rate": 0.00018341333333333335, | |
| "loss": 0.4562, | |
| "step": 23750 | |
| }, | |
| { | |
| "epoch": 1.904, | |
| "grad_norm": 0.2544473111629486, | |
| "learning_rate": 0.00018274666666666668, | |
| "loss": 0.4639, | |
| "step": 23800 | |
| }, | |
| { | |
| "epoch": 1.908, | |
| "grad_norm": 0.27693989872932434, | |
| "learning_rate": 0.00018208, | |
| "loss": 0.4678, | |
| "step": 23850 | |
| }, | |
| { | |
| "epoch": 1.912, | |
| "grad_norm": 0.276531845331192, | |
| "learning_rate": 0.00018141333333333335, | |
| "loss": 0.4504, | |
| "step": 23900 | |
| }, | |
| { | |
| "epoch": 1.916, | |
| "grad_norm": 0.2995479106903076, | |
| "learning_rate": 0.00018074666666666666, | |
| "loss": 0.453, | |
| "step": 23950 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 0.3349391520023346, | |
| "learning_rate": 0.00018008, | |
| "loss": 0.4563, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 1.924, | |
| "grad_norm": 0.29086410999298096, | |
| "learning_rate": 0.00017941333333333333, | |
| "loss": 0.47, | |
| "step": 24050 | |
| }, | |
| { | |
| "epoch": 1.928, | |
| "grad_norm": 0.29417112469673157, | |
| "learning_rate": 0.00017874666666666667, | |
| "loss": 0.4711, | |
| "step": 24100 | |
| }, | |
| { | |
| "epoch": 1.932, | |
| "grad_norm": 0.2554011642932892, | |
| "learning_rate": 0.00017808, | |
| "loss": 0.4463, | |
| "step": 24150 | |
| }, | |
| { | |
| "epoch": 1.936, | |
| "grad_norm": 0.3205755352973938, | |
| "learning_rate": 0.00017741333333333334, | |
| "loss": 0.4661, | |
| "step": 24200 | |
| }, | |
| { | |
| "epoch": 1.94, | |
| "grad_norm": 0.275869756937027, | |
| "learning_rate": 0.00017674666666666667, | |
| "loss": 0.4241, | |
| "step": 24250 | |
| }, | |
| { | |
| "epoch": 1.944, | |
| "grad_norm": 0.45462125539779663, | |
| "learning_rate": 0.00017607999999999998, | |
| "loss": 0.4607, | |
| "step": 24300 | |
| }, | |
| { | |
| "epoch": 1.948, | |
| "grad_norm": 0.29895463585853577, | |
| "learning_rate": 0.00017541333333333334, | |
| "loss": 0.4706, | |
| "step": 24350 | |
| }, | |
| { | |
| "epoch": 1.952, | |
| "grad_norm": 0.3111779987812042, | |
| "learning_rate": 0.00017474666666666665, | |
| "loss": 0.4651, | |
| "step": 24400 | |
| }, | |
| { | |
| "epoch": 1.956, | |
| "grad_norm": 0.36759302020072937, | |
| "learning_rate": 0.00017408000000000001, | |
| "loss": 0.4512, | |
| "step": 24450 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "grad_norm": 0.2587209939956665, | |
| "learning_rate": 0.00017341333333333335, | |
| "loss": 0.4468, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 1.964, | |
| "grad_norm": 0.2650446891784668, | |
| "learning_rate": 0.00017276, | |
| "loss": 0.4742, | |
| "step": 24550 | |
| }, | |
| { | |
| "epoch": 1.968, | |
| "grad_norm": 0.3336881399154663, | |
| "learning_rate": 0.00017209333333333333, | |
| "loss": 0.4841, | |
| "step": 24600 | |
| }, | |
| { | |
| "epoch": 1.972, | |
| "grad_norm": 0.2946482002735138, | |
| "learning_rate": 0.00017142666666666666, | |
| "loss": 0.4521, | |
| "step": 24650 | |
| }, | |
| { | |
| "epoch": 1.976, | |
| "grad_norm": 0.3213157057762146, | |
| "learning_rate": 0.00017076, | |
| "loss": 0.4424, | |
| "step": 24700 | |
| }, | |
| { | |
| "epoch": 1.98, | |
| "grad_norm": 0.2885224223136902, | |
| "learning_rate": 0.00017009333333333336, | |
| "loss": 0.4614, | |
| "step": 24750 | |
| }, | |
| { | |
| "epoch": 1.984, | |
| "grad_norm": 0.25760945677757263, | |
| "learning_rate": 0.00016942666666666667, | |
| "loss": 0.4313, | |
| "step": 24800 | |
| }, | |
| { | |
| "epoch": 1.988, | |
| "grad_norm": 0.2988007366657257, | |
| "learning_rate": 0.00016876, | |
| "loss": 0.4334, | |
| "step": 24850 | |
| }, | |
| { | |
| "epoch": 1.992, | |
| "grad_norm": 0.22181323170661926, | |
| "learning_rate": 0.00016809333333333334, | |
| "loss": 0.4677, | |
| "step": 24900 | |
| }, | |
| { | |
| "epoch": 1.996, | |
| "grad_norm": 0.2706112861633301, | |
| "learning_rate": 0.00016742666666666667, | |
| "loss": 0.4428, | |
| "step": 24950 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.28647464513778687, | |
| "learning_rate": 0.00016675999999999998, | |
| "loss": 0.4557, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_bleu": 0.3319147755107139, | |
| "eval_cer": 0.2906991050268772, | |
| "eval_f1": 0.6107819257639036, | |
| "eval_loss": 0.3888804018497467, | |
| "eval_meteor": 0.5967403227260373, | |
| "eval_runtime": 238.6886, | |
| "eval_samples_per_second": 20.948, | |
| "eval_steps_per_second": 0.658, | |
| "eval_wer": 0.5211065464680894, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.004, | |
| "grad_norm": 0.2939594089984894, | |
| "learning_rate": 0.00016609333333333334, | |
| "loss": 0.4605, | |
| "step": 25050 | |
| }, | |
| { | |
| "epoch": 2.008, | |
| "grad_norm": 0.25819525122642517, | |
| "learning_rate": 0.00016542666666666668, | |
| "loss": 0.4444, | |
| "step": 25100 | |
| }, | |
| { | |
| "epoch": 2.012, | |
| "grad_norm": 0.3204494118690491, | |
| "learning_rate": 0.00016476, | |
| "loss": 0.4371, | |
| "step": 25150 | |
| }, | |
| { | |
| "epoch": 2.016, | |
| "grad_norm": 0.22696028649806976, | |
| "learning_rate": 0.00016409333333333335, | |
| "loss": 0.4563, | |
| "step": 25200 | |
| }, | |
| { | |
| "epoch": 2.02, | |
| "grad_norm": 0.30907168984413147, | |
| "learning_rate": 0.00016342666666666666, | |
| "loss": 0.4589, | |
| "step": 25250 | |
| }, | |
| { | |
| "epoch": 2.024, | |
| "grad_norm": 0.24826285243034363, | |
| "learning_rate": 0.00016276, | |
| "loss": 0.4665, | |
| "step": 25300 | |
| }, | |
| { | |
| "epoch": 2.028, | |
| "grad_norm": 0.2349691390991211, | |
| "learning_rate": 0.00016209333333333336, | |
| "loss": 0.4517, | |
| "step": 25350 | |
| }, | |
| { | |
| "epoch": 2.032, | |
| "grad_norm": 0.3125999867916107, | |
| "learning_rate": 0.00016142666666666666, | |
| "loss": 0.4684, | |
| "step": 25400 | |
| }, | |
| { | |
| "epoch": 2.036, | |
| "grad_norm": 0.2494412660598755, | |
| "learning_rate": 0.00016076, | |
| "loss": 0.4455, | |
| "step": 25450 | |
| }, | |
| { | |
| "epoch": 2.04, | |
| "grad_norm": 0.29433155059814453, | |
| "learning_rate": 0.00016009333333333333, | |
| "loss": 0.4467, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 2.044, | |
| "grad_norm": 0.3250634968280792, | |
| "learning_rate": 0.00015942666666666667, | |
| "loss": 0.45, | |
| "step": 25550 | |
| }, | |
| { | |
| "epoch": 2.048, | |
| "grad_norm": 0.26807671785354614, | |
| "learning_rate": 0.00015876, | |
| "loss": 0.4467, | |
| "step": 25600 | |
| }, | |
| { | |
| "epoch": 2.052, | |
| "grad_norm": 0.2789306342601776, | |
| "learning_rate": 0.00015809333333333334, | |
| "loss": 0.4822, | |
| "step": 25650 | |
| }, | |
| { | |
| "epoch": 2.056, | |
| "grad_norm": 0.2899162173271179, | |
| "learning_rate": 0.00015742666666666668, | |
| "loss": 0.4499, | |
| "step": 25700 | |
| }, | |
| { | |
| "epoch": 2.06, | |
| "grad_norm": 0.38058122992515564, | |
| "learning_rate": 0.00015676, | |
| "loss": 0.476, | |
| "step": 25750 | |
| }, | |
| { | |
| "epoch": 2.064, | |
| "grad_norm": 0.3462042808532715, | |
| "learning_rate": 0.00015609333333333335, | |
| "loss": 0.468, | |
| "step": 25800 | |
| }, | |
| { | |
| "epoch": 2.068, | |
| "grad_norm": 0.29906922578811646, | |
| "learning_rate": 0.00015542666666666665, | |
| "loss": 0.4532, | |
| "step": 25850 | |
| }, | |
| { | |
| "epoch": 2.072, | |
| "grad_norm": 0.27238503098487854, | |
| "learning_rate": 0.00015476000000000002, | |
| "loss": 0.4499, | |
| "step": 25900 | |
| }, | |
| { | |
| "epoch": 2.076, | |
| "grad_norm": 0.30061212182044983, | |
| "learning_rate": 0.00015409333333333332, | |
| "loss": 0.4518, | |
| "step": 25950 | |
| }, | |
| { | |
| "epoch": 2.08, | |
| "grad_norm": 0.3721722364425659, | |
| "learning_rate": 0.00015342666666666666, | |
| "loss": 0.4384, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 2.084, | |
| "grad_norm": 0.2754833698272705, | |
| "learning_rate": 0.00015276000000000002, | |
| "loss": 0.4413, | |
| "step": 26050 | |
| }, | |
| { | |
| "epoch": 2.088, | |
| "grad_norm": 0.28479087352752686, | |
| "learning_rate": 0.00015209333333333333, | |
| "loss": 0.4382, | |
| "step": 26100 | |
| }, | |
| { | |
| "epoch": 2.092, | |
| "grad_norm": 0.2770088315010071, | |
| "learning_rate": 0.00015142666666666666, | |
| "loss": 0.4645, | |
| "step": 26150 | |
| }, | |
| { | |
| "epoch": 2.096, | |
| "grad_norm": 0.33242395520210266, | |
| "learning_rate": 0.00015076, | |
| "loss": 0.4543, | |
| "step": 26200 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "grad_norm": 0.23008863627910614, | |
| "learning_rate": 0.00015009333333333334, | |
| "loss": 0.4824, | |
| "step": 26250 | |
| }, | |
| { | |
| "epoch": 2.104, | |
| "grad_norm": 0.25794917345046997, | |
| "learning_rate": 0.00014942666666666667, | |
| "loss": 0.4513, | |
| "step": 26300 | |
| }, | |
| { | |
| "epoch": 2.108, | |
| "grad_norm": 0.39592331647872925, | |
| "learning_rate": 0.00014876, | |
| "loss": 0.4495, | |
| "step": 26350 | |
| }, | |
| { | |
| "epoch": 2.112, | |
| "grad_norm": 0.2359061986207962, | |
| "learning_rate": 0.00014809333333333334, | |
| "loss": 0.4434, | |
| "step": 26400 | |
| }, | |
| { | |
| "epoch": 2.116, | |
| "grad_norm": 0.2760692536830902, | |
| "learning_rate": 0.00014742666666666668, | |
| "loss": 0.4538, | |
| "step": 26450 | |
| }, | |
| { | |
| "epoch": 2.12, | |
| "grad_norm": 0.26441076397895813, | |
| "learning_rate": 0.00014676, | |
| "loss": 0.4523, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 2.124, | |
| "grad_norm": 0.2554430365562439, | |
| "learning_rate": 0.00014609333333333332, | |
| "loss": 0.4806, | |
| "step": 26550 | |
| }, | |
| { | |
| "epoch": 2.128, | |
| "grad_norm": 0.252074271440506, | |
| "learning_rate": 0.00014542666666666668, | |
| "loss": 0.4689, | |
| "step": 26600 | |
| }, | |
| { | |
| "epoch": 2.132, | |
| "grad_norm": 0.3027336597442627, | |
| "learning_rate": 0.00014476, | |
| "loss": 0.4779, | |
| "step": 26650 | |
| }, | |
| { | |
| "epoch": 2.136, | |
| "grad_norm": 0.25952109694480896, | |
| "learning_rate": 0.00014409333333333332, | |
| "loss": 0.4325, | |
| "step": 26700 | |
| }, | |
| { | |
| "epoch": 2.14, | |
| "grad_norm": 0.2962138056755066, | |
| "learning_rate": 0.0001434266666666667, | |
| "loss": 0.4632, | |
| "step": 26750 | |
| }, | |
| { | |
| "epoch": 2.144, | |
| "grad_norm": 0.26393434405326843, | |
| "learning_rate": 0.00014276, | |
| "loss": 0.4469, | |
| "step": 26800 | |
| }, | |
| { | |
| "epoch": 2.148, | |
| "grad_norm": 0.35279715061187744, | |
| "learning_rate": 0.00014209333333333333, | |
| "loss": 0.4523, | |
| "step": 26850 | |
| }, | |
| { | |
| "epoch": 2.152, | |
| "grad_norm": 0.297848641872406, | |
| "learning_rate": 0.00014144, | |
| "loss": 0.45, | |
| "step": 26900 | |
| }, | |
| { | |
| "epoch": 2.156, | |
| "grad_norm": 0.36224573850631714, | |
| "learning_rate": 0.00014077333333333334, | |
| "loss": 0.4622, | |
| "step": 26950 | |
| }, | |
| { | |
| "epoch": 2.16, | |
| "grad_norm": 0.2728904187679291, | |
| "learning_rate": 0.00014010666666666667, | |
| "loss": 0.4471, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 2.164, | |
| "grad_norm": 0.2377961426973343, | |
| "learning_rate": 0.00013944, | |
| "loss": 0.4428, | |
| "step": 27050 | |
| }, | |
| { | |
| "epoch": 2.168, | |
| "grad_norm": 0.27920272946357727, | |
| "learning_rate": 0.00013877333333333334, | |
| "loss": 0.4523, | |
| "step": 27100 | |
| }, | |
| { | |
| "epoch": 2.172, | |
| "grad_norm": 0.27000221610069275, | |
| "learning_rate": 0.00013810666666666665, | |
| "loss": 0.4547, | |
| "step": 27150 | |
| }, | |
| { | |
| "epoch": 2.176, | |
| "grad_norm": 0.23448887467384338, | |
| "learning_rate": 0.00013744, | |
| "loss": 0.4377, | |
| "step": 27200 | |
| }, | |
| { | |
| "epoch": 2.18, | |
| "grad_norm": 0.2916282117366791, | |
| "learning_rate": 0.00013677333333333332, | |
| "loss": 0.4513, | |
| "step": 27250 | |
| }, | |
| { | |
| "epoch": 2.184, | |
| "grad_norm": 0.33092817664146423, | |
| "learning_rate": 0.00013610666666666666, | |
| "loss": 0.4455, | |
| "step": 27300 | |
| }, | |
| { | |
| "epoch": 2.188, | |
| "grad_norm": 0.24522395431995392, | |
| "learning_rate": 0.00013544000000000002, | |
| "loss": 0.4526, | |
| "step": 27350 | |
| }, | |
| { | |
| "epoch": 2.192, | |
| "grad_norm": 0.2436528205871582, | |
| "learning_rate": 0.00013477333333333333, | |
| "loss": 0.4374, | |
| "step": 27400 | |
| }, | |
| { | |
| "epoch": 2.196, | |
| "grad_norm": 0.21092589199543, | |
| "learning_rate": 0.0001341066666666667, | |
| "loss": 0.4388, | |
| "step": 27450 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "grad_norm": 0.28023019433021545, | |
| "learning_rate": 0.00013344, | |
| "loss": 0.4385, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 2.204, | |
| "grad_norm": 0.2584914565086365, | |
| "learning_rate": 0.00013277333333333333, | |
| "loss": 0.4444, | |
| "step": 27550 | |
| }, | |
| { | |
| "epoch": 2.208, | |
| "grad_norm": 0.3019558787345886, | |
| "learning_rate": 0.0001321066666666667, | |
| "loss": 0.4273, | |
| "step": 27600 | |
| }, | |
| { | |
| "epoch": 2.212, | |
| "grad_norm": 0.27569064497947693, | |
| "learning_rate": 0.00013144, | |
| "loss": 0.4657, | |
| "step": 27650 | |
| }, | |
| { | |
| "epoch": 2.216, | |
| "grad_norm": 0.3404678404331207, | |
| "learning_rate": 0.00013077333333333334, | |
| "loss": 0.4665, | |
| "step": 27700 | |
| }, | |
| { | |
| "epoch": 2.22, | |
| "grad_norm": 0.27721646428108215, | |
| "learning_rate": 0.00013010666666666667, | |
| "loss": 0.4612, | |
| "step": 27750 | |
| }, | |
| { | |
| "epoch": 2.224, | |
| "grad_norm": 0.31788599491119385, | |
| "learning_rate": 0.00012944, | |
| "loss": 0.4616, | |
| "step": 27800 | |
| }, | |
| { | |
| "epoch": 2.228, | |
| "grad_norm": 0.2686368227005005, | |
| "learning_rate": 0.00012877333333333332, | |
| "loss": 0.4483, | |
| "step": 27850 | |
| }, | |
| { | |
| "epoch": 2.232, | |
| "grad_norm": 0.30599814653396606, | |
| "learning_rate": 0.00012810666666666668, | |
| "loss": 0.4593, | |
| "step": 27900 | |
| }, | |
| { | |
| "epoch": 2.2359999999999998, | |
| "grad_norm": 0.32590654492378235, | |
| "learning_rate": 0.00012744, | |
| "loss": 0.4655, | |
| "step": 27950 | |
| }, | |
| { | |
| "epoch": 2.24, | |
| "grad_norm": 0.2741105258464813, | |
| "learning_rate": 0.00012677333333333332, | |
| "loss": 0.4487, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 2.2439999999999998, | |
| "grad_norm": 0.30908265709877014, | |
| "learning_rate": 0.00012610666666666668, | |
| "loss": 0.4408, | |
| "step": 28050 | |
| }, | |
| { | |
| "epoch": 2.248, | |
| "grad_norm": 0.23703044652938843, | |
| "learning_rate": 0.00012544, | |
| "loss": 0.4487, | |
| "step": 28100 | |
| }, | |
| { | |
| "epoch": 2.252, | |
| "grad_norm": 0.3251242935657501, | |
| "learning_rate": 0.00012477333333333333, | |
| "loss": 0.4486, | |
| "step": 28150 | |
| }, | |
| { | |
| "epoch": 2.2560000000000002, | |
| "grad_norm": 0.32202380895614624, | |
| "learning_rate": 0.00012410666666666666, | |
| "loss": 0.4751, | |
| "step": 28200 | |
| }, | |
| { | |
| "epoch": 2.26, | |
| "grad_norm": 0.26794669032096863, | |
| "learning_rate": 0.00012344, | |
| "loss": 0.4422, | |
| "step": 28250 | |
| }, | |
| { | |
| "epoch": 2.2640000000000002, | |
| "grad_norm": 0.2127068191766739, | |
| "learning_rate": 0.00012277333333333333, | |
| "loss": 0.4474, | |
| "step": 28300 | |
| }, | |
| { | |
| "epoch": 2.268, | |
| "grad_norm": 0.28123363852500916, | |
| "learning_rate": 0.00012210666666666667, | |
| "loss": 0.4671, | |
| "step": 28350 | |
| }, | |
| { | |
| "epoch": 2.2720000000000002, | |
| "grad_norm": 0.2891286611557007, | |
| "learning_rate": 0.00012144, | |
| "loss": 0.4825, | |
| "step": 28400 | |
| }, | |
| { | |
| "epoch": 2.276, | |
| "grad_norm": 0.27893853187561035, | |
| "learning_rate": 0.00012077333333333334, | |
| "loss": 0.4502, | |
| "step": 28450 | |
| }, | |
| { | |
| "epoch": 2.2800000000000002, | |
| "grad_norm": 0.36596694588661194, | |
| "learning_rate": 0.00012010666666666667, | |
| "loss": 0.5034, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 2.284, | |
| "grad_norm": 0.25044432282447815, | |
| "learning_rate": 0.00011944000000000001, | |
| "loss": 0.4468, | |
| "step": 28550 | |
| }, | |
| { | |
| "epoch": 2.288, | |
| "grad_norm": 0.29934161901474, | |
| "learning_rate": 0.00011877333333333333, | |
| "loss": 0.4701, | |
| "step": 28600 | |
| }, | |
| { | |
| "epoch": 2.292, | |
| "grad_norm": 0.36825746297836304, | |
| "learning_rate": 0.00011810666666666667, | |
| "loss": 0.4639, | |
| "step": 28650 | |
| }, | |
| { | |
| "epoch": 2.296, | |
| "grad_norm": 0.3040882349014282, | |
| "learning_rate": 0.00011744, | |
| "loss": 0.4665, | |
| "step": 28700 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 0.3292265236377716, | |
| "learning_rate": 0.00011677333333333335, | |
| "loss": 0.4452, | |
| "step": 28750 | |
| }, | |
| { | |
| "epoch": 2.304, | |
| "grad_norm": 0.27619364857673645, | |
| "learning_rate": 0.00011610666666666667, | |
| "loss": 0.4545, | |
| "step": 28800 | |
| }, | |
| { | |
| "epoch": 2.308, | |
| "grad_norm": 0.26268327236175537, | |
| "learning_rate": 0.00011544, | |
| "loss": 0.4385, | |
| "step": 28850 | |
| }, | |
| { | |
| "epoch": 2.312, | |
| "grad_norm": 0.3106476962566376, | |
| "learning_rate": 0.00011477333333333334, | |
| "loss": 0.455, | |
| "step": 28900 | |
| }, | |
| { | |
| "epoch": 2.316, | |
| "grad_norm": 0.2751711308956146, | |
| "learning_rate": 0.00011410666666666666, | |
| "loss": 0.4542, | |
| "step": 28950 | |
| }, | |
| { | |
| "epoch": 2.32, | |
| "grad_norm": 0.3215223252773285, | |
| "learning_rate": 0.00011344, | |
| "loss": 0.4278, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 2.324, | |
| "grad_norm": 0.2911795973777771, | |
| "learning_rate": 0.00011277333333333333, | |
| "loss": 0.4597, | |
| "step": 29050 | |
| }, | |
| { | |
| "epoch": 2.328, | |
| "grad_norm": 0.21519587934017181, | |
| "learning_rate": 0.00011210666666666667, | |
| "loss": 0.4552, | |
| "step": 29100 | |
| }, | |
| { | |
| "epoch": 2.332, | |
| "grad_norm": 0.28264325857162476, | |
| "learning_rate": 0.00011144, | |
| "loss": 0.4405, | |
| "step": 29150 | |
| }, | |
| { | |
| "epoch": 2.336, | |
| "grad_norm": 0.26788267493247986, | |
| "learning_rate": 0.00011077333333333334, | |
| "loss": 0.4531, | |
| "step": 29200 | |
| }, | |
| { | |
| "epoch": 2.34, | |
| "grad_norm": 0.3479743003845215, | |
| "learning_rate": 0.00011010666666666667, | |
| "loss": 0.4585, | |
| "step": 29250 | |
| }, | |
| { | |
| "epoch": 2.344, | |
| "grad_norm": 0.24785076081752777, | |
| "learning_rate": 0.00010945333333333333, | |
| "loss": 0.456, | |
| "step": 29300 | |
| }, | |
| { | |
| "epoch": 2.348, | |
| "grad_norm": 0.3766777813434601, | |
| "learning_rate": 0.00010878666666666667, | |
| "loss": 0.4608, | |
| "step": 29350 | |
| }, | |
| { | |
| "epoch": 2.352, | |
| "grad_norm": 0.25761738419532776, | |
| "learning_rate": 0.00010812, | |
| "loss": 0.4589, | |
| "step": 29400 | |
| }, | |
| { | |
| "epoch": 2.356, | |
| "grad_norm": 0.3456856608390808, | |
| "learning_rate": 0.00010745333333333334, | |
| "loss": 0.4529, | |
| "step": 29450 | |
| }, | |
| { | |
| "epoch": 2.36, | |
| "grad_norm": 0.2645689845085144, | |
| "learning_rate": 0.00010678666666666667, | |
| "loss": 0.4692, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 2.364, | |
| "grad_norm": 0.23604953289031982, | |
| "learning_rate": 0.00010612000000000001, | |
| "loss": 0.4691, | |
| "step": 29550 | |
| }, | |
| { | |
| "epoch": 2.368, | |
| "grad_norm": 0.3434421718120575, | |
| "learning_rate": 0.00010545333333333333, | |
| "loss": 0.4729, | |
| "step": 29600 | |
| }, | |
| { | |
| "epoch": 2.372, | |
| "grad_norm": 0.2944164276123047, | |
| "learning_rate": 0.00010478666666666666, | |
| "loss": 0.4477, | |
| "step": 29650 | |
| }, | |
| { | |
| "epoch": 2.376, | |
| "grad_norm": 0.3284704089164734, | |
| "learning_rate": 0.00010412000000000001, | |
| "loss": 0.4164, | |
| "step": 29700 | |
| }, | |
| { | |
| "epoch": 2.38, | |
| "grad_norm": 0.29514458775520325, | |
| "learning_rate": 0.00010345333333333333, | |
| "loss": 0.4589, | |
| "step": 29750 | |
| }, | |
| { | |
| "epoch": 2.384, | |
| "grad_norm": 0.3022924065589905, | |
| "learning_rate": 0.00010278666666666667, | |
| "loss": 0.4652, | |
| "step": 29800 | |
| }, | |
| { | |
| "epoch": 2.388, | |
| "grad_norm": 0.3164527714252472, | |
| "learning_rate": 0.00010212, | |
| "loss": 0.4455, | |
| "step": 29850 | |
| }, | |
| { | |
| "epoch": 2.392, | |
| "grad_norm": 0.2851755917072296, | |
| "learning_rate": 0.00010145333333333334, | |
| "loss": 0.4486, | |
| "step": 29900 | |
| }, | |
| { | |
| "epoch": 2.396, | |
| "grad_norm": 0.2626616656780243, | |
| "learning_rate": 0.00010078666666666666, | |
| "loss": 0.459, | |
| "step": 29950 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 0.33604660630226135, | |
| "learning_rate": 0.00010012, | |
| "loss": 0.4551, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 2.404, | |
| "grad_norm": 0.2219858318567276, | |
| "learning_rate": 9.945333333333335e-05, | |
| "loss": 0.4441, | |
| "step": 30050 | |
| }, | |
| { | |
| "epoch": 2.408, | |
| "grad_norm": 0.293307363986969, | |
| "learning_rate": 9.878666666666667e-05, | |
| "loss": 0.4707, | |
| "step": 30100 | |
| }, | |
| { | |
| "epoch": 2.412, | |
| "grad_norm": 0.2321629822254181, | |
| "learning_rate": 9.812e-05, | |
| "loss": 0.4581, | |
| "step": 30150 | |
| }, | |
| { | |
| "epoch": 2.416, | |
| "grad_norm": 0.3554525077342987, | |
| "learning_rate": 9.745333333333334e-05, | |
| "loss": 0.4698, | |
| "step": 30200 | |
| }, | |
| { | |
| "epoch": 2.42, | |
| "grad_norm": 0.29694491624832153, | |
| "learning_rate": 9.678666666666666e-05, | |
| "loss": 0.4598, | |
| "step": 30250 | |
| }, | |
| { | |
| "epoch": 2.424, | |
| "grad_norm": 0.2549535930156708, | |
| "learning_rate": 9.612e-05, | |
| "loss": 0.4759, | |
| "step": 30300 | |
| }, | |
| { | |
| "epoch": 2.428, | |
| "grad_norm": 0.2669490575790405, | |
| "learning_rate": 9.545333333333333e-05, | |
| "loss": 0.4218, | |
| "step": 30350 | |
| }, | |
| { | |
| "epoch": 2.432, | |
| "grad_norm": 0.3022160530090332, | |
| "learning_rate": 9.478666666666668e-05, | |
| "loss": 0.4552, | |
| "step": 30400 | |
| }, | |
| { | |
| "epoch": 2.436, | |
| "grad_norm": 0.23143869638442993, | |
| "learning_rate": 9.412e-05, | |
| "loss": 0.4526, | |
| "step": 30450 | |
| }, | |
| { | |
| "epoch": 2.44, | |
| "grad_norm": 0.24490754306316376, | |
| "learning_rate": 9.345333333333334e-05, | |
| "loss": 0.4214, | |
| "step": 30500 | |
| }, | |
| { | |
| "epoch": 2.444, | |
| "grad_norm": 0.23917007446289062, | |
| "learning_rate": 9.278666666666667e-05, | |
| "loss": 0.4591, | |
| "step": 30550 | |
| }, | |
| { | |
| "epoch": 2.448, | |
| "grad_norm": 0.22969672083854675, | |
| "learning_rate": 9.211999999999999e-05, | |
| "loss": 0.4583, | |
| "step": 30600 | |
| }, | |
| { | |
| "epoch": 2.452, | |
| "grad_norm": 0.3000829815864563, | |
| "learning_rate": 9.145333333333333e-05, | |
| "loss": 0.4643, | |
| "step": 30650 | |
| }, | |
| { | |
| "epoch": 2.456, | |
| "grad_norm": 0.2941370904445648, | |
| "learning_rate": 9.078666666666668e-05, | |
| "loss": 0.4343, | |
| "step": 30700 | |
| }, | |
| { | |
| "epoch": 2.46, | |
| "grad_norm": 0.3030686378479004, | |
| "learning_rate": 9.012000000000001e-05, | |
| "loss": 0.4553, | |
| "step": 30750 | |
| }, | |
| { | |
| "epoch": 2.464, | |
| "grad_norm": 0.31065088510513306, | |
| "learning_rate": 8.945333333333333e-05, | |
| "loss": 0.4354, | |
| "step": 30800 | |
| }, | |
| { | |
| "epoch": 2.468, | |
| "grad_norm": 0.33551186323165894, | |
| "learning_rate": 8.878666666666667e-05, | |
| "loss": 0.4262, | |
| "step": 30850 | |
| }, | |
| { | |
| "epoch": 2.472, | |
| "grad_norm": 0.30474284291267395, | |
| "learning_rate": 8.812e-05, | |
| "loss": 0.4534, | |
| "step": 30900 | |
| }, | |
| { | |
| "epoch": 2.476, | |
| "grad_norm": 0.27165547013282776, | |
| "learning_rate": 8.745333333333332e-05, | |
| "loss": 0.4439, | |
| "step": 30950 | |
| }, | |
| { | |
| "epoch": 2.48, | |
| "grad_norm": 0.26946690678596497, | |
| "learning_rate": 8.678666666666666e-05, | |
| "loss": 0.4561, | |
| "step": 31000 | |
| }, | |
| { | |
| "epoch": 2.484, | |
| "grad_norm": 0.26706361770629883, | |
| "learning_rate": 8.612000000000001e-05, | |
| "loss": 0.444, | |
| "step": 31050 | |
| }, | |
| { | |
| "epoch": 2.488, | |
| "grad_norm": 0.2699045240879059, | |
| "learning_rate": 8.545333333333334e-05, | |
| "loss": 0.4458, | |
| "step": 31100 | |
| }, | |
| { | |
| "epoch": 2.492, | |
| "grad_norm": 0.3229534924030304, | |
| "learning_rate": 8.478666666666667e-05, | |
| "loss": 0.4432, | |
| "step": 31150 | |
| }, | |
| { | |
| "epoch": 2.496, | |
| "grad_norm": 0.2839939296245575, | |
| "learning_rate": 8.412e-05, | |
| "loss": 0.437, | |
| "step": 31200 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.25432726740837097, | |
| "learning_rate": 8.345333333333334e-05, | |
| "loss": 0.4415, | |
| "step": 31250 | |
| }, | |
| { | |
| "epoch": 2.504, | |
| "grad_norm": 0.2797224521636963, | |
| "learning_rate": 8.278666666666666e-05, | |
| "loss": 0.4418, | |
| "step": 31300 | |
| }, | |
| { | |
| "epoch": 2.508, | |
| "grad_norm": 0.3126223087310791, | |
| "learning_rate": 8.212e-05, | |
| "loss": 0.4413, | |
| "step": 31350 | |
| }, | |
| { | |
| "epoch": 2.512, | |
| "grad_norm": 0.3439057469367981, | |
| "learning_rate": 8.145333333333334e-05, | |
| "loss": 0.46, | |
| "step": 31400 | |
| }, | |
| { | |
| "epoch": 2.516, | |
| "grad_norm": 0.3235597014427185, | |
| "learning_rate": 8.078666666666668e-05, | |
| "loss": 0.4301, | |
| "step": 31450 | |
| }, | |
| { | |
| "epoch": 2.52, | |
| "grad_norm": 0.40689998865127563, | |
| "learning_rate": 8.012e-05, | |
| "loss": 0.4421, | |
| "step": 31500 | |
| }, | |
| { | |
| "epoch": 2.524, | |
| "grad_norm": 0.21976891160011292, | |
| "learning_rate": 7.945333333333333e-05, | |
| "loss": 0.4738, | |
| "step": 31550 | |
| }, | |
| { | |
| "epoch": 2.528, | |
| "grad_norm": 0.34355059266090393, | |
| "learning_rate": 7.878666666666667e-05, | |
| "loss": 0.4537, | |
| "step": 31600 | |
| }, | |
| { | |
| "epoch": 2.532, | |
| "grad_norm": 0.30710023641586304, | |
| "learning_rate": 7.811999999999999e-05, | |
| "loss": 0.4514, | |
| "step": 31650 | |
| }, | |
| { | |
| "epoch": 2.536, | |
| "grad_norm": 0.36115074157714844, | |
| "learning_rate": 7.745333333333334e-05, | |
| "loss": 0.4538, | |
| "step": 31700 | |
| }, | |
| { | |
| "epoch": 2.54, | |
| "grad_norm": 0.25416499376296997, | |
| "learning_rate": 7.678666666666667e-05, | |
| "loss": 0.4609, | |
| "step": 31750 | |
| }, | |
| { | |
| "epoch": 2.544, | |
| "grad_norm": 0.39226630330085754, | |
| "learning_rate": 7.612e-05, | |
| "loss": 0.4527, | |
| "step": 31800 | |
| }, | |
| { | |
| "epoch": 2.548, | |
| "grad_norm": 0.30426350235939026, | |
| "learning_rate": 7.545333333333333e-05, | |
| "loss": 0.4442, | |
| "step": 31850 | |
| }, | |
| { | |
| "epoch": 2.552, | |
| "grad_norm": 0.4089012145996094, | |
| "learning_rate": 7.478666666666667e-05, | |
| "loss": 0.461, | |
| "step": 31900 | |
| }, | |
| { | |
| "epoch": 2.556, | |
| "grad_norm": 0.28102219104766846, | |
| "learning_rate": 7.412e-05, | |
| "loss": 0.452, | |
| "step": 31950 | |
| }, | |
| { | |
| "epoch": 2.56, | |
| "grad_norm": 0.31851691007614136, | |
| "learning_rate": 7.345333333333334e-05, | |
| "loss": 0.4649, | |
| "step": 32000 | |
| }, | |
| { | |
| "epoch": 2.564, | |
| "grad_norm": 0.27418580651283264, | |
| "learning_rate": 7.278666666666667e-05, | |
| "loss": 0.4328, | |
| "step": 32050 | |
| }, | |
| { | |
| "epoch": 2.568, | |
| "grad_norm": 0.24056550860404968, | |
| "learning_rate": 7.212000000000001e-05, | |
| "loss": 0.4366, | |
| "step": 32100 | |
| }, | |
| { | |
| "epoch": 2.572, | |
| "grad_norm": 0.2933375835418701, | |
| "learning_rate": 7.145333333333333e-05, | |
| "loss": 0.4615, | |
| "step": 32150 | |
| }, | |
| { | |
| "epoch": 2.576, | |
| "grad_norm": 0.26340237259864807, | |
| "learning_rate": 7.078666666666666e-05, | |
| "loss": 0.4458, | |
| "step": 32200 | |
| }, | |
| { | |
| "epoch": 2.58, | |
| "grad_norm": 0.3188941478729248, | |
| "learning_rate": 7.012e-05, | |
| "loss": 0.4478, | |
| "step": 32250 | |
| }, | |
| { | |
| "epoch": 2.584, | |
| "grad_norm": 0.2975289523601532, | |
| "learning_rate": 6.945333333333333e-05, | |
| "loss": 0.4295, | |
| "step": 32300 | |
| }, | |
| { | |
| "epoch": 2.588, | |
| "grad_norm": 0.30115413665771484, | |
| "learning_rate": 6.878666666666667e-05, | |
| "loss": 0.4475, | |
| "step": 32350 | |
| }, | |
| { | |
| "epoch": 2.592, | |
| "grad_norm": 0.22286610305309296, | |
| "learning_rate": 6.812e-05, | |
| "loss": 0.4644, | |
| "step": 32400 | |
| }, | |
| { | |
| "epoch": 2.596, | |
| "grad_norm": 0.2956683039665222, | |
| "learning_rate": 6.745333333333334e-05, | |
| "loss": 0.4563, | |
| "step": 32450 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "grad_norm": 0.2956625521183014, | |
| "learning_rate": 6.678666666666666e-05, | |
| "loss": 0.4445, | |
| "step": 32500 | |
| }, | |
| { | |
| "epoch": 2.604, | |
| "grad_norm": 0.2499222308397293, | |
| "learning_rate": 6.612e-05, | |
| "loss": 0.471, | |
| "step": 32550 | |
| }, | |
| { | |
| "epoch": 2.608, | |
| "grad_norm": 0.2879573404788971, | |
| "learning_rate": 6.545333333333333e-05, | |
| "loss": 0.439, | |
| "step": 32600 | |
| }, | |
| { | |
| "epoch": 2.612, | |
| "grad_norm": 0.25872039794921875, | |
| "learning_rate": 6.478666666666667e-05, | |
| "loss": 0.4611, | |
| "step": 32650 | |
| }, | |
| { | |
| "epoch": 2.616, | |
| "grad_norm": 0.2626016438007355, | |
| "learning_rate": 6.412e-05, | |
| "loss": 0.4433, | |
| "step": 32700 | |
| }, | |
| { | |
| "epoch": 2.62, | |
| "grad_norm": 0.30265554785728455, | |
| "learning_rate": 6.345333333333334e-05, | |
| "loss": 0.4622, | |
| "step": 32750 | |
| }, | |
| { | |
| "epoch": 2.624, | |
| "grad_norm": 0.25516897439956665, | |
| "learning_rate": 6.278666666666667e-05, | |
| "loss": 0.4554, | |
| "step": 32800 | |
| }, | |
| { | |
| "epoch": 2.628, | |
| "grad_norm": 0.30672165751457214, | |
| "learning_rate": 6.212000000000001e-05, | |
| "loss": 0.4475, | |
| "step": 32850 | |
| }, | |
| { | |
| "epoch": 2.632, | |
| "grad_norm": 0.31180885434150696, | |
| "learning_rate": 6.145333333333333e-05, | |
| "loss": 0.4514, | |
| "step": 32900 | |
| }, | |
| { | |
| "epoch": 2.636, | |
| "grad_norm": 0.2680656909942627, | |
| "learning_rate": 6.078666666666667e-05, | |
| "loss": 0.4367, | |
| "step": 32950 | |
| }, | |
| { | |
| "epoch": 2.64, | |
| "grad_norm": 0.2780224680900574, | |
| "learning_rate": 6.012e-05, | |
| "loss": 0.4464, | |
| "step": 33000 | |
| }, | |
| { | |
| "epoch": 2.644, | |
| "grad_norm": 0.29504239559173584, | |
| "learning_rate": 5.945333333333333e-05, | |
| "loss": 0.4471, | |
| "step": 33050 | |
| }, | |
| { | |
| "epoch": 2.648, | |
| "grad_norm": 0.28059807419776917, | |
| "learning_rate": 5.878666666666667e-05, | |
| "loss": 0.442, | |
| "step": 33100 | |
| }, | |
| { | |
| "epoch": 2.652, | |
| "grad_norm": 0.2165469527244568, | |
| "learning_rate": 5.812e-05, | |
| "loss": 0.4645, | |
| "step": 33150 | |
| }, | |
| { | |
| "epoch": 2.656, | |
| "grad_norm": 0.1961279958486557, | |
| "learning_rate": 5.7453333333333334e-05, | |
| "loss": 0.4562, | |
| "step": 33200 | |
| }, | |
| { | |
| "epoch": 2.66, | |
| "grad_norm": 0.1775653064250946, | |
| "learning_rate": 5.678666666666667e-05, | |
| "loss": 0.4444, | |
| "step": 33250 | |
| }, | |
| { | |
| "epoch": 2.664, | |
| "grad_norm": 0.3550254702568054, | |
| "learning_rate": 5.6120000000000005e-05, | |
| "loss": 0.4665, | |
| "step": 33300 | |
| }, | |
| { | |
| "epoch": 2.668, | |
| "grad_norm": 0.35240018367767334, | |
| "learning_rate": 5.545333333333333e-05, | |
| "loss": 0.4719, | |
| "step": 33350 | |
| }, | |
| { | |
| "epoch": 2.672, | |
| "grad_norm": 0.22879506647586823, | |
| "learning_rate": 5.478666666666667e-05, | |
| "loss": 0.446, | |
| "step": 33400 | |
| }, | |
| { | |
| "epoch": 2.676, | |
| "grad_norm": 0.29414916038513184, | |
| "learning_rate": 5.4120000000000004e-05, | |
| "loss": 0.4617, | |
| "step": 33450 | |
| }, | |
| { | |
| "epoch": 2.68, | |
| "grad_norm": 0.2868782579898834, | |
| "learning_rate": 5.345333333333333e-05, | |
| "loss": 0.4372, | |
| "step": 33500 | |
| }, | |
| { | |
| "epoch": 2.684, | |
| "grad_norm": 0.22824135422706604, | |
| "learning_rate": 5.28e-05, | |
| "loss": 0.4328, | |
| "step": 33550 | |
| }, | |
| { | |
| "epoch": 2.6879999999999997, | |
| "grad_norm": 0.3710310757160187, | |
| "learning_rate": 5.213333333333333e-05, | |
| "loss": 0.4468, | |
| "step": 33600 | |
| }, | |
| { | |
| "epoch": 2.692, | |
| "grad_norm": 0.25575074553489685, | |
| "learning_rate": 5.1466666666666666e-05, | |
| "loss": 0.4524, | |
| "step": 33650 | |
| }, | |
| { | |
| "epoch": 2.6959999999999997, | |
| "grad_norm": 0.41803932189941406, | |
| "learning_rate": 5.08e-05, | |
| "loss": 0.4524, | |
| "step": 33700 | |
| }, | |
| { | |
| "epoch": 2.7, | |
| "grad_norm": 0.33436158299446106, | |
| "learning_rate": 5.013333333333334e-05, | |
| "loss": 0.4411, | |
| "step": 33750 | |
| }, | |
| { | |
| "epoch": 2.7039999999999997, | |
| "grad_norm": 0.2582109868526459, | |
| "learning_rate": 4.9466666666666665e-05, | |
| "loss": 0.4448, | |
| "step": 33800 | |
| }, | |
| { | |
| "epoch": 2.708, | |
| "grad_norm": 0.2088334858417511, | |
| "learning_rate": 4.880000000000001e-05, | |
| "loss": 0.4329, | |
| "step": 33850 | |
| }, | |
| { | |
| "epoch": 2.7119999999999997, | |
| "grad_norm": 0.34279492497444153, | |
| "learning_rate": 4.8133333333333336e-05, | |
| "loss": 0.4505, | |
| "step": 33900 | |
| }, | |
| { | |
| "epoch": 2.716, | |
| "grad_norm": 0.3136851489543915, | |
| "learning_rate": 4.7466666666666664e-05, | |
| "loss": 0.4488, | |
| "step": 33950 | |
| }, | |
| { | |
| "epoch": 2.7199999999999998, | |
| "grad_norm": 0.3766196668148041, | |
| "learning_rate": 4.68e-05, | |
| "loss": 0.4465, | |
| "step": 34000 | |
| }, | |
| { | |
| "epoch": 2.724, | |
| "grad_norm": 0.25338220596313477, | |
| "learning_rate": 4.6133333333333334e-05, | |
| "loss": 0.4299, | |
| "step": 34050 | |
| }, | |
| { | |
| "epoch": 2.7279999999999998, | |
| "grad_norm": 0.3437287211418152, | |
| "learning_rate": 4.546666666666667e-05, | |
| "loss": 0.4665, | |
| "step": 34100 | |
| }, | |
| { | |
| "epoch": 2.732, | |
| "grad_norm": 0.2480098456144333, | |
| "learning_rate": 4.48e-05, | |
| "loss": 0.4286, | |
| "step": 34150 | |
| }, | |
| { | |
| "epoch": 2.7359999999999998, | |
| "grad_norm": 0.27710428833961487, | |
| "learning_rate": 4.413333333333333e-05, | |
| "loss": 0.4339, | |
| "step": 34200 | |
| }, | |
| { | |
| "epoch": 2.74, | |
| "grad_norm": 0.2701534330844879, | |
| "learning_rate": 4.346666666666667e-05, | |
| "loss": 0.4631, | |
| "step": 34250 | |
| }, | |
| { | |
| "epoch": 2.7439999999999998, | |
| "grad_norm": 0.26565784215927124, | |
| "learning_rate": 4.28e-05, | |
| "loss": 0.4546, | |
| "step": 34300 | |
| }, | |
| { | |
| "epoch": 2.748, | |
| "grad_norm": 0.20189706981182098, | |
| "learning_rate": 4.213333333333334e-05, | |
| "loss": 0.4505, | |
| "step": 34350 | |
| }, | |
| { | |
| "epoch": 2.752, | |
| "grad_norm": 0.28106382489204407, | |
| "learning_rate": 4.146666666666667e-05, | |
| "loss": 0.4462, | |
| "step": 34400 | |
| }, | |
| { | |
| "epoch": 2.7560000000000002, | |
| "grad_norm": 0.2922661304473877, | |
| "learning_rate": 4.08e-05, | |
| "loss": 0.4513, | |
| "step": 34450 | |
| }, | |
| { | |
| "epoch": 2.76, | |
| "grad_norm": 0.3567800521850586, | |
| "learning_rate": 4.013333333333333e-05, | |
| "loss": 0.4785, | |
| "step": 34500 | |
| }, | |
| { | |
| "epoch": 2.7640000000000002, | |
| "grad_norm": 0.2758147716522217, | |
| "learning_rate": 3.9466666666666666e-05, | |
| "loss": 0.4527, | |
| "step": 34550 | |
| }, | |
| { | |
| "epoch": 2.768, | |
| "grad_norm": 0.2899794578552246, | |
| "learning_rate": 3.88e-05, | |
| "loss": 0.4671, | |
| "step": 34600 | |
| }, | |
| { | |
| "epoch": 2.7720000000000002, | |
| "grad_norm": 0.24867789447307587, | |
| "learning_rate": 3.813333333333333e-05, | |
| "loss": 0.4684, | |
| "step": 34650 | |
| }, | |
| { | |
| "epoch": 2.776, | |
| "grad_norm": 0.22296515107154846, | |
| "learning_rate": 3.746666666666667e-05, | |
| "loss": 0.441, | |
| "step": 34700 | |
| }, | |
| { | |
| "epoch": 2.7800000000000002, | |
| "grad_norm": 0.25724735856056213, | |
| "learning_rate": 3.68e-05, | |
| "loss": 0.4472, | |
| "step": 34750 | |
| }, | |
| { | |
| "epoch": 2.784, | |
| "grad_norm": 0.31313836574554443, | |
| "learning_rate": 3.614666666666667e-05, | |
| "loss": 0.4552, | |
| "step": 34800 | |
| }, | |
| { | |
| "epoch": 2.7880000000000003, | |
| "grad_norm": 0.32281118631362915, | |
| "learning_rate": 3.548e-05, | |
| "loss": 0.477, | |
| "step": 34850 | |
| }, | |
| { | |
| "epoch": 2.792, | |
| "grad_norm": 0.3177658021450043, | |
| "learning_rate": 3.4813333333333334e-05, | |
| "loss": 0.4539, | |
| "step": 34900 | |
| }, | |
| { | |
| "epoch": 2.7960000000000003, | |
| "grad_norm": 0.27014464139938354, | |
| "learning_rate": 3.414666666666667e-05, | |
| "loss": 0.472, | |
| "step": 34950 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 0.29081207513809204, | |
| "learning_rate": 3.3480000000000005e-05, | |
| "loss": 0.4598, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 2.8040000000000003, | |
| "grad_norm": 0.35768747329711914, | |
| "learning_rate": 3.281333333333333e-05, | |
| "loss": 0.4637, | |
| "step": 35050 | |
| }, | |
| { | |
| "epoch": 2.808, | |
| "grad_norm": 0.23590107262134552, | |
| "learning_rate": 3.214666666666666e-05, | |
| "loss": 0.4405, | |
| "step": 35100 | |
| }, | |
| { | |
| "epoch": 2.8120000000000003, | |
| "grad_norm": 0.2606336772441864, | |
| "learning_rate": 3.1480000000000004e-05, | |
| "loss": 0.434, | |
| "step": 35150 | |
| }, | |
| { | |
| "epoch": 2.816, | |
| "grad_norm": 0.31214970350265503, | |
| "learning_rate": 3.081333333333334e-05, | |
| "loss": 0.4263, | |
| "step": 35200 | |
| }, | |
| { | |
| "epoch": 2.82, | |
| "grad_norm": 0.22976574301719666, | |
| "learning_rate": 3.0146666666666667e-05, | |
| "loss": 0.45, | |
| "step": 35250 | |
| }, | |
| { | |
| "epoch": 2.824, | |
| "grad_norm": 0.2707850933074951, | |
| "learning_rate": 2.948e-05, | |
| "loss": 0.4431, | |
| "step": 35300 | |
| }, | |
| { | |
| "epoch": 2.828, | |
| "grad_norm": 0.23899267613887787, | |
| "learning_rate": 2.8813333333333334e-05, | |
| "loss": 0.4583, | |
| "step": 35350 | |
| }, | |
| { | |
| "epoch": 2.832, | |
| "grad_norm": 0.2468588650226593, | |
| "learning_rate": 2.8146666666666666e-05, | |
| "loss": 0.4604, | |
| "step": 35400 | |
| }, | |
| { | |
| "epoch": 2.836, | |
| "grad_norm": 0.29869726300239563, | |
| "learning_rate": 2.748e-05, | |
| "loss": 0.431, | |
| "step": 35450 | |
| }, | |
| { | |
| "epoch": 2.84, | |
| "grad_norm": 0.24732047319412231, | |
| "learning_rate": 2.6813333333333336e-05, | |
| "loss": 0.4507, | |
| "step": 35500 | |
| }, | |
| { | |
| "epoch": 2.844, | |
| "grad_norm": 0.3324715495109558, | |
| "learning_rate": 2.6146666666666665e-05, | |
| "loss": 0.4555, | |
| "step": 35550 | |
| }, | |
| { | |
| "epoch": 2.848, | |
| "grad_norm": 0.2818158268928528, | |
| "learning_rate": 2.548e-05, | |
| "loss": 0.4515, | |
| "step": 35600 | |
| }, | |
| { | |
| "epoch": 2.852, | |
| "grad_norm": 0.1923283338546753, | |
| "learning_rate": 2.4813333333333335e-05, | |
| "loss": 0.4297, | |
| "step": 35650 | |
| }, | |
| { | |
| "epoch": 2.856, | |
| "grad_norm": 0.25327619910240173, | |
| "learning_rate": 2.4146666666666667e-05, | |
| "loss": 0.4507, | |
| "step": 35700 | |
| }, | |
| { | |
| "epoch": 2.86, | |
| "grad_norm": 0.287896990776062, | |
| "learning_rate": 2.3480000000000002e-05, | |
| "loss": 0.4718, | |
| "step": 35750 | |
| }, | |
| { | |
| "epoch": 2.864, | |
| "grad_norm": 0.215403750538826, | |
| "learning_rate": 2.2813333333333334e-05, | |
| "loss": 0.4511, | |
| "step": 35800 | |
| }, | |
| { | |
| "epoch": 2.868, | |
| "grad_norm": 0.30752989649772644, | |
| "learning_rate": 2.2146666666666666e-05, | |
| "loss": 0.4535, | |
| "step": 35850 | |
| }, | |
| { | |
| "epoch": 2.872, | |
| "grad_norm": 0.4140700399875641, | |
| "learning_rate": 2.148e-05, | |
| "loss": 0.4235, | |
| "step": 35900 | |
| }, | |
| { | |
| "epoch": 2.876, | |
| "grad_norm": 0.27981796860694885, | |
| "learning_rate": 2.0813333333333333e-05, | |
| "loss": 0.4326, | |
| "step": 35950 | |
| }, | |
| { | |
| "epoch": 2.88, | |
| "grad_norm": 0.36529111862182617, | |
| "learning_rate": 2.0146666666666668e-05, | |
| "loss": 0.4583, | |
| "step": 36000 | |
| }, | |
| { | |
| "epoch": 2.884, | |
| "grad_norm": 0.33879294991493225, | |
| "learning_rate": 1.948e-05, | |
| "loss": 0.4776, | |
| "step": 36050 | |
| }, | |
| { | |
| "epoch": 2.888, | |
| "grad_norm": 0.30573463439941406, | |
| "learning_rate": 1.8813333333333335e-05, | |
| "loss": 0.4629, | |
| "step": 36100 | |
| }, | |
| { | |
| "epoch": 2.892, | |
| "grad_norm": 0.4092652499675751, | |
| "learning_rate": 1.8146666666666667e-05, | |
| "loss": 0.4525, | |
| "step": 36150 | |
| }, | |
| { | |
| "epoch": 2.896, | |
| "grad_norm": 0.2524120509624481, | |
| "learning_rate": 1.748e-05, | |
| "loss": 0.48, | |
| "step": 36200 | |
| }, | |
| { | |
| "epoch": 2.9, | |
| "grad_norm": 0.301166832447052, | |
| "learning_rate": 1.6813333333333334e-05, | |
| "loss": 0.425, | |
| "step": 36250 | |
| }, | |
| { | |
| "epoch": 2.904, | |
| "grad_norm": 0.2597818970680237, | |
| "learning_rate": 1.6146666666666666e-05, | |
| "loss": 0.4678, | |
| "step": 36300 | |
| }, | |
| { | |
| "epoch": 2.908, | |
| "grad_norm": 0.2293042540550232, | |
| "learning_rate": 1.548e-05, | |
| "loss": 0.4558, | |
| "step": 36350 | |
| }, | |
| { | |
| "epoch": 2.912, | |
| "grad_norm": 0.2601728141307831, | |
| "learning_rate": 1.4813333333333333e-05, | |
| "loss": 0.4575, | |
| "step": 36400 | |
| }, | |
| { | |
| "epoch": 2.916, | |
| "grad_norm": 0.20663675665855408, | |
| "learning_rate": 1.4146666666666668e-05, | |
| "loss": 0.4511, | |
| "step": 36450 | |
| }, | |
| { | |
| "epoch": 2.92, | |
| "grad_norm": 0.326138436794281, | |
| "learning_rate": 1.3480000000000001e-05, | |
| "loss": 0.4478, | |
| "step": 36500 | |
| }, | |
| { | |
| "epoch": 2.924, | |
| "grad_norm": 0.3107542097568512, | |
| "learning_rate": 1.2813333333333333e-05, | |
| "loss": 0.457, | |
| "step": 36550 | |
| }, | |
| { | |
| "epoch": 2.928, | |
| "grad_norm": 0.234524667263031, | |
| "learning_rate": 1.2146666666666667e-05, | |
| "loss": 0.472, | |
| "step": 36600 | |
| }, | |
| { | |
| "epoch": 2.932, | |
| "grad_norm": 0.2568289041519165, | |
| "learning_rate": 1.148e-05, | |
| "loss": 0.4551, | |
| "step": 36650 | |
| }, | |
| { | |
| "epoch": 2.936, | |
| "grad_norm": 0.23207560181617737, | |
| "learning_rate": 1.0813333333333334e-05, | |
| "loss": 0.4652, | |
| "step": 36700 | |
| }, | |
| { | |
| "epoch": 2.94, | |
| "grad_norm": 0.24545793235301971, | |
| "learning_rate": 1.0146666666666667e-05, | |
| "loss": 0.4413, | |
| "step": 36750 | |
| }, | |
| { | |
| "epoch": 2.944, | |
| "grad_norm": 0.2292717695236206, | |
| "learning_rate": 9.48e-06, | |
| "loss": 0.438, | |
| "step": 36800 | |
| }, | |
| { | |
| "epoch": 2.948, | |
| "grad_norm": 0.3610619902610779, | |
| "learning_rate": 8.813333333333333e-06, | |
| "loss": 0.4465, | |
| "step": 36850 | |
| }, | |
| { | |
| "epoch": 2.952, | |
| "grad_norm": 0.3205767273902893, | |
| "learning_rate": 8.146666666666666e-06, | |
| "loss": 0.4696, | |
| "step": 36900 | |
| }, | |
| { | |
| "epoch": 2.956, | |
| "grad_norm": 0.3331379294395447, | |
| "learning_rate": 7.4799999999999995e-06, | |
| "loss": 0.4504, | |
| "step": 36950 | |
| }, | |
| { | |
| "epoch": 2.96, | |
| "grad_norm": 0.30620986223220825, | |
| "learning_rate": 6.813333333333334e-06, | |
| "loss": 0.4555, | |
| "step": 37000 | |
| }, | |
| { | |
| "epoch": 2.964, | |
| "grad_norm": 0.3850225806236267, | |
| "learning_rate": 6.1466666666666665e-06, | |
| "loss": 0.4571, | |
| "step": 37050 | |
| }, | |
| { | |
| "epoch": 2.968, | |
| "grad_norm": 0.3780403137207031, | |
| "learning_rate": 5.48e-06, | |
| "loss": 0.4351, | |
| "step": 37100 | |
| }, | |
| { | |
| "epoch": 2.972, | |
| "grad_norm": 0.29484397172927856, | |
| "learning_rate": 4.8133333333333336e-06, | |
| "loss": 0.4321, | |
| "step": 37150 | |
| }, | |
| { | |
| "epoch": 2.976, | |
| "grad_norm": 0.2501869797706604, | |
| "learning_rate": 4.146666666666667e-06, | |
| "loss": 0.447, | |
| "step": 37200 | |
| }, | |
| { | |
| "epoch": 2.98, | |
| "grad_norm": 0.2183392494916916, | |
| "learning_rate": 3.48e-06, | |
| "loss": 0.4533, | |
| "step": 37250 | |
| }, | |
| { | |
| "epoch": 2.984, | |
| "grad_norm": 0.31984663009643555, | |
| "learning_rate": 2.8133333333333336e-06, | |
| "loss": 0.4251, | |
| "step": 37300 | |
| }, | |
| { | |
| "epoch": 2.988, | |
| "grad_norm": 0.2767412066459656, | |
| "learning_rate": 2.1466666666666667e-06, | |
| "loss": 0.4235, | |
| "step": 37350 | |
| }, | |
| { | |
| "epoch": 2.992, | |
| "grad_norm": 0.25361520051956177, | |
| "learning_rate": 1.48e-06, | |
| "loss": 0.4369, | |
| "step": 37400 | |
| }, | |
| { | |
| "epoch": 2.996, | |
| "grad_norm": 0.288673460483551, | |
| "learning_rate": 8.133333333333333e-07, | |
| "loss": 0.4249, | |
| "step": 37450 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.22177539765834808, | |
| "learning_rate": 1.4666666666666666e-07, | |
| "loss": 0.4371, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "eval_bleu": 0.3386404997587714, | |
| "eval_cer": 0.28147095294898533, | |
| "eval_f1": 0.6153534805079603, | |
| "eval_loss": 0.3820163309574127, | |
| "eval_meteor": 0.6028071424520438, | |
| "eval_runtime": 237.8342, | |
| "eval_samples_per_second": 21.023, | |
| "eval_steps_per_second": 0.66, | |
| "eval_wer": 0.5062094115300532, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "step": 37500, | |
| "total_flos": 8.244262109970432e+16, | |
| "train_loss": 0.4885604788208008, | |
| "train_runtime": 4587.9371, | |
| "train_samples_per_second": 261.553, | |
| "train_steps_per_second": 8.174 | |
| } | |
| ], | |
| "logging_steps": 50, | |
| "max_steps": 37500, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 8.244262109970432e+16, | |
| "train_batch_size": 32, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |