| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 3.0, | |
| "eval_steps": 500, | |
| "global_step": 46875, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 2.559859037399292, | |
| "learning_rate": 4.9466666666666665e-05, | |
| "loss": 8.6064, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 2.7166013717651367, | |
| "learning_rate": 4.8933333333333335e-05, | |
| "loss": 6.4365, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 2.9375717639923096, | |
| "learning_rate": 4.8400000000000004e-05, | |
| "loss": 5.7166, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.128, | |
| "grad_norm": 2.681896209716797, | |
| "learning_rate": 4.7866666666666674e-05, | |
| "loss": 5.3318, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 2.957535982131958, | |
| "learning_rate": 4.7333333333333336e-05, | |
| "loss": 5.0808, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.192, | |
| "grad_norm": 2.7159996032714844, | |
| "learning_rate": 4.6800000000000006e-05, | |
| "loss": 4.8739, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.224, | |
| "grad_norm": 2.7686867713928223, | |
| "learning_rate": 4.626666666666667e-05, | |
| "loss": 4.7194, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 2.9994072914123535, | |
| "learning_rate": 4.573333333333333e-05, | |
| "loss": 4.5874, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.288, | |
| "grad_norm": 3.0717546939849854, | |
| "learning_rate": 4.52e-05, | |
| "loss": 4.4778, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 2.996824264526367, | |
| "learning_rate": 4.466666666666667e-05, | |
| "loss": 4.3819, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.352, | |
| "grad_norm": 2.8943400382995605, | |
| "learning_rate": 4.413333333333334e-05, | |
| "loss": 4.283, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.384, | |
| "grad_norm": 3.34658145904541, | |
| "learning_rate": 4.36e-05, | |
| "loss": 4.2271, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.416, | |
| "grad_norm": 3.0995116233825684, | |
| "learning_rate": 4.3066666666666665e-05, | |
| "loss": 4.153, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.448, | |
| "grad_norm": 3.0321125984191895, | |
| "learning_rate": 4.2533333333333335e-05, | |
| "loss": 4.0983, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 3.119123697280884, | |
| "learning_rate": 4.2e-05, | |
| "loss": 4.0394, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 0.512, | |
| "grad_norm": 3.162355422973633, | |
| "learning_rate": 4.146666666666667e-05, | |
| "loss": 4.0039, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 0.544, | |
| "grad_norm": 3.0241446495056152, | |
| "learning_rate": 4.093333333333334e-05, | |
| "loss": 3.9588, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 0.576, | |
| "grad_norm": 3.027881383895874, | |
| "learning_rate": 4.0400000000000006e-05, | |
| "loss": 3.932, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 0.608, | |
| "grad_norm": 3.2551701068878174, | |
| "learning_rate": 3.986666666666667e-05, | |
| "loss": 3.8788, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 3.1692616939544678, | |
| "learning_rate": 3.933333333333333e-05, | |
| "loss": 3.8402, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 0.672, | |
| "grad_norm": 3.4097533226013184, | |
| "learning_rate": 3.88e-05, | |
| "loss": 3.8155, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 0.704, | |
| "grad_norm": 3.4331860542297363, | |
| "learning_rate": 3.8266666666666664e-05, | |
| "loss": 3.7781, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 0.736, | |
| "grad_norm": 3.341395139694214, | |
| "learning_rate": 3.773333333333334e-05, | |
| "loss": 3.7592, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 0.768, | |
| "grad_norm": 3.1860477924346924, | |
| "learning_rate": 3.72e-05, | |
| "loss": 3.7219, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 3.3436477184295654, | |
| "learning_rate": 3.6666666666666666e-05, | |
| "loss": 3.7017, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 0.832, | |
| "grad_norm": 3.2480103969573975, | |
| "learning_rate": 3.6133333333333335e-05, | |
| "loss": 3.6795, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 0.864, | |
| "grad_norm": 3.427396774291992, | |
| "learning_rate": 3.56e-05, | |
| "loss": 3.6672, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 0.896, | |
| "grad_norm": 3.6126272678375244, | |
| "learning_rate": 3.506666666666667e-05, | |
| "loss": 3.6411, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 0.928, | |
| "grad_norm": 3.2980282306671143, | |
| "learning_rate": 3.453333333333334e-05, | |
| "loss": 3.6083, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 3.086813449859619, | |
| "learning_rate": 3.4000000000000007e-05, | |
| "loss": 3.6038, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 0.992, | |
| "grad_norm": 3.5595266819000244, | |
| "learning_rate": 3.346666666666667e-05, | |
| "loss": 3.5761, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 1.024, | |
| "grad_norm": 3.3751089572906494, | |
| "learning_rate": 3.293333333333333e-05, | |
| "loss": 3.558, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 1.056, | |
| "grad_norm": 3.356954336166382, | |
| "learning_rate": 3.24e-05, | |
| "loss": 3.537, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 1.088, | |
| "grad_norm": 3.410510301589966, | |
| "learning_rate": 3.1866666666666664e-05, | |
| "loss": 3.5313, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 3.2071657180786133, | |
| "learning_rate": 3.1333333333333334e-05, | |
| "loss": 3.5152, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 1.152, | |
| "grad_norm": 3.232302188873291, | |
| "learning_rate": 3.08e-05, | |
| "loss": 3.5104, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 1.184, | |
| "grad_norm": 3.7388410568237305, | |
| "learning_rate": 3.0266666666666666e-05, | |
| "loss": 3.4852, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 1.216, | |
| "grad_norm": 3.546588659286499, | |
| "learning_rate": 2.9733333333333336e-05, | |
| "loss": 3.4776, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 1.248, | |
| "grad_norm": 3.3913826942443848, | |
| "learning_rate": 2.9199999999999998e-05, | |
| "loss": 3.4615, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 3.4872782230377197, | |
| "learning_rate": 2.8666666666666668e-05, | |
| "loss": 3.4588, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 1.312, | |
| "grad_norm": 3.5155386924743652, | |
| "learning_rate": 2.8133333333333334e-05, | |
| "loss": 3.443, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 1.3439999999999999, | |
| "grad_norm": 3.594855546951294, | |
| "learning_rate": 2.7600000000000003e-05, | |
| "loss": 3.4246, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 1.376, | |
| "grad_norm": 3.613616466522217, | |
| "learning_rate": 2.706666666666667e-05, | |
| "loss": 3.4144, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 1.408, | |
| "grad_norm": 3.264342784881592, | |
| "learning_rate": 2.6533333333333332e-05, | |
| "loss": 3.41, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 3.3933544158935547, | |
| "learning_rate": 2.6000000000000002e-05, | |
| "loss": 3.4029, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 1.472, | |
| "grad_norm": 3.900798797607422, | |
| "learning_rate": 2.5466666666666668e-05, | |
| "loss": 3.3901, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 1.504, | |
| "grad_norm": 3.4809327125549316, | |
| "learning_rate": 2.4933333333333334e-05, | |
| "loss": 3.3738, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 1.536, | |
| "grad_norm": 3.3931281566619873, | |
| "learning_rate": 2.44e-05, | |
| "loss": 3.3752, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 1.568, | |
| "grad_norm": 3.4446539878845215, | |
| "learning_rate": 2.3866666666666666e-05, | |
| "loss": 3.3618, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 3.256617546081543, | |
| "learning_rate": 2.3333333333333336e-05, | |
| "loss": 3.3559, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 1.6320000000000001, | |
| "grad_norm": 3.423475503921509, | |
| "learning_rate": 2.2800000000000002e-05, | |
| "loss": 3.3445, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 1.6640000000000001, | |
| "grad_norm": 4.00131893157959, | |
| "learning_rate": 2.2266666666666668e-05, | |
| "loss": 3.356, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 1.696, | |
| "grad_norm": 3.4588286876678467, | |
| "learning_rate": 2.1733333333333334e-05, | |
| "loss": 3.3375, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 1.728, | |
| "grad_norm": 3.8820817470550537, | |
| "learning_rate": 2.12e-05, | |
| "loss": 3.3301, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 3.740394353866577, | |
| "learning_rate": 2.0666666666666666e-05, | |
| "loss": 3.3206, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 1.792, | |
| "grad_norm": 3.536240339279175, | |
| "learning_rate": 2.0133333333333336e-05, | |
| "loss": 3.3305, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 1.8239999999999998, | |
| "grad_norm": 3.527123212814331, | |
| "learning_rate": 1.9600000000000002e-05, | |
| "loss": 3.3162, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 1.8559999999999999, | |
| "grad_norm": 3.5807790756225586, | |
| "learning_rate": 1.9066666666666668e-05, | |
| "loss": 3.3117, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 1.888, | |
| "grad_norm": 3.438460111618042, | |
| "learning_rate": 1.8533333333333334e-05, | |
| "loss": 3.2941, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 3.564744472503662, | |
| "learning_rate": 1.8e-05, | |
| "loss": 3.2991, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 1.952, | |
| "grad_norm": 3.620878219604492, | |
| "learning_rate": 1.7466666666666667e-05, | |
| "loss": 3.2915, | |
| "step": 30500 | |
| }, | |
| { | |
| "epoch": 1.984, | |
| "grad_norm": 3.5213491916656494, | |
| "learning_rate": 1.6933333333333333e-05, | |
| "loss": 3.2906, | |
| "step": 31000 | |
| }, | |
| { | |
| "epoch": 2.016, | |
| "grad_norm": 3.39905047416687, | |
| "learning_rate": 1.6400000000000002e-05, | |
| "loss": 3.2781, | |
| "step": 31500 | |
| }, | |
| { | |
| "epoch": 2.048, | |
| "grad_norm": 3.6184778213500977, | |
| "learning_rate": 1.586666666666667e-05, | |
| "loss": 3.2858, | |
| "step": 32000 | |
| }, | |
| { | |
| "epoch": 2.08, | |
| "grad_norm": 4.695396900177002, | |
| "learning_rate": 1.5333333333333334e-05, | |
| "loss": 3.2691, | |
| "step": 32500 | |
| }, | |
| { | |
| "epoch": 2.112, | |
| "grad_norm": 3.8069801330566406, | |
| "learning_rate": 1.48e-05, | |
| "loss": 3.2781, | |
| "step": 33000 | |
| }, | |
| { | |
| "epoch": 2.144, | |
| "grad_norm": 3.849910259246826, | |
| "learning_rate": 1.4266666666666667e-05, | |
| "loss": 3.265, | |
| "step": 33500 | |
| }, | |
| { | |
| "epoch": 2.176, | |
| "grad_norm": 3.518418550491333, | |
| "learning_rate": 1.3733333333333335e-05, | |
| "loss": 3.2553, | |
| "step": 34000 | |
| }, | |
| { | |
| "epoch": 2.208, | |
| "grad_norm": 3.714787006378174, | |
| "learning_rate": 1.32e-05, | |
| "loss": 3.2659, | |
| "step": 34500 | |
| }, | |
| { | |
| "epoch": 2.24, | |
| "grad_norm": 3.631002426147461, | |
| "learning_rate": 1.2666666666666668e-05, | |
| "loss": 3.2528, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 2.2720000000000002, | |
| "grad_norm": 3.701296091079712, | |
| "learning_rate": 1.2133333333333335e-05, | |
| "loss": 3.2478, | |
| "step": 35500 | |
| }, | |
| { | |
| "epoch": 2.304, | |
| "grad_norm": 3.5912673473358154, | |
| "learning_rate": 1.16e-05, | |
| "loss": 3.2542, | |
| "step": 36000 | |
| }, | |
| { | |
| "epoch": 2.336, | |
| "grad_norm": 3.645458221435547, | |
| "learning_rate": 1.1066666666666667e-05, | |
| "loss": 3.2516, | |
| "step": 36500 | |
| }, | |
| { | |
| "epoch": 2.368, | |
| "grad_norm": 3.7062928676605225, | |
| "learning_rate": 1.0533333333333335e-05, | |
| "loss": 3.2345, | |
| "step": 37000 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 3.8677589893341064, | |
| "learning_rate": 1e-05, | |
| "loss": 3.2316, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 2.432, | |
| "grad_norm": 3.845417022705078, | |
| "learning_rate": 9.466666666666667e-06, | |
| "loss": 3.2383, | |
| "step": 38000 | |
| }, | |
| { | |
| "epoch": 2.464, | |
| "grad_norm": 4.2547712326049805, | |
| "learning_rate": 8.933333333333333e-06, | |
| "loss": 3.2306, | |
| "step": 38500 | |
| }, | |
| { | |
| "epoch": 2.496, | |
| "grad_norm": 3.7692208290100098, | |
| "learning_rate": 8.400000000000001e-06, | |
| "loss": 3.233, | |
| "step": 39000 | |
| }, | |
| { | |
| "epoch": 2.528, | |
| "grad_norm": 3.726915121078491, | |
| "learning_rate": 7.866666666666667e-06, | |
| "loss": 3.2362, | |
| "step": 39500 | |
| }, | |
| { | |
| "epoch": 2.56, | |
| "grad_norm": 3.675123691558838, | |
| "learning_rate": 7.333333333333334e-06, | |
| "loss": 3.2379, | |
| "step": 40000 | |
| }, | |
| { | |
| "epoch": 2.592, | |
| "grad_norm": 3.647224187850952, | |
| "learning_rate": 6.800000000000001e-06, | |
| "loss": 3.2274, | |
| "step": 40500 | |
| }, | |
| { | |
| "epoch": 2.624, | |
| "grad_norm": 3.850755453109741, | |
| "learning_rate": 6.266666666666666e-06, | |
| "loss": 3.2224, | |
| "step": 41000 | |
| }, | |
| { | |
| "epoch": 2.656, | |
| "grad_norm": 3.7878735065460205, | |
| "learning_rate": 5.733333333333333e-06, | |
| "loss": 3.2182, | |
| "step": 41500 | |
| }, | |
| { | |
| "epoch": 2.6879999999999997, | |
| "grad_norm": 3.540040969848633, | |
| "learning_rate": 5.2e-06, | |
| "loss": 3.2141, | |
| "step": 42000 | |
| }, | |
| { | |
| "epoch": 2.7199999999999998, | |
| "grad_norm": 3.7240407466888428, | |
| "learning_rate": 4.666666666666667e-06, | |
| "loss": 3.2198, | |
| "step": 42500 | |
| }, | |
| { | |
| "epoch": 2.752, | |
| "grad_norm": 3.9615602493286133, | |
| "learning_rate": 4.133333333333333e-06, | |
| "loss": 3.2218, | |
| "step": 43000 | |
| }, | |
| { | |
| "epoch": 2.784, | |
| "grad_norm": 3.593024730682373, | |
| "learning_rate": 3.6e-06, | |
| "loss": 3.2123, | |
| "step": 43500 | |
| }, | |
| { | |
| "epoch": 2.816, | |
| "grad_norm": 3.817379951477051, | |
| "learning_rate": 3.066666666666667e-06, | |
| "loss": 3.2133, | |
| "step": 44000 | |
| }, | |
| { | |
| "epoch": 2.848, | |
| "grad_norm": 3.950862169265747, | |
| "learning_rate": 2.5333333333333334e-06, | |
| "loss": 3.2082, | |
| "step": 44500 | |
| }, | |
| { | |
| "epoch": 2.88, | |
| "grad_norm": 3.852062225341797, | |
| "learning_rate": 2.0000000000000003e-06, | |
| "loss": 3.2017, | |
| "step": 45000 | |
| }, | |
| { | |
| "epoch": 2.912, | |
| "grad_norm": 3.842193126678467, | |
| "learning_rate": 1.4666666666666667e-06, | |
| "loss": 3.1989, | |
| "step": 45500 | |
| }, | |
| { | |
| "epoch": 2.944, | |
| "grad_norm": 4.043825149536133, | |
| "learning_rate": 9.333333333333334e-07, | |
| "loss": 3.2116, | |
| "step": 46000 | |
| }, | |
| { | |
| "epoch": 2.976, | |
| "grad_norm": 3.7213408946990967, | |
| "learning_rate": 4.0000000000000003e-07, | |
| "loss": 3.2063, | |
| "step": 46500 | |
| } | |
| ], | |
| "logging_steps": 500, | |
| "max_steps": 46875, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 4.41216036864e+17, | |
| "train_batch_size": 16, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |