| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 25.0, | |
| "global_step": 94375, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0, | |
| "learning_rate": 5e-09, | |
| "loss": 10.521, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.13, | |
| "learning_rate": 2.5e-06, | |
| "loss": 9.5586, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "learning_rate": 5e-06, | |
| "loss": 7.9673, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "learning_rate": 7.5e-06, | |
| "loss": 6.9267, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.53, | |
| "learning_rate": 1e-05, | |
| "loss": 6.6261, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.66, | |
| "learning_rate": 1.25e-05, | |
| "loss": 6.4609, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.79, | |
| "learning_rate": 1.5e-05, | |
| "loss": 6.348, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.93, | |
| "learning_rate": 1.75e-05, | |
| "loss": 6.2548, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 1.06, | |
| "learning_rate": 2e-05, | |
| "loss": 6.184, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 1.19, | |
| "learning_rate": 2.25e-05, | |
| "loss": 6.1235, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "learning_rate": 2.5e-05, | |
| "loss": 6.0675, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 1.46, | |
| "learning_rate": 2.7500000000000004e-05, | |
| "loss": 6.0239, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 1.59, | |
| "learning_rate": 3e-05, | |
| "loss": 5.9851, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "learning_rate": 3.2500000000000004e-05, | |
| "loss": 5.946, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 1.85, | |
| "learning_rate": 3.5e-05, | |
| "loss": 5.9148, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 1.99, | |
| "learning_rate": 3.7500000000000003e-05, | |
| "loss": 5.8876, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 2.12, | |
| "learning_rate": 3.9995000000000006e-05, | |
| "loss": 5.8606, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "learning_rate": 4.2495e-05, | |
| "loss": 5.8384, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 2.38, | |
| "learning_rate": 4.4995000000000005e-05, | |
| "loss": 5.8196, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 2.52, | |
| "learning_rate": 4.7495e-05, | |
| "loss": 5.7986, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 2.65, | |
| "learning_rate": 4.9995000000000005e-05, | |
| "loss": 5.784, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 2.78, | |
| "learning_rate": 4.998336666666667e-05, | |
| "loss": 5.7669, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 2.91, | |
| "learning_rate": 4.99667e-05, | |
| "loss": 5.7503, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 3.05, | |
| "learning_rate": 4.995006666666667e-05, | |
| "loss": 5.7376, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 3.18, | |
| "learning_rate": 4.9933400000000005e-05, | |
| "loss": 5.7264, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 3.31, | |
| "learning_rate": 4.9916733333333336e-05, | |
| "loss": 5.713, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 3.44, | |
| "learning_rate": 4.990006666666667e-05, | |
| "loss": 5.7022, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 3.58, | |
| "learning_rate": 4.9883400000000004e-05, | |
| "loss": 5.6969, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 3.71, | |
| "learning_rate": 4.9866733333333335e-05, | |
| "loss": 5.6838, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 3.84, | |
| "learning_rate": 4.9850066666666666e-05, | |
| "loss": 5.6765, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 3.97, | |
| "learning_rate": 4.98334e-05, | |
| "loss": 5.6707, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 4.11, | |
| "learning_rate": 4.981676666666667e-05, | |
| "loss": 5.6607, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 4.24, | |
| "learning_rate": 4.9800100000000005e-05, | |
| "loss": 5.6535, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 4.37, | |
| "learning_rate": 4.9783433333333335e-05, | |
| "loss": 5.6476, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 4.5, | |
| "learning_rate": 4.976676666666667e-05, | |
| "loss": 5.6409, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 4.64, | |
| "learning_rate": 4.97501e-05, | |
| "loss": 5.6365, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 4.77, | |
| "learning_rate": 4.973346666666667e-05, | |
| "loss": 5.6273, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 4.9, | |
| "learning_rate": 4.9716800000000005e-05, | |
| "loss": 5.6247, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 5.03, | |
| "learning_rate": 4.970016666666667e-05, | |
| "loss": 5.6217, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 5.17, | |
| "learning_rate": 4.9683500000000006e-05, | |
| "loss": 5.6159, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 5.3, | |
| "learning_rate": 4.966683333333334e-05, | |
| "loss": 5.609, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 5.43, | |
| "learning_rate": 4.965016666666667e-05, | |
| "loss": 5.6066, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 5.56, | |
| "learning_rate": 4.9633500000000005e-05, | |
| "loss": 5.6022, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 5.7, | |
| "learning_rate": 4.9616833333333336e-05, | |
| "loss": 5.596, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 5.83, | |
| "learning_rate": 4.9600166666666666e-05, | |
| "loss": 5.5916, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 5.96, | |
| "learning_rate": 4.9583500000000004e-05, | |
| "loss": 5.5868, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 6.09, | |
| "learning_rate": 4.956686666666667e-05, | |
| "loss": 5.5814, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 6.23, | |
| "learning_rate": 4.9550200000000005e-05, | |
| "loss": 5.5785, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 6.36, | |
| "learning_rate": 4.9533533333333336e-05, | |
| "loss": 5.5769, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 6.49, | |
| "learning_rate": 4.951686666666667e-05, | |
| "loss": 5.5725, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 6.62, | |
| "learning_rate": 4.9500200000000004e-05, | |
| "loss": 5.572, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 6.75, | |
| "learning_rate": 4.9483533333333335e-05, | |
| "loss": 5.5661, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 6.89, | |
| "learning_rate": 4.9466866666666666e-05, | |
| "loss": 5.5659, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 7.02, | |
| "learning_rate": 4.9450233333333336e-05, | |
| "loss": 5.5605, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 7.15, | |
| "learning_rate": 4.943356666666667e-05, | |
| "loss": 5.5572, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 7.28, | |
| "learning_rate": 4.9416900000000005e-05, | |
| "loss": 5.5525, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 7.42, | |
| "learning_rate": 4.9400233333333335e-05, | |
| "loss": 5.5517, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 7.55, | |
| "learning_rate": 4.938356666666667e-05, | |
| "loss": 5.5477, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 7.68, | |
| "learning_rate": 4.93669e-05, | |
| "loss": 5.5431, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 7.81, | |
| "learning_rate": 4.9350233333333334e-05, | |
| "loss": 5.5412, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 7.95, | |
| "learning_rate": 4.933356666666667e-05, | |
| "loss": 5.538, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 8.08, | |
| "learning_rate": 4.93169e-05, | |
| "loss": 5.5347, | |
| "step": 30500 | |
| }, | |
| { | |
| "epoch": 8.21, | |
| "learning_rate": 4.930023333333333e-05, | |
| "loss": 5.5302, | |
| "step": 31000 | |
| }, | |
| { | |
| "epoch": 8.34, | |
| "learning_rate": 4.928356666666667e-05, | |
| "loss": 5.5291, | |
| "step": 31500 | |
| }, | |
| { | |
| "epoch": 8.48, | |
| "learning_rate": 4.926690000000001e-05, | |
| "loss": 5.5277, | |
| "step": 32000 | |
| }, | |
| { | |
| "epoch": 8.61, | |
| "learning_rate": 4.9250266666666665e-05, | |
| "loss": 5.525, | |
| "step": 32500 | |
| }, | |
| { | |
| "epoch": 8.74, | |
| "learning_rate": 4.92336e-05, | |
| "loss": 5.519, | |
| "step": 33000 | |
| }, | |
| { | |
| "epoch": 8.87, | |
| "learning_rate": 4.921693333333334e-05, | |
| "loss": 5.5216, | |
| "step": 33500 | |
| }, | |
| { | |
| "epoch": 9.01, | |
| "learning_rate": 4.920033333333334e-05, | |
| "loss": 5.5153, | |
| "step": 34000 | |
| }, | |
| { | |
| "epoch": 9.14, | |
| "learning_rate": 4.918366666666667e-05, | |
| "loss": 5.513, | |
| "step": 34500 | |
| }, | |
| { | |
| "epoch": 9.27, | |
| "learning_rate": 4.9167e-05, | |
| "loss": 5.5123, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 9.4, | |
| "learning_rate": 4.9150333333333336e-05, | |
| "loss": 5.5077, | |
| "step": 35500 | |
| }, | |
| { | |
| "epoch": 9.54, | |
| "learning_rate": 4.913366666666667e-05, | |
| "loss": 5.5034, | |
| "step": 36000 | |
| }, | |
| { | |
| "epoch": 9.67, | |
| "learning_rate": 4.9117000000000004e-05, | |
| "loss": 5.5053, | |
| "step": 36500 | |
| }, | |
| { | |
| "epoch": 9.8, | |
| "learning_rate": 4.9100333333333335e-05, | |
| "loss": 5.5026, | |
| "step": 37000 | |
| }, | |
| { | |
| "epoch": 9.93, | |
| "learning_rate": 4.9083666666666666e-05, | |
| "loss": 5.4711, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 10.07, | |
| "learning_rate": 4.9067033333333336e-05, | |
| "loss": 5.1945, | |
| "step": 38000 | |
| }, | |
| { | |
| "epoch": 10.2, | |
| "learning_rate": 4.905036666666667e-05, | |
| "loss": 4.9767, | |
| "step": 38500 | |
| }, | |
| { | |
| "epoch": 10.33, | |
| "learning_rate": 4.9033700000000005e-05, | |
| "loss": 4.7965, | |
| "step": 39000 | |
| }, | |
| { | |
| "epoch": 10.46, | |
| "learning_rate": 4.9017033333333335e-05, | |
| "loss": 4.6281, | |
| "step": 39500 | |
| }, | |
| { | |
| "epoch": 10.6, | |
| "learning_rate": 4.900036666666667e-05, | |
| "loss": 4.4679, | |
| "step": 40000 | |
| }, | |
| { | |
| "epoch": 10.73, | |
| "learning_rate": 4.89837e-05, | |
| "loss": 4.3017, | |
| "step": 40500 | |
| }, | |
| { | |
| "epoch": 10.86, | |
| "learning_rate": 4.8967033333333334e-05, | |
| "loss": 4.1427, | |
| "step": 41000 | |
| }, | |
| { | |
| "epoch": 10.99, | |
| "learning_rate": 4.895036666666667e-05, | |
| "loss": 3.9857, | |
| "step": 41500 | |
| }, | |
| { | |
| "epoch": 11.13, | |
| "learning_rate": 4.8933733333333336e-05, | |
| "loss": 3.8272, | |
| "step": 42000 | |
| }, | |
| { | |
| "epoch": 11.26, | |
| "learning_rate": 4.8917066666666666e-05, | |
| "loss": 3.6712, | |
| "step": 42500 | |
| }, | |
| { | |
| "epoch": 11.39, | |
| "learning_rate": 4.8900400000000004e-05, | |
| "loss": 3.4158, | |
| "step": 43000 | |
| }, | |
| { | |
| "epoch": 11.52, | |
| "learning_rate": 4.8883733333333334e-05, | |
| "loss": 2.7896, | |
| "step": 43500 | |
| }, | |
| { | |
| "epoch": 11.66, | |
| "learning_rate": 4.8867066666666665e-05, | |
| "loss": 2.3599, | |
| "step": 44000 | |
| }, | |
| { | |
| "epoch": 11.79, | |
| "learning_rate": 4.88504e-05, | |
| "loss": 2.149, | |
| "step": 44500 | |
| }, | |
| { | |
| "epoch": 11.92, | |
| "learning_rate": 4.883373333333334e-05, | |
| "loss": 2.0239, | |
| "step": 45000 | |
| }, | |
| { | |
| "epoch": 12.05, | |
| "learning_rate": 4.8817100000000004e-05, | |
| "loss": 1.9323, | |
| "step": 45500 | |
| }, | |
| { | |
| "epoch": 12.19, | |
| "learning_rate": 4.8800433333333335e-05, | |
| "loss": 1.8612, | |
| "step": 46000 | |
| }, | |
| { | |
| "epoch": 12.32, | |
| "learning_rate": 4.878376666666667e-05, | |
| "loss": 1.8034, | |
| "step": 46500 | |
| }, | |
| { | |
| "epoch": 12.45, | |
| "learning_rate": 4.87671e-05, | |
| "loss": 1.7511, | |
| "step": 47000 | |
| }, | |
| { | |
| "epoch": 12.58, | |
| "learning_rate": 4.8750433333333333e-05, | |
| "loss": 1.7082, | |
| "step": 47500 | |
| }, | |
| { | |
| "epoch": 12.72, | |
| "learning_rate": 4.873376666666667e-05, | |
| "loss": 1.6691, | |
| "step": 48000 | |
| }, | |
| { | |
| "epoch": 12.85, | |
| "learning_rate": 4.87171e-05, | |
| "loss": 1.6354, | |
| "step": 48500 | |
| }, | |
| { | |
| "epoch": 12.98, | |
| "learning_rate": 4.8700466666666666e-05, | |
| "loss": 1.6044, | |
| "step": 49000 | |
| }, | |
| { | |
| "epoch": 13.11, | |
| "learning_rate": 4.86838e-05, | |
| "loss": 1.5762, | |
| "step": 49500 | |
| }, | |
| { | |
| "epoch": 13.25, | |
| "learning_rate": 4.8667133333333334e-05, | |
| "loss": 1.552, | |
| "step": 50000 | |
| }, | |
| { | |
| "epoch": 13.38, | |
| "learning_rate": 4.8650466666666664e-05, | |
| "loss": 1.5254, | |
| "step": 50500 | |
| }, | |
| { | |
| "epoch": 13.51, | |
| "learning_rate": 4.86338e-05, | |
| "loss": 1.5016, | |
| "step": 51000 | |
| }, | |
| { | |
| "epoch": 13.64, | |
| "learning_rate": 4.861713333333334e-05, | |
| "loss": 1.4854, | |
| "step": 51500 | |
| }, | |
| { | |
| "epoch": 13.77, | |
| "learning_rate": 4.860046666666666e-05, | |
| "loss": 1.4639, | |
| "step": 52000 | |
| }, | |
| { | |
| "epoch": 13.91, | |
| "learning_rate": 4.85838e-05, | |
| "loss": 1.4464, | |
| "step": 52500 | |
| }, | |
| { | |
| "epoch": 14.04, | |
| "learning_rate": 4.856716666666667e-05, | |
| "loss": 1.428, | |
| "step": 53000 | |
| }, | |
| { | |
| "epoch": 14.17, | |
| "learning_rate": 4.85505e-05, | |
| "loss": 1.4108, | |
| "step": 53500 | |
| }, | |
| { | |
| "epoch": 14.3, | |
| "learning_rate": 4.853383333333333e-05, | |
| "loss": 1.394, | |
| "step": 54000 | |
| }, | |
| { | |
| "epoch": 14.44, | |
| "learning_rate": 4.851716666666667e-05, | |
| "loss": 1.381, | |
| "step": 54500 | |
| }, | |
| { | |
| "epoch": 14.57, | |
| "learning_rate": 4.85005e-05, | |
| "loss": 1.3665, | |
| "step": 55000 | |
| }, | |
| { | |
| "epoch": 14.7, | |
| "learning_rate": 4.848383333333333e-05, | |
| "loss": 1.3524, | |
| "step": 55500 | |
| }, | |
| { | |
| "epoch": 14.83, | |
| "learning_rate": 4.846716666666667e-05, | |
| "loss": 1.3421, | |
| "step": 56000 | |
| }, | |
| { | |
| "epoch": 14.97, | |
| "learning_rate": 4.8450500000000006e-05, | |
| "loss": 1.3328, | |
| "step": 56500 | |
| }, | |
| { | |
| "epoch": 15.1, | |
| "learning_rate": 4.8433866666666664e-05, | |
| "loss": 1.3186, | |
| "step": 57000 | |
| }, | |
| { | |
| "epoch": 15.23, | |
| "learning_rate": 4.84172e-05, | |
| "loss": 1.3081, | |
| "step": 57500 | |
| }, | |
| { | |
| "epoch": 15.36, | |
| "learning_rate": 4.840053333333334e-05, | |
| "loss": 1.2977, | |
| "step": 58000 | |
| }, | |
| { | |
| "epoch": 15.5, | |
| "learning_rate": 4.838386666666667e-05, | |
| "loss": 1.2858, | |
| "step": 58500 | |
| }, | |
| { | |
| "epoch": 15.63, | |
| "learning_rate": 4.83672e-05, | |
| "loss": 1.2789, | |
| "step": 59000 | |
| }, | |
| { | |
| "epoch": 15.76, | |
| "learning_rate": 4.835053333333334e-05, | |
| "loss": 1.2705, | |
| "step": 59500 | |
| }, | |
| { | |
| "epoch": 15.89, | |
| "learning_rate": 4.8333866666666675e-05, | |
| "loss": 1.2606, | |
| "step": 60000 | |
| }, | |
| { | |
| "epoch": 16.03, | |
| "learning_rate": 4.831723333333333e-05, | |
| "loss": 1.2506, | |
| "step": 60500 | |
| }, | |
| { | |
| "epoch": 16.16, | |
| "learning_rate": 4.830056666666667e-05, | |
| "loss": 1.2413, | |
| "step": 61000 | |
| }, | |
| { | |
| "epoch": 16.29, | |
| "learning_rate": 4.828390000000001e-05, | |
| "loss": 1.234, | |
| "step": 61500 | |
| }, | |
| { | |
| "epoch": 16.42, | |
| "learning_rate": 4.826723333333333e-05, | |
| "loss": 1.2269, | |
| "step": 62000 | |
| }, | |
| { | |
| "epoch": 16.56, | |
| "learning_rate": 4.825056666666667e-05, | |
| "loss": 1.2201, | |
| "step": 62500 | |
| }, | |
| { | |
| "epoch": 16.69, | |
| "learning_rate": 4.823393333333334e-05, | |
| "loss": 1.2118, | |
| "step": 63000 | |
| }, | |
| { | |
| "epoch": 16.82, | |
| "learning_rate": 4.821726666666667e-05, | |
| "loss": 1.206, | |
| "step": 63500 | |
| }, | |
| { | |
| "epoch": 16.95, | |
| "learning_rate": 4.82006e-05, | |
| "loss": 1.1987, | |
| "step": 64000 | |
| }, | |
| { | |
| "epoch": 17.09, | |
| "learning_rate": 4.818396666666667e-05, | |
| "loss": 1.1924, | |
| "step": 64500 | |
| }, | |
| { | |
| "epoch": 17.22, | |
| "learning_rate": 4.81673e-05, | |
| "loss": 1.1856, | |
| "step": 65000 | |
| }, | |
| { | |
| "epoch": 17.35, | |
| "learning_rate": 4.815063333333333e-05, | |
| "loss": 1.1776, | |
| "step": 65500 | |
| }, | |
| { | |
| "epoch": 17.48, | |
| "learning_rate": 4.813396666666667e-05, | |
| "loss": 1.1722, | |
| "step": 66000 | |
| }, | |
| { | |
| "epoch": 17.62, | |
| "learning_rate": 4.8117333333333334e-05, | |
| "loss": 1.1657, | |
| "step": 66500 | |
| }, | |
| { | |
| "epoch": 17.75, | |
| "learning_rate": 4.810066666666667e-05, | |
| "loss": 1.1609, | |
| "step": 67000 | |
| }, | |
| { | |
| "epoch": 17.88, | |
| "learning_rate": 4.8084e-05, | |
| "loss": 1.1547, | |
| "step": 67500 | |
| }, | |
| { | |
| "epoch": 18.01, | |
| "learning_rate": 4.806733333333333e-05, | |
| "loss": 1.1505, | |
| "step": 68000 | |
| }, | |
| { | |
| "epoch": 18.15, | |
| "learning_rate": 4.805066666666667e-05, | |
| "loss": 1.1429, | |
| "step": 68500 | |
| }, | |
| { | |
| "epoch": 18.28, | |
| "learning_rate": 4.8034033333333335e-05, | |
| "loss": 1.1364, | |
| "step": 69000 | |
| }, | |
| { | |
| "epoch": 18.41, | |
| "learning_rate": 4.801736666666667e-05, | |
| "loss": 1.132, | |
| "step": 69500 | |
| }, | |
| { | |
| "epoch": 18.54, | |
| "learning_rate": 4.80007e-05, | |
| "loss": 1.1247, | |
| "step": 70000 | |
| }, | |
| { | |
| "epoch": 18.68, | |
| "learning_rate": 4.7984033333333333e-05, | |
| "loss": 1.1205, | |
| "step": 70500 | |
| }, | |
| { | |
| "epoch": 18.81, | |
| "learning_rate": 4.796736666666667e-05, | |
| "loss": 1.1149, | |
| "step": 71000 | |
| }, | |
| { | |
| "epoch": 18.94, | |
| "learning_rate": 4.79507e-05, | |
| "loss": 1.1095, | |
| "step": 71500 | |
| }, | |
| { | |
| "epoch": 19.07, | |
| "learning_rate": 4.793403333333333e-05, | |
| "loss": 1.107, | |
| "step": 72000 | |
| }, | |
| { | |
| "epoch": 19.21, | |
| "learning_rate": 4.79174e-05, | |
| "loss": 1.1018, | |
| "step": 72500 | |
| }, | |
| { | |
| "epoch": 19.34, | |
| "learning_rate": 4.7900733333333334e-05, | |
| "loss": 1.0968, | |
| "step": 73000 | |
| }, | |
| { | |
| "epoch": 19.47, | |
| "learning_rate": 4.788406666666667e-05, | |
| "loss": 1.0896, | |
| "step": 73500 | |
| }, | |
| { | |
| "epoch": 19.6, | |
| "learning_rate": 4.78674e-05, | |
| "loss": 1.0893, | |
| "step": 74000 | |
| }, | |
| { | |
| "epoch": 19.74, | |
| "learning_rate": 4.785073333333334e-05, | |
| "loss": 1.0843, | |
| "step": 74500 | |
| }, | |
| { | |
| "epoch": 19.87, | |
| "learning_rate": 4.783406666666667e-05, | |
| "loss": 1.0809, | |
| "step": 75000 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "learning_rate": 4.7817433333333334e-05, | |
| "loss": 1.0753, | |
| "step": 75500 | |
| }, | |
| { | |
| "epoch": 20.13, | |
| "learning_rate": 4.780076666666667e-05, | |
| "loss": 1.0712, | |
| "step": 76000 | |
| }, | |
| { | |
| "epoch": 20.26, | |
| "learning_rate": 4.77841e-05, | |
| "loss": 1.0647, | |
| "step": 76500 | |
| }, | |
| { | |
| "epoch": 20.4, | |
| "learning_rate": 4.776743333333333e-05, | |
| "loss": 1.0644, | |
| "step": 77000 | |
| }, | |
| { | |
| "epoch": 20.53, | |
| "learning_rate": 4.775076666666667e-05, | |
| "loss": 1.0597, | |
| "step": 77500 | |
| }, | |
| { | |
| "epoch": 20.66, | |
| "learning_rate": 4.7734133333333334e-05, | |
| "loss": 1.0567, | |
| "step": 78000 | |
| }, | |
| { | |
| "epoch": 20.79, | |
| "learning_rate": 4.771746666666667e-05, | |
| "loss": 1.0532, | |
| "step": 78500 | |
| }, | |
| { | |
| "epoch": 20.93, | |
| "learning_rate": 4.77008e-05, | |
| "loss": 1.0511, | |
| "step": 79000 | |
| }, | |
| { | |
| "epoch": 21.06, | |
| "learning_rate": 4.768413333333333e-05, | |
| "loss": 1.0451, | |
| "step": 79500 | |
| }, | |
| { | |
| "epoch": 21.19, | |
| "learning_rate": 4.7667500000000004e-05, | |
| "loss": 1.0436, | |
| "step": 80000 | |
| }, | |
| { | |
| "epoch": 21.32, | |
| "learning_rate": 4.7650833333333335e-05, | |
| "loss": 1.0398, | |
| "step": 80500 | |
| }, | |
| { | |
| "epoch": 21.46, | |
| "learning_rate": 4.7634166666666665e-05, | |
| "loss": 1.0375, | |
| "step": 81000 | |
| }, | |
| { | |
| "epoch": 21.59, | |
| "learning_rate": 4.76175e-05, | |
| "loss": 1.0348, | |
| "step": 81500 | |
| }, | |
| { | |
| "epoch": 21.72, | |
| "learning_rate": 4.7600833333333333e-05, | |
| "loss": 1.0292, | |
| "step": 82000 | |
| }, | |
| { | |
| "epoch": 21.85, | |
| "learning_rate": 4.7584200000000004e-05, | |
| "loss": 1.0275, | |
| "step": 82500 | |
| }, | |
| { | |
| "epoch": 21.99, | |
| "learning_rate": 4.7567533333333335e-05, | |
| "loss": 1.0226, | |
| "step": 83000 | |
| }, | |
| { | |
| "epoch": 22.12, | |
| "learning_rate": 4.755086666666667e-05, | |
| "loss": 1.0204, | |
| "step": 83500 | |
| }, | |
| { | |
| "epoch": 22.25, | |
| "learning_rate": 4.75342e-05, | |
| "loss": 1.0165, | |
| "step": 84000 | |
| }, | |
| { | |
| "epoch": 22.38, | |
| "learning_rate": 4.7517533333333334e-05, | |
| "loss": 1.0138, | |
| "step": 84500 | |
| }, | |
| { | |
| "epoch": 22.52, | |
| "learning_rate": 4.7500900000000005e-05, | |
| "loss": 1.0138, | |
| "step": 85000 | |
| }, | |
| { | |
| "epoch": 22.65, | |
| "learning_rate": 4.7484233333333335e-05, | |
| "loss": 1.0097, | |
| "step": 85500 | |
| }, | |
| { | |
| "epoch": 22.78, | |
| "learning_rate": 4.7467566666666666e-05, | |
| "loss": 1.0066, | |
| "step": 86000 | |
| }, | |
| { | |
| "epoch": 22.91, | |
| "learning_rate": 4.74509e-05, | |
| "loss": 1.0057, | |
| "step": 86500 | |
| }, | |
| { | |
| "epoch": 23.05, | |
| "learning_rate": 4.7434266666666674e-05, | |
| "loss": 1.0003, | |
| "step": 87000 | |
| }, | |
| { | |
| "epoch": 23.18, | |
| "learning_rate": 4.74176e-05, | |
| "loss": 0.9995, | |
| "step": 87500 | |
| }, | |
| { | |
| "epoch": 23.31, | |
| "learning_rate": 4.7400933333333336e-05, | |
| "loss": 0.997, | |
| "step": 88000 | |
| }, | |
| { | |
| "epoch": 23.44, | |
| "learning_rate": 4.738426666666667e-05, | |
| "loss": 0.9945, | |
| "step": 88500 | |
| }, | |
| { | |
| "epoch": 23.58, | |
| "learning_rate": 4.7367600000000004e-05, | |
| "loss": 0.9905, | |
| "step": 89000 | |
| }, | |
| { | |
| "epoch": 23.71, | |
| "learning_rate": 4.735096666666667e-05, | |
| "loss": 0.9884, | |
| "step": 89500 | |
| }, | |
| { | |
| "epoch": 23.84, | |
| "learning_rate": 4.7334300000000005e-05, | |
| "loss": 0.9881, | |
| "step": 90000 | |
| }, | |
| { | |
| "epoch": 23.97, | |
| "learning_rate": 4.7317633333333336e-05, | |
| "loss": 0.9845, | |
| "step": 90500 | |
| }, | |
| { | |
| "epoch": 24.11, | |
| "learning_rate": 4.7300966666666667e-05, | |
| "loss": 0.982, | |
| "step": 91000 | |
| }, | |
| { | |
| "epoch": 24.24, | |
| "learning_rate": 4.7284300000000004e-05, | |
| "loss": 0.9799, | |
| "step": 91500 | |
| }, | |
| { | |
| "epoch": 24.37, | |
| "learning_rate": 4.7267633333333335e-05, | |
| "loss": 0.9751, | |
| "step": 92000 | |
| }, | |
| { | |
| "epoch": 24.5, | |
| "learning_rate": 4.7251e-05, | |
| "loss": 0.9743, | |
| "step": 92500 | |
| }, | |
| { | |
| "epoch": 24.64, | |
| "learning_rate": 4.7234333333333336e-05, | |
| "loss": 0.9752, | |
| "step": 93000 | |
| }, | |
| { | |
| "epoch": 24.77, | |
| "learning_rate": 4.7217666666666674e-05, | |
| "loss": 0.9711, | |
| "step": 93500 | |
| }, | |
| { | |
| "epoch": 24.9, | |
| "learning_rate": 4.7201e-05, | |
| "loss": 0.971, | |
| "step": 94000 | |
| } | |
| ], | |
| "max_steps": 1510000, | |
| "num_train_epochs": 400, | |
| "total_flos": 2.5430025926080463e+19, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |