[{"loss": 1.313, "learning_rate": 1.95e-05, "epoch": 0.5, "step": 500}, {"loss": 1.2424, "learning_rate": 1.9e-05, "epoch": 1.0, "step": 1000}, {"eval_loss": 1.1188857555389404, "eval_runtime": 94.5514, "eval_samples_per_second": 21.153, "eval_steps_per_second": 2.644, "epoch": 1.0, "step": 1000}, {"loss": 1.1837, "learning_rate": 1.8500000000000002e-05, "epoch": 1.5, "step": 1500}, {"loss": 1.1962, "learning_rate": 1.8e-05, "epoch": 2.0, "step": 2000}, {"eval_loss": 1.0637768507003784, "eval_runtime": 94.7423, "eval_samples_per_second": 21.11, "eval_steps_per_second": 2.639, "epoch": 2.0, "step": 2000}, {"loss": 1.1808, "learning_rate": 1.7500000000000002e-05, "epoch": 2.5, "step": 2500}, {"loss": 1.1333, "learning_rate": 1.7e-05, "epoch": 3.0, "step": 3000}, {"eval_loss": 1.0531961917877197, "eval_runtime": 94.6968, "eval_samples_per_second": 21.12, "eval_steps_per_second": 2.64, "epoch": 3.0, "step": 3000}, {"loss": 1.1396, "learning_rate": 1.65e-05, "epoch": 3.5, "step": 3500}, {"loss": 1.0833, "learning_rate": 1.6000000000000003e-05, "epoch": 4.0, "step": 4000}, {"eval_loss": 1.0402554273605347, "eval_runtime": 94.9755, "eval_samples_per_second": 21.058, "eval_steps_per_second": 2.632, "epoch": 4.0, "step": 4000}, {"loss": 1.0923, "learning_rate": 1.55e-05, "epoch": 4.5, "step": 4500}, {"loss": 1.0582, "learning_rate": 1.5000000000000002e-05, "epoch": 5.0, "step": 5000}, {"eval_loss": 1.0105410814285278, "eval_runtime": 94.9212, "eval_samples_per_second": 21.07, "eval_steps_per_second": 2.634, "epoch": 5.0, "step": 5000}, {"loss": 1.0517, "learning_rate": 1.45e-05, "epoch": 5.5, "step": 5500}, {"loss": 1.0353, "learning_rate": 1.4e-05, "epoch": 6.0, "step": 6000}, {"eval_loss": 1.0022052526474, "eval_runtime": 95.125, "eval_samples_per_second": 21.025, "eval_steps_per_second": 2.628, "epoch": 6.0, "step": 6000}, {"loss": 1.0093, "learning_rate": 1.3500000000000001e-05, "epoch": 6.5, "step": 6500}, {"loss": 1.0255, "learning_rate": 1.3000000000000001e-05, "epoch": 7.0, "step": 7000}, {"eval_loss": 1.0013595819473267, "eval_runtime": 95.3095, "eval_samples_per_second": 20.984, "eval_steps_per_second": 2.623, "epoch": 7.0, "step": 7000}, {"loss": 1.0156, "learning_rate": 1.25e-05, "epoch": 7.5, "step": 7500}, {"loss": 0.9828, "learning_rate": 1.2e-05, "epoch": 8.0, "step": 8000}, {"eval_loss": 1.0102044343948364, "eval_runtime": 94.9606, "eval_samples_per_second": 21.061, "eval_steps_per_second": 2.633, "epoch": 8.0, "step": 8000}, {"loss": 0.9735, "learning_rate": 1.15e-05, "epoch": 8.5, "step": 8500}, {"loss": 0.9648, "learning_rate": 1.1000000000000001e-05, "epoch": 9.0, "step": 9000}, {"eval_loss": 0.9765680432319641, "eval_runtime": 95.1078, "eval_samples_per_second": 21.029, "eval_steps_per_second": 2.629, "epoch": 9.0, "step": 9000}, {"loss": 0.9549, "learning_rate": 1.0500000000000001e-05, "epoch": 9.5, "step": 9500}, {"loss": 0.959, "learning_rate": 1e-05, "epoch": 10.0, "step": 10000}, {"eval_loss": 0.9957079887390137, "eval_runtime": 95.2042, "eval_samples_per_second": 21.007, "eval_steps_per_second": 2.626, "epoch": 10.0, "step": 10000}, {"loss": 0.9179, "learning_rate": 9.5e-06, "epoch": 10.5, "step": 10500}, {"loss": 0.9553, "learning_rate": 9e-06, "epoch": 11.0, "step": 11000}, {"eval_loss": 0.9719814658164978, "eval_runtime": 95.5727, "eval_samples_per_second": 20.926, "eval_steps_per_second": 2.616, "epoch": 11.0, "step": 11000}, {"loss": 0.9219, "learning_rate": 8.5e-06, "epoch": 11.5, "step": 11500}, {"loss": 0.9114, "learning_rate": 8.000000000000001e-06, "epoch": 12.0, "step": 12000}, {"eval_loss": 0.9914081692695618, "eval_runtime": 95.4859, "eval_samples_per_second": 20.945, "eval_steps_per_second": 2.618, "epoch": 12.0, "step": 12000}, {"loss": 0.8948, "learning_rate": 7.500000000000001e-06, "epoch": 12.5, "step": 12500}, {"loss": 0.9249, "learning_rate": 7e-06, "epoch": 13.0, "step": 13000}, {"eval_loss": 0.9752430319786072, "eval_runtime": 95.3978, "eval_samples_per_second": 20.965, "eval_steps_per_second": 2.621, "epoch": 13.0, "step": 13000}, {"loss": 0.8945, "learning_rate": 6.5000000000000004e-06, "epoch": 13.5, "step": 13500}, {"loss": 0.9341, "learning_rate": 6e-06, "epoch": 14.0, "step": 14000}, {"eval_loss": 0.9734780192375183, "eval_runtime": 95.6136, "eval_samples_per_second": 20.918, "eval_steps_per_second": 2.615, "epoch": 14.0, "step": 14000}, {"loss": 0.9056, "learning_rate": 5.500000000000001e-06, "epoch": 14.5, "step": 14500}, {"loss": 0.872, "learning_rate": 5e-06, "epoch": 15.0, "step": 15000}, {"eval_loss": 0.9781648516654968, "eval_runtime": 95.6031, "eval_samples_per_second": 20.92, "eval_steps_per_second": 2.615, "epoch": 15.0, "step": 15000}, {"loss": 0.873, "learning_rate": 4.5e-06, "epoch": 15.5, "step": 15500}, {"loss": 0.892, "learning_rate": 4.000000000000001e-06, "epoch": 16.0, "step": 16000}, {"eval_loss": 0.976578950881958, "eval_runtime": 95.2924, "eval_samples_per_second": 20.988, "eval_steps_per_second": 2.624, "epoch": 16.0, "step": 16000}, {"loss": 0.8624, "learning_rate": 3.5e-06, "epoch": 16.5, "step": 16500}, {"loss": 0.9058, "learning_rate": 3e-06, "epoch": 17.0, "step": 17000}, {"eval_loss": 0.9756768941879272, "eval_runtime": 95.7512, "eval_samples_per_second": 20.887, "eval_steps_per_second": 2.611, "epoch": 17.0, "step": 17000}, {"loss": 0.8692, "learning_rate": 2.5e-06, "epoch": 17.5, "step": 17500}, {"loss": 0.8591, "learning_rate": 2.0000000000000003e-06, "epoch": 18.0, "step": 18000}, {"eval_loss": 0.9820734262466431, "eval_runtime": 95.22, "eval_samples_per_second": 21.004, "eval_steps_per_second": 2.625, "epoch": 18.0, "step": 18000}, {"loss": 0.8711, "learning_rate": 1.5e-06, "epoch": 18.5, "step": 18500}, {"loss": 0.8544, "learning_rate": 1.0000000000000002e-06, "epoch": 19.0, "step": 19000}, {"eval_loss": 0.975243330001831, "eval_runtime": 95.5956, "eval_samples_per_second": 20.921, "eval_steps_per_second": 2.615, "epoch": 19.0, "step": 19000}, {"loss": 0.8467, "learning_rate": 5.000000000000001e-07, "epoch": 19.5, "step": 19500}, {"loss": 0.8921, "learning_rate": 0.0, "epoch": 20.0, "step": 20000}, {"eval_loss": 0.9759553670883179, "eval_runtime": 95.1394, "eval_samples_per_second": 21.022, "eval_steps_per_second": 2.628, "epoch": 20.0, "step": 20000}, {"train_runtime": 10742.6755, "train_samples_per_second": 14.894, "train_steps_per_second": 1.862, "total_flos": 0.0, "train_loss": 0.9863320022583008, "epoch": 20.0, "step": 20000}]