{
  "best_metric": 1.0748603343963623,
  "best_model_checkpoint": "/home/htr/Works/LLM_FInetuneTrying/ModelSave_NiuTrans__Classical-Modern_Chinese_Alpaca_Plus_13B_huggingface/experiments9/checkpoint-2280",
  "epoch": 0.05839651830947604,
  "global_step": 2290,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "eval_loss": 2.1373226642608643,
      "eval_runtime": 98.6309,
      "eval_samples_per_second": 10.139,
      "eval_steps_per_second": 1.267,
      "step": 10
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1380295753479004,
      "eval_runtime": 98.364,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 20
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.54957507082153e-07,
      "loss": 2.0494,
      "step": 30
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1390674114227295,
      "eval_runtime": 98.4516,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 30
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1379237174987793,
      "eval_runtime": 98.4053,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 40
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1322598457336426,
      "eval_runtime": 98.3731,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 50
    },
    {
      "epoch": 0.0,
      "learning_rate": 5.09915014164306e-07,
      "loss": 2.1992,
      "step": 60
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.132437229156494,
      "eval_runtime": 98.3807,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 60
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1324551105499268,
      "eval_runtime": 98.3666,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 70
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1256096363067627,
      "eval_runtime": 98.4457,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 80
    },
    {
      "epoch": 0.0,
      "learning_rate": 7.648725212464589e-07,
      "loss": 2.0523,
      "step": 90
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1243367195129395,
      "eval_runtime": 98.3341,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 90
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.12176513671875,
      "eval_runtime": 98.302,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 100
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.1149940490722656,
      "eval_runtime": 98.4139,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 110
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.019830028328612e-06,
      "loss": 2.1769,
      "step": 120
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.108457088470459,
      "eval_runtime": 98.3955,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 120
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.104037046432495,
      "eval_runtime": 98.3573,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 130
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.09036922454834,
      "eval_runtime": 98.362,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 140
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.2747875354107649e-06,
      "loss": 2.1363,
      "step": 150
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.0742862224578857,
      "eval_runtime": 98.3549,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 150
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.064608335494995,
      "eval_runtime": 98.342,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 160
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.05263614654541,
      "eval_runtime": 98.3419,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 170
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.5297450424929178e-06,
      "loss": 1.9341,
      "step": 180
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.039722442626953,
      "eval_runtime": 98.3247,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 180
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.0163352489471436,
      "eval_runtime": 98.3135,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.271,
      "step": 190
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.9980436563491821,
      "eval_runtime": 98.3315,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 200
    },
    {
      "epoch": 0.01,
      "learning_rate": 1.7847025495750709e-06,
      "loss": 2.0446,
      "step": 210
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.9802043437957764,
      "eval_runtime": 98.3457,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 210
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.9563994407653809,
      "eval_runtime": 98.3093,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.271,
      "step": 220
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.9318877458572388,
      "eval_runtime": 98.3329,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 230
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.039660056657224e-06,
      "loss": 1.776,
      "step": 240
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.905337929725647,
      "eval_runtime": 98.338,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 240
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.8747742176055908,
      "eval_runtime": 98.345,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 250
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.857684850692749,
      "eval_runtime": 98.3687,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 260
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.294617563739377e-06,
      "loss": 1.8543,
      "step": 270
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.8255928754806519,
      "eval_runtime": 98.4748,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 270
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.7987793684005737,
      "eval_runtime": 98.4525,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 280
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.763482689857483,
      "eval_runtime": 98.4527,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 290
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.5495750708215297e-06,
      "loss": 1.5595,
      "step": 300
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.7248739004135132,
      "eval_runtime": 98.447,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 300
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.7009263038635254,
      "eval_runtime": 98.4453,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 310
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.6721488237380981,
      "eval_runtime": 98.4709,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 320
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.804532577903683e-06,
      "loss": 1.6821,
      "step": 330
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.6415181159973145,
      "eval_runtime": 98.4439,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 330
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.6105990409851074,
      "eval_runtime": 98.5058,
      "eval_samples_per_second": 10.152,
      "eval_steps_per_second": 1.269,
      "step": 340
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.5836091041564941,
      "eval_runtime": 98.4419,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 350
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.0594900849858355e-06,
      "loss": 1.3598,
      "step": 360
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.5605424642562866,
      "eval_runtime": 98.5143,
      "eval_samples_per_second": 10.151,
      "eval_steps_per_second": 1.269,
      "step": 360
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.541277289390564,
      "eval_runtime": 98.4881,
      "eval_samples_per_second": 10.154,
      "eval_steps_per_second": 1.269,
      "step": 370
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.525178074836731,
      "eval_runtime": 98.5121,
      "eval_samples_per_second": 10.151,
      "eval_steps_per_second": 1.269,
      "step": 380
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.3144475920679886e-06,
      "loss": 1.2458,
      "step": 390
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.511926293373108,
      "eval_runtime": 98.5003,
      "eval_samples_per_second": 10.152,
      "eval_steps_per_second": 1.269,
      "step": 390
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4966439008712769,
      "eval_runtime": 98.4955,
      "eval_samples_per_second": 10.153,
      "eval_steps_per_second": 1.269,
      "step": 400
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.48922598361969,
      "eval_runtime": 98.522,
      "eval_samples_per_second": 10.15,
      "eval_steps_per_second": 1.269,
      "step": 410
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.5694050991501417e-06,
      "loss": 1.3413,
      "step": 420
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.478908896446228,
      "eval_runtime": 98.5403,
      "eval_samples_per_second": 10.148,
      "eval_steps_per_second": 1.269,
      "step": 420
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4668803215026855,
      "eval_runtime": 98.5077,
      "eval_samples_per_second": 10.151,
      "eval_steps_per_second": 1.269,
      "step": 430
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4557193517684937,
      "eval_runtime": 98.4997,
      "eval_samples_per_second": 10.152,
      "eval_steps_per_second": 1.269,
      "step": 440
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.824362606232295e-06,
      "loss": 0.9985,
      "step": 450
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4475480318069458,
      "eval_runtime": 98.498,
      "eval_samples_per_second": 10.152,
      "eval_steps_per_second": 1.269,
      "step": 450
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4383153915405273,
      "eval_runtime": 98.6487,
      "eval_samples_per_second": 10.137,
      "eval_steps_per_second": 1.267,
      "step": 460
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4303867816925049,
      "eval_runtime": 98.5564,
      "eval_samples_per_second": 10.146,
      "eval_steps_per_second": 1.268,
      "step": 470
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.079320113314448e-06,
      "loss": 1.4106,
      "step": 480
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4213155508041382,
      "eval_runtime": 98.5298,
      "eval_samples_per_second": 10.149,
      "eval_steps_per_second": 1.269,
      "step": 480
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4142318964004517,
      "eval_runtime": 98.66,
      "eval_samples_per_second": 10.136,
      "eval_steps_per_second": 1.267,
      "step": 490
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4069148302078247,
      "eval_runtime": 98.6431,
      "eval_samples_per_second": 10.138,
      "eval_steps_per_second": 1.267,
      "step": 500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.3342776203966e-06,
      "loss": 1.1759,
      "step": 510
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.4016706943511963,
      "eval_runtime": 98.5817,
      "eval_samples_per_second": 10.144,
      "eval_steps_per_second": 1.268,
      "step": 510
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.3924814462661743,
      "eval_runtime": 98.5114,
      "eval_samples_per_second": 10.151,
      "eval_steps_per_second": 1.269,
      "step": 520
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.3864272832870483,
      "eval_runtime": 98.5314,
      "eval_samples_per_second": 10.149,
      "eval_steps_per_second": 1.269,
      "step": 530
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.589235127478754e-06,
      "loss": 1.1242,
      "step": 540
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.3822429180145264,
      "eval_runtime": 98.5567,
      "eval_samples_per_second": 10.146,
      "eval_steps_per_second": 1.268,
      "step": 540
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.3771448135375977,
      "eval_runtime": 98.4784,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 550
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.370827317237854,
      "eval_runtime": 98.6665,
      "eval_samples_per_second": 10.135,
      "eval_steps_per_second": 1.267,
      "step": 560
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.844192634560906e-06,
      "loss": 1.2331,
      "step": 570
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.364367961883545,
      "eval_runtime": 98.5549,
      "eval_samples_per_second": 10.147,
      "eval_steps_per_second": 1.268,
      "step": 570
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.3595472574234009,
      "eval_runtime": 98.559,
      "eval_samples_per_second": 10.146,
      "eval_steps_per_second": 1.268,
      "step": 580
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3528627157211304,
      "eval_runtime": 98.5582,
      "eval_samples_per_second": 10.146,
      "eval_steps_per_second": 1.268,
      "step": 590
    },
    {
      "epoch": 0.02,
      "learning_rate": 5.0991501416430595e-06,
      "loss": 0.9176,
      "step": 600
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3484375476837158,
      "eval_runtime": 98.5428,
      "eval_samples_per_second": 10.148,
      "eval_steps_per_second": 1.268,
      "step": 600
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3425002098083496,
      "eval_runtime": 98.5663,
      "eval_samples_per_second": 10.145,
      "eval_steps_per_second": 1.268,
      "step": 610
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.336937665939331,
      "eval_runtime": 98.4821,
      "eval_samples_per_second": 10.154,
      "eval_steps_per_second": 1.269,
      "step": 620
    },
    {
      "epoch": 0.02,
      "learning_rate": 5.354107648725213e-06,
      "loss": 1.3099,
      "step": 630
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3323618173599243,
      "eval_runtime": 98.4621,
      "eval_samples_per_second": 10.156,
      "eval_steps_per_second": 1.27,
      "step": 630
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.325688123703003,
      "eval_runtime": 98.4324,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 640
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.323840618133545,
      "eval_runtime": 98.414,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 650
    },
    {
      "epoch": 0.02,
      "learning_rate": 5.609065155807366e-06,
      "loss": 1.0311,
      "step": 660
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3195195198059082,
      "eval_runtime": 98.3495,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 660
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3115589618682861,
      "eval_runtime": 98.3811,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 670
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.3064874410629272,
      "eval_runtime": 98.3079,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.272,
      "step": 680
    },
    {
      "epoch": 0.02,
      "learning_rate": 5.864022662889519e-06,
      "loss": 1.025,
      "step": 690
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.300554633140564,
      "eval_runtime": 98.4079,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 690
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2987103462219238,
      "eval_runtime": 98.326,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 700
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2936962842941284,
      "eval_runtime": 98.4071,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 710
    },
    {
      "epoch": 0.02,
      "learning_rate": 6.118980169971671e-06,
      "loss": 1.1209,
      "step": 720
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.28831946849823,
      "eval_runtime": 98.3906,
      "eval_samples_per_second": 10.164,
      "eval_steps_per_second": 1.27,
      "step": 720
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2841123342514038,
      "eval_runtime": 98.4338,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 730
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2792314291000366,
      "eval_runtime": 98.4023,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 740
    },
    {
      "epoch": 0.02,
      "learning_rate": 6.373937677053825e-06,
      "loss": 0.8206,
      "step": 750
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2769616842269897,
      "eval_runtime": 98.4211,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 750
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.271959662437439,
      "eval_runtime": 98.3642,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 760
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2643251419067383,
      "eval_runtime": 98.3824,
      "eval_samples_per_second": 10.164,
      "eval_steps_per_second": 1.271,
      "step": 770
    },
    {
      "epoch": 0.02,
      "learning_rate": 6.628895184135977e-06,
      "loss": 1.2928,
      "step": 780
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2600923776626587,
      "eval_runtime": 98.3338,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 780
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2568110227584839,
      "eval_runtime": 98.3121,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.271,
      "step": 790
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.254643201828003,
      "eval_runtime": 98.3589,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 800
    },
    {
      "epoch": 0.02,
      "learning_rate": 6.88385269121813e-06,
      "loss": 0.9938,
      "step": 810
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2510321140289307,
      "eval_runtime": 98.3386,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 810
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2455601692199707,
      "eval_runtime": 98.3748,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 820
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2411696910858154,
      "eval_runtime": 98.352,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 830
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.1388101983002834e-06,
      "loss": 0.9805,
      "step": 840
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2375924587249756,
      "eval_runtime": 98.2714,
      "eval_samples_per_second": 10.176,
      "eval_steps_per_second": 1.272,
      "step": 840
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2358232736587524,
      "eval_runtime": 98.4108,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 850
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2307369709014893,
      "eval_runtime": 98.4489,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 860
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.3937677053824365e-06,
      "loss": 1.077,
      "step": 870
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2273682355880737,
      "eval_runtime": 98.361,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 870
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.223397970199585,
      "eval_runtime": 98.3541,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 880
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2197948694229126,
      "eval_runtime": 98.3807,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 890
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.64872521246459e-06,
      "loss": 0.7785,
      "step": 900
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2188224792480469,
      "eval_runtime": 98.3148,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 900
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2149394750595093,
      "eval_runtime": 98.4504,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 910
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2091023921966553,
      "eval_runtime": 98.37,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 920
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.903682719546743e-06,
      "loss": 1.1816,
      "step": 930
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2046704292297363,
      "eval_runtime": 98.3537,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 930
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2031785249710083,
      "eval_runtime": 98.3469,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 940
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.2025039196014404,
      "eval_runtime": 98.2852,
      "eval_samples_per_second": 10.174,
      "eval_steps_per_second": 1.272,
      "step": 950
    },
    {
      "epoch": 0.02,
      "learning_rate": 8.158640226628896e-06,
      "loss": 0.9553,
      "step": 960
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.1980048418045044,
      "eval_runtime": 98.4314,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 960
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.1943976879119873,
      "eval_runtime": 98.3703,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 970
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.1904170513153076,
      "eval_runtime": 98.4077,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 980
    },
    {
      "epoch": 0.03,
      "learning_rate": 8.413597733711049e-06,
      "loss": 0.9928,
      "step": 990
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1887998580932617,
      "eval_runtime": 98.3789,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 990
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1872926950454712,
      "eval_runtime": 98.3078,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.272,
      "step": 1000
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1832990646362305,
      "eval_runtime": 98.3915,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 1010
    },
    {
      "epoch": 0.03,
      "learning_rate": 8.6685552407932e-06,
      "loss": 1.0312,
      "step": 1020
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.180888295173645,
      "eval_runtime": 98.33,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1020
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.178697109222412,
      "eval_runtime": 98.3446,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 1030
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.176483154296875,
      "eval_runtime": 98.3605,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 1040
    },
    {
      "epoch": 0.03,
      "learning_rate": 8.923512747875353e-06,
      "loss": 0.7569,
      "step": 1050
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1760860681533813,
      "eval_runtime": 98.3804,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1050
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.173068881034851,
      "eval_runtime": 98.4165,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1060
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1711184978485107,
      "eval_runtime": 98.4416,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 1070
    },
    {
      "epoch": 0.03,
      "learning_rate": 9.178470254957508e-06,
      "loss": 1.1469,
      "step": 1080
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1693283319473267,
      "eval_runtime": 98.5177,
      "eval_samples_per_second": 10.15,
      "eval_steps_per_second": 1.269,
      "step": 1080
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1686639785766602,
      "eval_runtime": 98.4,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 1090
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1684391498565674,
      "eval_runtime": 98.4275,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 1100
    },
    {
      "epoch": 0.03,
      "learning_rate": 9.43342776203966e-06,
      "loss": 0.897,
      "step": 1110
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1654223203659058,
      "eval_runtime": 98.3945,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 1110
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1617776155471802,
      "eval_runtime": 98.3254,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1120
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1603034734725952,
      "eval_runtime": 98.3774,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1130
    },
    {
      "epoch": 0.03,
      "learning_rate": 9.688385269121813e-06,
      "loss": 0.8758,
      "step": 1140
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1597446203231812,
      "eval_runtime": 98.3684,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1140
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.159226417541504,
      "eval_runtime": 98.3648,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1150
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1565824747085571,
      "eval_runtime": 98.4129,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1160
    },
    {
      "epoch": 0.03,
      "learning_rate": 9.943342776203968e-06,
      "loss": 0.999,
      "step": 1170
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1539520025253296,
      "eval_runtime": 98.3654,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1170
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.152630090713501,
      "eval_runtime": 98.3163,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 1180
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1519286632537842,
      "eval_runtime": 98.4417,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 1190
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.0198300283286119e-05,
      "loss": 0.6816,
      "step": 1200
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1526896953582764,
      "eval_runtime": 98.4988,
      "eval_samples_per_second": 10.152,
      "eval_steps_per_second": 1.269,
      "step": 1200
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1494954824447632,
      "eval_runtime": 98.4536,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 1210
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1475229263305664,
      "eval_runtime": 98.3874,
      "eval_samples_per_second": 10.164,
      "eval_steps_per_second": 1.27,
      "step": 1220
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.0453257790368272e-05,
      "loss": 1.1027,
      "step": 1230
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1461777687072754,
      "eval_runtime": 98.336,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1230
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.146038293838501,
      "eval_runtime": 98.3987,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 1240
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1465715169906616,
      "eval_runtime": 98.3038,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1250
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.0708215297450425e-05,
      "loss": 0.8607,
      "step": 1260
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1437655687332153,
      "eval_runtime": 98.3345,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1260
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1424213647842407,
      "eval_runtime": 98.4474,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 1270
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.140133261680603,
      "eval_runtime": 98.4388,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 1280
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.0963172804532578e-05,
      "loss": 0.8388,
      "step": 1290
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.140416145324707,
      "eval_runtime": 98.4219,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 1290
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1412097215652466,
      "eval_runtime": 98.3244,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1300
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1374417543411255,
      "eval_runtime": 98.4302,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 1310
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.1218130311614731e-05,
      "loss": 0.9756,
      "step": 1320
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1353052854537964,
      "eval_runtime": 98.3779,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1320
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1347367763519287,
      "eval_runtime": 98.406,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 1330
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1346714496612549,
      "eval_runtime": 98.414,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1340
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.1473087818696883e-05,
      "loss": 0.6835,
      "step": 1350
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1355887651443481,
      "eval_runtime": 98.409,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 1350
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1324636936187744,
      "eval_runtime": 98.3679,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1360
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1316462755203247,
      "eval_runtime": 98.3659,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1370
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.1728045325779038e-05,
      "loss": 1.1232,
      "step": 1380
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1303904056549072,
      "eval_runtime": 98.366,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1380
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1291667222976685,
      "eval_runtime": 98.347,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 1390
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1297775506973267,
      "eval_runtime": 98.3753,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1400
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.198300283286119e-05,
      "loss": 0.8979,
      "step": 1410
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1276240348815918,
      "eval_runtime": 98.3851,
      "eval_samples_per_second": 10.164,
      "eval_steps_per_second": 1.271,
      "step": 1410
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1269475221633911,
      "eval_runtime": 98.4324,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 1420
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1256887912750244,
      "eval_runtime": 98.4143,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1430
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.2237960339943342e-05,
      "loss": 0.84,
      "step": 1440
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1253855228424072,
      "eval_runtime": 98.3652,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1440
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1247769594192505,
      "eval_runtime": 98.3272,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1450
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1240159273147583,
      "eval_runtime": 98.4053,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 1460
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.2492917847025497e-05,
      "loss": 0.9798,
      "step": 1470
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1204980611801147,
      "eval_runtime": 98.3445,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 1470
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.119938611984253,
      "eval_runtime": 98.3607,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 1480
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1203584671020508,
      "eval_runtime": 98.302,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1490
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.274787535410765e-05,
      "loss": 0.672,
      "step": 1500
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1203203201293945,
      "eval_runtime": 98.319,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 1500
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1188935041427612,
      "eval_runtime": 98.3355,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1510
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1174798011779785,
      "eval_runtime": 98.2986,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1520
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.3002832861189801e-05,
      "loss": 1.0258,
      "step": 1530
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1174086332321167,
      "eval_runtime": 98.4015,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 1530
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1172817945480347,
      "eval_runtime": 98.4238,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 1540
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.115920066833496,
      "eval_runtime": 98.4495,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 1550
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.3257790368271954e-05,
      "loss": 0.8557,
      "step": 1560
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1152660846710205,
      "eval_runtime": 98.4694,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 1560
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1120198965072632,
      "eval_runtime": 98.3157,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 1570
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1117701530456543,
      "eval_runtime": 98.3009,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1580
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.3512747875354108e-05,
      "loss": 0.8459,
      "step": 1590
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.112415075302124,
      "eval_runtime": 98.3439,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 1590
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1125112771987915,
      "eval_runtime": 98.3572,
      "eval_samples_per_second": 10.167,
      "eval_steps_per_second": 1.271,
      "step": 1600
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1110690832138062,
      "eval_runtime": 98.419,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1610
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.376770538243626e-05,
      "loss": 0.9507,
      "step": 1620
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.110371708869934,
      "eval_runtime": 98.3408,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1620
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1083916425704956,
      "eval_runtime": 98.4225,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 1630
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1089563369750977,
      "eval_runtime": 98.3054,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.272,
      "step": 1640
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.4022662889518414e-05,
      "loss": 0.6854,
      "step": 1650
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.110315203666687,
      "eval_runtime": 98.304,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1650
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1081123352050781,
      "eval_runtime": 98.4452,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 1660
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1062242984771729,
      "eval_runtime": 98.3714,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1670
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.4277620396600567e-05,
      "loss": 1.0904,
      "step": 1680
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1061948537826538,
      "eval_runtime": 98.3346,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1680
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1069517135620117,
      "eval_runtime": 98.3114,
      "eval_samples_per_second": 10.172,
      "eval_steps_per_second": 1.271,
      "step": 1690
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1066083908081055,
      "eval_runtime": 98.3387,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1700
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.453257790368272e-05,
      "loss": 0.849,
      "step": 1710
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1053024530410767,
      "eval_runtime": 98.4738,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 1710
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1040204763412476,
      "eval_runtime": 98.4347,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 1720
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.102669596672058,
      "eval_runtime": 98.3742,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1730
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.4787535410764873e-05,
      "loss": 0.8601,
      "step": 1740
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1038398742675781,
      "eval_runtime": 98.4219,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 1740
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1060833930969238,
      "eval_runtime": 98.3163,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 1750
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.1028786897659302,
      "eval_runtime": 98.4354,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 1760
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.5042492917847024e-05,
      "loss": 0.9747,
      "step": 1770
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.101389765739441,
      "eval_runtime": 98.3036,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1770
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.1008771657943726,
      "eval_runtime": 98.2846,
      "eval_samples_per_second": 10.175,
      "eval_steps_per_second": 1.272,
      "step": 1780
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0998055934906006,
      "eval_runtime": 98.366,
      "eval_samples_per_second": 10.166,
      "eval_steps_per_second": 1.271,
      "step": 1790
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.529745042492918e-05,
      "loss": 0.656,
      "step": 1800
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.1010502576828003,
      "eval_runtime": 98.2933,
      "eval_samples_per_second": 10.174,
      "eval_steps_per_second": 1.272,
      "step": 1800
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0997422933578491,
      "eval_runtime": 98.3167,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 1810
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.097307562828064,
      "eval_runtime": 98.3299,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1820
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.5552407932011334e-05,
      "loss": 1.0969,
      "step": 1830
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0984749794006348,
      "eval_runtime": 98.4212,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 1830
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0964536666870117,
      "eval_runtime": 98.3498,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 1840
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0976883172988892,
      "eval_runtime": 98.3395,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1850
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.5807365439093485e-05,
      "loss": 0.8523,
      "step": 1860
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0951915979385376,
      "eval_runtime": 98.3767,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1860
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0934215784072876,
      "eval_runtime": 98.3799,
      "eval_samples_per_second": 10.165,
      "eval_steps_per_second": 1.271,
      "step": 1870
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.094098687171936,
      "eval_runtime": 98.3294,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1880
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.6062322946175637e-05,
      "loss": 0.8655,
      "step": 1890
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.093522310256958,
      "eval_runtime": 98.3345,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1890
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0934967994689941,
      "eval_runtime": 98.4151,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1900
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0937992334365845,
      "eval_runtime": 98.3474,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 1910
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.631728045325779e-05,
      "loss": 0.9431,
      "step": 1920
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0917603969573975,
      "eval_runtime": 98.3228,
      "eval_samples_per_second": 10.171,
      "eval_steps_per_second": 1.271,
      "step": 1920
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0905735492706299,
      "eval_runtime": 98.3889,
      "eval_samples_per_second": 10.164,
      "eval_steps_per_second": 1.27,
      "step": 1930
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.09126877784729,
      "eval_runtime": 98.4202,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 1940
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.6572237960339943e-05,
      "loss": 0.6818,
      "step": 1950
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0937858819961548,
      "eval_runtime": 98.3409,
      "eval_samples_per_second": 10.169,
      "eval_steps_per_second": 1.271,
      "step": 1950
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.090471625328064,
      "eval_runtime": 98.327,
      "eval_samples_per_second": 10.17,
      "eval_steps_per_second": 1.271,
      "step": 1960
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0879604816436768,
      "eval_runtime": 98.2991,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 1970
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.6827195467422098e-05,
      "loss": 1.0641,
      "step": 1980
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.089332938194275,
      "eval_runtime": 98.2713,
      "eval_samples_per_second": 10.176,
      "eval_steps_per_second": 1.272,
      "step": 1980
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0885804891586304,
      "eval_runtime": 98.2603,
      "eval_samples_per_second": 10.177,
      "eval_steps_per_second": 1.272,
      "step": 1990
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0916638374328613,
      "eval_runtime": 98.3446,
      "eval_samples_per_second": 10.168,
      "eval_steps_per_second": 1.271,
      "step": 2000
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.708215297450425e-05,
      "loss": 0.8248,
      "step": 2010
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0912878513336182,
      "eval_runtime": 98.3008,
      "eval_samples_per_second": 10.173,
      "eval_steps_per_second": 1.272,
      "step": 2010
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0867935419082642,
      "eval_runtime": 98.397,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 2020
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0863043069839478,
      "eval_runtime": 98.4432,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 2030
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.73371104815864e-05,
      "loss": 0.8212,
      "step": 2040
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0863004922866821,
      "eval_runtime": 98.4867,
      "eval_samples_per_second": 10.154,
      "eval_steps_per_second": 1.269,
      "step": 2040
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0847465991973877,
      "eval_runtime": 98.4283,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 2050
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0844731330871582,
      "eval_runtime": 98.5473,
      "eval_samples_per_second": 10.147,
      "eval_steps_per_second": 1.268,
      "step": 2060
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.7592067988668555e-05,
      "loss": 0.8866,
      "step": 2070
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0838637351989746,
      "eval_runtime": 98.5368,
      "eval_samples_per_second": 10.148,
      "eval_steps_per_second": 1.269,
      "step": 2070
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0842301845550537,
      "eval_runtime": 98.5199,
      "eval_samples_per_second": 10.15,
      "eval_steps_per_second": 1.269,
      "step": 2080
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.08109712600708,
      "eval_runtime": 98.4904,
      "eval_samples_per_second": 10.153,
      "eval_steps_per_second": 1.269,
      "step": 2090
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.7847025495750707e-05,
      "loss": 0.6441,
      "step": 2100
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0835895538330078,
      "eval_runtime": 98.5001,
      "eval_samples_per_second": 10.152,
      "eval_steps_per_second": 1.269,
      "step": 2100
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.083143949508667,
      "eval_runtime": 98.5565,
      "eval_samples_per_second": 10.146,
      "eval_steps_per_second": 1.268,
      "step": 2110
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0816445350646973,
      "eval_runtime": 98.4426,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 2120
    },
    {
      "epoch": 0.05,
      "learning_rate": 1.8101983002832862e-05,
      "loss": 0.9959,
      "step": 2130
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.081859827041626,
      "eval_runtime": 98.513,
      "eval_samples_per_second": 10.151,
      "eval_steps_per_second": 1.269,
      "step": 2130
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0832078456878662,
      "eval_runtime": 98.4757,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 2140
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0841658115386963,
      "eval_runtime": 98.4511,
      "eval_samples_per_second": 10.157,
      "eval_steps_per_second": 1.27,
      "step": 2150
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.8356940509915016e-05,
      "loss": 0.8355,
      "step": 2160
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0814462900161743,
      "eval_runtime": 98.5886,
      "eval_samples_per_second": 10.143,
      "eval_steps_per_second": 1.268,
      "step": 2160
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0804240703582764,
      "eval_runtime": 98.5837,
      "eval_samples_per_second": 10.144,
      "eval_steps_per_second": 1.268,
      "step": 2170
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0809556245803833,
      "eval_runtime": 98.5132,
      "eval_samples_per_second": 10.151,
      "eval_steps_per_second": 1.269,
      "step": 2180
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.8611898016997168e-05,
      "loss": 0.8471,
      "step": 2190
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0789848566055298,
      "eval_runtime": 98.4416,
      "eval_samples_per_second": 10.158,
      "eval_steps_per_second": 1.27,
      "step": 2190
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0795090198516846,
      "eval_runtime": 98.3873,
      "eval_samples_per_second": 10.164,
      "eval_steps_per_second": 1.27,
      "step": 2200
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0784635543823242,
      "eval_runtime": 98.4762,
      "eval_samples_per_second": 10.155,
      "eval_steps_per_second": 1.269,
      "step": 2210
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.886685552407932e-05,
      "loss": 0.9504,
      "step": 2220
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0783464908599854,
      "eval_runtime": 98.4343,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 2220
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0772334337234497,
      "eval_runtime": 98.4304,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 2230
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0791562795639038,
      "eval_runtime": 98.426,
      "eval_samples_per_second": 10.16,
      "eval_steps_per_second": 1.27,
      "step": 2240
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.9121813031161474e-05,
      "loss": 0.6722,
      "step": 2250
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.080847144126892,
      "eval_runtime": 98.4125,
      "eval_samples_per_second": 10.161,
      "eval_steps_per_second": 1.27,
      "step": 2250
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0787074565887451,
      "eval_runtime": 98.438,
      "eval_samples_per_second": 10.159,
      "eval_steps_per_second": 1.27,
      "step": 2260
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.076585054397583,
      "eval_runtime": 98.3926,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 2270
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.9376770538243626e-05,
      "loss": 1.0543,
      "step": 2280
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0748603343963623,
      "eval_runtime": 98.4047,
      "eval_samples_per_second": 10.162,
      "eval_steps_per_second": 1.27,
      "step": 2280
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0754591226577759,
      "eval_runtime": 98.3994,
      "eval_samples_per_second": 10.163,
      "eval_steps_per_second": 1.27,
      "step": 2290
    }
  ],
  "max_steps": 117642,
  "num_train_epochs": 3,
  "total_flos": 1.1765881845301248e+18,
  "trial_name": null,
  "trial_params": null
}