{
  "best_global_step": 6000,
  "best_metric": 0.7824317216873169,
  "best_model_checkpoint": "results\\checkpoint-6000",
  "epoch": 5.0,
  "eval_steps": 1000,
  "global_step": 6000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 1.8858007192611694,
      "learning_rate": 0.000165,
      "loss": 23.215,
      "step": 100
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.17990389466285706,
      "learning_rate": 0.0003316666666666667,
      "loss": 2.1264,
      "step": 200
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.162213996052742,
      "learning_rate": 0.0004983333333333334,
      "loss": 0.9398,
      "step": 300
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.15034538507461548,
      "learning_rate": 0.0004913157894736842,
      "loss": 0.9165,
      "step": 400
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.1454722136259079,
      "learning_rate": 0.0004825438596491228,
      "loss": 0.8424,
      "step": 500
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.12470711767673492,
      "learning_rate": 0.0004737719298245614,
      "loss": 0.8874,
      "step": 600
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.09494169801473618,
      "learning_rate": 0.000465,
      "loss": 0.8784,
      "step": 700
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.1456226408481598,
      "learning_rate": 0.0004562280701754386,
      "loss": 0.8622,
      "step": 800
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.1623910665512085,
      "learning_rate": 0.00044745614035087723,
      "loss": 0.9006,
      "step": 900
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.13629059493541718,
      "learning_rate": 0.0004386842105263158,
      "loss": 0.8702,
      "step": 1000
    },
    {
      "epoch": 0.8333333333333334,
      "eval_loss": 0.7877687811851501,
      "eval_rouge1": 0.382,
      "eval_rouge2": 0.1541,
      "eval_rougeL": 0.2714,
      "eval_rougeLsum": 0.2715,
      "eval_runtime": 1349.6776,
      "eval_samples_per_second": 0.889,
      "eval_steps_per_second": 0.222,
      "step": 1000
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 0.14377427101135254,
      "learning_rate": 0.00042991228070175444,
      "loss": 0.9231,
      "step": 1100
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1454974114894867,
      "learning_rate": 0.000421140350877193,
      "loss": 0.8752,
      "step": 1200
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 0.14425410330295563,
      "learning_rate": 0.0004123684210526316,
      "loss": 0.8895,
      "step": 1300
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.09587734937667847,
      "learning_rate": 0.0004035964912280702,
      "loss": 0.837,
      "step": 1400
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.13110461831092834,
      "learning_rate": 0.00039482456140350875,
      "loss": 0.8488,
      "step": 1500
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.1459980010986328,
      "learning_rate": 0.00038605263157894735,
      "loss": 0.8795,
      "step": 1600
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 0.09983498603105545,
      "learning_rate": 0.00037728070175438596,
      "loss": 0.8449,
      "step": 1700
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.13172173500061035,
      "learning_rate": 0.00036850877192982456,
      "loss": 0.8977,
      "step": 1800
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 0.10697636008262634,
      "learning_rate": 0.00035973684210526317,
      "loss": 0.9018,
      "step": 1900
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.15373478829860687,
      "learning_rate": 0.00035096491228070177,
      "loss": 0.8847,
      "step": 2000
    },
    {
      "epoch": 1.6666666666666665,
      "eval_loss": 0.7850176095962524,
      "eval_rouge1": 0.3881,
      "eval_rouge2": 0.1563,
      "eval_rougeL": 0.2745,
      "eval_rougeLsum": 0.2746,
      "eval_runtime": 1411.9277,
      "eval_samples_per_second": 0.85,
      "eval_steps_per_second": 0.212,
      "step": 2000
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.14189960062503815,
      "learning_rate": 0.0003421929824561403,
      "loss": 0.8162,
      "step": 2100
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.11188172549009323,
      "learning_rate": 0.000333421052631579,
      "loss": 0.8098,
      "step": 2200
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 0.12888970971107483,
      "learning_rate": 0.0003246491228070175,
      "loss": 0.914,
      "step": 2300
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.15828001499176025,
      "learning_rate": 0.00031587719298245613,
      "loss": 0.8815,
      "step": 2400
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.12439479678869247,
      "learning_rate": 0.00030710526315789473,
      "loss": 0.8685,
      "step": 2500
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.12364527583122253,
      "learning_rate": 0.00029833333333333334,
      "loss": 0.8185,
      "step": 2600
    },
    {
      "epoch": 2.25,
      "grad_norm": 7.694972038269043,
      "learning_rate": 0.0002895614035087719,
      "loss": 0.8721,
      "step": 2700
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.17389440536499023,
      "learning_rate": 0.00028078947368421055,
      "loss": 0.9235,
      "step": 2800
    },
    {
      "epoch": 2.4166666666666665,
      "grad_norm": 0.13395565748214722,
      "learning_rate": 0.0002720175438596491,
      "loss": 0.8668,
      "step": 2900
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.11639299243688583,
      "learning_rate": 0.00026324561403508775,
      "loss": 0.8637,
      "step": 3000
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.7873790860176086,
      "eval_rouge1": 0.3909,
      "eval_rouge2": 0.1587,
      "eval_rougeL": 0.2753,
      "eval_rougeLsum": 0.2752,
      "eval_runtime": 1346.5604,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.223,
      "step": 3000
    },
    {
      "epoch": 2.5833333333333335,
      "grad_norm": 0.2207750380039215,
      "learning_rate": 0.0002544736842105263,
      "loss": 0.8495,
      "step": 3100
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.14125679433345795,
      "learning_rate": 0.0002457017543859649,
      "loss": 0.8236,
      "step": 3200
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.16702750325202942,
      "learning_rate": 0.0002369298245614035,
      "loss": 0.8369,
      "step": 3300
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.17848503589630127,
      "learning_rate": 0.00022815789473684212,
      "loss": 0.8555,
      "step": 3400
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.17648929357528687,
      "learning_rate": 0.00021938596491228072,
      "loss": 0.8519,
      "step": 3500
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.1409672498703003,
      "learning_rate": 0.00021061403508771932,
      "loss": 0.9162,
      "step": 3600
    },
    {
      "epoch": 3.0833333333333335,
      "grad_norm": 0.18376924097537994,
      "learning_rate": 0.0002018421052631579,
      "loss": 0.8468,
      "step": 3700
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 0.20083250105381012,
      "learning_rate": 0.0001930701754385965,
      "loss": 0.8802,
      "step": 3800
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.18047745525836945,
      "learning_rate": 0.0001842982456140351,
      "loss": 0.8162,
      "step": 3900
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.16132934391498566,
      "learning_rate": 0.0001755263157894737,
      "loss": 0.8417,
      "step": 4000
    },
    {
      "epoch": 3.3333333333333335,
      "eval_loss": 0.7860187888145447,
      "eval_rouge1": 0.392,
      "eval_rouge2": 0.1608,
      "eval_rougeL": 0.2756,
      "eval_rougeLsum": 0.2756,
      "eval_runtime": 1399.5278,
      "eval_samples_per_second": 0.857,
      "eval_steps_per_second": 0.214,
      "step": 4000
    },
    {
      "epoch": 3.4166666666666665,
      "grad_norm": 0.2105809897184372,
      "learning_rate": 0.0001667543859649123,
      "loss": 0.8855,
      "step": 4100
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.18433880805969238,
      "learning_rate": 0.0001579824561403509,
      "loss": 0.8405,
      "step": 4200
    },
    {
      "epoch": 3.5833333333333335,
      "grad_norm": 0.13414153456687927,
      "learning_rate": 0.00014921052631578947,
      "loss": 0.8356,
      "step": 4300
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.12219959497451782,
      "learning_rate": 0.00014043859649122805,
      "loss": 0.8142,
      "step": 4400
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.15552708506584167,
      "learning_rate": 0.00013166666666666665,
      "loss": 0.8198,
      "step": 4500
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 0.15773844718933105,
      "learning_rate": 0.00012289473684210525,
      "loss": 0.8432,
      "step": 4600
    },
    {
      "epoch": 3.9166666666666665,
      "grad_norm": 0.19309180974960327,
      "learning_rate": 0.00011412280701754386,
      "loss": 0.8577,
      "step": 4700
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.14865143597126007,
      "learning_rate": 0.00010535087719298246,
      "loss": 0.8575,
      "step": 4800
    },
    {
      "epoch": 4.083333333333333,
      "grad_norm": 0.15284916758537292,
      "learning_rate": 9.657894736842105e-05,
      "loss": 0.8227,
      "step": 4900
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.22305266559123993,
      "learning_rate": 8.780701754385966e-05,
      "loss": 0.833,
      "step": 5000
    },
    {
      "epoch": 4.166666666666667,
      "eval_loss": 0.7827907204627991,
      "eval_rouge1": 0.391,
      "eval_rouge2": 0.1599,
      "eval_rougeL": 0.2764,
      "eval_rougeLsum": 0.2764,
      "eval_runtime": 1349.7759,
      "eval_samples_per_second": 0.889,
      "eval_steps_per_second": 0.222,
      "step": 5000
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.21298357844352722,
      "learning_rate": 7.903508771929825e-05,
      "loss": 0.8483,
      "step": 5100
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.19737210869789124,
      "learning_rate": 7.026315789473685e-05,
      "loss": 0.7888,
      "step": 5200
    },
    {
      "epoch": 4.416666666666667,
      "grad_norm": 0.21889951825141907,
      "learning_rate": 6.149122807017544e-05,
      "loss": 0.8418,
      "step": 5300
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.13705947995185852,
      "learning_rate": 5.271929824561403e-05,
      "loss": 0.8639,
      "step": 5400
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.17922119796276093,
      "learning_rate": 4.394736842105263e-05,
      "loss": 0.8368,
      "step": 5500
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.21064095199108124,
      "learning_rate": 3.5175438596491226e-05,
      "loss": 0.8273,
      "step": 5600
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.17207187414169312,
      "learning_rate": 2.6403508771929826e-05,
      "loss": 0.921,
      "step": 5700
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.19569571316242218,
      "learning_rate": 1.7631578947368424e-05,
      "loss": 0.7884,
      "step": 5800
    },
    {
      "epoch": 4.916666666666667,
      "grad_norm": 0.17810054123401642,
      "learning_rate": 8.859649122807017e-06,
      "loss": 0.8292,
      "step": 5900
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.19543497264385223,
      "learning_rate": 8.771929824561403e-08,
      "loss": 0.8396,
      "step": 6000
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.7824317216873169,
      "eval_rouge1": 0.3925,
      "eval_rouge2": 0.1608,
      "eval_rougeL": 0.2776,
      "eval_rougeLsum": 0.2776,
      "eval_runtime": 1367.3028,
      "eval_samples_per_second": 0.878,
      "eval_steps_per_second": 0.219,
      "step": 6000
    }
  ],
  "logging_steps": 100,
  "max_steps": 6000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.3912029970432e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}