gogamza: summarization

Files changed (9) hide show

all_results.json +12 -12
config.json +4 -7
eval_results.json +8 -8
pytorch_model.bin +1 -1
special_tokens_map.json +1 -1
tokenizer_config.json +2 -2
train_results.json +4 -4
trainer_state.json +850 -850
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 10.0,
     "eval_gen_len": 20.0,
-    "eval_loss": 1.933449387550354,
-    "eval_rouge1": 22.3137,
-    "eval_rouge2": 5.8376,
-    "eval_rougeL": 22.1264,
-    "eval_rougeLsum": 22.1274,
-    "eval_runtime": 163.5249,
     "eval_samples": 7008,
-    "eval_samples_per_second": 42.856,
-    "eval_steps_per_second": 2.678,
-    "train_loss": 1.5038130920392954,
-    "train_runtime": 13804.3068,
     "train_samples": 56760,
-    "train_samples_per_second": 41.118,
-    "train_steps_per_second": 2.57
 }

 {
     "epoch": 10.0,
     "eval_gen_len": 20.0,
+    "eval_loss": 1.9633301496505737,
+    "eval_rouge1": 22.6551,
+    "eval_rouge2": 6.1328,
+    "eval_rougeL": 22.457,
+    "eval_rougeLsum": 22.4619,
+    "eval_runtime": 163.8551,
     "eval_samples": 7008,
+    "eval_samples_per_second": 42.77,
+    "eval_steps_per_second": 2.673,
+    "train_loss": 1.581618417182931,
+    "train_runtime": 14068.2834,
     "train_samples": 56760,
+    "train_samples_per_second": 40.346,
+    "train_steps_per_second": 2.522
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gogamza/kobart-base-v2",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "add_bias_logits": false,
@@ -9,7 +9,7 @@
   ],
   "attention_dropout": 0.0,
   "author": "Heewon Jeon(madjakarta@gmail.com)",
-  "bos_token_id": 1,
   "classif_dropout": 0.1,
   "classifier_dropout": 0.1,
   "d_model": 768,
@@ -17,7 +17,7 @@
   "decoder_ffn_dim": 3072,
   "decoder_layerdrop": 0.0,
   "decoder_layers": 6,
-  "decoder_start_token_id": 1,
   "do_blenderbot_90_layernorm": false,
   "dropout": 0.1,
   "encoder_attention_heads": 16,
@@ -27,15 +27,13 @@
   "eos_token_id": 1,
   "extra_pos_embeddings": 2,
   "force_bos_token_to_be_generated": false,
-  "forced_eos_token_id": 1,
-  "gradient_checkpointing": false,
   "id2label": {
     "0": "NEGATIVE",
     "1": "POSITIVE"
   },
   "init_std": 0.02,
   "is_encoder_decoder": true,
-  "kobart_version": 2.0,
   "label2id": {
     "NEGATIVE": 0,
     "POSITIVE": 1
@@ -48,7 +46,6 @@
   "pad_token_id": 3,
   "scale_embedding": false,
   "static_position_embeddings": false,
-  "tokenizer_class": "PreTrainedTokenizerFast",
   "torch_dtype": "float32",
   "transformers_version": "4.25.0",
   "use_cache": true,

 {
+  "_name_or_path": "gogamza/kobart-summarization",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "add_bias_logits": false,
   ],
   "attention_dropout": 0.0,
   "author": "Heewon Jeon(madjakarta@gmail.com)",
+  "bos_token_id": 0,
   "classif_dropout": 0.1,
   "classifier_dropout": 0.1,
   "d_model": 768,
   "decoder_ffn_dim": 3072,
   "decoder_layerdrop": 0.0,
   "decoder_layers": 6,
+  "decoder_start_token_id": 2,
   "do_blenderbot_90_layernorm": false,
   "dropout": 0.1,
   "encoder_attention_heads": 16,
   "eos_token_id": 1,
   "extra_pos_embeddings": 2,
   "force_bos_token_to_be_generated": false,
+  "forced_eos_token_id": 2,
   "id2label": {
     "0": "NEGATIVE",
     "1": "POSITIVE"
   },
   "init_std": 0.02,
   "is_encoder_decoder": true,
   "label2id": {
     "NEGATIVE": 0,
     "POSITIVE": 1
   "pad_token_id": 3,
   "scale_embedding": false,
   "static_position_embeddings": false,
   "torch_dtype": "float32",
   "transformers_version": "4.25.0",
   "use_cache": true,

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 10.0,
     "eval_gen_len": 20.0,
-    "eval_loss": 1.933449387550354,
-    "eval_rouge1": 22.3137,
-    "eval_rouge2": 5.8376,
-    "eval_rougeL": 22.1264,
-    "eval_rougeLsum": 22.1274,
-    "eval_runtime": 163.5249,
     "eval_samples": 7008,
-    "eval_samples_per_second": 42.856,
-    "eval_steps_per_second": 2.678
 }

 {
     "epoch": 10.0,
     "eval_gen_len": 20.0,
+    "eval_loss": 1.9633301496505737,
+    "eval_rouge1": 22.6551,
+    "eval_rouge2": 6.1328,
+    "eval_rougeL": 22.457,
+    "eval_rougeLsum": 22.4619,
+    "eval_runtime": 163.8551,
     "eval_samples": 7008,
+    "eval_samples_per_second": 42.77,
+    "eval_steps_per_second": 2.673
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50b60bc88908f3b3fab51f1e924033f49a8c9055d01c6148a53ad4cf0dc47454
 size 495652819

 version https://git-lfs.github.com/spec/v1
+oid sha256:adeb720df850151ba963293c94b7cf8baa672095f397cf43b7a36c00d531d665
 size 495652819

special_tokens_map.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "bos_token": "</s>",
   "eos_token": "</s>",
   "mask_token": "<mask>",
   "pad_token": "<pad>",

 {
+  "bos_token": "<s>",
   "eos_token": "</s>",
   "mask_token": "<mask>",
   "pad_token": "<pad>",

tokenizer_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "model_max_length": 1000000000000000019884624838656,
-  "name_or_path": "gogamza/kobart-base-v2",
-  "special_tokens_map_file": "/opt/ml/input/Summarization/checkpoint-34000/models--gogamza--kobart-base-v2/snapshots/f9f2ec35d3c32a1ecc7a3281f9626b7ec1913fed/special_tokens_map.json",
   "tokenizer_class": "PreTrainedTokenizerFast",
   "use_fast": true
 }

 {
   "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "gogamza/kobart-summarization",
+  "special_tokens_map_file": "/opt/ml/.cache/huggingface/hub/models--gogamza--kobart-summarization/snapshots/8a63d6913edc0e16a902e3fa8b688a134f0dd776/special_tokens_map.json",
   "tokenizer_class": "PreTrainedTokenizerFast",
   "use_fast": true
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "train_loss": 1.5038130920392954,
-    "train_runtime": 13804.3068,
     "train_samples": 56760,
-    "train_samples_per_second": 41.118,
-    "train_steps_per_second": 2.57
 }

 {
     "epoch": 10.0,
+    "train_loss": 1.581618417182931,
+    "train_runtime": 14068.2834,
     "train_samples": 56760,
+    "train_samples_per_second": 40.346,
+    "train_steps_per_second": 2.522
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 1.933449387550354,
-  "best_model_checkpoint": "/opt/ml/input/Summarization/checkpoint-10000",
   "epoch": 10.0,
   "global_step": 35480,
   "is_hyper_param_search": false,
@@ -9,2357 +9,2357 @@
   "log_history": [
     {
       "epoch": 0.03,
-      "learning_rate": 9.603605964719648e-06,
-      "loss": 2.9628,
       "step": 100
     },
     {
       "epoch": 0.06,
-      "learning_rate": 2.651882655109716e-05,
-      "loss": 2.3592,
       "step": 200
     },
     {
       "epoch": 0.08,
-      "learning_rate": 4.9653319145399344e-05,
-      "loss": 2.2458,
       "step": 300
     },
     {
       "epoch": 0.11,
-      "learning_rate": 3.5272614557174996e-05,
-      "loss": 2.2573,
       "step": 400
     },
     {
       "epoch": 0.14,
-      "learning_rate": 1.1805441557799242e-05,
-      "loss": 2.2079,
       "step": 500
     },
     {
       "epoch": 0.17,
-      "learning_rate": 1.1082060287457063e-07,
-      "loss": 2.1759,
       "step": 600
     },
     {
       "epoch": 0.2,
-      "learning_rate": 4.722474358076239e-05,
-      "loss": 2.1902,
       "step": 700
     },
     {
       "epoch": 0.23,
-      "learning_rate": 3.921546108807772e-05,
-      "loss": 2.1833,
       "step": 800
     },
     {
       "epoch": 0.25,
-      "learning_rate": 2.786089912498746e-05,
-      "loss": 2.1655,
       "step": 900
     },
     {
       "epoch": 0.28,
-      "learning_rate": 1.5842522332451548e-05,
-      "loss": 2.1736,
       "step": 1000
     },
     {
       "epoch": 0.31,
-      "learning_rate": 5.998560182965376e-06,
-      "loss": 2.1269,
       "step": 1100
     },
     {
       "epoch": 0.34,
-      "learning_rate": 6.537378853569256e-07,
-      "loss": 2.1282,
       "step": 1200
     },
     {
       "epoch": 0.37,
-      "learning_rate": 4.975624045467085e-05,
-      "loss": 2.1398,
       "step": 1300
     },
     {
       "epoch": 0.39,
-      "learning_rate": 4.817047144722464e-05,
-      "loss": 2.1608,
       "step": 1400
     },
     {
       "epoch": 0.42,
-      "learning_rate": 4.519891933012913e-05,
-      "loss": 2.1441,
       "step": 1500
     },
     {
       "epoch": 0.45,
-      "learning_rate": 4.1019691489417214e-05,
-      "loss": 2.1726,
       "step": 1600
     },
     {
       "epoch": 0.48,
-      "learning_rate": 3.588328036709013e-05,
-      "loss": 2.08,
       "step": 1700
     },
     {
       "epoch": 0.51,
-      "learning_rate": 3.009754957197535e-05,
-      "loss": 2.1441,
       "step": 1800
     },
     {
       "epoch": 0.54,
-      "learning_rate": 2.4009281306639542e-05,
-      "loss": 2.121,
       "step": 1900
     },
     {
       "epoch": 0.56,
-      "learning_rate": 1.798339111133779e-05,
-      "loss": 2.115,
       "step": 2000
     },
     {
       "epoch": 0.56,
       "eval_gen_len": 20.0,
-      "eval_loss": 1.985213279724121,
-      "eval_rouge1": 21.6401,
-      "eval_rouge2": 5.6588,
-      "eval_rougeL": 21.4503,
-      "eval_rougeLsum": 21.4438,
-      "eval_runtime": 165.0934,
-      "eval_samples_per_second": 42.449,
-      "eval_steps_per_second": 2.653,
       "step": 2000
     },
     {
       "epoch": 0.59,
-      "learning_rate": 1.2381055741151043e-05,
-      "loss": 2.0857,
       "step": 2100
     },
     {
       "epoch": 0.62,
-      "learning_rate": 7.538065136536039e-06,
-      "loss": 2.0659,
       "step": 2200
     },
     {
       "epoch": 0.65,
-      "learning_rate": 3.7446960159146312e-06,
-      "loss": 2.0782,
       "step": 2300
     },
     {
       "epoch": 0.68,
-      "learning_rate": 1.2283134167178716e-06,
-      "loss": 2.0432,
       "step": 2400
     },
     {
       "epoch": 0.7,
-      "learning_rate": 1.397430049077326e-07,
-      "loss": 2.0695,
       "step": 2500
     },
     {
       "epoch": 0.73,
-      "learning_rate": 4.9888693982206995e-05,
-      "loss": 2.1082,
       "step": 2600
     },
     {
       "epoch": 0.76,
-      "learning_rate": 4.9413728617356034e-05,
-      "loss": 2.1176,
       "step": 2700
     },
     {
       "epoch": 0.79,
-      "learning_rate": 4.857231009627857e-05,
-      "loss": 2.1424,
       "step": 2800
     },
     {
       "epoch": 0.82,
-      "learning_rate": 4.737709413672616e-05,
-      "loss": 2.1241,
       "step": 2900
     },
     {
       "epoch": 0.85,
-      "learning_rate": 4.5846057899240565e-05,
-      "loss": 2.115,
       "step": 3000
     },
     {
       "epoch": 0.87,
-      "learning_rate": 4.400222959392605e-05,
-      "loss": 2.0883,
       "step": 3100
     },
     {
       "epoch": 0.9,
-      "learning_rate": 4.187334211473467e-05,
-      "loss": 2.1088,
       "step": 3200
     },
     {
       "epoch": 0.93,
-      "learning_rate": 3.949141591092745e-05,
-      "loss": 2.0855,
       "step": 3300
     },
     {
       "epoch": 0.96,
-      "learning_rate": 3.6892277369712686e-05,
-      "loss": 2.0811,
       "step": 3400
     },
     {
       "epoch": 0.99,
-      "learning_rate": 3.411501995403511e-05,
-      "loss": 2.0632,
       "step": 3500
     },
     {
       "epoch": 1.01,
-      "learning_rate": 3.1201416200504895e-05,
-      "loss": 1.9746,
       "step": 3600
     },
     {
       "epoch": 1.04,
-      "learning_rate": 2.8195289421565e-05,
-      "loss": 1.8776,
       "step": 3700
     },
     {
       "epoch": 1.07,
-      "learning_rate": 2.5141854562081277e-05,
-      "loss": 1.878,
       "step": 3800
     },
     {
       "epoch": 1.1,
-      "learning_rate": 2.208703812448537e-05,
-      "loss": 1.9068,
       "step": 3900
     },
     {
       "epoch": 1.13,
-      "learning_rate": 1.9076787391429783e-05,
-      "loss": 1.8943,
       "step": 4000
     },
     {
       "epoch": 1.13,
       "eval_gen_len": 20.0,
-      "eval_loss": 1.964289665222168,
-      "eval_rouge1": 21.3418,
-      "eval_rouge2": 5.6223,
-      "eval_rougeL": 21.1288,
-      "eval_rougeLsum": 21.1143,
-      "eval_runtime": 162.0352,
-      "eval_samples_per_second": 43.25,
-      "eval_steps_per_second": 2.703,
       "step": 4000
     },
     {
       "epoch": 1.16,
-      "learning_rate": 1.6156379335888783e-05,
-      "loss": 1.8808,
       "step": 4100
     },
     {
       "epoch": 1.18,
-      "learning_rate": 1.3369739613341079e-05,
-      "loss": 1.8741,
       "step": 4200
     },
     {
       "epoch": 1.21,
-      "learning_rate": 1.0758781879025238e-05,
-      "loss": 1.86,
       "step": 4300
     },
     {
       "epoch": 1.24,
-      "learning_rate": 8.362777367551548e-06,
-      "loss": 1.8857,
       "step": 4400
     },
     {
       "epoch": 1.27,
-      "learning_rate": 6.2177642169797586e-06,
-      "loss": 1.8757,
       "step": 4500
     },
     {
       "epoch": 1.3,
-      "learning_rate": 4.356005421678249e-06,
-      "loss": 1.8509,
       "step": 4600
     },
     {
       "epoch": 1.32,
-      "learning_rate": 2.8055035668582452e-06,
-      "loss": 1.8304,
       "step": 4700
     },
     {
       "epoch": 1.35,
-      "learning_rate": 1.589579643627363e-06,
-      "loss": 1.8435,
       "step": 4800
     },
     {
       "epoch": 1.38,
-      "learning_rate": 7.265222795761219e-07,
-      "loss": 1.888,
       "step": 4900
     },
     {
       "epoch": 1.41,
-      "learning_rate": 2.2931266079587017e-07,
-      "loss": 1.8392,
       "step": 5000
     },
     {
       "epoch": 1.44,
-      "learning_rate": 4.99986426423885e-05,
-      "loss": 1.8821,
       "step": 5100
     },
     {
       "epoch": 1.47,
-      "learning_rate": 4.9935733363756125e-05,
-      "loss": 1.9121,
       "step": 5200
     },
     {
       "epoch": 1.49,
-      "learning_rate": 4.9779159803948603e-05,
-      "loss": 1.8862,
       "step": 5300
     },
     {
       "epoch": 1.52,
-      "learning_rate": 4.952951127049067e-05,
-      "loss": 1.9367,
       "step": 5400
     },
     {
       "epoch": 1.55,
-      "learning_rate": 4.9187727384091566e-05,
-      "loss": 1.9389,
       "step": 5500
     },
     {
       "epoch": 1.58,
-      "learning_rate": 4.875509454212479e-05,
-      "loss": 1.917,
       "step": 5600
     },
     {
       "epoch": 1.61,
-      "learning_rate": 4.823324107691887e-05,
-      "loss": 1.9325,
       "step": 5700
     },
     {
       "epoch": 1.63,
-      "learning_rate": 4.762413112708219e-05,
-      "loss": 1.939,
       "step": 5800
     },
     {
       "epoch": 1.66,
-      "learning_rate": 4.6930057244928707e-05,
-      "loss": 1.9489,
       "step": 5900
     },
     {
       "epoch": 1.69,
-      "learning_rate": 4.6153631767828776e-05,
-      "loss": 1.9567,
       "step": 6000
     },
     {
       "epoch": 1.69,
       "eval_gen_len": 20.0,
-      "eval_loss": 1.9752851724624634,
-      "eval_rouge1": 21.8045,
-      "eval_rouge2": 5.6422,
-      "eval_rougeL": 21.628,
-      "eval_rougeLsum": 21.6131,
-      "eval_runtime": 162.1464,
-      "eval_samples_per_second": 43.22,
-      "eval_steps_per_second": 2.701,
       "step": 6000
     },
     {
       "epoch": 1.72,
-      "learning_rate": 4.529777698596109e-05,
-      "loss": 1.9347,
       "step": 6100
     },
     {
       "epoch": 1.75,
-      "learning_rate": 4.4365714143472324e-05,
-      "loss": 1.9325,
       "step": 6200
     },
     {
       "epoch": 1.78,
-      "learning_rate": 4.3360951314441554e-05,
-      "loss": 1.9184,
       "step": 6300
     },
     {
       "epoch": 1.8,
-      "learning_rate": 4.228727019928149e-05,
-      "loss": 1.919,
       "step": 6400
     },
     {
       "epoch": 1.83,
-      "learning_rate": 4.114871189127209e-05,
-      "loss": 1.9375,
       "step": 6500
     },
     {
       "epoch": 1.86,
-      "learning_rate": 3.994956166679789e-05,
-      "loss": 1.9609,
       "step": 6600
     },
     {
       "epoch": 1.89,
-      "learning_rate": 3.869433285653533e-05,
-      "loss": 1.9409,
       "step": 6700
     },
     {
       "epoch": 1.92,
-      "learning_rate": 3.73877498582952e-05,
-      "loss": 1.9153,
       "step": 6800
     },
     {
       "epoch": 1.94,
-      "learning_rate": 3.603473035545605e-05,
-      "loss": 1.918,
       "step": 6900
     },
     {
       "epoch": 1.97,
-      "learning_rate": 3.4640366807914365e-05,
-      "loss": 1.9425,
       "step": 7000
     },
     {
       "epoch": 2.0,
-      "learning_rate": 3.320990728521537e-05,
-      "loss": 1.918,
       "step": 7100
     },
     {
       "epoch": 2.03,
-      "learning_rate": 3.174873571400432e-05,
-      "loss": 1.7143,
       "step": 7200
     },
     {
       "epoch": 2.06,
-      "learning_rate": 3.0262351614142278e-05,
-      "loss": 1.7251,
       "step": 7300
     },
     {
       "epoch": 2.09,
-      "learning_rate": 2.875634939975517e-05,
-      "loss": 1.7188,
       "step": 7400
     },
     {
       "epoch": 2.11,
-      "learning_rate": 2.7236397323122172e-05,
-      "loss": 1.732,
       "step": 7500
     },
     {
       "epoch": 2.14,
-      "learning_rate": 2.570821614065411e-05,
-      "loss": 1.7565,
       "step": 7600
     },
     {
       "epoch": 2.17,
-      "learning_rate": 2.4177557581258026e-05,
-      "loss": 1.7159,
       "step": 7700
     },
     {
       "epoch": 2.2,
-      "learning_rate": 2.2650182698128346e-05,
-      "loss": 1.7191,
       "step": 7800
     },
     {
       "epoch": 2.23,
-      "learning_rate": 2.1131840185443426e-05,
-      "loss": 1.7215,
       "step": 7900
     },
     {
       "epoch": 2.25,
-      "learning_rate": 1.962824474157885e-05,
-      "loss": 1.7129,
       "step": 8000
     },
     {
       "epoch": 2.25,
       "eval_gen_len": 20.0,
-      "eval_loss": 1.9584242105484009,
-      "eval_rouge1": 22.117,
-      "eval_rouge2": 5.7798,
-      "eval_rougeL": 21.9114,
-      "eval_rougeLsum": 21.8886,
-      "eval_runtime": 162.6289,
-      "eval_samples_per_second": 43.092,
-      "eval_steps_per_second": 2.693,
       "step": 8000
     },
     {
       "epoch": 2.28,
-      "learning_rate": 1.8145055560273016e-05,
-      "loss": 1.6991,
       "step": 8100
     },
     {
       "epoch": 2.31,
-      "learning_rate": 1.6687855030699798e-05,
-      "loss": 1.7131,
       "step": 8200
     },
     {
       "epoch": 2.34,
-      "learning_rate": 1.52621277266162e-05,
-      "loss": 1.7091,
       "step": 8300
     },
     {
       "epoch": 2.37,
-      "learning_rate": 1.3873239763665138e-05,
-      "loss": 1.7208,
       "step": 8400
     },
     {
       "epoch": 2.4,
-      "learning_rate": 1.2526418602527839e-05,
-      "loss": 1.7373,
       "step": 8500
     },
     {
       "epoch": 2.42,
-      "learning_rate": 1.1226733373942214e-05,
-      "loss": 1.6905,
       "step": 8600
     },
     {
       "epoch": 2.45,
-      "learning_rate": 9.979075799639335e-06,
-      "loss": 1.7103,
       "step": 8700
     },
     {
       "epoch": 2.48,
-      "learning_rate": 8.788141781007439e-06,
-      "loss": 1.7381,
       "step": 8800
     },
     {
       "epoch": 2.51,
-      "learning_rate": 7.658413724779386e-06,
-      "loss": 1.7005,
       "step": 8900
     },
     {
       "epoch": 2.54,
-      "learning_rate": 6.594143672265889e-06,
-      "loss": 1.692,
       "step": 9000
     },
     {
       "epoch": 2.56,
-      "learning_rate": 5.599337295632133e-06,
-      "loss": 1.6929,
       "step": 9100
     },
     {
       "epoch": 2.59,
-      "learning_rate": 4.677738821452162e-06,
-      "loss": 1.7245,
       "step": 9200
     },
     {
       "epoch": 2.62,
-      "learning_rate": 3.832816938285592e-06,
-      "loss": 1.6818,
       "step": 9300
     },
     {
       "epoch": 2.65,
-      "learning_rate": 3.0677517413170523e-06,
-      "loss": 1.7,
       "step": 9400
     },
     {
       "epoch": 2.68,
-      "learning_rate": 2.385422763195976e-06,
-      "loss": 1.6961,
       "step": 9500
     },
     {
       "epoch": 2.71,
-      "learning_rate": 1.7883981361259272e-06,
-      "loss": 1.7067,
       "step": 9600
     },
     {
       "epoch": 2.73,
-      "learning_rate": 1.2789249259948616e-06,
-      "loss": 1.6975,
       "step": 9700
     },
     {
       "epoch": 2.76,
-      "learning_rate": 8.589206749264998e-07,
-      "loss": 1.7217,
       "step": 9800
     },
     {
       "epoch": 2.79,
-      "learning_rate": 5.29966184084788e-07,
-      "loss": 1.7213,
       "step": 9900
     },
     {
       "epoch": 2.82,
-      "learning_rate": 2.932995638952263e-07,
-      "loss": 1.7072,
       "step": 10000
     },
     {
       "epoch": 2.82,
       "eval_gen_len": 20.0,
-      "eval_loss": 1.933449387550354,
-      "eval_rouge1": 22.3137,
-      "eval_rouge2": 5.8376,
-      "eval_rougeL": 22.1264,
-      "eval_rougeLsum": 22.1274,
-      "eval_runtime": 162.4524,
-      "eval_samples_per_second": 43.139,
-      "eval_steps_per_second": 2.696,
       "step": 10000
     },
     {
       "epoch": 2.85,
-      "learning_rate": 1.5078315448915942e-07,
-      "loss": 1.6934,
       "step": 10100
     },
     {
       "epoch": 2.87,
-      "learning_rate": 1.0007514846990862e-07,
-      "loss": 1.6952,
       "step": 10200
     },
     {
       "epoch": 2.9,
-      "learning_rate": 4.998917939712543e-05,
-      "loss": 1.757,
       "step": 10300
     },
     {
       "epoch": 2.93,
-      "learning_rate": 4.995490569865264e-05,
-      "loss": 1.7591,
       "step": 10400
     },
     {
       "epoch": 2.96,
-      "learning_rate": 4.989719237466243e-05,
-      "loss": 1.7812,
       "step": 10500
     },
     {
       "epoch": 2.99,
-      "learning_rate": 4.9816093742915244e-05,
-      "loss": 1.7639,
       "step": 10600
     },
     {
       "epoch": 3.02,
-      "learning_rate": 4.9711686130604656e-05,
-      "loss": 1.7264,
       "step": 10700
     },
     {
       "epoch": 3.04,
-      "learning_rate": 4.9584067802520866e-05,
-      "loss": 1.6739,
       "step": 10800
     },
     {
       "epoch": 3.07,
-      "learning_rate": 4.943497980862275e-05,
-      "loss": 1.6629,
       "step": 10900
     },
     {
       "epoch": 3.1,
-      "learning_rate": 4.926155082525451e-05,
-      "loss": 1.6756,
       "step": 11000
     },
     {
       "epoch": 3.13,
-      "learning_rate": 4.906533477770676e-05,
-      "loss": 1.6823,
       "step": 11100
     },
     {
       "epoch": 3.16,
-      "learning_rate": 4.884651633765546e-05,
-      "loss": 1.6432,
       "step": 11200
     },
     {
       "epoch": 3.18,
-      "learning_rate": 4.860530144935725e-05,
-      "loss": 1.6803,
       "step": 11300
     },
     {
       "epoch": 3.21,
-      "learning_rate": 4.834191713582197e-05,
-      "loss": 1.6985,
       "step": 11400
     },
     {
       "epoch": 3.24,
-      "learning_rate": 4.8056611285146466e-05,
-      "loss": 1.7087,
       "step": 11500
     },
     {
       "epoch": 3.27,
-      "learning_rate": 4.7749652417211076e-05,
-      "loss": 1.7142,
       "step": 11600
     },
     {
       "epoch": 3.3,
-      "learning_rate": 4.742132943095807e-05,
-      "loss": 1.7135,
       "step": 11700
     },
     {
       "epoch": 3.33,
-      "learning_rate": 4.70719513324901e-05,
-      "loss": 1.7136,
       "step": 11800
     },
     {
       "epoch": 3.35,
-      "learning_rate": 4.670184694424442e-05,
-      "loss": 1.7098,
       "step": 11900
     },
     {
       "epoch": 3.38,
-      "learning_rate": 4.63113645955168e-05,
-      "loss": 1.7184,
       "step": 12000
     },
     {
       "epoch": 3.38,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.0014004707336426,
-      "eval_rouge1": 21.452,
-      "eval_rouge2": 5.494,
-      "eval_rougeL": 21.3143,
-      "eval_rougeLsum": 21.3158,
-      "eval_runtime": 162.8289,
-      "eval_samples_per_second": 43.039,
-      "eval_steps_per_second": 2.69,
       "step": 12000
     },
     {
       "epoch": 3.41,
-      "learning_rate": 4.590087179462613e-05,
-      "loss": 1.7121,
       "step": 12100
     },
     {
       "epoch": 3.44,
-      "learning_rate": 4.547075488302845e-05,
-      "loss": 1.7064,
       "step": 12200
     },
     {
       "epoch": 3.47,
-      "learning_rate": 4.502141867170594e-05,
-      "loss": 1.7182,
       "step": 12300
     },
     {
       "epoch": 3.49,
-      "learning_rate": 4.455328606017294e-05,
-      "loss": 1.7126,
       "step": 12400
     },
     {
       "epoch": 3.52,
-      "learning_rate": 4.4066797638457747e-05,
-      "loss": 1.7135,
       "step": 12500
     },
     {
       "epoch": 3.55,
-      "learning_rate": 4.3562411272434736e-05,
-      "loss": 1.7224,
       "step": 12600
     },
     {
       "epoch": 3.58,
-      "learning_rate": 4.304060167289698e-05,
-      "loss": 1.7393,
       "step": 12700
     },
     {
       "epoch": 3.61,
-      "learning_rate": 4.250185994877508e-05,
-      "loss": 1.7153,
       "step": 12800
     },
     {
       "epoch": 3.64,
-      "learning_rate": 4.194669314492266e-05,
-      "loss": 1.6978,
       "step": 12900
     },
     {
       "epoch": 3.66,
-      "learning_rate": 4.137562376490343e-05,
-      "loss": 1.7238,
       "step": 13000
     },
     {
       "epoch": 3.69,
-      "learning_rate": 4.07891892792292e-05,
-      "loss": 1.73,
       "step": 13100
     },
     {
       "epoch": 3.72,
-      "learning_rate": 4.0187941619511394e-05,
-      "loss": 1.7077,
       "step": 13200
     },
     {
       "epoch": 3.75,
-      "learning_rate": 3.957244665900235e-05,
-      "loss": 1.696,
       "step": 13300
     },
     {
       "epoch": 3.78,
-      "learning_rate": 3.8943283680015245e-05,
-      "loss": 1.7197,
       "step": 13400
     },
     {
       "epoch": 3.8,
-      "learning_rate": 3.830104482872382e-05,
-      "loss": 1.755,
       "step": 13500
     },
     {
       "epoch": 3.83,
-      "learning_rate": 3.764633455785513e-05,
-      "loss": 1.7267,
       "step": 13600
     },
     {
       "epoch": 3.86,
-      "learning_rate": 3.697976905779984e-05,
-      "loss": 1.7325,
       "step": 13700
     },
     {
       "epoch": 3.89,
-      "learning_rate": 3.630197567667534e-05,
-      "loss": 1.7396,
       "step": 13800
     },
     {
       "epoch": 3.92,
-      "learning_rate": 3.5613592329887714e-05,
-      "loss": 1.7154,
       "step": 13900
     },
     {
       "epoch": 3.95,
-      "learning_rate": 3.491526689974802e-05,
-      "loss": 1.7372,
       "step": 14000
     },
     {
       "epoch": 3.95,
       "eval_gen_len": 20.0,
-      "eval_loss": 1.9770143032073975,
-      "eval_rouge1": 22.273,
-      "eval_rouge2": 5.7637,
-      "eval_rougeL": 22.1,
-      "eval_rougeLsum": 22.0813,
-      "eval_runtime": 163.6202,
-      "eval_samples_per_second": 42.831,
-      "eval_steps_per_second": 2.677,
       "step": 14000
     },
     {
       "epoch": 3.97,
-      "learning_rate": 3.42076566257082e-05,
-      "loss": 1.756,
       "step": 14100
     },
     {
       "epoch": 4.0,
-      "learning_rate": 3.349142748579026e-05,
-      "loss": 1.7312,
       "step": 14200
     },
     {
       "epoch": 4.03,
-      "learning_rate": 3.276725356979111e-05,
-      "loss": 1.4431,
       "step": 14300
     },
     {
       "epoch": 4.06,
-      "learning_rate": 3.2035816444852827e-05,
-      "loss": 1.4696,
       "step": 14400
     },
     {
       "epoch": 4.09,
-      "learning_rate": 3.1297804513995484e-05,
-      "loss": 1.4713,
       "step": 14500
     },
     {
       "epoch": 4.11,
-      "learning_rate": 3.055391236821639e-05,
-      "loss": 1.4552,
       "step": 14600
     },
     {
       "epoch": 4.14,
-      "learning_rate": 2.9804840132765305e-05,
-      "loss": 1.4596,
       "step": 14700
     },
     {
       "epoch": 4.17,
-      "learning_rate": 2.905129280821106e-05,
-      "loss": 1.4558,
       "step": 14800
     },
     {
       "epoch": 4.2,
-      "learning_rate": 2.8293979606919723e-05,
-      "loss": 1.4785,
       "step": 14900
     },
     {
       "epoch": 4.23,
-      "learning_rate": 2.7533613285568734e-05,
-      "loss": 1.4652,
       "step": 15000
     },
     {
       "epoch": 4.26,
-      "learning_rate": 2.6778545727506706e-05,
-      "loss": 1.4952,
       "step": 15100
     },
     {
       "epoch": 4.28,
-      "learning_rate": 2.6014234894273854e-05,
-      "loss": 1.4794,
       "step": 15200
     },
     {
       "epoch": 4.31,
-      "learning_rate": 2.5249016556908847e-05,
-      "loss": 1.4764,
       "step": 15300
     },
     {
       "epoch": 4.34,
-      "learning_rate": 2.448361091212649e-05,
-      "loss": 1.4685,
       "step": 15400
     },
     {
       "epoch": 4.37,
-      "learning_rate": 2.3718738332928784e-05,
-      "loss": 1.4858,
       "step": 15500
     },
     {
       "epoch": 4.4,
-      "learning_rate": 2.295511869061505e-05,
-      "loss": 1.4953,
       "step": 15600
     },
     {
       "epoch": 4.43,
-      "learning_rate": 2.219347067726429e-05,
-      "loss": 1.4836,
       "step": 15700
     },
     {
       "epoch": 4.45,
-      "learning_rate": 2.143451112932731e-05,
-      "loss": 1.4926,
       "step": 15800
     },
     {
       "epoch": 4.48,
-      "learning_rate": 2.0678954352965396e-05,
-      "loss": 1.4652,
       "step": 15900
     },
     {
       "epoch": 4.51,
-      "learning_rate": 1.992751145177032e-05,
-      "loss": 1.4724,
       "step": 16000
     },
     {
       "epoch": 4.51,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.019371509552002,
-      "eval_rouge1": 22.0979,
-      "eval_rouge2": 5.7144,
-      "eval_rougeL": 21.9045,
-      "eval_rougeLsum": 21.8765,
-      "eval_runtime": 162.8312,
-      "eval_samples_per_second": 43.038,
-      "eval_steps_per_second": 2.69,
       "step": 16000
     },
     {
       "epoch": 4.54,
-      "learning_rate": 1.9180889657498532e-05,
-      "loss": 1.4723,
       "step": 16100
     },
     {
       "epoch": 4.57,
-      "learning_rate": 1.843979166444942e-05,
-      "loss": 1.475,
       "step": 16200
     },
     {
       "epoch": 4.59,
-      "learning_rate": 1.770491496811398e-05,
-      "loss": 1.4657,
       "step": 16300
     },
     {
       "epoch": 4.62,
-      "learning_rate": 1.6976951208716527e-05,
-      "loss": 1.466,
       "step": 16400
     },
     {
       "epoch": 4.65,
-      "learning_rate": 1.625658552026706e-05,
-      "loss": 1.4649,
       "step": 16500
     },
     {
       "epoch": 4.68,
-      "learning_rate": 1.554449588573719e-05,
-      "loss": 1.4792,
       "step": 16600
     },
     {
       "epoch": 4.71,
-      "learning_rate": 1.4841352498966237e-05,
-      "loss": 1.4477,
       "step": 16700
     },
     {
       "epoch": 4.74,
-      "learning_rate": 1.4147817133898276e-05,
-      "loss": 1.4744,
       "step": 16800
     },
     {
       "epoch": 4.76,
-      "learning_rate": 1.346454252174365e-05,
-      "loss": 1.4915,
       "step": 16900
     },
     {
       "epoch": 4.79,
-      "learning_rate": 1.2792171736651217e-05,
-      "loss": 1.4767,
       "step": 17000
     },
     {
       "epoch": 4.82,
-      "learning_rate": 1.213133759046946e-05,
-      "loss": 1.483,
       "step": 17100
     },
     {
       "epoch": 4.85,
-      "learning_rate": 1.148908659327833e-05,
-      "loss": 1.4579,
       "step": 17200
     },
     {
       "epoch": 4.88,
-      "learning_rate": 1.0853049469504679e-05,
-      "loss": 1.4791,
       "step": 17300
     },
     {
       "epoch": 4.9,
-      "learning_rate": 1.0230374018646024e-05,
-      "loss": 1.4593,
       "step": 17400
     },
     {
       "epoch": 4.93,
-      "learning_rate": 9.621646281041709e-06,
-      "loss": 1.4629,
       "step": 17500
     },
     {
       "epoch": 4.96,
-      "learning_rate": 9.027439169931561e-06,
-      "loss": 1.4677,
       "step": 17600
     },
     {
       "epoch": 4.99,
-      "learning_rate": 8.448311932250029e-06,
-      "loss": 1.4382,
       "step": 17700
     },
     {
       "epoch": 5.02,
-      "learning_rate": 7.884809622282473e-06,
-      "loss": 1.369,
       "step": 17800
     },
     {
       "epoch": 5.05,
-      "learning_rate": 7.337462588679232e-06,
-      "loss": 1.3049,
       "step": 17900
     },
     {
       "epoch": 5.07,
-      "learning_rate": 6.806785975309991e-06,
-      "loss": 1.3297,
       "step": 18000
     },
     {
       "epoch": 5.07,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.037019729614258,
-      "eval_rouge1": 21.9,
-      "eval_rouge2": 5.533,
-      "eval_rougeL": 21.7042,
-      "eval_rougeLsum": 21.7021,
-      "eval_runtime": 162.394,
-      "eval_samples_per_second": 43.154,
-      "eval_steps_per_second": 2.697,
       "step": 18000
     },
     {
       "epoch": 5.1,
-      "learning_rate": 6.293279236428415e-06,
-      "loss": 1.3197,
       "step": 18100
     },
     {
       "epoch": 5.13,
-      "learning_rate": 5.7974256666032834e-06,
-      "loss": 1.2993,
       "step": 18200
     },
     {
       "epoch": 5.16,
-      "learning_rate": 5.31969194585855e-06,
-      "loss": 1.3202,
       "step": 18300
     },
     {
       "epoch": 5.19,
-      "learning_rate": 4.8605277004504475e-06,
-      "loss": 1.2897,
       "step": 18400
     },
     {
       "epoch": 5.21,
-      "learning_rate": 4.42036507969501e-06,
-      "loss": 1.3157,
       "step": 18500
     },
     {
       "epoch": 5.24,
-      "learning_rate": 3.999618349244242e-06,
-      "loss": 1.3208,
       "step": 18600
     },
     {
       "epoch": 5.27,
-      "learning_rate": 3.5986835011937814e-06,
-      "loss": 1.3238,
       "step": 18700
     },
     {
       "epoch": 5.3,
-      "learning_rate": 3.2179378813890276e-06,
-      "loss": 1.3285,
       "step": 18800
     },
     {
       "epoch": 5.33,
-      "learning_rate": 2.857739834280396e-06,
-      "loss": 1.3075,
       "step": 18900
     },
     {
       "epoch": 5.36,
-      "learning_rate": 2.5184283656621174e-06,
-      "loss": 1.3187,
       "step": 19000
     },
     {
       "epoch": 5.38,
-      "learning_rate": 2.2003228236118087e-06,
-      "loss": 1.3019,
       "step": 19100
     },
     {
       "epoch": 5.41,
-      "learning_rate": 1.9037225979312562e-06,
-      "loss": 1.3156,
       "step": 19200
     },
     {
       "epoch": 5.44,
-      "learning_rate": 1.631546296469755e-06,
-      "loss": 1.2991,
       "step": 19300
     },
     {
       "epoch": 5.47,
-      "learning_rate": 1.3785520064985022e-06,
-      "loss": 1.2969,
       "step": 19400
     },
     {
       "epoch": 5.5,
-      "learning_rate": 1.1478364548263003e-06,
-      "loss": 1.3149,
       "step": 19500
     },
     {
       "epoch": 5.52,
-      "learning_rate": 9.396167828548325e-07,
-      "loss": 1.2895,
       "step": 19600
     },
     {
       "epoch": 5.55,
-      "learning_rate": 7.540889596512168e-07,
-      "loss": 1.3152,
       "step": 19700
     },
     {
       "epoch": 5.58,
-      "learning_rate": 5.914275975087762e-07,
-      "loss": 1.3272,
       "step": 19800
     },
     {
       "epoch": 5.61,
-      "learning_rate": 4.517857876080481e-07,
-      "loss": 1.3142,
       "step": 19900
     },
     {
       "epoch": 5.64,
-      "learning_rate": 3.352949559327476e-07,
-      "loss": 1.3186,
       "step": 20000
     },
     {
       "epoch": 5.64,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.039311170578003,
-      "eval_rouge1": 21.585,
-      "eval_rouge2": 5.4626,
-      "eval_rougeL": 21.4273,
-      "eval_rougeLsum": 21.4329,
-      "eval_runtime": 162.2232,
-      "eval_samples_per_second": 43.2,
-      "eval_steps_per_second": 2.7,
       "step": 20000
     },
     {
       "epoch": 5.67,
-      "learning_rate": 2.4206473957621197e-07,
-      "loss": 1.3001,
       "step": 20100
     },
     {
       "epoch": 5.69,
-      "learning_rate": 1.721828835548135e-07,
-      "loss": 1.3033,
       "step": 20200
     },
     {
       "epoch": 5.72,
-      "learning_rate": 1.2571515822542734e-07,
-      "loss": 1.3053,
       "step": 20300
     },
     {
       "epoch": 5.75,
-      "learning_rate": 1.0270529738465452e-07,
-      "loss": 1.3123,
       "step": 20400
     },
     {
       "epoch": 5.78,
-      "learning_rate": 4.9999206248096876e-05,
-      "loss": 1.3399,
       "step": 20500
     },
     {
       "epoch": 5.81,
-      "learning_rate": 4.999321815444586e-05,
-      "loss": 1.3654,
       "step": 20600
     },
     {
       "epoch": 5.83,
-      "learning_rate": 4.9981360794562834e-05,
-      "loss": 1.3834,
       "step": 20700
     },
     {
       "epoch": 5.86,
-      "learning_rate": 4.996363695854496e-05,
-      "loss": 1.4284,
       "step": 20800
     },
     {
       "epoch": 5.89,
-      "learning_rate": 4.994005081690109e-05,
-      "loss": 1.4216,
       "step": 20900
     },
     {
       "epoch": 5.92,
-      "learning_rate": 4.991060791957044e-05,
-      "loss": 1.4262,
       "step": 21000
     },
     {
       "epoch": 5.95,
-      "learning_rate": 4.987531519461667e-05,
-      "loss": 1.4331,
       "step": 21100
     },
     {
       "epoch": 5.98,
-      "learning_rate": 4.983418094659765e-05,
-      "loss": 1.4425,
       "step": 21200
     },
     {
       "epoch": 6.0,
-      "learning_rate": 4.978721485461138e-05,
-      "loss": 1.4284,
       "step": 21300
     },
     {
       "epoch": 6.03,
-      "learning_rate": 4.973554067339494e-05,
-      "loss": 1.3686,
       "step": 21400
     },
     {
       "epoch": 6.06,
-      "learning_rate": 4.967706145407849e-05,
-      "loss": 1.3545,
       "step": 21500
     },
     {
       "epoch": 6.09,
-      "learning_rate": 4.961278736181136e-05,
-      "loss": 1.3899,
       "step": 21600
     },
     {
       "epoch": 6.12,
-      "learning_rate": 4.954273352061473e-05,
-      "loss": 1.3801,
       "step": 21700
     },
     {
       "epoch": 6.14,
-      "learning_rate": 4.946691641451411e-05,
-      "loss": 1.3902,
       "step": 21800
     },
     {
       "epoch": 6.17,
-      "learning_rate": 4.938535388366059e-05,
-      "loss": 1.3836,
       "step": 21900
     },
     {
       "epoch": 6.2,
-      "learning_rate": 4.9298065120132974e-05,
-      "loss": 1.3839,
       "step": 22000
     },
     {
       "epoch": 6.2,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.1140034198760986,
-      "eval_rouge1": 20.6468,
-      "eval_rouge2": 5.2318,
-      "eval_rougeL": 20.4445,
-      "eval_rougeLsum": 20.4398,
-      "eval_runtime": 162.2862,
-      "eval_samples_per_second": 43.183,
-      "eval_steps_per_second": 2.699,
       "step": 22000
     },
     {
       "epoch": 6.23,
-      "learning_rate": 4.920507066342175e-05,
-      "loss": 1.4005,
       "step": 22100
     },
     {
       "epoch": 6.26,
-      "learning_rate": 4.910639239559606e-05,
-      "loss": 1.3887,
       "step": 22200
     },
     {
       "epoch": 6.29,
-      "learning_rate": 4.900205353615477e-05,
-      "loss": 1.4081,
       "step": 22300
     },
     {
       "epoch": 6.31,
-      "learning_rate": 4.889207863656274e-05,
-      "loss": 1.4239,
       "step": 22400
     },
     {
       "epoch": 6.34,
-      "learning_rate": 4.87764935744738e-05,
-      "loss": 1.4332,
       "step": 22500
     },
     {
       "epoch": 6.37,
-      "learning_rate": 4.865532554764157e-05,
-      "loss": 1.4264,
       "step": 22600
     },
     {
       "epoch": 6.4,
-      "learning_rate": 4.852860306751969e-05,
-      "loss": 1.4465,
       "step": 22700
     },
     {
       "epoch": 6.43,
-      "learning_rate": 4.839635595255296e-05,
-      "loss": 1.4339,
       "step": 22800
     },
     {
       "epoch": 6.45,
-      "learning_rate": 4.825861532116087e-05,
-      "loss": 1.4463,
       "step": 22900
     },
     {
       "epoch": 6.48,
-      "learning_rate": 4.811541358441531e-05,
-      "loss": 1.447,
       "step": 23000
     },
     {
       "epoch": 6.51,
-      "learning_rate": 4.796678443841405e-05,
-      "loss": 1.4343,
       "step": 23100
     },
     {
       "epoch": 6.54,
-      "learning_rate": 4.78127628563519e-05,
-      "loss": 1.4502,
       "step": 23200
     },
     {
       "epoch": 6.57,
-      "learning_rate": 4.765338508029135e-05,
-      "loss": 1.4459,
       "step": 23300
     },
     {
       "epoch": 6.6,
-      "learning_rate": 4.748868861263457e-05,
-      "loss": 1.4448,
       "step": 23400
     },
     {
       "epoch": 6.62,
-      "learning_rate": 4.731871220729898e-05,
-      "loss": 1.4377,
       "step": 23500
     },
     {
       "epoch": 6.65,
-      "learning_rate": 4.714349586059819e-05,
-      "loss": 1.4549,
       "step": 23600
     },
     {
       "epoch": 6.68,
-      "learning_rate": 4.696308080183071e-05,
-      "loss": 1.4393,
       "step": 23700
     },
     {
       "epoch": 6.71,
-      "learning_rate": 4.677750948357847e-05,
-      "loss": 1.4678,
       "step": 23800
     },
     {
       "epoch": 6.74,
-      "learning_rate": 4.65868255717175e-05,
-      "loss": 1.4629,
       "step": 23900
     },
     {
       "epoch": 6.76,
-      "learning_rate": 4.639107393514314e-05,
-      "loss": 1.4605,
       "step": 24000
     },
     {
       "epoch": 6.76,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.088627815246582,
-      "eval_rouge1": 21.2304,
-      "eval_rouge2": 5.2346,
-      "eval_rougeL": 21.0611,
-      "eval_rougeLsum": 21.0649,
-      "eval_runtime": 163.3508,
-      "eval_samples_per_second": 42.902,
-      "eval_steps_per_second": 2.681,
       "step": 24000
     },
     {
       "epoch": 6.79,
-      "learning_rate": 4.619030063521217e-05,
-      "loss": 1.4447,
       "step": 24100
     },
     {
       "epoch": 6.82,
-      "learning_rate": 4.5984552914904304e-05,
-      "loss": 1.4733,
       "step": 24200
     },
     {
       "epoch": 6.85,
-      "learning_rate": 4.5773879187705715e-05,
-      "loss": 1.4607,
       "step": 24300
     },
     {
       "epoch": 6.88,
-      "learning_rate": 4.555832902621708e-05,
-      "loss": 1.4659,
       "step": 24400
     },
     {
       "epoch": 6.91,
-      "learning_rate": 4.533795315048888e-05,
-      "loss": 1.482,
       "step": 24500
     },
     {
       "epoch": 6.93,
-      "learning_rate": 4.511280341608673e-05,
-      "loss": 1.4645,
       "step": 24600
     },
     {
       "epoch": 6.96,
-      "learning_rate": 4.488293280188952e-05,
-      "loss": 1.4645,
       "step": 24700
     },
     {
       "epoch": 6.99,
-      "learning_rate": 4.464839539762315e-05,
-      "loss": 1.4573,
       "step": 24800
     },
     {
       "epoch": 7.02,
-      "learning_rate": 4.4409246391133016e-05,
-      "loss": 1.3075,
       "step": 24900
     },
     {
       "epoch": 7.05,
-      "learning_rate": 4.416554205539801e-05,
-      "loss": 1.2172,
       "step": 25000
     },
     {
       "epoch": 7.07,
-      "learning_rate": 4.391733973528915e-05,
-      "loss": 1.1984,
       "step": 25100
     },
     {
       "epoch": 7.1,
-      "learning_rate": 4.3664697834076095e-05,
-      "loss": 1.2395,
       "step": 25200
     },
     {
       "epoch": 7.13,
-      "learning_rate": 4.340767579968456e-05,
-      "loss": 1.2372,
       "step": 25300
     },
     {
       "epoch": 7.16,
-      "learning_rate": 4.314896870880448e-05,
-      "loss": 1.2366,
       "step": 25400
     },
     {
       "epoch": 7.19,
-      "learning_rate": 4.288341113416578e-05,
-      "loss": 1.2374,
       "step": 25500
     },
     {
       "epoch": 7.22,
-      "learning_rate": 4.261365726708706e-05,
-      "loss": 1.2235,
       "step": 25600
     },
     {
       "epoch": 7.24,
-      "learning_rate": 4.2339770582026725e-05,
-      "loss": 1.2633,
       "step": 25700
     },
     {
       "epoch": 7.27,
-      "learning_rate": 4.206181552591627e-05,
-      "loss": 1.2347,
       "step": 25800
     },
     {
       "epoch": 7.3,
-      "learning_rate": 4.1779857502995634e-05,
-      "loss": 1.2533,
       "step": 25900
     },
     {
       "epoch": 7.33,
-      "learning_rate": 4.1493962859423225e-05,
-      "loss": 1.2594,
       "step": 26000
     },
     {
       "epoch": 7.33,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.1528804302215576,
-      "eval_rouge1": 21.6885,
-      "eval_rouge2": 5.3904,
-      "eval_rougeL": 21.4125,
-      "eval_rougeLsum": 21.4342,
-      "eval_runtime": 162.2811,
-      "eval_samples_per_second": 43.184,
-      "eval_steps_per_second": 2.699,
       "step": 26000
     },
     {
       "epoch": 7.36,
-      "learning_rate": 4.120419886766432e-05,
-      "loss": 1.2742,
       "step": 26100
     },
     {
       "epoch": 7.38,
-      "learning_rate": 4.091063371066154e-05,
-      "loss": 1.246,
       "step": 26200
     },
     {
       "epoch": 7.41,
-      "learning_rate": 4.061632768309558e-05,
-      "loss": 1.2496,
       "step": 26300
     },
     {
       "epoch": 7.44,
-      "learning_rate": 4.03154045781127e-05,
-      "loss": 1.2608,
       "step": 26400
     },
     {
       "epoch": 7.47,
-      "learning_rate": 4.001088944570764e-05,
-      "loss": 1.2696,
       "step": 26500
     },
     {
       "epoch": 7.5,
-      "learning_rate": 3.9702853939841514e-05,
-      "loss": 1.2624,
       "step": 26600
     },
     {
       "epoch": 7.53,
-      "learning_rate": 3.939137054283725e-05,
-      "loss": 1.2809,
       "step": 26700
     },
     {
       "epoch": 7.55,
-      "learning_rate": 3.9076512548324085e-05,
-      "loss": 1.2533,
       "step": 26800
     },
     {
       "epoch": 7.58,
-      "learning_rate": 3.875835404399126e-05,
-      "loss": 1.2811,
       "step": 26900
     },
     {
       "epoch": 7.61,
-      "learning_rate": 3.843696989415477e-05,
-      "loss": 1.2851,
       "step": 27000
     },
     {
       "epoch": 7.64,
-      "learning_rate": 3.811243572214143e-05,
-      "loss": 1.2661,
       "step": 27100
     },
     {
       "epoch": 7.67,
-      "learning_rate": 3.7784827892494295e-05,
-      "loss": 1.2661,
       "step": 27200
     },
     {
       "epoch": 7.69,
-      "learning_rate": 3.745422349300373e-05,
-      "loss": 1.2525,
       "step": 27300
     },
     {
       "epoch": 7.72,
-      "learning_rate": 3.712070031656822e-05,
-      "loss": 1.2864,
       "step": 27400
     },
     {
       "epoch": 7.75,
-      "learning_rate": 3.6784336842889355e-05,
-      "loss": 1.2801,
       "step": 27500
     },
     {
       "epoch": 7.78,
-      "learning_rate": 3.64452122200051e-05,
-      "loss": 1.2888,
       "step": 27600
     },
     {
       "epoch": 7.81,
-      "learning_rate": 3.6103406245665894e-05,
-      "loss": 1.2825,
       "step": 27700
     },
     {
       "epoch": 7.84,
-      "learning_rate": 3.575899934855785e-05,
-      "loss": 1.2791,
       "step": 27800
     },
     {
       "epoch": 7.86,
-      "learning_rate": 3.5412072569377407e-05,
-      "loss": 1.2704,
       "step": 27900
     },
     {
       "epoch": 7.89,
-      "learning_rate": 3.506270754176212e-05,
-      "loss": 1.2809,
       "step": 28000
     },
     {
       "epoch": 7.89,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.155640125274658,
-      "eval_rouge1": 20.7036,
-      "eval_rouge2": 5.3801,
-      "eval_rougeL": 20.5265,
-      "eval_rougeLsum": 20.5209,
-      "eval_runtime": 163.3415,
-      "eval_samples_per_second": 42.904,
-      "eval_steps_per_second": 2.681,
       "step": 28000
     },
     {
       "epoch": 7.92,
-      "learning_rate": 3.471098647308181e-05,
-      "loss": 1.2758,
       "step": 28100
     },
     {
       "epoch": 7.95,
-      "learning_rate": 3.4356992125094747e-05,
-      "loss": 1.2923,
       "step": 28200
     },
     {
       "epoch": 7.98,
-      "learning_rate": 3.40008077944734e-05,
-      "loss": 1.2823,
       "step": 28300
     },
     {
       "epoch": 8.0,
-      "learning_rate": 3.3642517293204305e-05,
-      "loss": 1.265,
       "step": 28400
     },
     {
       "epoch": 8.03,
-      "learning_rate": 3.328220492886667e-05,
-      "loss": 1.0506,
       "step": 28500
     },
     {
       "epoch": 8.06,
-      "learning_rate": 3.291995548479439e-05,
-      "loss": 1.0599,
       "step": 28600
     },
     {
       "epoch": 8.09,
-      "learning_rate": 3.255585420012606e-05,
-      "loss": 1.07,
       "step": 28700
     },
     {
       "epoch": 8.12,
-      "learning_rate": 3.2189986749747835e-05,
-      "loss": 1.0685,
       "step": 28800
     },
     {
       "epoch": 8.15,
-      "learning_rate": 3.182243922413361e-05,
-      "loss": 1.088,
       "step": 28900
     },
     {
       "epoch": 8.17,
-      "learning_rate": 3.145329810908756e-05,
-      "loss": 1.0686,
       "step": 29000
     },
     {
       "epoch": 8.2,
-      "learning_rate": 3.1082650265393565e-05,
-      "loss": 1.0841,
       "step": 29100
     },
     {
       "epoch": 8.23,
-      "learning_rate": 3.071058290837644e-05,
-      "loss": 1.0808,
       "step": 29200
     },
     {
       "epoch": 8.26,
-      "learning_rate": 3.0337183587379695e-05,
-      "loss": 1.0797,
       "step": 29300
     },
     {
       "epoch": 8.29,
-      "learning_rate": 2.9962540165164753e-05,
-      "loss": 1.0824,
       "step": 29400
     },
     {
       "epoch": 8.31,
-      "learning_rate": 2.958674079723637e-05,
-      "loss": 1.0767,
       "step": 29500
     },
     {
       "epoch": 8.34,
-      "learning_rate": 2.9209873911099242e-05,
-      "loss": 1.0872,
       "step": 29600
     },
     {
       "epoch": 8.37,
-      "learning_rate": 2.8832028185450523e-05,
-      "loss": 1.0726,
       "step": 29700
     },
     {
       "epoch": 8.4,
-      "learning_rate": 2.845329252931329e-05,
-      "loss": 1.0763,
       "step": 29800
     },
     {
       "epoch": 8.43,
-      "learning_rate": 2.8073756061115794e-05,
-      "loss": 1.1097,
       "step": 29900
     },
     {
       "epoch": 8.46,
-      "learning_rate": 2.7693508087721433e-05,
-      "loss": 1.0819,
       "step": 30000
     },
     {
       "epoch": 8.46,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.23087477684021,
-      "eval_rouge1": 20.9622,
-      "eval_rouge2": 5.3019,
-      "eval_rougeL": 20.7446,
-      "eval_rougeLsum": 20.7429,
-      "eval_runtime": 162.5566,
-      "eval_samples_per_second": 43.111,
-      "eval_steps_per_second": 2.694,
       "step": 30000
     },
     {
       "epoch": 8.48,
-      "learning_rate": 2.731263808341441e-05,
-      "loss": 1.1006,
       "step": 30100
     },
     {
       "epoch": 8.51,
-      "learning_rate": 2.6931235668845973e-05,
-      "loss": 1.0997,
       "step": 30200
     },
     {
       "epoch": 8.54,
-      "learning_rate": 2.65493905899462e-05,
-      "loss": 1.1084,
       "step": 30300
     },
     {
       "epoch": 8.57,
-      "learning_rate": 2.6167192696806356e-05,
-      "loss": 1.0907,
       "step": 30400
     },
     {
       "epoch": 8.6,
-      "learning_rate": 2.5784731922536687e-05,
-      "loss": 1.0974,
       "step": 30500
     },
     {
       "epoch": 8.62,
-      "learning_rate": 2.540592515888669e-05,
-      "loss": 1.1108,
       "step": 30600
     },
     {
       "epoch": 8.65,
-      "learning_rate": 2.5023209030687986e-05,
-      "loss": 1.1082,
       "step": 30700
     },
     {
       "epoch": 8.68,
-      "learning_rate": 2.4640499206540774e-05,
-      "loss": 1.0964,
       "step": 30800
     },
     {
       "epoch": 8.71,
-      "learning_rate": 2.425788574001527e-05,
-      "loss": 1.1008,
       "step": 30900
     },
     {
       "epoch": 8.74,
-      "learning_rate": 2.3875458662008246e-05,
-      "loss": 1.0956,
       "step": 31000
     },
     {
       "epoch": 8.77,
-      "learning_rate": 2.3493307959558313e-05,
-      "loss": 1.1051,
       "step": 31100
     },
     {
       "epoch": 8.79,
-      "learning_rate": 2.3111523554671516e-05,
-      "loss": 1.1033,
       "step": 31200
     },
     {
       "epoch": 8.82,
-      "learning_rate": 2.2730195283162194e-05,
-      "loss": 1.1003,
       "step": 31300
     },
     {
       "epoch": 8.85,
-      "learning_rate": 2.2349412873514212e-05,
-      "loss": 1.1031,
       "step": 31400
     },
     {
       "epoch": 8.88,
-      "learning_rate": 2.1969265925767334e-05,
-      "loss": 1.1195,
       "step": 31500
     },
     {
       "epoch": 8.91,
-      "learning_rate": 2.158984389043391e-05,
-      "loss": 1.0978,
       "step": 31600
     },
     {
       "epoch": 8.93,
-      "learning_rate": 2.1211236047450704e-05,
-      "loss": 1.1105,
       "step": 31700
     },
     {
       "epoch": 8.96,
-      "learning_rate": 2.08335314851709e-05,
-      "loss": 1.1088,
       "step": 31800
     },
     {
       "epoch": 8.99,
-      "learning_rate": 2.0456819079401094e-05,
-      "loss": 1.1241,
       "step": 31900
     },
     {
       "epoch": 9.02,
-      "learning_rate": 2.008118747248843e-05,
-      "loss": 0.9814,
       "step": 32000
     },
     {
       "epoch": 9.02,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.2810895442962646,
-      "eval_rouge1": 20.6296,
-      "eval_rouge2": 5.1936,
-      "eval_rougeL": 20.4403,
-      "eval_rougeLsum": 20.4304,
-      "eval_runtime": 162.301,
-      "eval_samples_per_second": 43.179,
-      "eval_steps_per_second": 2.699,
       "step": 32000
     },
     {
       "epoch": 9.05,
-      "learning_rate": 1.9706725052462575e-05,
-      "loss": 0.9353,
       "step": 32100
     },
     {
       "epoch": 9.08,
-      "learning_rate": 1.933351993223755e-05,
-      "loss": 0.9372,
       "step": 32200
     },
     {
       "epoch": 9.1,
-      "learning_rate": 1.8961659928878366e-05,
-      "loss": 0.9601,
       "step": 32300
     },
     {
       "epoch": 9.13,
-      "learning_rate": 1.859123254293715e-05,
-      "loss": 0.9461,
       "step": 32400
     },
     {
       "epoch": 9.16,
-      "learning_rate": 1.8222324937863884e-05,
-      "loss": 0.9575,
       "step": 32500
     },
     {
       "epoch": 9.19,
-      "learning_rate": 1.7858688692966636e-05,
-      "loss": 0.951,
       "step": 32600
     },
     {
       "epoch": 9.22,
-      "learning_rate": 1.74930633324332e-05,
-      "loss": 0.9606,
       "step": 32700
     },
     {
       "epoch": 9.24,
-      "learning_rate": 1.712921615757434e-05,
-      "loss": 0.9316,
       "step": 32800
     },
     {
       "epoch": 9.27,
-      "learning_rate": 1.676723278348288e-05,
-      "loss": 0.9447,
       "step": 32900
     },
     {
       "epoch": 9.3,
-      "learning_rate": 1.640719838668979e-05,
-      "loss": 0.9591,
       "step": 33000
     },
     {
       "epoch": 9.33,
-      "learning_rate": 1.604919768512179e-05,
-      "loss": 0.9629,
       "step": 33100
     },
     {
       "epoch": 9.36,
-      "learning_rate": 1.569331491816673e-05,
-      "loss": 0.9541,
       "step": 33200
     },
     {
       "epoch": 9.39,
-      "learning_rate": 1.53396338268517e-05,
-      "loss": 0.9409,
       "step": 33300
     },
     {
       "epoch": 9.41,
-      "learning_rate": 1.4988237634138258e-05,
-      "loss": 0.9517,
       "step": 33400
     },
     {
       "epoch": 9.44,
-      "learning_rate": 1.4639209025339731e-05,
-      "loss": 0.9569,
       "step": 33500
     },
     {
       "epoch": 9.47,
-      "learning_rate": 1.4292630128664853e-05,
-      "loss": 0.9421,
       "step": 33600
     },
     {
       "epoch": 9.5,
-      "learning_rate": 1.3948582495892665e-05,
-      "loss": 0.9455,
       "step": 33700
     },
     {
       "epoch": 9.53,
-      "learning_rate": 1.3610548242500389e-05,
-      "loss": 0.9553,
       "step": 33800
     },
     {
       "epoch": 9.55,
-      "learning_rate": 1.3271778070102909e-05,
-      "loss": 0.9668,
       "step": 33900
     },
     {
       "epoch": 9.58,
-      "learning_rate": 1.2935779373295224e-05,
-      "loss": 0.9403,
       "step": 34000
     },
     {
       "epoch": 9.58,
       "eval_gen_len": 20.0,
-      "eval_loss": 2.29062819480896,
-      "eval_rouge1": 21.0701,
-      "eval_rouge2": 5.1666,
-      "eval_rougeL": 20.8587,
-      "eval_rougeLsum": 20.8463,
-      "eval_runtime": 162.5034,
-      "eval_samples_per_second": 43.125,
-      "eval_steps_per_second": 2.695,
       "step": 34000
     },
     {
       "epoch": 9.61,
-      "learning_rate": 1.2602631214281477e-05,
-      "loss": 0.9553,
       "step": 34100
     },
     {
       "epoch": 9.64,
-      "learning_rate": 1.2272411984519708e-05,
-      "loss": 0.9575,
       "step": 34200
     },
     {
       "epoch": 9.67,
-      "learning_rate": 1.1945199386276041e-05,
-      "loss": 0.9545,
       "step": 34300
     },
     {
       "epoch": 9.7,
-      "learning_rate": 1.1621070414340846e-05,
-      "loss": 0.9406,
       "step": 34400
     },
     {
       "epoch": 9.72,
-      "learning_rate": 1.1300101337911568e-05,
-      "loss": 0.9689,
       "step": 34500
     },
     {
       "epoch": 9.75,
-      "learning_rate": 1.0982367682646119e-05,
-      "loss": 0.9576,
       "step": 34600
     },
     {
       "epoch": 9.78,
-      "learning_rate": 1.0667944212891339e-05,
-      "loss": 0.9547,
       "step": 34700
     },
     {
       "epoch": 9.81,
-      "learning_rate": 1.0356904914090589e-05,
-      "loss": 0.9619,
       "step": 34800
     },
     {
       "epoch": 9.84,
-      "learning_rate": 1.0049322975374548e-05,
-      "loss": 0.9578,
       "step": 34900
     },
     {
       "epoch": 9.86,
-      "learning_rate": 9.745270772339474e-06,
-      "loss": 0.9509,
       "step": 35000
     },
     {
       "epoch": 9.89,
-      "learning_rate": 9.447806300054016e-06,
-      "loss": 0.9593,
       "step": 35100
     },
     {
       "epoch": 9.92,
-      "learning_rate": 9.15099028916227e-06,
-      "loss": 0.9576,
       "step": 35200
     },
     {
       "epoch": 9.95,
-      "learning_rate": 8.857915396206473e-06,
-      "loss": 0.9653,
       "step": 35300
     },
     {
       "epoch": 9.98,
-      "learning_rate": 8.56865058320117e-06,
-      "loss": 0.958,
       "step": 35400
     },
     {
       "epoch": 10.0,
       "step": 35480,
       "total_flos": 2.3762843604025344e+17,
-      "train_loss": 1.5038130920392954,
-      "train_runtime": 13804.3068,
-      "train_samples_per_second": 41.118,
-      "train_steps_per_second": 2.57
     }
   ],
   "max_steps": 35480,

 {
+  "best_metric": 1.9633301496505737,
+  "best_model_checkpoint": "output/checkpoint-6000",
   "epoch": 10.0,
   "global_step": 35480,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.03,
+      "learning_rate": 1.1231131887499657e-07,
+      "loss": 2.472,
       "step": 100
     },
     {
       "epoch": 0.06,
+      "learning_rate": 2.5441897566929925e-05,
+      "loss": 2.3979,
       "step": 200
     },
     {
       "epoch": 0.08,
+      "learning_rate": 1.0307801958256833e-07,
+      "loss": 2.3356,
       "step": 300
     },
     {
       "epoch": 0.11,
+      "learning_rate": 4.2830331047183876e-05,
+      "loss": 2.3626,
       "step": 400
     },
     {
       "epoch": 0.14,
+      "learning_rate": 2.5245954827173344e-05,
+      "loss": 2.3347,
       "step": 500
     },
     {
       "epoch": 0.17,
+      "learning_rate": 7.54679092701715e-06,
+      "loss": 2.3057,
       "step": 600
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.007695167624979e-07,
+      "loss": 2.264,
       "step": 700
     },
     {
       "epoch": 0.23,
+      "learning_rate": 4.813811122230701e-05,
+      "loss": 2.2884,
       "step": 800
     },
     {
       "epoch": 0.25,
+      "learning_rate": 4.276145918519949e-05,
+      "loss": 2.3137,
       "step": 900
     },
     {
       "epoch": 0.28,
+      "learning_rate": 3.468839804192268e-05,
+      "loss": 2.3233,
       "step": 1000
     },
     {
       "epoch": 0.31,
+      "learning_rate": 2.514797816905896e-05,
+      "loss": 2.2754,
       "step": 1100
     },
     {
       "epoch": 0.34,
+      "learning_rate": 1.559264200813033e-05,
+      "loss": 2.2508,
       "step": 1200
     },
     {
       "epoch": 0.37,
+      "learning_rate": 7.54679092701715e-06,
+      "loss": 2.2591,
       "step": 1300
     },
     {
       "epoch": 0.39,
+      "learning_rate": 2.0749052704813964e-06,
+      "loss": 2.231,
       "step": 1400
     },
     {
       "epoch": 0.42,
+      "learning_rate": 1.007695167624979e-07,
+      "loss": 2.2262,
       "step": 1500
     },
     {
       "epoch": 0.45,
+      "learning_rate": 4.953951865520701e-05,
+      "loss": 2.2988,
       "step": 1600
     },
     {
       "epoch": 0.48,
+      "learning_rate": 4.813811122230701e-05,
+      "loss": 2.2338,
       "step": 1700
     },
     {
       "epoch": 0.51,
+      "learning_rate": 4.5849440623095696e-05,
+      "loss": 2.2921,
       "step": 1800
     },
     {
       "epoch": 0.54,
+      "learning_rate": 4.276145918519949e-05,
+      "loss": 2.2703,
       "step": 1900
     },
     {
       "epoch": 0.56,
+      "learning_rate": 3.8992836303516824e-05,
+      "loss": 2.2635,
       "step": 2000
     },
     {
       "epoch": 0.56,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.061249256134033,
+      "eval_rouge1": 21.7272,
+      "eval_rouge2": 5.8776,
+      "eval_rougeL": 21.533,
+      "eval_rougeLsum": 21.5147,
+      "eval_runtime": 165.5553,
+      "eval_samples_per_second": 42.33,
+      "eval_steps_per_second": 2.646,
       "step": 2000
     },
     {
       "epoch": 0.59,
+      "learning_rate": 3.468839804192268e-05,
+      "loss": 2.2318,
       "step": 2100
     },
     {
       "epoch": 0.62,
+      "learning_rate": 3.001356154885334e-05,
+      "loss": 2.1998,
       "step": 2200
     },
     {
       "epoch": 0.65,
+      "learning_rate": 2.514797816905896e-05,
+      "loss": 2.2198,
       "step": 2300
     },
     {
       "epoch": 0.68,
+      "learning_rate": 2.027862954317443e-05,
+      "loss": 2.1908,
       "step": 2400
     },
     {
       "epoch": 0.7,
+      "learning_rate": 1.559264200813033e-05,
+      "loss": 2.2039,
       "step": 2500
     },
     {
       "epoch": 0.73,
+      "learning_rate": 1.1270095436966314e-05,
+      "loss": 2.1967,
       "step": 2600
     },
     {
       "epoch": 0.76,
+      "learning_rate": 7.477102870300167e-06,
+      "loss": 2.1736,
       "step": 2700
     },
     {
       "epoch": 0.79,
+      "learning_rate": 4.359426885334149e-06,
+      "loss": 2.1954,
       "step": 2800
     },
     {
       "epoch": 0.82,
+      "learning_rate": 2.0368780217576533e-06,
+      "loss": 2.1828,
       "step": 2900
     },
     {
       "epoch": 0.85,
+      "learning_rate": 5.987105298975171e-07,
+      "loss": 2.1688,
       "step": 3000
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.0019237993230962e-07,
+      "loss": 2.1516,
       "step": 3100
     },
     {
       "epoch": 0.9,
+      "learning_rate": 4.9886953900836016e-05,
+      "loss": 2.2263,
       "step": 3200
     },
     {
       "epoch": 0.93,
+      "learning_rate": 4.953482257211965e-05,
+      "loss": 2.1939,
       "step": 3300
     },
     {
       "epoch": 0.96,
+      "learning_rate": 4.8946889017268244e-05,
+      "loss": 2.2039,
       "step": 3400
     },
     {
       "epoch": 0.99,
+      "learning_rate": 4.8128815357812196e-05,
+      "loss": 2.1897,
       "step": 3500
     },
     {
       "epoch": 1.01,
+      "learning_rate": 4.708848009029661e-05,
+      "loss": 2.1036,
       "step": 3600
     },
     {
       "epoch": 1.04,
+      "learning_rate": 4.583590221205278e-05,
+      "loss": 2.0092,
       "step": 3700
     },
     {
       "epoch": 1.07,
+      "learning_rate": 4.43831447327769e-05,
+      "loss": 2.0428,
       "step": 3800
     },
     {
       "epoch": 1.1,
+      "learning_rate": 4.2744198501152435e-05,
+      "loss": 2.0471,
       "step": 3900
     },
     {
       "epoch": 1.13,
+      "learning_rate": 4.093484746532906e-05,
+      "loss": 2.0365,
       "step": 4000
     },
     {
       "epoch": 1.13,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.034134864807129,
+      "eval_rouge1": 21.7168,
+      "eval_rouge2": 5.7378,
+      "eval_rougeL": 21.5563,
+      "eval_rougeLsum": 21.552,
+      "eval_runtime": 164.9689,
+      "eval_samples_per_second": 42.481,
+      "eval_steps_per_second": 2.655,
       "step": 4000
     },
     {
       "epoch": 1.16,
+      "learning_rate": 3.897251666487364e-05,
+      "loss": 2.0227,
       "step": 4100
     },
     {
       "epoch": 1.18,
+      "learning_rate": 3.68761044181137e-05,
+      "loss": 2.0152,
       "step": 4200
     },
     {
       "epoch": 1.21,
+      "learning_rate": 3.4665800321001055e-05,
+      "loss": 2.0071,
       "step": 4300
     },
     {
       "epoch": 1.24,
+      "learning_rate": 3.2362890810266e-05,
+      "loss": 2.0391,
       "step": 4400
     },
     {
       "epoch": 1.27,
+      "learning_rate": 2.9989554163395335e-05,
+      "loss": 2.0197,
       "step": 4500
     },
     {
       "epoch": 1.3,
+      "learning_rate": 2.7568646909696192e-05,
+      "loss": 1.9765,
       "step": 4600
     },
     {
       "epoch": 1.32,
+      "learning_rate": 2.512348370942422e-05,
+      "loss": 1.9761,
       "step": 4700
     },
     {
       "epoch": 1.35,
+      "learning_rate": 2.2677612820860213e-05,
+      "loss": 1.992,
       "step": 4800
     },
     {
       "epoch": 1.38,
+      "learning_rate": 2.0254589317710082e-05,
+      "loss": 2.0143,
       "step": 4900
     },
     {
       "epoch": 1.41,
+      "learning_rate": 1.7877748240868528e-05,
+      "loss": 1.9675,
       "step": 5000
     },
     {
       "epoch": 1.44,
+      "learning_rate": 1.556997986921904e-05,
+      "loss": 2.0144,
       "step": 5100
     },
     {
       "epoch": 1.47,
+      "learning_rate": 1.3353509273735138e-05,
+      "loss": 2.0131,
       "step": 5200
     },
     {
       "epoch": 1.49,
+      "learning_rate": 1.1249682277897386e-05,
+      "loss": 1.9536,
       "step": 5300
     },
     {
       "epoch": 1.52,
+      "learning_rate": 9.278759885744533e-06,
+      "loss": 1.989,
       "step": 5400
     },
     {
       "epoch": 1.55,
+      "learning_rate": 7.45972315732879e-06,
+      "loss": 1.9796,
       "step": 5500
     },
     {
       "epoch": 1.58,
+      "learning_rate": 5.810090410731417e-06,
+      "loss": 1.9478,
       "step": 5600
     },
     {
       "epoch": 1.61,
+      "learning_rate": 4.345748511083142e-06,
+      "loss": 1.9681,
       "step": 5700
     },
     {
       "epoch": 1.63,
+      "learning_rate": 3.08079987136829e-06,
+      "loss": 1.9642,
       "step": 5800
     },
     {
       "epoch": 1.66,
+      "learning_rate": 2.027426638478571e-06,
+      "loss": 1.983,
       "step": 5900
     },
     {
       "epoch": 1.69,
+      "learning_rate": 1.1957733724791018e-06,
+      "loss": 1.9847,
       "step": 6000
     },
     {
       "epoch": 1.69,
       "eval_gen_len": 20.0,
+      "eval_loss": 1.9633301496505737,
+      "eval_rouge1": 22.6551,
+      "eval_rouge2": 6.1328,
+      "eval_rougeL": 22.457,
+      "eval_rougeLsum": 22.4619,
+      "eval_runtime": 165.0565,
+      "eval_samples_per_second": 42.458,
+      "eval_steps_per_second": 2.654,
       "step": 6000
     },
     {
       "epoch": 1.72,
+      "learning_rate": 5.938493489493758e-07,
+      "loss": 1.9596,
       "step": 6100
     },
     {
       "epoch": 1.75,
+      "learning_rate": 2.27451425281131e-07,
+      "loss": 1.9612,
       "step": 6200
     },
     {
       "epoch": 1.78,
+      "learning_rate": 1.0010821377276459e-07,
+      "loss": 1.9514,
       "step": 6300
     },
     {
       "epoch": 1.8,
+      "learning_rate": 4.99717224507643e-05,
+      "loss": 1.986,
       "step": 6400
     },
     {
       "epoch": 1.83,
+      "learning_rate": 4.988343334271749e-05,
+      "loss": 2.0322,
       "step": 6500
     },
     {
       "epoch": 1.86,
+      "learning_rate": 4.9735318318596204e-05,
+      "loss": 2.0483,
       "step": 6600
     },
     {
       "epoch": 1.89,
+      "learning_rate": 4.9527734200466905e-05,
+      "loss": 2.0378,
       "step": 6700
     },
     {
       "epoch": 1.92,
+      "learning_rate": 4.926118107665238e-05,
+      "loss": 2.012,
       "step": 6800
     },
     {
       "epoch": 1.94,
+      "learning_rate": 4.893983616044946e-05,
+      "loss": 2.0259,
       "step": 6900
     },
     {
       "epoch": 1.97,
+      "learning_rate": 4.8557983100045764e-05,
+      "loss": 2.0511,
       "step": 7000
     },
     {
       "epoch": 2.0,
+      "learning_rate": 4.811949724929791e-05,
+      "loss": 2.0332,
       "step": 7100
     },
     {
       "epoch": 2.03,
+      "learning_rate": 4.762543495902719e-05,
+      "loss": 1.8404,
       "step": 7200
     },
     {
       "epoch": 2.06,
+      "learning_rate": 4.707698646856561e-05,
+      "loss": 1.8565,
       "step": 7300
     },
     {
       "epoch": 2.09,
+      "learning_rate": 4.64754730383651e-05,
+      "loss": 1.8571,
       "step": 7400
     },
     {
       "epoch": 2.11,
+      "learning_rate": 4.582234376696538e-05,
+      "loss": 1.8639,
       "step": 7500
     },
     {
       "epoch": 2.14,
+      "learning_rate": 4.511917209998861e-05,
+      "loss": 1.9017,
       "step": 7600
     },
     {
       "epoch": 2.17,
+      "learning_rate": 4.43676520395711e-05,
+      "loss": 1.8625,
       "step": 7700
     },
     {
       "epoch": 2.2,
+      "learning_rate": 4.3569594063363784e-05,
+      "loss": 1.8604,
       "step": 7800
     },
     {
       "epoch": 2.23,
+      "learning_rate": 4.2726920762932964e-05,
+      "loss": 1.8748,
       "step": 7900
     },
     {
       "epoch": 2.25,
+      "learning_rate": 4.1841662212068846e-05,
+      "loss": 1.861,
       "step": 8000
     },
     {
       "epoch": 2.25,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.010927438735962,
+      "eval_rouge1": 21.5977,
+      "eval_rouge2": 5.9659,
+      "eval_rougeL": 21.4021,
+      "eval_rougeLsum": 21.3731,
+      "eval_runtime": 165.7344,
+      "eval_samples_per_second": 42.285,
+      "eval_steps_per_second": 2.643,
       "step": 8000
     },
     {
       "epoch": 2.28,
+      "learning_rate": 4.091595107615995e-05,
+      "loss": 1.8498,
       "step": 8100
     },
     {
       "epoch": 2.31,
+      "learning_rate": 3.99520174744154e-05,
+      "loss": 1.8755,
       "step": 8200
     },
     {
       "epoch": 2.34,
+      "learning_rate": 3.895218360731241e-05,
+      "loss": 1.8772,
       "step": 8300
     },
     {
       "epoch": 2.37,
+      "learning_rate": 3.791885816221194e-05,
+      "loss": 1.8761,
       "step": 8400
     },
     {
       "epoch": 2.4,
+      "learning_rate": 3.6854530510619846e-05,
+      "loss": 1.879,
       "step": 8500
     },
     {
       "epoch": 2.42,
+      "learning_rate": 3.576176471107291e-05,
+      "loss": 1.8655,
       "step": 8600
     },
     {
       "epoch": 2.45,
+      "learning_rate": 3.4643193332097226e-05,
+      "loss": 1.8636,
       "step": 8700
     },
     {
       "epoch": 2.48,
+      "learning_rate": 3.350151111012003e-05,
+      "loss": 1.896,
       "step": 8800
     },
     {
       "epoch": 2.51,
+      "learning_rate": 3.23394684576136e-05,
+      "loss": 1.8561,
       "step": 8900
     },
     {
       "epoch": 2.54,
+      "learning_rate": 3.115986483711075e-05,
+      "loss": 1.8555,
       "step": 9000
     },
     {
       "epoch": 2.56,
+      "learning_rate": 2.9965542017054346e-05,
+      "loss": 1.8629,
       "step": 9100
     },
     {
       "epoch": 2.59,
+      "learning_rate": 2.8759377225728234e-05,
+      "loss": 1.8816,
       "step": 9200
     },
     {
       "epoch": 2.62,
+      "learning_rate": 2.7544276219762262e-05,
+      "loss": 1.8372,
       "step": 9300
     },
     {
       "epoch": 2.65,
+      "learning_rate": 2.632316628391009e-05,
+      "loss": 1.8493,
       "step": 9400
     },
     {
       "epoch": 2.68,
+      "learning_rate": 2.5098989178963792e-05,
+      "loss": 1.8573,
       "step": 9500
     },
     {
       "epoch": 2.71,
+      "learning_rate": 2.3874694054794416e-05,
+      "loss": 1.8587,
       "step": 9600
     },
     {
       "epoch": 2.73,
+      "learning_rate": 2.2653230345591686e-05,
+      "loss": 1.8501,
       "step": 9700
     },
     {
       "epoch": 2.76,
+      "learning_rate": 2.143754066441865e-05,
+      "loss": 1.8655,
       "step": 9800
     },
     {
       "epoch": 2.79,
+      "learning_rate": 2.02305537141991e-05,
+      "loss": 1.8599,
       "step": 9900
     },
     {
       "epoch": 2.82,
+      "learning_rate": 1.9035177232215682e-05,
+      "loss": 1.8634,
       "step": 10000
     },
     {
       "epoch": 2.82,
       "eval_gen_len": 20.0,
+      "eval_loss": 1.9686568975448608,
+      "eval_rouge1": 22.5506,
+      "eval_rouge2": 6.0881,
+      "eval_rougeL": 22.4021,
+      "eval_rougeLsum": 22.3998,
+      "eval_runtime": 164.864,
+      "eval_samples_per_second": 42.508,
+      "eval_steps_per_second": 2.657,
       "step": 10000
     },
     {
       "epoch": 2.85,
+      "learning_rate": 1.7854290985116118e-05,
+      "loss": 1.8382,
       "step": 10100
     },
     {
       "epoch": 2.87,
+      "learning_rate": 1.669073983130307e-05,
+      "loss": 1.8459,
       "step": 10200
     },
     {
       "epoch": 2.9,
+      "learning_rate": 1.5547326867421132e-05,
+      "loss": 1.8562,
       "step": 10300
     },
     {
       "epoch": 2.93,
+      "learning_rate": 1.4426806675451438e-05,
+      "loss": 1.8404,
       "step": 10400
     },
     {
       "epoch": 2.96,
+      "learning_rate": 1.3331878686682424e-05,
+      "loss": 1.8492,
       "step": 10500
     },
     {
       "epoch": 2.99,
+      "learning_rate": 1.2265180678543392e-05,
+      "loss": 1.8172,
       "step": 10600
     },
     {
       "epoch": 3.02,
+      "learning_rate": 1.1229282419967673e-05,
+      "loss": 1.7255,
       "step": 10700
     },
     {
       "epoch": 3.04,
+      "learning_rate": 1.022667948059414e-05,
+      "loss": 1.6157,
       "step": 10800
     },
     {
       "epoch": 3.07,
+      "learning_rate": 9.25978721872139e-06,
+      "loss": 1.6024,
       "step": 10900
     },
     {
       "epoch": 3.1,
+      "learning_rate": 8.330934962498027e-06,
+      "loss": 1.5984,
       "step": 11000
     },
     {
       "epoch": 3.13,
+      "learning_rate": 7.442360398367151e-06,
+      "loss": 1.6075,
       "step": 11100
     },
     {
       "epoch": 3.16,
+      "learning_rate": 6.596204180283686e-06,
+      "loss": 1.5859,
       "step": 11200
     },
     {
       "epoch": 3.18,
+      "learning_rate": 5.79450477269154e-06,
+      "loss": 1.5973,
       "step": 11300
     },
     {
       "epoch": 3.21,
+      "learning_rate": 5.039193539684164e-06,
+      "loss": 1.6132,
       "step": 11400
     },
     {
       "epoch": 3.24,
+      "learning_rate": 4.332090092179324e-06,
+      "loss": 1.6221,
       "step": 11500
     },
     {
       "epoch": 3.27,
+      "learning_rate": 3.6748979043170137e-06,
+      "loss": 1.6258,
       "step": 11600
     },
     {
       "epoch": 3.3,
+      "learning_rate": 3.0692002096410223e-06,
+      "loss": 1.6149,
       "step": 11700
     },
     {
       "epoch": 3.33,
+      "learning_rate": 2.516456186950684e-06,
+      "loss": 1.624,
       "step": 11800
     },
     {
       "epoch": 3.35,
+      "learning_rate": 2.0179974450113125e-06,
+      "loss": 1.6138,
       "step": 11900
     },
     {
       "epoch": 3.38,
+      "learning_rate": 1.575024814592075e-06,
+      "loss": 1.6036,
       "step": 12000
     },
     {
       "epoch": 3.38,
       "eval_gen_len": 20.0,
+      "eval_loss": 1.983000636100769,
+      "eval_rouge1": 22.1876,
+      "eval_rouge2": 5.6559,
+      "eval_rougeL": 21.9989,
+      "eval_rougeLsum": 21.9753,
+      "eval_runtime": 166.2195,
+      "eval_samples_per_second": 42.161,
+      "eval_steps_per_second": 2.635,
       "step": 12000
     },
     {
       "epoch": 3.41,
+      "learning_rate": 1.188605455559466e-06,
+      "loss": 1.5965,
       "step": 12100
     },
     {
       "epoch": 3.44,
+      "learning_rate": 8.596702859957324e-07,
+      "loss": 1.5971,
       "step": 12200
     },
     {
       "epoch": 3.47,
+      "learning_rate": 5.890117395356814e-07,
+      "loss": 1.6098,
       "step": 12300
     },
     {
       "epoch": 3.49,
+      "learning_rate": 3.772818563246123e-07,
+      "loss": 1.6057,
       "step": 12400
     },
     {
       "epoch": 3.52,
+      "learning_rate": 2.2499071219653263e-07,
+      "loss": 1.611,
       "step": 12500
     },
     {
       "epoch": 3.55,
+      "learning_rate": 1.3250518985677592e-07,
+      "loss": 1.6154,
       "step": 12600
     },
     {
       "epoch": 3.58,
+      "learning_rate": 1.0004809502943347e-07,
+      "loss": 1.6232,
       "step": 12700
     },
     {
       "epoch": 3.61,
+      "learning_rate": 4.999307463393912e-05,
+      "loss": 1.6383,
       "step": 12800
     },
     {
       "epoch": 3.64,
+      "learning_rate": 4.997113651616064e-05,
+      "loss": 1.6506,
       "step": 12900
     },
     {
       "epoch": 3.66,
+      "learning_rate": 4.993418683760613e-05,
+      "loss": 1.6974,
       "step": 13000
     },
     {
       "epoch": 3.69,
+      "learning_rate": 4.988224785538034e-05,
+      "loss": 1.7072,
       "step": 13100
     },
     {
       "epoch": 3.72,
+      "learning_rate": 4.981535085558401e-05,
+      "loss": 1.6934,
       "step": 13200
     },
     {
       "epoch": 3.75,
+      "learning_rate": 4.97335361344684e-05,
+      "loss": 1.6793,
       "step": 13300
     },
     {
       "epoch": 3.78,
+      "learning_rate": 4.963685297416225e-05,
+      "loss": 1.7101,
       "step": 13400
     },
     {
       "epoch": 3.8,
+      "learning_rate": 4.952535961298611e-05,
+      "loss": 1.75,
       "step": 13500
     },
     {
       "epoch": 3.83,
+      "learning_rate": 4.939912321037175e-05,
+      "loss": 1.7315,
       "step": 13600
     },
     {
       "epoch": 3.86,
+      "learning_rate": 4.9258219806407825e-05,
+      "loss": 1.7341,
       "step": 13700
     },
     {
       "epoch": 3.89,
+      "learning_rate": 4.910273427603616e-05,
+      "loss": 1.7312,
       "step": 13800
     },
     {
       "epoch": 3.92,
+      "learning_rate": 4.893276027792627e-05,
+      "loss": 1.7162,
       "step": 13900
     },
     {
       "epoch": 3.95,
+      "learning_rate": 4.874840019805889e-05,
+      "loss": 1.7558,
       "step": 14000
     },
     {
       "epoch": 3.95,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.0177605152130127,
+      "eval_rouge1": 21.6845,
+      "eval_rouge2": 5.7382,
+      "eval_rougeL": 21.4848,
+      "eval_rougeLsum": 21.4995,
+      "eval_runtime": 165.4038,
+      "eval_samples_per_second": 42.369,
+      "eval_steps_per_second": 2.648,
       "step": 14000
     },
     {
       "epoch": 3.97,
+      "learning_rate": 4.854976508805247e-05,
+      "loss": 1.767,
       "step": 14100
     },
     {
       "epoch": 4.0,
+      "learning_rate": 4.833697459826981e-05,
+      "loss": 1.7569,
       "step": 14200
     },
     {
       "epoch": 4.03,
+      "learning_rate": 4.811015690574522e-05,
+      "loss": 1.5871,
       "step": 14300
     },
     {
       "epoch": 4.06,
+      "learning_rate": 4.7869448636975414e-05,
+      "loss": 1.6034,
       "step": 14400
     },
     {
       "epoch": 4.09,
+      "learning_rate": 4.761499478562084e-05,
+      "loss": 1.6308,
       "step": 14500
     },
     {
       "epoch": 4.11,
+      "learning_rate": 4.73469486251669e-05,
+      "loss": 1.5885,
       "step": 14600
     },
     {
       "epoch": 4.14,
+      "learning_rate": 4.7065471616597775e-05,
+      "loss": 1.612,
       "step": 14700
     },
     {
       "epoch": 4.17,
+      "learning_rate": 4.677073331113833e-05,
+      "loss": 1.6088,
       "step": 14800
     },
     {
       "epoch": 4.2,
+      "learning_rate": 4.646291124812277e-05,
+      "loss": 1.6277,
       "step": 14900
     },
     {
       "epoch": 4.23,
+      "learning_rate": 4.614219084805167e-05,
+      "loss": 1.6087,
       "step": 15000
     },
     {
       "epoch": 4.26,
+      "learning_rate": 4.580876530090152e-05,
+      "loss": 1.6462,
       "step": 15100
     },
     {
       "epoch": 4.28,
+      "learning_rate": 4.546283544975434e-05,
+      "loss": 1.6423,
       "step": 15200
     },
     {
       "epoch": 4.31,
+      "learning_rate": 4.51046096698173e-05,
+      "loss": 1.642,
       "step": 15300
     },
     {
       "epoch": 4.34,
+      "learning_rate": 4.473430374290533e-05,
+      "loss": 1.6263,
       "step": 15400
     },
     {
       "epoch": 4.37,
+      "learning_rate": 4.435214072746215e-05,
+      "loss": 1.6582,
       "step": 15500
     },
     {
       "epoch": 4.4,
+      "learning_rate": 4.3958350824198286e-05,
+      "loss": 1.6671,
       "step": 15600
     },
     {
       "epoch": 4.43,
+      "learning_rate": 4.355317123742669e-05,
+      "loss": 1.6473,
       "step": 15700
     },
     {
       "epoch": 4.45,
+      "learning_rate": 4.314106363710374e-05,
+      "loss": 1.6576,
       "step": 15800
     },
     {
       "epoch": 4.48,
+      "learning_rate": 4.271395127748479e-05,
+      "loss": 1.633,
       "step": 15900
     },
     {
       "epoch": 4.51,
+      "learning_rate": 4.227619881411398e-05,
+      "loss": 1.64,
       "step": 16000
     },
     {
       "epoch": 4.51,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.032703161239624,
+      "eval_rouge1": 22.2681,
+      "eval_rouge2": 5.8023,
+      "eval_rougeL": 22.0116,
+      "eval_rougeLsum": 21.9997,
+      "eval_runtime": 165.398,
+      "eval_samples_per_second": 42.371,
+      "eval_steps_per_second": 2.648,
       "step": 16000
     },
     {
       "epoch": 4.54,
+      "learning_rate": 4.18280699327066e-05,
+      "loss": 1.651,
       "step": 16100
     },
     {
       "epoch": 4.57,
+      "learning_rate": 4.1369834569344205e-05,
+      "loss": 1.6491,
       "step": 16200
     },
     {
       "epoch": 4.59,
+      "learning_rate": 4.090176874787515e-05,
+      "loss": 1.6302,
       "step": 16300
     },
     {
       "epoch": 4.62,
+      "learning_rate": 4.042415441364819e-05,
+      "loss": 1.6376,
       "step": 16400
     },
     {
       "epoch": 4.65,
+      "learning_rate": 3.993727926367911e-05,
+      "loss": 1.6322,
       "step": 16500
     },
     {
       "epoch": 4.68,
+      "learning_rate": 3.944143657335282e-05,
+      "loss": 1.6651,
       "step": 16600
     },
     {
       "epoch": 4.71,
+      "learning_rate": 3.8936925019765214e-05,
+      "loss": 1.6308,
       "step": 16700
     },
     {
       "epoch": 4.74,
+      "learning_rate": 3.842404850181127e-05,
+      "loss": 1.6703,
       "step": 16800
     },
     {
       "epoch": 4.76,
+      "learning_rate": 3.790311595712772e-05,
+      "loss": 1.6816,
       "step": 16900
     },
     {
       "epoch": 4.79,
+      "learning_rate": 3.737444117600056e-05,
+      "loss": 1.6568,
       "step": 17000
     },
     {
       "epoch": 4.82,
+      "learning_rate": 3.6838342612349524e-05,
+      "loss": 1.6697,
       "step": 17100
     },
     {
       "epoch": 4.85,
+      "learning_rate": 3.629514319190331e-05,
+      "loss": 1.6352,
       "step": 17200
     },
     {
       "epoch": 4.88,
+      "learning_rate": 3.57451701176813e-05,
+      "loss": 1.6724,
       "step": 17300
     },
     {
       "epoch": 4.9,
+      "learning_rate": 3.5188754672898564e-05,
+      "loss": 1.6444,
       "step": 17400
     },
     {
       "epoch": 4.93,
+      "learning_rate": 3.462623202141332e-05,
+      "loss": 1.6568,
       "step": 17500
     },
     {
       "epoch": 4.96,
+      "learning_rate": 3.4057941005836765e-05,
+      "loss": 1.6626,
       "step": 17600
     },
     {
       "epoch": 4.99,
+      "learning_rate": 3.34842239434269e-05,
+      "loss": 1.6246,
       "step": 17700
     },
     {
       "epoch": 5.02,
+      "learning_rate": 3.290542641988946e-05,
+      "loss": 1.4957,
       "step": 17800
     },
     {
       "epoch": 5.05,
+      "learning_rate": 3.232189708121e-05,
+      "loss": 1.3941,
       "step": 17900
     },
     {
       "epoch": 5.07,
+      "learning_rate": 3.173398742364255e-05,
+      "loss": 1.4248,
       "step": 18000
     },
     {
       "epoch": 5.07,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.0742380619049072,
+      "eval_rouge1": 21.8569,
+      "eval_rouge2": 5.5533,
+      "eval_rougeL": 21.6308,
+      "eval_rougeLsum": 21.638,
+      "eval_runtime": 166.3338,
+      "eval_samples_per_second": 42.132,
+      "eval_steps_per_second": 2.633,
       "step": 18000
     },
     {
       "epoch": 5.1,
+      "learning_rate": 3.114205158198149e-05,
+      "loss": 1.4175,
       "step": 18100
     },
     {
       "epoch": 5.13,
+      "learning_rate": 3.054644611624394e-05,
+      "loss": 1.3888,
       "step": 18200
     },
     {
       "epoch": 5.16,
+      "learning_rate": 2.9947529796891307e-05,
+      "loss": 1.4086,
       "step": 18300
     },
     {
       "epoch": 5.19,
+      "learning_rate": 2.9345663388719467e-05,
+      "loss": 1.3948,
       "step": 18400
     },
     {
       "epoch": 5.21,
+      "learning_rate": 2.8741209433547458e-05,
+      "loss": 1.4149,
       "step": 18500
     },
     {
       "epoch": 5.24,
+      "learning_rate": 2.8134532031835893e-05,
+      "loss": 1.4184,
       "step": 18600
     },
     {
       "epoch": 5.27,
+      "learning_rate": 2.7525996623366436e-05,
+      "loss": 1.43,
       "step": 18700
     },
     {
       "epoch": 5.3,
+      "learning_rate": 2.691596976711453e-05,
+      "loss": 1.4435,
       "step": 18800
     },
     {
       "epoch": 5.33,
+      "learning_rate": 2.630481892044803e-05,
+      "loss": 1.4092,
       "step": 18900
     },
     {
       "epoch": 5.36,
+      "learning_rate": 2.5692912217784543e-05,
+      "loss": 1.4241,
       "step": 19000
     },
     {
       "epoch": 5.38,
+      "learning_rate": 2.5080618248841106e-05,
+      "loss": 1.414,
       "step": 19100
     },
     {
       "epoch": 5.41,
+      "learning_rate": 2.4468305836609452e-05,
+      "loss": 1.4265,
       "step": 19200
     },
     {
       "epoch": 5.44,
+      "learning_rate": 2.3856343815190883e-05,
+      "loss": 1.4061,
       "step": 19300
     },
     {
       "epoch": 5.47,
+      "learning_rate": 2.324510080762437e-05,
+      "loss": 1.3992,
       "step": 19400
     },
     {
       "epoch": 5.5,
+      "learning_rate": 2.2634945003841808e-05,
+      "loss": 1.4221,
       "step": 19500
     },
     {
       "epoch": 5.52,
+      "learning_rate": 2.202624393888421e-05,
+      "loss": 1.3943,
       "step": 19600
     },
     {
       "epoch": 5.55,
+      "learning_rate": 2.1419364271512303e-05,
+      "loss": 1.4266,
       "step": 19700
     },
     {
       "epoch": 5.58,
+      "learning_rate": 2.0814671563345028e-05,
+      "loss": 1.4466,
       "step": 19800
     },
     {
       "epoch": 5.61,
+      "learning_rate": 2.021853765291574e-05,
+      "loss": 1.4312,
       "step": 19900
     },
     {
       "epoch": 5.64,
+      "learning_rate": 1.9619279130307914e-05,
+      "loss": 1.4263,
       "step": 20000
     },
     {
       "epoch": 5.64,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.0796058177948,
+      "eval_rouge1": 22.037,
+      "eval_rouge2": 5.454,
+      "eval_rougeL": 21.7861,
+      "eval_rougeLsum": 21.7976,
+      "eval_runtime": 165.631,
+      "eval_samples_per_second": 42.311,
+      "eval_steps_per_second": 2.644,
       "step": 20000
     },
     {
       "epoch": 5.67,
+      "learning_rate": 1.902329187088426e-05,
+      "loss": 1.4114,
       "step": 20100
     },
     {
       "epoch": 5.69,
+      "learning_rate": 1.8430934875084445e-05,
+      "loss": 1.4068,
       "step": 20200
     },
     {
       "epoch": 5.72,
+      "learning_rate": 1.7842564956613097e-05,
+      "loss": 1.4212,
       "step": 20300
     },
     {
       "epoch": 5.75,
+      "learning_rate": 1.7258536527508527e-05,
+      "loss": 1.4179,
       "step": 20400
     },
     {
       "epoch": 5.78,
+      "learning_rate": 1.6679201384658204e-05,
+      "loss": 1.4263,
       "step": 20500
     },
     {
       "epoch": 5.81,
+      "learning_rate": 1.6104908497889437e-05,
+      "loss": 1.4062,
       "step": 20600
     },
     {
       "epoch": 5.83,
+      "learning_rate": 1.5536003799763033e-05,
+      "loss": 1.4168,
       "step": 20700
     },
     {
       "epoch": 5.86,
+      "learning_rate": 1.497282997719642e-05,
+      "loss": 1.4502,
       "step": 20800
     },
     {
       "epoch": 5.89,
+      "learning_rate": 1.4415726265041886e-05,
+      "loss": 1.42,
       "step": 20900
     },
     {
       "epoch": 5.92,
+      "learning_rate": 1.3865028241744182e-05,
+      "loss": 1.421,
       "step": 21000
     },
     {
       "epoch": 5.95,
+      "learning_rate": 1.332106762720061e-05,
+      "loss": 1.4272,
       "step": 21100
     },
     {
       "epoch": 5.98,
+      "learning_rate": 1.2784172082945395e-05,
+      "loss": 1.4115,
       "step": 21200
     },
     {
       "epoch": 6.0,
+      "learning_rate": 1.2254665014778574e-05,
+      "loss": 1.3844,
       "step": 21300
     },
     {
       "epoch": 6.03,
+      "learning_rate": 1.1732865377958439e-05,
+      "loss": 1.2502,
       "step": 21400
     },
     {
       "epoch": 6.06,
+      "learning_rate": 1.1219087485074895e-05,
+      "loss": 1.232,
       "step": 21500
     },
     {
       "epoch": 6.09,
+      "learning_rate": 1.0713640816719211e-05,
+      "loss": 1.2675,
       "step": 21600
     },
     {
       "epoch": 6.12,
+      "learning_rate": 1.021682983506454e-05,
+      "loss": 1.2537,
       "step": 21700
     },
     {
       "epoch": 6.14,
+      "learning_rate": 9.728953800469257e-06,
+      "loss": 1.2703,
       "step": 21800
     },
     {
       "epoch": 6.17,
+      "learning_rate": 9.250306591213766e-06,
+      "loss": 1.2496,
       "step": 21900
     },
     {
       "epoch": 6.2,
+      "learning_rate": 8.781176526479135e-06,
+      "loss": 1.2478,
       "step": 22000
     },
     {
       "epoch": 6.2,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.1144540309906006,
+      "eval_rouge1": 21.5358,
+      "eval_rouge2": 5.3838,
+      "eval_rougeL": 21.3299,
+      "eval_rougeLsum": 21.3191,
+      "eval_runtime": 166.7361,
+      "eval_samples_per_second": 42.03,
+      "eval_steps_per_second": 2.627,
       "step": 22000
     },
     {
       "epoch": 6.23,
+      "learning_rate": 8.321846192674462e-06,
+      "loss": 1.2486,
       "step": 22100
     },
     {
       "epoch": 6.26,
+      "learning_rate": 7.877034040486934e-06,
+      "loss": 1.2412,
       "step": 22200
     },
     {
       "epoch": 6.29,
+      "learning_rate": 7.4380223596522265e-06,
+      "loss": 1.2552,
       "step": 22300
     },
     {
       "epoch": 6.31,
+      "learning_rate": 7.009619475593796e-06,
+      "loss": 1.2642,
       "step": 22400
     },
     {
       "epoch": 6.34,
+      "learning_rate": 6.592083442189996e-06,
+      "loss": 1.265,
       "step": 22500
     },
     {
       "epoch": 6.37,
+      "learning_rate": 6.1856657675346675e-06,
+      "loss": 1.2631,
       "step": 22600
     },
     {
       "epoch": 6.4,
+      "learning_rate": 5.790611262438083e-06,
+      "loss": 1.2736,
       "step": 22700
     },
     {
       "epoch": 6.43,
+      "learning_rate": 5.407157892962079e-06,
+      "loss": 1.2595,
       "step": 22800
     },
     {
       "epoch": 6.45,
+      "learning_rate": 5.035536637078171e-06,
+      "loss": 1.2661,
       "step": 22900
     },
     {
       "epoch": 6.48,
+      "learning_rate": 4.675971345535108e-06,
+      "loss": 1.2651,
       "step": 23000
     },
     {
       "epoch": 6.51,
+      "learning_rate": 4.328678607019489e-06,
+      "loss": 1.2499,
       "step": 23100
     },
     {
       "epoch": 6.54,
+      "learning_rate": 3.993867617690892e-06,
+      "loss": 1.263,
       "step": 23200
     },
     {
       "epoch": 6.57,
+      "learning_rate": 3.6717400551698886e-06,
+      "loss": 1.2546,
       "step": 23300
     },
     {
       "epoch": 6.6,
+      "learning_rate": 3.3624899570550363e-06,
+      "loss": 1.261,
       "step": 23400
     },
     {
       "epoch": 6.62,
+      "learning_rate": 3.066303604041807e-06,
+      "loss": 1.2418,
       "step": 23500
     },
     {
       "epoch": 6.65,
+      "learning_rate": 2.7833594077141535e-06,
+      "loss": 1.2601,
       "step": 23600
     },
     {
       "epoch": 6.68,
+      "learning_rate": 2.5138278030759714e-06,
+      "loss": 1.2397,
       "step": 23700
     },
     {
       "epoch": 6.71,
+      "learning_rate": 2.2578711458874663e-06,
+      "loss": 1.264,
       "step": 23800
     },
     {
       "epoch": 6.74,
+      "learning_rate": 2.0156436148680858e-06,
+      "loss": 1.2497,
       "step": 23900
     },
     {
       "epoch": 6.76,
+      "learning_rate": 1.787291118825041e-06,
+      "loss": 1.2469,
       "step": 24000
     },
     {
       "epoch": 6.76,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.113508462905884,
+      "eval_rouge1": 21.3962,
+      "eval_rouge2": 5.3698,
+      "eval_rougeL": 21.1842,
+      "eval_rougeLsum": 21.159,
+      "eval_runtime": 166.5668,
+      "eval_samples_per_second": 42.073,
+      "eval_steps_per_second": 2.63,
       "step": 24000
     },
     {
       "epoch": 6.79,
+      "learning_rate": 1.5729512087633123e-06,
+      "loss": 1.2383,
       "step": 24100
     },
     {
       "epoch": 6.82,
+      "learning_rate": 1.372752995030021e-06,
+      "loss": 1.2619,
       "step": 24200
     },
     {
       "epoch": 6.85,
+      "learning_rate": 1.1868170695432342e-06,
+      "loss": 1.2536,
       "step": 24300
     },
     {
       "epoch": 6.88,
+      "learning_rate": 1.0152554331518699e-06,
+      "loss": 1.2514,
       "step": 24400
     },
     {
       "epoch": 6.91,
+      "learning_rate": 8.596702859957324e-07,
+      "loss": 1.2585,
       "step": 24500
     },
     {
       "epoch": 6.93,
+      "learning_rate": 7.170123718266064e-07,
+      "loss": 1.2439,
       "step": 24600
     },
     {
       "epoch": 6.96,
+      "learning_rate": 5.890117395356814e-07,
+      "loss": 1.245,
       "step": 24700
     },
     {
       "epoch": 6.99,
+      "learning_rate": 4.7574549191759186e-07,
+      "loss": 1.2446,
       "step": 24800
     },
     {
       "epoch": 7.02,
+      "learning_rate": 3.772818563246123e-07,
+      "loss": 1.2194,
       "step": 24900
     },
     {
       "epoch": 7.05,
+      "learning_rate": 2.936801435690251e-07,
+      "loss": 1.2058,
       "step": 25000
     },
     {
       "epoch": 7.07,
+      "learning_rate": 2.2499071219653263e-07,
+      "loss": 1.1916,
       "step": 25100
     },
     {
       "epoch": 7.1,
+      "learning_rate": 1.7171816152852273e-07,
+      "loss": 1.2186,
       "step": 25200
     },
     {
       "epoch": 7.13,
+      "learning_rate": 1.328184223787534e-07,
+      "loss": 1.2151,
       "step": 25300
     },
     {
       "epoch": 7.16,
+      "learning_rate": 1.0892786169791435e-07,
+      "loss": 1.2098,
       "step": 25400
     },
     {
       "epoch": 7.19,
+      "learning_rate": 1.0006087026643128e-07,
+      "loss": 1.2011,
       "step": 25500
     },
     {
       "epoch": 7.22,
+      "learning_rate": 4.9998444254188996e-05,
+      "loss": 1.2333,
       "step": 25600
     },
     {
       "epoch": 7.24,
+      "learning_rate": 4.9993146582012154e-05,
+      "loss": 1.3057,
       "step": 25700
     },
     {
       "epoch": 7.27,
+      "learning_rate": 4.998409256370816e-05,
+      "loss": 1.2949,
       "step": 25800
     },
     {
       "epoch": 7.3,
+      "learning_rate": 4.997128356277887e-05,
+      "loss": 1.3107,
       "step": 25900
     },
     {
       "epoch": 7.33,
+      "learning_rate": 4.995472150821271e-05,
+      "loss": 1.3323,
       "step": 26000
     },
     {
       "epoch": 7.33,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.143944501876831,
+      "eval_rouge1": 21.5245,
+      "eval_rouge2": 5.444,
+      "eval_rougeL": 21.312,
+      "eval_rougeLsum": 21.3015,
+      "eval_runtime": 166.5992,
+      "eval_samples_per_second": 42.065,
+      "eval_steps_per_second": 2.629,
       "step": 26000
     },
     {
       "epoch": 7.36,
+      "learning_rate": 4.9934408894194186e-05,
+      "loss": 1.3458,
       "step": 26100
     },
     {
       "epoch": 7.38,
+      "learning_rate": 4.991034877972824e-05,
+      "loss": 1.3346,
       "step": 26200
     },
     {
       "epoch": 7.41,
+      "learning_rate": 4.988254478817961e-05,
+      "loss": 1.3482,
       "step": 26300
     },
     {
       "epoch": 7.44,
+      "learning_rate": 4.9851001106727165e-05,
+      "loss": 1.3519,
       "step": 26400
     },
     {
       "epoch": 7.47,
+      "learning_rate": 4.9815722485733305e-05,
+      "loss": 1.3699,
       "step": 26500
     },
     {
       "epoch": 7.5,
+      "learning_rate": 4.9776714238028576e-05,
+      "loss": 1.3496,
       "step": 26600
     },
     {
       "epoch": 7.53,
+      "learning_rate": 4.97339822381116e-05,
+      "loss": 1.3835,
       "step": 26700
     },
     {
       "epoch": 7.55,
+      "learning_rate": 4.968753292126438e-05,
+      "loss": 1.3604,
       "step": 26800
     },
     {
       "epoch": 7.58,
+      "learning_rate": 4.96373732825832e-05,
+      "loss": 1.3776,
       "step": 26900
     },
     {
       "epoch": 7.61,
+      "learning_rate": 4.9583510875925124e-05,
+      "loss": 1.3988,
       "step": 27000
     },
     {
       "epoch": 7.64,
+      "learning_rate": 4.952595381277048e-05,
+      "loss": 1.3795,
       "step": 27100
     },
     {
       "epoch": 7.67,
+      "learning_rate": 4.946471076100126e-05,
+      "loss": 1.3823,
       "step": 27200
     },
     {
       "epoch": 7.69,
+      "learning_rate": 4.939979094359581e-05,
+      "loss": 1.3671,
       "step": 27300
     },
     {
       "epoch": 7.72,
+      "learning_rate": 4.933120413723981e-05,
+      "loss": 1.4092,
       "step": 27400
     },
     {
       "epoch": 7.75,
+      "learning_rate": 4.925896067085404e-05,
+      "loss": 1.4064,
       "step": 27500
     },
     {
       "epoch": 7.78,
+      "learning_rate": 4.918307142403879e-05,
+      "loss": 1.4131,
       "step": 27600
     },
     {
       "epoch": 7.81,
+      "learning_rate": 4.91035478254355e-05,
+      "loss": 1.4069,
       "step": 27700
     },
     {
       "epoch": 7.84,
+      "learning_rate": 4.902040185100559e-05,
+      "loss": 1.4013,
       "step": 27800
     },
     {
       "epoch": 7.86,
+      "learning_rate": 4.893364602222699e-05,
+      "loss": 1.4102,
       "step": 27900
     },
     {
       "epoch": 7.89,
+      "learning_rate": 4.88432934042084e-05,
+      "loss": 1.4175,
       "step": 28000
     },
     {
       "epoch": 7.89,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.1455013751983643,
+      "eval_rouge1": 21.4843,
+      "eval_rouge2": 5.5418,
+      "eval_rougeL": 21.2359,
+      "eval_rougeLsum": 21.2323,
+      "eval_runtime": 165.871,
+      "eval_samples_per_second": 42.25,
+      "eval_steps_per_second": 2.641,
       "step": 28000
     },
     {
       "epoch": 7.92,
+      "learning_rate": 4.874935760372175e-05,
+      "loss": 1.407,
       "step": 28100
     },
     {
       "epoch": 7.95,
+      "learning_rate": 4.865284543447741e-05,
+      "loss": 1.4325,
       "step": 28200
     },
     {
       "epoch": 7.98,
+      "learning_rate": 4.855182171477396e-05,
+      "loss": 1.4169,
       "step": 28300
     },
     {
       "epoch": 8.0,
+      "learning_rate": 4.844725870716676e-05,
+      "loss": 1.4046,
       "step": 28400
     },
     {
       "epoch": 8.03,
+      "learning_rate": 4.833917215846013e-05,
+      "loss": 1.1944,
       "step": 28500
     },
     {
       "epoch": 8.06,
+      "learning_rate": 4.822757834609075e-05,
+      "loss": 1.2087,
       "step": 28600
     },
     {
       "epoch": 8.09,
+      "learning_rate": 4.811249407567628e-05,
+      "loss": 1.2257,
       "step": 28700
     },
     {
       "epoch": 8.12,
+      "learning_rate": 4.799393667848454e-05,
+      "loss": 1.2269,
       "step": 28800
     },
     {
       "epoch": 8.15,
+      "learning_rate": 4.787192400882345e-05,
+      "loss": 1.244,
       "step": 28900
     },
     {
       "epoch": 8.17,
+      "learning_rate": 4.774647444135227e-05,
+      "loss": 1.2302,
       "step": 29000
     },
     {
       "epoch": 8.2,
+      "learning_rate": 4.7617606868314405e-05,
+      "loss": 1.2461,
       "step": 29100
     },
     {
       "epoch": 8.23,
+      "learning_rate": 4.748534069669236e-05,
+      "loss": 1.2514,
       "step": 29200
     },
     {
       "epoch": 8.26,
+      "learning_rate": 4.7349695845285055e-05,
+      "loss": 1.2402,
       "step": 29300
     },
     {
       "epoch": 8.29,
+      "learning_rate": 4.721069274170819e-05,
+      "loss": 1.2567,
       "step": 29400
     },
     {
       "epoch": 8.31,
+      "learning_rate": 4.706835231931785e-05,
+      "loss": 1.2423,
       "step": 29500
     },
     {
       "epoch": 8.34,
+      "learning_rate": 4.6922696014058083e-05,
+      "loss": 1.2573,
       "step": 29600
     },
     {
       "epoch": 8.37,
+      "learning_rate": 4.677374576123271e-05,
+      "loss": 1.253,
       "step": 29700
     },
     {
       "epoch": 8.4,
+      "learning_rate": 4.6621523992201896e-05,
+      "loss": 1.2469,
       "step": 29800
     },
     {
       "epoch": 8.43,
+      "learning_rate": 4.646605363100417e-05,
+      "loss": 1.2911,
       "step": 29900
     },
     {
       "epoch": 8.46,
+      "learning_rate": 4.6307358090904045e-05,
+      "loss": 1.2541,
       "step": 30000
     },
     {
       "epoch": 8.46,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.217175006866455,
+      "eval_rouge1": 20.9025,
+      "eval_rouge2": 5.1166,
+      "eval_rougeL": 20.7062,
+      "eval_rougeLsum": 20.6916,
+      "eval_runtime": 165.6707,
+      "eval_samples_per_second": 42.301,
+      "eval_steps_per_second": 2.644,
       "step": 30000
     },
     {
       "epoch": 8.48,
+      "learning_rate": 4.6147096005744875e-05,
+      "loss": 1.2806,
       "step": 30100
     },
     {
       "epoch": 8.51,
+      "learning_rate": 4.598205393356323e-05,
+      "loss": 1.2891,
       "step": 30200
     },
     {
       "epoch": 8.54,
+      "learning_rate": 4.581385957105333e-05,
+      "loss": 1.2964,
       "step": 30300
     },
     {
       "epoch": 8.57,
+      "learning_rate": 4.564253824766751e-05,
+      "loss": 1.2694,
       "step": 30400
     },
     {
       "epoch": 8.6,
+      "learning_rate": 4.54681157637669e-05,
+      "loss": 1.2883,
       "step": 30500
     },
     {
       "epoch": 8.62,
+      "learning_rate": 4.5290618386736e-05,
+      "loss": 1.3061,
       "step": 30600
     },
     {
       "epoch": 8.65,
+      "learning_rate": 4.51100728470269e-05,
+      "loss": 1.3022,
       "step": 30700
     },
     {
       "epoch": 8.68,
+      "learning_rate": 4.492650633413379e-05,
+      "loss": 1.2958,
       "step": 30800
     },
     {
       "epoch": 8.71,
+      "learning_rate": 4.473994649249829e-05,
+      "loss": 1.2966,
       "step": 30900
     },
     {
       "epoch": 8.74,
+      "learning_rate": 4.455042141734634e-05,
+      "loss": 1.2956,
       "step": 31000
     },
     {
       "epoch": 8.77,
+      "learning_rate": 4.4357959650457124e-05,
+      "loss": 1.3057,
       "step": 31100
     },
     {
       "epoch": 8.79,
+      "learning_rate": 4.41625901758648e-05,
+      "loss": 1.3006,
       "step": 31200
     },
     {
       "epoch": 8.82,
+      "learning_rate": 4.396434241549363e-05,
+      "loss": 1.311,
       "step": 31300
     },
     {
       "epoch": 8.85,
+      "learning_rate": 4.37632462247271e-05,
+      "loss": 1.309,
       "step": 31400
     },
     {
       "epoch": 8.88,
+      "learning_rate": 4.355933188791186e-05,
+      "loss": 1.3324,
       "step": 31500
     },
     {
       "epoch": 8.91,
+      "learning_rate": 4.335263011379698e-05,
+      "loss": 1.3186,
       "step": 31600
     },
     {
       "epoch": 8.93,
+      "learning_rate": 4.314317203090931e-05,
+      "loss": 1.3298,
       "step": 31700
     },
     {
       "epoch": 8.96,
+      "learning_rate": 4.2930989182865715e-05,
+      "loss": 1.3148,
       "step": 31800
     },
     {
       "epoch": 8.99,
+      "learning_rate": 4.271611352362262e-05,
+      "loss": 1.3318,
       "step": 31900
     },
     {
       "epoch": 9.02,
+      "learning_rate": 4.2498577412663946e-05,
+      "loss": 1.1331,
       "step": 32000
     },
     {
       "epoch": 9.02,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.278179168701172,
+      "eval_rouge1": 20.9415,
+      "eval_rouge2": 5.2115,
+      "eval_rougeL": 20.7647,
+      "eval_rougeLsum": 20.7806,
+      "eval_runtime": 166.4103,
+      "eval_samples_per_second": 42.113,
+      "eval_steps_per_second": 2.632,
       "step": 32000
     },
     {
       "epoch": 9.05,
+      "learning_rate": 4.2278413610127834e-05,
+      "loss": 1.0677,
       "step": 32100
     },
     {
       "epoch": 9.08,
+      "learning_rate": 4.205565527187312e-05,
+      "loss": 1.0712,
       "step": 32200
     },
     {
       "epoch": 9.1,
+      "learning_rate": 4.183033594448618e-05,
+      "loss": 1.0928,
       "step": 32300
     },
     {
       "epoch": 9.13,
+      "learning_rate": 4.160248956022893e-05,
+      "loss": 1.0821,
       "step": 32400
     },
     {
       "epoch": 9.16,
+      "learning_rate": 4.137215043192875e-05,
+      "loss": 1.0988,
       "step": 32500
     },
     {
       "epoch": 9.19,
+      "learning_rate": 4.11393532478111e-05,
+      "loss": 1.103,
       "step": 32600
     },
     {
       "epoch": 9.22,
+      "learning_rate": 4.0904133066275636e-05,
+      "loss": 1.1109,
       "step": 32700
     },
     {
       "epoch": 9.24,
+      "learning_rate": 4.066652531061647e-05,
+      "loss": 1.0833,
       "step": 32800
     },
     {
       "epoch": 9.27,
+      "learning_rate": 4.0426565763687624e-05,
+      "loss": 1.0964,
       "step": 32900
     },
     {
       "epoch": 9.3,
+      "learning_rate": 4.0184290562514214e-05,
+      "loss": 1.1168,
       "step": 33000
     },
     {
       "epoch": 9.33,
+      "learning_rate": 3.9939736192850386e-05,
+      "loss": 1.1122,
       "step": 33100
     },
     {
       "epoch": 9.36,
+      "learning_rate": 3.969293948368467e-05,
+      "loss": 1.1165,
       "step": 33200
     },
     {
       "epoch": 9.39,
+      "learning_rate": 3.944393760169368e-05,
+      "loss": 1.1106,
       "step": 33300
     },
     {
       "epoch": 9.41,
+      "learning_rate": 3.9192768045644926e-05,
+      "loss": 1.1119,
       "step": 33400
     },
     {
       "epoch": 9.44,
+      "learning_rate": 3.8939468640749696e-05,
+      "loss": 1.1258,
       "step": 33500
     },
     {
       "epoch": 9.47,
+      "learning_rate": 3.868407753296665e-05,
+      "loss": 1.099,
       "step": 33600
     },
     {
       "epoch": 9.5,
+      "learning_rate": 3.842921766325347e-05,
+      "loss": 1.1246,
       "step": 33700
     },
     {
       "epoch": 9.53,
+      "learning_rate": 3.816977879359396e-05,
+      "loss": 1.1175,
       "step": 33800
     },
     {
       "epoch": 9.55,
+      "learning_rate": 3.790836413350648e-05,
+      "loss": 1.1313,
       "step": 33900
     },
     {
       "epoch": 9.58,
+      "learning_rate": 3.764501305107728e-05,
+      "loss": 1.1067,
       "step": 34000
     },
     {
       "epoch": 9.58,
       "eval_gen_len": 20.0,
+      "eval_loss": 2.27223801612854,
+      "eval_rouge1": 21.5648,
+      "eval_rouge2": 5.4445,
+      "eval_rougeL": 21.3624,
+      "eval_rougeLsum": 21.3838,
+      "eval_runtime": 166.4194,
+      "eval_samples_per_second": 42.11,
+      "eval_steps_per_second": 2.632,
       "step": 34000
     },
     {
       "epoch": 9.61,
+      "learning_rate": 3.737976520601068e-05,
+      "loss": 1.1316,
       "step": 34100
     },
     {
       "epoch": 9.64,
+      "learning_rate": 3.7112660543656495e-05,
+      "loss": 1.137,
       "step": 34200
     },
     {
       "epoch": 9.67,
+      "learning_rate": 3.6843739288994395e-05,
+      "loss": 1.1319,
       "step": 34300
     },
     {
       "epoch": 9.7,
+      "learning_rate": 3.657304194057615e-05,
+      "loss": 1.1217,
       "step": 34400
     },
     {
       "epoch": 9.72,
+      "learning_rate": 3.630060926442673e-05,
+      "loss": 1.1465,
       "step": 34500
     },
     {
       "epoch": 9.75,
+      "learning_rate": 3.602648228790508e-05,
+      "loss": 1.1396,
       "step": 34600
     },
     {
       "epoch": 9.78,
+      "learning_rate": 3.5750702293525555e-05,
+      "loss": 1.132,
       "step": 34700
     },
     {
       "epoch": 9.81,
+      "learning_rate": 3.5473310812740905e-05,
+      "loss": 1.159,
       "step": 34800
     },
     {
       "epoch": 9.84,
+      "learning_rate": 3.519434961968779e-05,
+      "loss": 1.1484,
       "step": 34900
     },
     {
       "epoch": 9.86,
+      "learning_rate": 3.491386072489581e-05,
+      "loss": 1.1375,
       "step": 35000
     },
     {
       "epoch": 9.89,
+      "learning_rate": 3.4631886368960794e-05,
+      "loss": 1.1493,
       "step": 35100
     },
     {
       "epoch": 9.92,
+      "learning_rate": 3.434846901618357e-05,
+      "loss": 1.1374,
       "step": 35200
     },
     {
       "epoch": 9.95,
+      "learning_rate": 3.406365134817494e-05,
+      "loss": 1.1569,
       "step": 35300
     },
     {
       "epoch": 9.98,
+      "learning_rate": 3.3777476257428106e-05,
+      "loss": 1.1441,
       "step": 35400
     },
     {
       "epoch": 10.0,
       "step": 35480,
       "total_flos": 2.3762843604025344e+17,
+      "train_loss": 1.581618417182931,
+      "train_runtime": 14068.2834,
+      "train_samples_per_second": 40.346,
+      "train_steps_per_second": 2.522
     }
   ],
   "max_steps": 35480,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cdba313b31bdac3438861022cd20b0533cea266378d23d59149777ab8970935
-size 3567

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccb6c58ad85c6302cbcc0ea2d49c40e211911e0bcc1dfc125087695e4f753b0c
+size 3503