Upload 9 files

Browse files

add trainer_states for run 1

Files changed (9) hide show

trainer_state_1.json +181 -0
trainer_state_2.json +153 -0
trainer_state_3.json +181 -0
trainer_state_4.json +181 -0
trainer_state_5.json +181 -0
trainer_state_6.json +181 -0
trainer_state_7.json +181 -0
trainer_state_8.json +181 -0
trainer_state_9.json +181 -0

trainer_state_1.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.0300140380859375,
+  "best_model_checkpoint": "model_fewrel_1_1-task2/checkpoint-1260",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.0692138671875,
+      "eval_rouge1": 95.7517,
+      "eval_rouge2": 94.6841,
+      "eval_rougeL": 95.6971,
+      "eval_rougeLsum": 95.7331,
+      "eval_runtime": 33.2038,
+      "eval_samples_per_second": 33.731,
+      "eval_steps_per_second": 1.054,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.034423828125,
+      "eval_rouge1": 97.351,
+      "eval_rouge2": 96.6251,
+      "eval_rougeL": 97.3032,
+      "eval_rougeLsum": 97.2964,
+      "eval_runtime": 32.6308,
+      "eval_samples_per_second": 34.323,
+      "eval_steps_per_second": 1.073,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.4508669972419739,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.0924,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.03924560546875,
+      "eval_rouge1": 97.2483,
+      "eval_rouge2": 96.6208,
+      "eval_rougeL": 97.2291,
+      "eval_rougeLsum": 97.2002,
+      "eval_runtime": 33.4876,
+      "eval_samples_per_second": 33.445,
+      "eval_steps_per_second": 1.045,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.0413818359375,
+      "eval_rouge1": 97.1906,
+      "eval_rouge2": 96.559,
+      "eval_rougeL": 97.1839,
+      "eval_rougeLsum": 97.1621,
+      "eval_runtime": 34.4429,
+      "eval_samples_per_second": 32.518,
+      "eval_steps_per_second": 1.016,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.1619143784046173,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0276,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.042449951171875,
+      "eval_rouge1": 97.4464,
+      "eval_rouge2": 96.8611,
+      "eval_rougeL": 97.4297,
+      "eval_rougeLsum": 97.4266,
+      "eval_runtime": 32.4102,
+      "eval_samples_per_second": 34.557,
+      "eval_steps_per_second": 1.08,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.0300140380859375,
+      "eval_rouge1": 98.1516,
+      "eval_rouge2": 97.6994,
+      "eval_rougeL": 98.1475,
+      "eval_rougeLsum": 98.155,
+      "eval_runtime": 32.3626,
+      "eval_samples_per_second": 34.608,
+      "eval_steps_per_second": 1.081,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.031494140625,
+      "eval_rouge1": 97.6953,
+      "eval_rouge2": 97.1861,
+      "eval_rougeL": 97.7355,
+      "eval_rougeLsum": 97.713,
+      "eval_runtime": 31.6892,
+      "eval_samples_per_second": 35.343,
+      "eval_steps_per_second": 1.104,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.17737896740436554,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0138,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.03729248046875,
+      "eval_rouge1": 98.0557,
+      "eval_rouge2": 97.5844,
+      "eval_rougeL": 98.0434,
+      "eval_rougeLsum": 98.0396,
+      "eval_runtime": 32.4888,
+      "eval_samples_per_second": 34.473,
+      "eval_steps_per_second": 1.077,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.0333251953125,
+      "eval_rouge1": 98.2547,
+      "eval_rouge2": 97.8119,
+      "eval_rougeL": 98.2452,
+      "eval_rougeLsum": 98.2669,
+      "eval_runtime": 31.823,
+      "eval_samples_per_second": 35.195,
+      "eval_steps_per_second": 1.1,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.1923867166042328,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0088,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.03363037109375,
+      "eval_rouge1": 98.2547,
+      "eval_rouge2": 97.8119,
+      "eval_rougeL": 98.2452,
+      "eval_rougeLsum": 98.2669,
+      "eval_runtime": 31.6927,
+      "eval_samples_per_second": 35.339,
+      "eval_steps_per_second": 1.104,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_2.json ADDED Viewed

	@@ -0,0 +1,153 @@

+{
+  "best_metric": 0.0810546875,
+  "best_model_checkpoint": "model_fewrel_1_2-task2/checkpoint-6",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 30,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.10284423828125,
+      "eval_rouge1": 95.9465,
+      "eval_rouge2": 93.9682,
+      "eval_rougeL": 95.3944,
+      "eval_rougeLsum": 95.9557,
+      "eval_runtime": 29.9579,
+      "eval_samples_per_second": 37.386,
+      "eval_steps_per_second": 1.168,
+      "step": 3
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.0810546875,
+      "eval_rouge1": 96.5004,
+      "eval_rouge2": 94.78,
+      "eval_rougeL": 96.0088,
+      "eval_rougeLsum": 96.4773,
+      "eval_runtime": 28.554,
+      "eval_samples_per_second": 39.224,
+      "eval_steps_per_second": 1.226,
+      "step": 6
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.0819091796875,
+      "eval_rouge1": 96.6176,
+      "eval_rouge2": 94.9705,
+      "eval_rougeL": 96.1457,
+      "eval_rougeLsum": 96.6106,
+      "eval_runtime": 28.3985,
+      "eval_samples_per_second": 39.439,
+      "eval_steps_per_second": 1.232,
+      "step": 9
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.095703125,
+      "eval_rouge1": 96.1348,
+      "eval_rouge2": 94.1813,
+      "eval_rougeL": 95.5333,
+      "eval_rougeLsum": 96.1226,
+      "eval_runtime": 27.8269,
+      "eval_samples_per_second": 40.249,
+      "eval_steps_per_second": 1.258,
+      "step": 12
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.1134033203125,
+      "eval_rouge1": 95.4562,
+      "eval_rouge2": 93.2875,
+      "eval_rougeL": 94.812,
+      "eval_rougeLsum": 95.4534,
+      "eval_runtime": 27.905,
+      "eval_samples_per_second": 40.136,
+      "eval_steps_per_second": 1.254,
+      "step": 15
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.1260986328125,
+      "eval_rouge1": 94.9572,
+      "eval_rouge2": 92.576,
+      "eval_rougeL": 94.3038,
+      "eval_rougeLsum": 94.9406,
+      "eval_runtime": 27.7213,
+      "eval_samples_per_second": 40.402,
+      "eval_steps_per_second": 1.263,
+      "step": 18
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.132080078125,
+      "eval_rouge1": 94.7046,
+      "eval_rouge2": 92.2489,
+      "eval_rougeL": 94.0746,
+      "eval_rougeLsum": 94.7023,
+      "eval_runtime": 27.3971,
+      "eval_samples_per_second": 40.88,
+      "eval_steps_per_second": 1.278,
+      "step": 21
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.1346435546875,
+      "eval_rouge1": 94.6117,
+      "eval_rouge2": 92.0736,
+      "eval_rougeL": 93.9435,
+      "eval_rougeLsum": 94.6048,
+      "eval_runtime": 27.2256,
+      "eval_samples_per_second": 41.138,
+      "eval_steps_per_second": 1.286,
+      "step": 24
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.1351318359375,
+      "eval_rouge1": 94.5465,
+      "eval_rouge2": 91.9795,
+      "eval_rougeL": 93.8758,
+      "eval_rougeLsum": 94.5584,
+      "eval_runtime": 27.1737,
+      "eval_samples_per_second": 41.216,
+      "eval_steps_per_second": 1.288,
+      "step": 27
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.1353759765625,
+      "eval_rouge1": 94.5465,
+      "eval_rouge2": 91.9795,
+      "eval_rougeL": 93.8758,
+      "eval_rougeLsum": 94.5584,
+      "eval_runtime": 27.1504,
+      "eval_samples_per_second": 41.252,
+      "eval_steps_per_second": 1.289,
+      "step": 30
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 30,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 274990104576000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_3.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.000484466552734375,
+  "best_model_checkpoint": "model_fewrel_1_2-task3/checkpoint-1680",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.005573272705078125,
+      "eval_rouge1": 99.5247,
+      "eval_rouge2": 99.1868,
+      "eval_rougeL": 99.3767,
+      "eval_rougeLsum": 99.523,
+      "eval_runtime": 32.5017,
+      "eval_samples_per_second": 34.46,
+      "eval_steps_per_second": 1.077,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.003314971923828125,
+      "eval_rouge1": 99.6944,
+      "eval_rouge2": 99.4612,
+      "eval_rougeL": 99.5701,
+      "eval_rougeLsum": 99.6944,
+      "eval_runtime": 31.661,
+      "eval_samples_per_second": 35.375,
+      "eval_steps_per_second": 1.105,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 1.6153414249420166,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.0413,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.0029888153076171875,
+      "eval_rouge1": 99.779,
+      "eval_rouge2": 99.6013,
+      "eval_rougeL": 99.6771,
+      "eval_rougeLsum": 99.7743,
+      "eval_runtime": 32.3166,
+      "eval_samples_per_second": 34.657,
+      "eval_steps_per_second": 1.083,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.002841949462890625,
+      "eval_rouge1": 99.6692,
+      "eval_rouge2": 99.4798,
+      "eval_rougeL": 99.5698,
+      "eval_rougeLsum": 99.667,
+      "eval_runtime": 32.5644,
+      "eval_samples_per_second": 34.393,
+      "eval_steps_per_second": 1.075,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.001943291281349957,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0055,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.0016384124755859375,
+      "eval_rouge1": 99.8226,
+      "eval_rouge2": 99.6738,
+      "eval_rougeL": 99.7404,
+      "eval_rougeLsum": 99.8124,
+      "eval_runtime": 32.1973,
+      "eval_samples_per_second": 34.786,
+      "eval_steps_per_second": 1.087,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.0015192031860351562,
+      "eval_rouge1": 99.8683,
+      "eval_rouge2": 99.77,
+      "eval_rougeL": 99.8145,
+      "eval_rougeLsum": 99.8683,
+      "eval_runtime": 31.6836,
+      "eval_samples_per_second": 35.35,
+      "eval_steps_per_second": 1.105,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.001491546630859375,
+      "eval_rouge1": 99.9154,
+      "eval_rouge2": 99.8424,
+      "eval_rougeL": 99.8778,
+      "eval_rougeLsum": 99.9154,
+      "eval_runtime": 31.7073,
+      "eval_samples_per_second": 35.323,
+      "eval_steps_per_second": 1.104,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.034123487770557404,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0014,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.000484466552734375,
+      "eval_rouge1": 99.9577,
+      "eval_rouge2": 99.9212,
+      "eval_rougeL": 99.9389,
+      "eval_rougeLsum": 99.9577,
+      "eval_runtime": 31.5909,
+      "eval_samples_per_second": 35.453,
+      "eval_steps_per_second": 1.108,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.0007829666137695312,
+      "eval_rouge1": 99.9577,
+      "eval_rouge2": 99.9212,
+      "eval_rougeL": 99.9389,
+      "eval_rougeLsum": 99.9577,
+      "eval_runtime": 31.712,
+      "eval_samples_per_second": 35.318,
+      "eval_steps_per_second": 1.104,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 3.215530887246132e-05,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0007,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.0007658004760742188,
+      "eval_rouge1": 99.9577,
+      "eval_rouge2": 99.9212,
+      "eval_rougeL": 99.9389,
+      "eval_rougeLsum": 99.9577,
+      "eval_runtime": 31.6985,
+      "eval_samples_per_second": 35.333,
+      "eval_steps_per_second": 1.104,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_4.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.016448974609375,
+  "best_model_checkpoint": "model_fewrel_1_3-task4/checkpoint-1890",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.0394287109375,
+      "eval_rouge1": 98.8133,
+      "eval_rouge2": 98.2303,
+      "eval_rougeL": 98.6613,
+      "eval_rougeLsum": 98.8046,
+      "eval_runtime": 26.1194,
+      "eval_samples_per_second": 42.88,
+      "eval_steps_per_second": 1.34,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.032379150390625,
+      "eval_rouge1": 98.0957,
+      "eval_rouge2": 97.1666,
+      "eval_rougeL": 97.8621,
+      "eval_rougeLsum": 98.1056,
+      "eval_runtime": 25.8031,
+      "eval_samples_per_second": 43.406,
+      "eval_steps_per_second": 1.356,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.016574041917920113,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.0725,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.0189056396484375,
+      "eval_rouge1": 99.423,
+      "eval_rouge2": 99.1539,
+      "eval_rougeL": 99.359,
+      "eval_rougeLsum": 99.4285,
+      "eval_runtime": 25.7666,
+      "eval_samples_per_second": 43.467,
+      "eval_steps_per_second": 1.358,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.03497314453125,
+      "eval_rouge1": 98.9701,
+      "eval_rouge2": 98.497,
+      "eval_rougeL": 98.8414,
+      "eval_rougeLsum": 98.9712,
+      "eval_runtime": 25.9235,
+      "eval_samples_per_second": 43.204,
+      "eval_steps_per_second": 1.35,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.016128525137901306,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0226,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.0195159912109375,
+      "eval_rouge1": 99.2315,
+      "eval_rouge2": 98.8414,
+      "eval_rougeL": 99.1293,
+      "eval_rougeLsum": 99.2314,
+      "eval_runtime": 26.0919,
+      "eval_samples_per_second": 42.925,
+      "eval_steps_per_second": 1.341,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.020782470703125,
+      "eval_rouge1": 99.5165,
+      "eval_rouge2": 99.2985,
+      "eval_rougeL": 99.4726,
+      "eval_rougeLsum": 99.5153,
+      "eval_runtime": 25.9934,
+      "eval_samples_per_second": 43.088,
+      "eval_steps_per_second": 1.346,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.0180206298828125,
+      "eval_rouge1": 99.5187,
+      "eval_rouge2": 99.3048,
+      "eval_rougeL": 99.4708,
+      "eval_rougeLsum": 99.5346,
+      "eval_runtime": 25.8971,
+      "eval_samples_per_second": 43.248,
+      "eval_steps_per_second": 1.352,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.08678867667913437,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0096,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.016693115234375,
+      "eval_rouge1": 99.4715,
+      "eval_rouge2": 99.2326,
+      "eval_rougeL": 99.4096,
+      "eval_rougeLsum": 99.484,
+      "eval_runtime": 25.9209,
+      "eval_samples_per_second": 43.208,
+      "eval_steps_per_second": 1.35,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.016448974609375,
+      "eval_rouge1": 99.5187,
+      "eval_rouge2": 99.3048,
+      "eval_rougeL": 99.4708,
+      "eval_rougeLsum": 99.5346,
+      "eval_runtime": 25.8641,
+      "eval_samples_per_second": 43.303,
+      "eval_steps_per_second": 1.353,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.015132551081478596,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0063,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.0164794921875,
+      "eval_rouge1": 99.5187,
+      "eval_rouge2": 99.3048,
+      "eval_rougeL": 99.4708,
+      "eval_rougeLsum": 99.5346,
+      "eval_runtime": 25.9133,
+      "eval_samples_per_second": 43.221,
+      "eval_steps_per_second": 1.351,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_5.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.0059661865234375,
+  "best_model_checkpoint": "model_fewrel_1_4-task5/checkpoint-630",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.017303466796875,
+      "eval_rouge1": 98.4539,
+      "eval_rouge2": 97.5762,
+      "eval_rougeL": 98.1882,
+      "eval_rougeLsum": 98.4482,
+      "eval_runtime": 34.4843,
+      "eval_samples_per_second": 32.479,
+      "eval_steps_per_second": 1.015,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.00751495361328125,
+      "eval_rouge1": 99.1583,
+      "eval_rouge2": 98.6851,
+      "eval_rougeL": 99.0047,
+      "eval_rougeLsum": 99.1647,
+      "eval_runtime": 32.741,
+      "eval_samples_per_second": 34.208,
+      "eval_steps_per_second": 1.069,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.014579183422029018,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.0573,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.0059661865234375,
+      "eval_rouge1": 99.3646,
+      "eval_rouge2": 98.9205,
+      "eval_rougeL": 99.2221,
+      "eval_rougeLsum": 99.3603,
+      "eval_runtime": 32.9254,
+      "eval_samples_per_second": 34.016,
+      "eval_steps_per_second": 1.063,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.00925445556640625,
+      "eval_rouge1": 99.1633,
+      "eval_rouge2": 98.6891,
+      "eval_rougeL": 99.0235,
+      "eval_rougeLsum": 99.1601,
+      "eval_runtime": 33.2811,
+      "eval_samples_per_second": 33.653,
+      "eval_steps_per_second": 1.052,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.1038060188293457,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0102,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.007312774658203125,
+      "eval_rouge1": 99.3523,
+      "eval_rouge2": 98.8747,
+      "eval_rougeL": 99.1909,
+      "eval_rougeLsum": 99.3521,
+      "eval_runtime": 33.1107,
+      "eval_samples_per_second": 33.826,
+      "eval_steps_per_second": 1.057,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.008575439453125,
+      "eval_rouge1": 99.4615,
+      "eval_rouge2": 99.0736,
+      "eval_rougeL": 99.3351,
+      "eval_rougeLsum": 99.4494,
+      "eval_runtime": 32.8562,
+      "eval_samples_per_second": 34.088,
+      "eval_steps_per_second": 1.065,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.00952911376953125,
+      "eval_rouge1": 99.3799,
+      "eval_rouge2": 99.0097,
+      "eval_rougeL": 99.2562,
+      "eval_rougeLsum": 99.371,
+      "eval_runtime": 33.1813,
+      "eval_samples_per_second": 33.754,
+      "eval_steps_per_second": 1.055,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.025980567559599876,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0042,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.00867462158203125,
+      "eval_rouge1": 99.4488,
+      "eval_rouge2": 99.0827,
+      "eval_rougeL": 99.3346,
+      "eval_rougeLsum": 99.4596,
+      "eval_runtime": 32.7477,
+      "eval_samples_per_second": 34.201,
+      "eval_steps_per_second": 1.069,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.00786590576171875,
+      "eval_rouge1": 99.3538,
+      "eval_rouge2": 98.9422,
+      "eval_rougeL": 99.2192,
+      "eval_rougeLsum": 99.3563,
+      "eval_runtime": 33.0744,
+      "eval_samples_per_second": 33.863,
+      "eval_steps_per_second": 1.058,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.18442556262016296,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0023,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.007965087890625,
+      "eval_rouge1": 99.3538,
+      "eval_rouge2": 98.9422,
+      "eval_rougeL": 99.2192,
+      "eval_rougeLsum": 99.3563,
+      "eval_runtime": 33.0331,
+      "eval_samples_per_second": 33.905,
+      "eval_steps_per_second": 1.06,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_6.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.03607177734375,
+  "best_model_checkpoint": "model_fewrel_1_5-task6/checkpoint-1260",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.051544189453125,
+      "eval_rouge1": 97.5746,
+      "eval_rouge2": 95.9962,
+      "eval_rougeL": 96.8014,
+      "eval_rougeLsum": 97.5759,
+      "eval_runtime": 33.8471,
+      "eval_samples_per_second": 33.09,
+      "eval_steps_per_second": 1.034,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.038238525390625,
+      "eval_rouge1": 97.0504,
+      "eval_rouge2": 95.0089,
+      "eval_rougeL": 96.0484,
+      "eval_rougeLsum": 97.0773,
+      "eval_runtime": 33.7575,
+      "eval_samples_per_second": 33.178,
+      "eval_steps_per_second": 1.037,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.15559855103492737,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.0759,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.039306640625,
+      "eval_rouge1": 97.8822,
+      "eval_rouge2": 96.4368,
+      "eval_rougeL": 97.1693,
+      "eval_rougeLsum": 97.886,
+      "eval_runtime": 33.8292,
+      "eval_samples_per_second": 33.107,
+      "eval_steps_per_second": 1.035,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.036468505859375,
+      "eval_rouge1": 97.8707,
+      "eval_rouge2": 96.3824,
+      "eval_rougeL": 97.1565,
+      "eval_rougeLsum": 97.88,
+      "eval_runtime": 34.5353,
+      "eval_samples_per_second": 32.431,
+      "eval_steps_per_second": 1.013,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.021474618464708328,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0211,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.03961181640625,
+      "eval_rouge1": 97.5277,
+      "eval_rouge2": 95.8576,
+      "eval_rougeL": 96.691,
+      "eval_rougeLsum": 97.527,
+      "eval_runtime": 33.9424,
+      "eval_samples_per_second": 32.997,
+      "eval_steps_per_second": 1.031,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.03607177734375,
+      "eval_rouge1": 98.1371,
+      "eval_rouge2": 96.8791,
+      "eval_rougeL": 97.5059,
+      "eval_rougeLsum": 98.173,
+      "eval_runtime": 33.9961,
+      "eval_samples_per_second": 32.945,
+      "eval_steps_per_second": 1.03,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.040924072265625,
+      "eval_rouge1": 98.1004,
+      "eval_rouge2": 96.774,
+      "eval_rougeL": 97.4333,
+      "eval_rougeLsum": 98.1087,
+      "eval_runtime": 34.4539,
+      "eval_samples_per_second": 32.507,
+      "eval_steps_per_second": 1.016,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.08763577789068222,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0103,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.03826904296875,
+      "eval_rouge1": 97.8337,
+      "eval_rouge2": 96.3488,
+      "eval_rougeL": 97.096,
+      "eval_rougeLsum": 97.8664,
+      "eval_runtime": 34.3599,
+      "eval_samples_per_second": 32.596,
+      "eval_steps_per_second": 1.019,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.038909912109375,
+      "eval_rouge1": 97.9644,
+      "eval_rouge2": 96.525,
+      "eval_rougeL": 97.2236,
+      "eval_rougeLsum": 97.9585,
+      "eval_runtime": 33.8333,
+      "eval_samples_per_second": 33.103,
+      "eval_steps_per_second": 1.034,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.19326545298099518,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0071,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.039276123046875,
+      "eval_rouge1": 98.0097,
+      "eval_rouge2": 96.6105,
+      "eval_rougeL": 97.2833,
+      "eval_rougeLsum": 98.0092,
+      "eval_runtime": 33.8974,
+      "eval_samples_per_second": 33.041,
+      "eval_steps_per_second": 1.033,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_7.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.0484619140625,
+  "best_model_checkpoint": "model_fewrel_1_6-task7/checkpoint-1470",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.1253662109375,
+      "eval_rouge1": 93.102,
+      "eval_rouge2": 89.1364,
+      "eval_rougeL": 92.1128,
+      "eval_rougeLsum": 93.0898,
+      "eval_runtime": 30.5369,
+      "eval_samples_per_second": 36.677,
+      "eval_steps_per_second": 1.146,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.07708740234375,
+      "eval_rouge1": 94.6253,
+      "eval_rouge2": 91.7196,
+      "eval_rougeL": 93.9284,
+      "eval_rougeLsum": 94.6153,
+      "eval_runtime": 29.0183,
+      "eval_samples_per_second": 38.596,
+      "eval_steps_per_second": 1.206,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.4770593047142029,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.1042,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.05633544921875,
+      "eval_rouge1": 95.1246,
+      "eval_rouge2": 92.2081,
+      "eval_rougeL": 94.3701,
+      "eval_rougeLsum": 95.1249,
+      "eval_runtime": 28.82,
+      "eval_samples_per_second": 38.862,
+      "eval_steps_per_second": 1.214,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.052490234375,
+      "eval_rouge1": 95.9748,
+      "eval_rouge2": 93.6071,
+      "eval_rougeL": 95.3787,
+      "eval_rougeLsum": 95.9622,
+      "eval_runtime": 28.7568,
+      "eval_samples_per_second": 38.947,
+      "eval_steps_per_second": 1.217,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.2157868593931198,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0397,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.052734375,
+      "eval_rouge1": 96.4573,
+      "eval_rouge2": 94.4045,
+      "eval_rougeL": 95.96,
+      "eval_rougeLsum": 96.4689,
+      "eval_runtime": 28.2262,
+      "eval_samples_per_second": 39.679,
+      "eval_steps_per_second": 1.24,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.053009033203125,
+      "eval_rouge1": 96.692,
+      "eval_rouge2": 94.7143,
+      "eval_rougeL": 96.2205,
+      "eval_rougeLsum": 96.6725,
+      "eval_runtime": 28.1396,
+      "eval_samples_per_second": 39.802,
+      "eval_steps_per_second": 1.244,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.0484619140625,
+      "eval_rouge1": 96.2898,
+      "eval_rouge2": 94.1342,
+      "eval_rougeL": 95.7357,
+      "eval_rougeLsum": 96.2989,
+      "eval_runtime": 28.7901,
+      "eval_samples_per_second": 38.902,
+      "eval_steps_per_second": 1.216,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.13793426752090454,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0253,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.050872802734375,
+      "eval_rouge1": 96.419,
+      "eval_rouge2": 94.2908,
+      "eval_rougeL": 95.887,
+      "eval_rougeLsum": 96.431,
+      "eval_runtime": 28.8197,
+      "eval_samples_per_second": 38.862,
+      "eval_steps_per_second": 1.214,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.050994873046875,
+      "eval_rouge1": 96.5301,
+      "eval_rouge2": 94.465,
+      "eval_rougeL": 96.014,
+      "eval_rougeLsum": 96.5445,
+      "eval_runtime": 28.8499,
+      "eval_samples_per_second": 38.822,
+      "eval_steps_per_second": 1.213,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.44433069229125977,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0172,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.05072021484375,
+      "eval_rouge1": 96.5339,
+      "eval_rouge2": 94.4734,
+      "eval_rougeL": 96.0133,
+      "eval_rougeLsum": 96.5439,
+      "eval_runtime": 28.8295,
+      "eval_samples_per_second": 38.849,
+      "eval_steps_per_second": 1.214,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_8.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.053009033203125,
+  "best_model_checkpoint": "model_fewrel_1_7-task8/checkpoint-2100",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.061859130859375,
+      "eval_rouge1": 95.8441,
+      "eval_rouge2": 93.3788,
+      "eval_rougeL": 95.0225,
+      "eval_rougeLsum": 95.815,
+      "eval_runtime": 27.9858,
+      "eval_samples_per_second": 40.02,
+      "eval_steps_per_second": 1.251,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.06298828125,
+      "eval_rouge1": 96.0859,
+      "eval_rouge2": 93.638,
+      "eval_rougeL": 95.2187,
+      "eval_rougeLsum": 96.1001,
+      "eval_runtime": 27.0107,
+      "eval_samples_per_second": 41.465,
+      "eval_steps_per_second": 1.296,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 1.263279914855957,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.1261,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.065185546875,
+      "eval_rouge1": 96.0899,
+      "eval_rouge2": 93.5338,
+      "eval_rougeL": 95.2307,
+      "eval_rougeLsum": 96.1038,
+      "eval_runtime": 26.8529,
+      "eval_samples_per_second": 41.709,
+      "eval_steps_per_second": 1.303,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.056182861328125,
+      "eval_rouge1": 97.029,
+      "eval_rouge2": 95.1136,
+      "eval_rougeL": 96.381,
+      "eval_rougeLsum": 97.0201,
+      "eval_runtime": 27.0655,
+      "eval_samples_per_second": 41.381,
+      "eval_steps_per_second": 1.293,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.31182149052619934,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0504,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.0604248046875,
+      "eval_rouge1": 96.8222,
+      "eval_rouge2": 94.606,
+      "eval_rougeL": 96.0562,
+      "eval_rougeLsum": 96.8378,
+      "eval_runtime": 26.2531,
+      "eval_samples_per_second": 42.662,
+      "eval_steps_per_second": 1.333,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.057708740234375,
+      "eval_rouge1": 97.1054,
+      "eval_rouge2": 95.2868,
+      "eval_rougeL": 96.4767,
+      "eval_rougeLsum": 97.1103,
+      "eval_runtime": 27.0931,
+      "eval_samples_per_second": 41.339,
+      "eval_steps_per_second": 1.292,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.053466796875,
+      "eval_rouge1": 97.2485,
+      "eval_rouge2": 95.4551,
+      "eval_rougeL": 96.597,
+      "eval_rougeLsum": 97.2618,
+      "eval_runtime": 27.2167,
+      "eval_samples_per_second": 41.151,
+      "eval_steps_per_second": 1.286,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 1.2603168487548828,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0298,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.053192138671875,
+      "eval_rouge1": 97.2732,
+      "eval_rouge2": 95.5288,
+      "eval_rougeL": 96.7034,
+      "eval_rougeLsum": 97.2673,
+      "eval_runtime": 27.1844,
+      "eval_samples_per_second": 41.2,
+      "eval_steps_per_second": 1.288,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.053436279296875,
+      "eval_rouge1": 97.159,
+      "eval_rouge2": 95.4117,
+      "eval_rougeL": 96.5979,
+      "eval_rougeLsum": 97.1608,
+      "eval_runtime": 26.8091,
+      "eval_samples_per_second": 41.777,
+      "eval_steps_per_second": 1.306,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.7883169054985046,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0214,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.053009033203125,
+      "eval_rouge1": 97.2705,
+      "eval_rouge2": 95.5761,
+      "eval_rougeL": 96.7291,
+      "eval_rougeLsum": 97.2653,
+      "eval_runtime": 26.7465,
+      "eval_samples_per_second": 41.875,
+      "eval_steps_per_second": 1.309,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

trainer_state_9.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.0093231201171875,
+  "best_model_checkpoint": "model_fewrel_1_8-task9/checkpoint-1890",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.012847900390625,
+      "eval_rouge1": 98.6287,
+      "eval_rouge2": 98.0199,
+      "eval_rougeL": 98.3895,
+      "eval_rougeLsum": 98.5995,
+      "eval_runtime": 34.0174,
+      "eval_samples_per_second": 32.924,
+      "eval_steps_per_second": 1.029,
+      "step": 210
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.0115509033203125,
+      "eval_rouge1": 98.9154,
+      "eval_rouge2": 98.5367,
+      "eval_rougeL": 98.8038,
+      "eval_rougeLsum": 98.9131,
+      "eval_runtime": 34.4471,
+      "eval_samples_per_second": 32.514,
+      "eval_steps_per_second": 1.016,
+      "step": 420
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.4975210428237915,
+      "learning_rate": 0.0008665259359149131,
+      "loss": 0.055,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.01337432861328125,
+      "eval_rouge1": 98.6194,
+      "eval_rouge2": 98.0506,
+      "eval_rougeL": 98.3926,
+      "eval_rougeLsum": 98.5818,
+      "eval_runtime": 33.5087,
+      "eval_samples_per_second": 33.424,
+      "eval_steps_per_second": 1.045,
+      "step": 630
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.01132965087890625,
+      "eval_rouge1": 98.8522,
+      "eval_rouge2": 98.4253,
+      "eval_rougeL": 98.7051,
+      "eval_rougeLsum": 98.8197,
+      "eval_runtime": 33.1182,
+      "eval_samples_per_second": 33.818,
+      "eval_steps_per_second": 1.057,
+      "step": 840
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.9489365816116333,
+      "learning_rate": 0.0005373650467932121,
+      "loss": 0.0088,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.01326751708984375,
+      "eval_rouge1": 99.2134,
+      "eval_rouge2": 98.8765,
+      "eval_rougeL": 99.0941,
+      "eval_rougeLsum": 99.2096,
+      "eval_runtime": 36.9437,
+      "eval_samples_per_second": 30.316,
+      "eval_steps_per_second": 0.947,
+      "step": 1050
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.01346588134765625,
+      "eval_rouge1": 99.2312,
+      "eval_rouge2": 98.8839,
+      "eval_rougeL": 99.0944,
+      "eval_rougeLsum": 99.2153,
+      "eval_runtime": 34.9945,
+      "eval_samples_per_second": 32.005,
+      "eval_steps_per_second": 1.0,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.00937652587890625,
+      "eval_rouge1": 99.5998,
+      "eval_rouge2": 99.3899,
+      "eval_rougeL": 99.5205,
+      "eval_rougeLsum": 99.5994,
+      "eval_runtime": 34.6991,
+      "eval_samples_per_second": 32.278,
+      "eval_steps_per_second": 1.009,
+      "step": 1470
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.030887478962540627,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 0.0032,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.010223388671875,
+      "eval_rouge1": 99.4127,
+      "eval_rouge2": 99.1295,
+      "eval_rougeL": 99.3072,
+      "eval_rougeLsum": 99.3986,
+      "eval_runtime": 34.3802,
+      "eval_samples_per_second": 32.577,
+      "eval_steps_per_second": 1.018,
+      "step": 1680
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.0093231201171875,
+      "eval_rouge1": 99.4127,
+      "eval_rouge2": 99.1295,
+      "eval_rougeL": 99.3072,
+      "eval_rougeLsum": 99.3986,
+      "eval_runtime": 34.2644,
+      "eval_samples_per_second": 32.687,
+      "eval_steps_per_second": 1.021,
+      "step": 1890
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.0026726792566478252,
+      "learning_rate": 5.5845868874357386e-06,
+      "loss": 0.0011,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.00940704345703125,
+      "eval_rouge1": 99.4127,
+      "eval_rouge2": 99.1295,
+      "eval_rougeL": 99.3072,
+      "eval_rougeLsum": 99.3986,
+      "eval_runtime": 34.3879,
+      "eval_samples_per_second": 32.57,
+      "eval_steps_per_second": 1.018,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3099168784384e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}