peterbeamish
/

trained_model

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
-- Rouge1: 0.0259
-- Rouge2: 0.0047
-- Rougel: 0.0256
-- Rougelsum: 0.0255
-- Gen Len: 17.1436
 ## Model description
@@ -41,7 +41,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -53,10 +53,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| No log        | 1.0   | 252  | nan             | 0.0259 | 0.0047 | 0.0256 | 0.0255    | 17.1436 |
-| 0.0           | 2.0   | 504  | nan             | 0.0259 | 0.0047 | 0.0256 | 0.0255    | 17.1436 |
-| 0.0           | 3.0   | 756  | nan             | 0.0259 | 0.0047 | 0.0256 | 0.0255    | 17.1436 |
-| 0.0           | 4.0   | 1008 | nan             | 0.0259 | 0.0047 | 0.0256 | 0.0255    | 17.1436 |
 ### Framework versions

 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
+- Rouge1: 0.04
+- Rouge2: 0.0
+- Rougel: 0.04
+- Rougelsum: 0.04
+- Gen Len: 18.4
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| No log        | 1.0   | 1    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
+| No log        | 2.0   | 2    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
+| No log        | 3.0   | 3    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
+| No log        | 4.0   | 4    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
 ### Framework versions

trainer_state.json CHANGED Viewed

@@ -1,92 +1,28 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
-  "eval_steps": 500,
-  "global_step": 1008,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 1.0,
-      "eval_gen_len": 17.1436,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.0259,
-      "eval_rouge2": 0.0047,
-      "eval_rougeL": 0.0256,
-      "eval_rougeLsum": 0.0255,
-      "eval_runtime": 105.9672,
-      "eval_samples_per_second": 38.05,
-      "eval_steps_per_second": 2.378,
-      "step": 252
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 2e-05,
-      "loss": 0.0,
-      "step": 500
-    },
-    {
-      "epoch": 2.0,
-      "eval_gen_len": 17.1436,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.0259,
-      "eval_rouge2": 0.0047,
-      "eval_rougeL": 0.0256,
-      "eval_rougeLsum": 0.0255,
-      "eval_runtime": 106.6812,
-      "eval_samples_per_second": 37.795,
-      "eval_steps_per_second": 2.362,
-      "step": 504
-    },
     {
       "epoch": 3.0,
-      "eval_gen_len": 17.1436,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.0259,
-      "eval_rouge2": 0.0047,
-      "eval_rougeL": 0.0256,
-      "eval_rougeLsum": 0.0255,
-      "eval_runtime": 108.1549,
-      "eval_samples_per_second": 37.28,
-      "eval_steps_per_second": 2.33,
-      "step": 756
-    },
-    {
-      "epoch": 3.97,
-      "learning_rate": 2e-05,
-      "loss": 0.0,
-      "step": 1000
-    },
-    {
-      "epoch": 4.0,
-      "eval_gen_len": 17.1436,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.0259,
-      "eval_rouge2": 0.0047,
-      "eval_rougeL": 0.0256,
-      "eval_rougeLsum": 0.0255,
-      "eval_runtime": 109.2088,
-      "eval_samples_per_second": 36.92,
-      "eval_steps_per_second": 2.308,
-      "step": 1008
-    },
-    {
-      "epoch": 4.0,
-      "step": 1008,
-      "total_flos": 2997298497847296.0,
       "train_loss": 0.0,
-      "train_runtime": 577.5801,
-      "train_samples_per_second": 27.916,
-      "train_steps_per_second": 1.745
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 1008,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 2997298497847296.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 8000,
+  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 3.0,
+      "step": 15,
+      "total_flos": 5576715141120.0,
       "train_loss": 0.0,
+      "train_runtime": 1.4301,
+      "train_samples_per_second": 20.977,
+      "train_steps_per_second": 10.489
     }
   ],
+  "logging_steps": 1000,
+  "max_steps": 15,
+  "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 5576715141120.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d310d374aa2849a37e78202fd9915ecc4961d20fb6d34fdf96221cedd54b02e
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9f74c9e705ad2deec5fc5ba4128d1061376466dc7dc6641b85cda934250fba4
 size 4155