csb05
/

Flan-T5

text2text-generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

csb05 commited on Jan 31, 2025

Commit

3a8ce2b

·

verified ·

1 Parent(s): e36e962

Model save

Files changed (1) hide show

README.md +13 -11

README.md CHANGED Viewed

@@ -19,11 +19,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/flan-t5-base](https://huggingface.co/google/flan-t5-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
-- Rouge1: 5.1047
-- Rouge2: 1.1324
-- Rougel: 4.1953
-- Rougelsum: 4.1537
-- Gen Len: 15.8333
 ## Model description
@@ -43,25 +43,27 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 4
-- eval_batch_size: 4
 - seed: 42
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 8
-- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:------:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| 0.0           | 0.9811 | 26   | nan             | 5.1047 | 1.1324 | 4.1953 | 4.1537    | 15.8333 |
 ### Framework versions
 - Transformers 4.47.1
-- Pytorch 2.6.0+cu124
 - Datasets 3.2.0
 - Tokenizers 0.21.0

 This model is a fine-tuned version of [google/flan-t5-base](https://huggingface.co/google/flan-t5-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
+- Rouge1: 5.6456
+- Rouge2: 1.2152
+- Rougel: 4.5164
+- Rougelsum: 4.5226
+- Gen Len: 15.7143
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 8
+- optimizer: Use OptimizerNames.ADAFACTOR and the args are:
+No additional optimizer arguments
 - lr_scheduler_type: linear
 - num_epochs: 1
+- mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:------:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| 0.0           | 0.9905 | 26   | nan             | 5.6456 | 1.2152 | 4.5164 | 4.5226    | 15.7143 |
 ### Framework versions
 - Transformers 4.47.1
+- Pytorch 2.5.1+cu124
 - Datasets 3.2.0
 - Tokenizers 0.21.0