End of training

Browse files

Files changed (4) hide show

README.md +26 -14
model.safetensors +1 -1
tokenizer.json +1 -8
tokenizer_config.json +1 -4

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 library_name: transformers
 license: apache-2.0
-base_model: maud-dr/model_2_stage2
 tags:
 - generated_from_trainer
 metrics:
@@ -18,12 +18,12 @@ should probably proofread and complete it, then remove this comment. -->
 # model_2_stage3-seed_42
-This model is a fine-tuned version of [maud-dr/model_2_stage2](https://huggingface.co/maud-dr/model_2_stage2) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
-- Precision: 0.0
-- Recall: 0.0
-- F1: 0.0
 ## Model description
@@ -43,20 +43,32 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
-- train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 2
-- mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1  |
-|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:---:|
-| 0.0           | 1.0   | 373  | nan             | 0.0       | 0.0    | 0.0 |
-| 0.0           | 2.0   | 746  | nan             | 0.0       | 0.0    | 0.0 |
 ### Framework versions

 ---
 library_name: transformers
 license: apache-2.0
+base_model: maud-dr/model_2_stage2-seed_42
 tags:
 - generated_from_trainer
 metrics:
 # model_2_stage3-seed_42
+This model is a fine-tuned version of [maud-dr/model_2_stage2-seed_42](https://huggingface.co/maud-dr/model_2_stage2-seed_42) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.8972
+- Precision: 0.6325
+- Recall: 0.6396
+- F1: 0.6361
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 15
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Precision | Recall | F1     |
+|:-------------:|:-----:|:-----:|:---------------:|:---------:|:------:|:------:|
+| 0.4847        | 1.0   | 745   | 0.4469          | 0.7088    | 0.5811 | 0.6386 |
+| 0.364         | 2.0   | 1490  | 0.4663          | 0.7057    | 0.5563 | 0.6222 |
+| 0.3553        | 3.0   | 2235  | 0.5744          | 0.6390    | 0.6937 | 0.6652 |
+| 0.228         | 4.0   | 2980  | 1.1159          | 0.6452    | 0.6104 | 0.6273 |
+| 0.1557        | 5.0   | 3725  | 1.3220          | 0.6505    | 0.5450 | 0.5931 |
+| 0.1563        | 6.0   | 4470  | 1.1941          | 0.6569    | 0.6081 | 0.6316 |
+| 0.0574        | 7.0   | 5215  | 1.2020          | 0.6256    | 0.6396 | 0.6325 |
+| 0.0786        | 8.0   | 5960  | 1.6463          | 0.6063    | 0.6486 | 0.6268 |
+| 0.0702        | 9.0   | 6705  | 1.4346          | 0.6733    | 0.6126 | 0.6415 |
+| 0.0635        | 10.0  | 7450  | 1.6357          | 0.6191    | 0.6554 | 0.6368 |
+| 0.0474        | 11.0  | 8195  | 1.7221          | 0.6667    | 0.5676 | 0.6131 |
+| 0.0368        | 12.0  | 8940  | 1.7971          | 0.6276    | 0.6149 | 0.6212 |
+| 0.0209        | 13.0  | 9685  | 1.8271          | 0.6225    | 0.6351 | 0.6288 |
+| 0.0316        | 14.0  | 10430 | 1.8204          | 0.6313    | 0.6171 | 0.6241 |
+| 0.0058        | 15.0  | 11175 | 1.8972          | 0.6325    | 0.6396 | 0.6361 |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baa29bf6297ad51b7d0fa8a478cd55f6cfba930935292a10fc5d4b3f0c99300d
 size 894020048

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ee08e855aaa89dc418873fabd43f92a90f06448b22c7dc7ba989b65c9942ee9
 size 894020048

tokenizer.json CHANGED Viewed

@@ -6,14 +6,7 @@
     "strategy": "LongestFirst",
     "stride": 0
   },
-  "padding": {
-    "strategy": "BatchLongest",
-    "direction": "Right",
-    "pad_to_multiple_of": null,
-    "pad_id": 0,
-    "pad_type_id": 0,
-    "pad_token": "<pad>"
-  },
   "added_tokens": [
     {
       "id": 0,

     "strategy": "LongestFirst",
     "stride": 0
   },
+  "padding": null,
   "added_tokens": [
     {
       "id": 0,

tokenizer_config.json CHANGED Viewed

@@ -932,12 +932,9 @@
   "eos_token": "</s>",
   "extra_ids": 100,
   "extra_special_tokens": {},
-  "max_length": 128,
   "model_max_length": 512,
-  "pad_to_multiple_of": null,
   "pad_token": "<pad>",
-  "pad_token_type_id": 0,
-  "padding_side": "right",
   "sp_model_kwargs": {},
   "stride": 0,
   "tokenizer_class": "T5TokenizerFast",

   "eos_token": "</s>",
   "extra_ids": 100,
   "extra_special_tokens": {},
+  "max_length": 224,
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "stride": 0,
   "tokenizer_class": "T5TokenizerFast",