End of training

Files changed (11) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

+---
+license: apache-2.0
+base_model: napatswift/mt5-fixth
+tags:
+- generated_from_trainer
+model-index:
+- name: mt5-budget-seq
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mt5-budget-seq
+This model is a fine-tuned version of [napatswift/mt5-fixth](https://huggingface.co/napatswift/mt5-fixth) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- eval_loss: 0.0484
+- eval_runtime: 8.2233
+- eval_samples_per_second: 4.864
+- eval_steps_per_second: 4.864
+- epoch: 0.83
+- step: 201
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0005
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 10
+### Framework versions
+- Transformers 4.33.3
+- Pytorch 2.0.1+cu118
+- Datasets 2.14.5
+- Tokenizers 0.13.3

added_tokens.json ADDED Viewed

+{
+  "</amount>": 250100,
+  "</fiscal_year>": 250101,
+  "</fiscal_year_end_year>": 250102,
+  "</fiscal_year_year>": 250103,
+  "</line_item_amount>": 250104,
+  "</line_item_bullet>": 250105,
+  "</line_item_children>": 250106,
+  "</line_item_fiscal_years>": 250107,
+  "</line_item_name>": 250108,
+  "</line_item_root>": 250109,
+  "<amount>": 250110,
+  "<begin>": 250111,
+  "<begin_indent>": 250112,
+  "<big_sep>": 250113,
+  "<fiscal_year>": 250114,
+  "<fiscal_year_end_year>": 250115,
+  "<fiscal_year_year>": 250116,
+  "<line_item_amount>": 250117,
+  "<line_item_bullet>": 250118,
+  "<line_item_children>": 250119,
+  "<line_item_fiscal_years>": 250120,
+  "<line_item_name>": 250121,
+  "<line_item_root>": 250122
+}

config.json ADDED Viewed

+{
+  "_name_or_path": "napatswift/mt5-fixth",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.3",
+  "use_cache": true,
+  "vocab_size": 250124
+}

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.3"
+}

pytorch_model.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc9519a0413442c3d762e6b855b91b6ceb2a431347d39ce0ad95280e77b6436e
+size 1200821765

special_tokens_map.json ADDED Viewed

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

tokenizer.json ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ded8087ed38e31d69b670456595183f4efca67fa94df4653c70fa5a7017ebee6
+size 16319677

tokenizer_config.json ADDED Viewed

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "legacy": true,
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "stride": 0,
+  "tokenizer_class": "T5Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9711c5d3d0a69c972010153b7313e4f8ca0f06ec7916149b1716fc68c228220
+size 4155