Trimmed google/mt5-base for Thai (32768 tokens)

Files changed (7) hide show

README.md ADDED Viewed

+---
+language: tha
+license: apache-2.0
+tags: [trimmed, mt5, seq2seq]
+base_model: google/mt5-base
+datasets:
+  - Lumberjackk/fineweb-2-trimming
+---
+# mt5-base-tha-32768
+Version de [google/mt5-base](https://huggingface.co/google/mt5-base) avec vocabulaire réduit pour **Thai**.
+| | Original | Trimmed |
+|---|---|---|
+| Vocabulaire | 250,100 | 32,768 |
+| Paramètres | 582,401,280 | 248,560,896 |
+## Usage
+```python
+from transformers import T5Tokenizer, AutoModelForSeq2SeqLM
+tokenizer = T5Tokenizer.from_pretrained("lbourdois/mt5-base-tha-32768")
+model     = AutoModelForSeq2SeqLM.from_pretrained("lbourdois/mt5-base-tha-32768")
+```

config.json ADDED Viewed

+{
+  "_name_or_path": "/home/patrick/hugging_face/t5/mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.10.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32768
+}

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "5.3.0.dev0"
+}

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5b4f535f5d8d7e4afc5ea6e549f4bc169f01110bceaf74b0c8cfdb7799fb705
+size 994277224

special_tokens_map.json ADDED Viewed

+{
+  "eos_token": "</s>",
+  "unk_token": "<unk>",
+  "pad_token": "<pad>",
+  "additional_special_tokens": []
+}

spiece.model ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:af7429a49840b763f47c0d582103943285e2ca582cba1c1fd2db0a5ef0e6dda7
+size 763620

tokenizer_config.json ADDED Viewed

+{
+  "eos_token": "</s>",
+  "unk_token": "<unk>",
+  "pad_token": "<pad>",
+  "extra_ids": 0
+}