Addition of a new tokeniser (pre-v5)

Browse files

Files changed (6) hide show

README.md +3 -1
src/tokeniser/special_tokens_map.json +6 -0
src/tokeniser/tokenizer.json +0 -0
src/tokeniser/tokenizer_config.json +44 -0
src/train_t5.py +2 -1
src/train_tokeniser.py +54 -0

README.md CHANGED Viewed

@@ -132,7 +132,9 @@ KazParC деректер жинағын жүктеп алу үшін сізге
 - **DalaT5 v3**: 20 сәуірде дәл реттелген, 20 сәуірде қолжетімді болды. Жаттығу үшін ~1,6 миллион деректер жазбасы пайдаланылды. Үшінші итерация одан әрі жақсартуларды, сондай-ақ белгілі бір дәрежеде семантикалық түсінуді көрсетті / Fine-tuned on April 20, made available on April 20. Used ~1.6 million data records for training. Third iteration that showed further improvements, as well as some degree of semantic understanding
-- **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding.
 ---

 - **DalaT5 v3**: 20 сәуірде дәл реттелген, 20 сәуірде қолжетімді болды. Жаттығу үшін ~1,6 миллион деректер жазбасы пайдаланылды. Үшінші итерация одан әрі жақсартуларды, сондай-ақ белгілі бір дәрежеде семантикалық түсінуді көрсетті / Fine-tuned on April 20, made available on April 20. Used ~1.6 million data records for training. Third iteration that showed further improvements, as well as some degree of semantic understanding
+- **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
+- **DalaT5 v5**: Fine-tuning to occur on April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
 ---

src/tokeniser/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

src/tokeniser/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

src/tokeniser/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "<unk>"
+}

src/train_t5.py CHANGED Viewed

@@ -12,10 +12,11 @@ from transformers import (
 # Path config
 base_model = "t5-small"
 data_path = "src/data/clean_corpus.jsonl"
 output_dir = "checkpoints/"
 # Load tokeniser and model
-tokeniser = T5TokenizerFast.from_pretrained(base_model)
 model = T5ForConditionalGeneration.from_pretrained(base_model)

 # Path config
 base_model = "t5-small"
 data_path = "src/data/clean_corpus.jsonl"
+tokeniser_path = "src/tokeniser/"
 output_dir = "checkpoints/"
 # Load tokeniser and model
+tokeniser = T5TokenizerFast.from_pretrained(tokeniser_path)
 model = T5ForConditionalGeneration.from_pretrained(base_model)

src/train_tokeniser.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import json
+from tokenizers.pre_tokenizers import Whitespace
+from transformers import PreTrainedTokenizerFast
+from tokenizers import Tokenizer, models, trainers
+from tokenizers.normalizers import NFD, Lowercase, StripAccents, Sequence
+# Load corpus data
+corpus = []
+with open("src/data/clean_corpus.jsonl", "r", encoding = "utf-8") as f_in:
+    for i, line in enumerate(f_in):
+        if i >= 10000:  # Take only 10000 records for the tokeniser (no need to load everything in the corpus)
+            break
+        item = json.loads(line)
+        src = item["transliteration"]["src"]
+        tgt = item["transliteration"]["tgt"]
+        # Feed both sides into tokeniser training
+        corpus.append(src)
+        corpus.append(tgt)
+# Initialise a tokenizer
+tokeniser = Tokenizer(models.BPE(unk_token = "<unk>"))
+# Normalisation, important for characters such as those with with diacritics
+tokeniser.normalizer = Sequence([
+    NFD(), Lowercase(), StripAccents()
+])
+# Basic whitespace pre-tokenization
+tokeniser.pre_tokenizer = Whitespace()
+# Trainer
+trainer = trainers.BpeTrainer(
+    vocab_size = 8000,
+    special_tokens = ["<pad>", "<s>", "</s>", "<unk>"]
+)
+# Train from the corpus
+tokeniser.train_from_iterator(corpus, trainer)
+# Wrap it for Hugging Face
+hf_tokeniser = PreTrainedTokenizerFast(
+    tokenizer_object = tokeniser,
+    unk_token = "<unk>",
+    pad_token = "<pad>",
+    bos_token = "<s>",
+    eos_token = "</s>",
+)
+# Save the HF-compliant tokeniser
+hf_tokeniser.save_pretrained("src/tokeniser/")