Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Apr 1, 2025

Commit

c398762

verified ·

1 Parent(s): 72577d1

Update train_tokenizer.py

Browse files

Files changed (1) hide show

train_tokenizer.py +29 -41

train_tokenizer.py CHANGED Viewed

@@ -2,45 +2,33 @@
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 import os
-def train_tokenizer(iterator, vocab_size=50000, min_frequency=3, output_dir="tokenizer_model"):
-    """
-    Εκπαιδεύει έναν Tokenizer τύπου BPE και αποθηκεύει το αποτέλεσμα.
-    """
     print("🔄 Ξεκινάει η εκπαίδευση του tokenizer...")
-    # Δημιουργία του Tokenizer με μοντέλο BPE και ορισμό token για άγνωστα
-    tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
-    # Normalization για ελληνικά και Unicode (διατηρεί τους τόνους)
-    tokenizer.normalizer = normalizers.NFC()
-    # Προ-tokenizer για μικτά κείμενα (ελληνικά και αγγλικά)
-    tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
-        pre_tokenizers.WhitespaceSplit(),
-        pre_tokenizers.Punctuation(),
-        pre_tokenizers.Digits(individual_digits=True)
-    ])
-    # Ορισμός ειδικών tokens
-    trainer = trainers.BpeTrainer(
-        vocab_size=vocab_size,
-        min_frequency=min_frequency,
-        special_tokens=["<|endoftext|>", "<pad>", "<unk>", "<mask>", "[CITATION]"],
-        continuing_subword_prefix=""
-    )
-    # Εκπαίδευση του tokenizer
-    tokenizer.train_from_iterator(iterator, trainer=trainer)
-    tokenizer.decoder = decoders.ByteLevel()
-    # Δημιουργία φακέλου αποθήκευσης αν δεν υπάρχει
-    if not os.path.exists(output_dir):
-        os.makedirs(output_dir)
-    # Αποθήκευση του tokenizer
-    tokenizer.save(os.path.join(output_dir, "tokenizer.json"))
-    tokenizer.model.save(output_dir)  # Αποθηκεύει vocab.json και merges.txt
-    print(f"✅ Ο tokenizer αποθηκεύτηκε στον φάκελο '{output_dir}'!")
-    return tokenizer

 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 import os
+def train_tokenizer(iterator, vocab_size=50000, min_frequency=3, output_dir="tokenizer_model", num_threads=4):
+    """Εκπαιδεύει έναν BPE tokenizer και τον αποθηκεύει."""
     print("🔄 Ξεκινάει η εκπαίδευση του tokenizer...")
+    try:
+        tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
+        tokenizer.normalizer = normalizers.NFC()  # Υποστήριξη Unicode UTF-8 για ελληνικούς τόνους
+        tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
+            pre_tokenizers.WhitespaceSplit(),
+            pre_tokenizers.Punctuation(),
+            pre_tokenizers.Digits(individual_digits=True)
+        ])
+        trainer = trainers.BpeTrainer(
+            vocab_size=vocab_size,
+            min_frequency=min_frequency,
+            special_tokens=["<|endoftext|>", "<pad>", "<unk>", "<mask>", "[CITATION]", "[CODE_START]", "[CODE_END]"],
+            continuing_subword_prefix=""
+        )
+        print(f"📏 Μέγεθος λεξιλογίου: {vocab_size}, Ελάχιστη συχνότητα: {min_frequency}")
+        tokenizer.train_from_iterator(iterator, trainer=trainer, num_threads=num_threads)
+        tokenizer.decoder = decoders.ByteLevel()
+        if not os.path.exists(output_dir):
+            os.makedirs(output_dir)
+            print(f"📂 Δημιουργήθηκε φάκελος: {output_dir}")
+        tokenizer.save(os.path.join(output_dir, "tokenizer.json"))
+        tokenizer.model.save(output_dir)
+        print(f"✅ Ο tokenizer αποθηκεύτηκε στον φάκελο '{output_dir}'!")
+        return tokenizer
+    except Exception as e:
+        print(f"❌ Σφάλμα κατά την αποθήκευση: {e}")
+        raise