Commit ·
18cf0a2
1
Parent(s): 41b6507
Including changes for the upcoming inclusion of validation metrics
Browse files- README.md +1 -1
- src/train_t5.py +11 -2
README.md
CHANGED
|
@@ -134,7 +134,7 @@ KazParC деректер жинағын жүктеп алу үшін сізге
|
|
| 134 |
|
| 135 |
- **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
|
| 136 |
|
| 137 |
-
- **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning
|
| 138 |
|
| 139 |
---
|
| 140 |
|
|
|
|
| 134 |
|
| 135 |
- **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
|
| 136 |
|
| 137 |
+
- **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning taking place as of April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
|
| 138 |
|
| 139 |
---
|
| 140 |
|
src/train_t5.py
CHANGED
|
@@ -41,7 +41,15 @@ def tokenise_function(example: dict) -> T5TokenizerFast:
|
|
| 41 |
|
| 42 |
# Load dataset
|
| 43 |
dataset = load_dataset("json", data_files = data_path, split = "train")
|
| 44 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 45 |
|
| 46 |
# Data collator
|
| 47 |
data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
|
|
@@ -64,7 +72,8 @@ training_args = TrainingArguments(
|
|
| 64 |
trainer = Trainer(
|
| 65 |
model = model,
|
| 66 |
args = training_args,
|
| 67 |
-
train_dataset =
|
|
|
|
| 68 |
data_collator = data_collator,
|
| 69 |
processing_class = tokeniser
|
| 70 |
)
|
|
|
|
| 41 |
|
| 42 |
# Load dataset
|
| 43 |
dataset = load_dataset("json", data_files = data_path, split = "train")
|
| 44 |
+
|
| 45 |
+
# Split dataset into train and validation sets (75/25 split)
|
| 46 |
+
dataset_split = dataset.train_test_split(test_size = 0.25)
|
| 47 |
+
train_dataset = dataset_split["train"]
|
| 48 |
+
val_dataset = dataset_split["test"]
|
| 49 |
+
|
| 50 |
+
# Tokenise datasets
|
| 51 |
+
tokenised_train = train_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
|
| 52 |
+
tokenised_eval = val_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
|
| 53 |
|
| 54 |
# Data collator
|
| 55 |
data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
|
|
|
|
| 72 |
trainer = Trainer(
|
| 73 |
model = model,
|
| 74 |
args = training_args,
|
| 75 |
+
train_dataset = tokenised_train,
|
| 76 |
+
eval_dataset = tokenised_eval,
|
| 77 |
data_collator = data_collator,
|
| 78 |
processing_class = tokeniser
|
| 79 |
)
|