Spaces:
Paused
Paused
Update finetunning.py
Browse files- finetunning.py +6 -6
finetunning.py
CHANGED
|
@@ -30,19 +30,19 @@ model = AutoModelForCausalLM.from_pretrained(model_name)
|
|
| 30 |
|
| 31 |
# Завантаження датасета (приклад з використанням датасета wiki_text)
|
| 32 |
# dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
|
| 33 |
-
dataset = load_dataset("Aniemore/resd")
|
| 34 |
|
| 35 |
# Завантаження данних з локального тестового файлу
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
|
| 39 |
|
| 40 |
# Функція для токенізації данних
|
| 41 |
def tokenize_function(examples):
|
| 42 |
-
return tokenizer(examples["
|
| 43 |
|
| 44 |
# Токенізация датасету
|
| 45 |
-
tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=
|
| 46 |
|
| 47 |
# Створення data collator
|
| 48 |
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
|
|
|
|
| 30 |
|
| 31 |
# Завантаження датасета (приклад з використанням датасета wiki_text)
|
| 32 |
# dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")
|
| 33 |
+
# dataset = load_dataset("Aniemore/resd")
|
| 34 |
|
| 35 |
# Завантаження данних з локального тестового файлу
|
| 36 |
+
with open("m_and_m.txt", "r", encoding="utf-8") as file:
|
| 37 |
+
text_data = file.read().strip()
|
| 38 |
+
dataset = Dataset.from_dict({"text": [text_data]})
|
| 39 |
|
| 40 |
# Функція для токенізації данних
|
| 41 |
def tokenize_function(examples):
|
| 42 |
+
return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)
|
| 43 |
|
| 44 |
# Токенізация датасету
|
| 45 |
+
tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)
|
| 46 |
|
| 47 |
# Створення data collator
|
| 48 |
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
|