Spaces:

Percy3822
/

model_trainer

Sleeping

Percy3822 commited on Aug 7, 2025

Commit

de3a096

verified ·

1 Parent(s): 23b4c59

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -12,14 +12,17 @@ model = AutoModelForCausalLM.from_pretrained("distilgpt2")
 tokenizer.pad_token = tokenizer.eos_token
 model.config.pad_token_id = tokenizer.pad_token_id
-# Tokenize data
 def tokenize_function(example):
     full_text = example["prompt"] + example["completion"]
-    return tokenizer(full_text, truncation=True, padding="max_length", max_length=512)
 tokenized_dataset = dataset["train"].map(tokenize_function)
-# Training config
 training_args = TrainingArguments(
     output_dir="./results",
     per_device_train_batch_size=2,
@@ -39,6 +42,6 @@ trainer = Trainer(
 # Train
 trainer.train()
-# ✅ Save model & tokenizer
 trainer.save_model("trained_model")
 tokenizer.save_pretrained("trained_model")

 tokenizer.pad_token = tokenizer.eos_token
 model.config.pad_token_id = tokenizer.pad_token_id
+# Tokenize function: provide input_ids + labels (needed for loss)
 def tokenize_function(example):
     full_text = example["prompt"] + example["completion"]
+    tokens = tokenizer(full_text, truncation=True, padding="max_length", max_length=512)
+    tokens["labels"] = tokens["input_ids"].copy()  # 👈 labels = input_ids for language modeling
+    return tokens
+# Tokenize
 tokenized_dataset = dataset["train"].map(tokenize_function)
+# Training configuration
 training_args = TrainingArguments(
     output_dir="./results",
     per_device_train_batch_size=2,
 # Train
 trainer.train()
+# Save model and tokenizer
 trainer.save_model("trained_model")
 tokenizer.save_pretrained("trained_model")