Spaces:

Percy3822
/

model_trainer

Sleeping

Percy3822 commited on Aug 7, 2025

Commit

62af157

verified ·

1 Parent(s): 34a9738

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -1,37 +1,38 @@
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
-# Load your dataset
 dataset = load_dataset("json", data_files="python.jsonl")
 # Load tokenizer and model
 tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
-model = AutoModelForCausalLM.from_pretrained("distilgpt2")
-# Add padding token if missing
 tokenizer.pad_token = tokenizer.eos_token
 model.config.pad_token_id = tokenizer.pad_token_id
-# Tokenize function
 def tokenize_function(example):
     full_text = example["prompt"] + example["completion"]
     tokens = tokenizer(full_text, truncation=True, padding="max_length", max_length=512)
     tokens["labels"] = tokens["input_ids"].copy()
     return tokens
-# Tokenize
 tokenized_dataset = dataset["train"].map(tokenize_function)
-# Training configuration
 training_args = TrainingArguments(
     output_dir="./results",
     per_device_train_batch_size=2,
     num_train_epochs=1,
     logging_steps=10,
-    save_strategy="no",
 )
-# Trainer
 trainer = Trainer(
     model=model,
     args=training_args,
@@ -39,9 +40,9 @@ trainer = Trainer(
     tokenizer=tokenizer,
 )
-# Train
 trainer.train()
-# Save model and tokenizer
 trainer.save_model("trained_model")
 tokenizer.save_pretrained("trained_model")

 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
+import os
+# Load dataset
 dataset = load_dataset("json", data_files="python.jsonl")
 # Load tokenizer and model
 tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
 tokenizer.pad_token = tokenizer.eos_token
+model = AutoModelForCausalLM.from_pretrained("distilgpt2")
 model.config.pad_token_id = tokenizer.pad_token_id
+# Tokenization function
 def tokenize_function(example):
     full_text = example["prompt"] + example["completion"]
     tokens = tokenizer(full_text, truncation=True, padding="max_length", max_length=512)
     tokens["labels"] = tokens["input_ids"].copy()
     return tokens
+# Tokenize dataset
 tokenized_dataset = dataset["train"].map(tokenize_function)
+# Training arguments
 training_args = TrainingArguments(
     output_dir="./results",
     per_device_train_batch_size=2,
     num_train_epochs=1,
     logging_steps=10,
+    save_strategy="epoch",
+    logging_dir="./logs",
+    report_to="none"
 )
+# Trainer setup
 trainer = Trainer(
     model=model,
     args=training_args,
     tokenizer=tokenizer,
 )
+# Start training
 trainer.train()
+# Save final model
 trainer.save_model("trained_model")
 tokenizer.save_pretrained("trained_model")