Spaces:

Percy3822
/

model_trainer

Sleeping

Percy3822 commited on Aug 7, 2025

Commit

2ba6539

verified ·

1 Parent(s): f1a2964

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -1,48 +1,46 @@
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
-import os
-# Load dataset
 dataset = load_dataset("json", data_files="python.jsonl")
-# Load tokenizer and model
 tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
-tokenizer.pad_token = tokenizer.eos_token
 model = AutoModelForCausalLM.from_pretrained("distilgpt2")
 model.config.pad_token_id = tokenizer.pad_token_id
-# Tokenization function
-def tokenize_function(example):
     full_text = example["prompt"] + example["completion"]
-    tokens = tokenizer(full_text, truncation=True, padding="max_length", max_length=512)
     tokens["labels"] = tokens["input_ids"].copy()
     return tokens
 # Tokenize dataset
-tokenized_dataset = dataset["train"].map(tokenize_function)
-# Training arguments
 training_args = TrainingArguments(
-    output_dir="./results",
-    per_device_train_batch_size=2,
     num_train_epochs=1,
     logging_steps=10,
     save_strategy="epoch",
-    logging_dir="./logs",
-    report_to="none"
 )
-# Trainer setup
 trainer = Trainer(
     model=model,
     args=training_args,
     train_dataset=tokenized_dataset,
-    tokenizer=tokenizer,
 )
-# Start training
 trainer.train()
-# Save final model
 trainer.save_model("trained_model")
 tokenizer.save_pretrained("trained_model")

 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
+# Load your dataset
 dataset = load_dataset("json", data_files="python.jsonl")
+# Load model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
 model = AutoModelForCausalLM.from_pretrained("distilgpt2")
+# Add pad token if needed
+tokenizer.pad_token = tokenizer.eos_token
 model.config.pad_token_id = tokenizer.pad_token_id
+# Tokenize function
+def tokenize(example):
     full_text = example["prompt"] + example["completion"]
+    tokens = tokenizer(full_text, padding="max_length", truncation=True, max_length=512)
     tokens["labels"] = tokens["input_ids"].copy()
     return tokens
 # Tokenize dataset
+tokenized_dataset = dataset["train"].map(tokenize)
+# Training settings
 training_args = TrainingArguments(
+    output_dir="trained_model",
     num_train_epochs=1,
+    per_device_train_batch_size=2,
     logging_steps=10,
     save_strategy="epoch",
+    push_to_hub=False,
 )
+# Trainer
 trainer = Trainer(
     model=model,
+    tokenizer=tokenizer,
     args=training_args,
     train_dataset=tokenized_dataset,
 )
+# Train and save
 trainer.train()
 trainer.save_model("trained_model")
 tokenizer.save_pretrained("trained_model")