papebaba
/

training-scripts

papebaba commited on Dec 10, 2025

Commit

cb94b3f

verified ·

1 Parent(s): 8ef6f5a

Upload train_qwen_codeforces.py with huggingface_hub

Files changed (1) hide show

train_qwen_codeforces.py CHANGED Viewed

@@ -15,24 +15,28 @@ dataset = load_dataset(
     "solutions_w_editorials_py_decontaminated",
     split="train[:1000]"
 )
-print(f"📊 Training on {len(dataset)} examples for 3 epochs")
 # Load tokenizer to get chat template
 print("🔤 Loading tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
-# Define formatting function for messages
-def formatting_func(example):
     """Convert messages format to text using chat template."""
     if "messages" in example and example["messages"]:
-        # Use the tokenizer's chat template to format messages
         text = tokenizer.apply_chat_template(
             example["messages"],
             tokenize=False,
             add_generation_prompt=False
         )
-        return text
-    return ""
 # LoRA configuration for efficient training
 peft_config = LoraConfig(
@@ -78,14 +82,14 @@ config = SFTConfig(
     run_name="qwen-codeforces-sft-1k",
 )
-# Initialize trainer
 print("🎯 Initializing trainer...")
 trainer = SFTTrainer(
     model="Qwen/Qwen2.5-0.5B",
     train_dataset=dataset,
     args=config,
     peft_config=peft_config,
-    formatting_func=formatting_func,  # Use formatting function for messages
 )
 # Train

     "solutions_w_editorials_py_decontaminated",
     split="train[:1000]"
 )
+print(f"📊 Loaded {len(dataset)} examples")
 # Load tokenizer to get chat template
 print("🔤 Loading tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
+# Pre-process dataset - convert messages to text format
+print("🔄 Converting messages to text format...")
+def convert_messages_to_text(example):
     """Convert messages format to text using chat template."""
     if "messages" in example and example["messages"]:
         text = tokenizer.apply_chat_template(
             example["messages"],
             tokenize=False,
             add_generation_prompt=False
         )
+        return {"text": text}
+    return {"text": ""}
+# Apply the conversion
+dataset = dataset.map(convert_messages_to_text, remove_columns=dataset.column_names)
+print(f"✅ Dataset preprocessed - training on {len(dataset)} examples for 3 epochs")
 # LoRA configuration for efficient training
 peft_config = LoraConfig(
     run_name="qwen-codeforces-sft-1k",
 )
+# Initialize trainer with preprocessed dataset
 print("🎯 Initializing trainer...")
 trainer = SFTTrainer(
     model="Qwen/Qwen2.5-0.5B",
     train_dataset=dataset,
     args=config,
     peft_config=peft_config,
+    dataset_text_field="text",  # Use the text field we created
 )
 # Train