wlabchoi
/

training-scripts

Model card Files Files and versions

xet

Community

wlabchoi commited on Dec 11, 2025

Commit

6eb1b0c

verified ·

1 Parent(s): ca616f3

Upload train_qwen3_wirelessmath.py with huggingface_hub

Browse files

Files changed (1) hide show

train_qwen3_wirelessmath.py +122 -23

train_qwen3_wirelessmath.py CHANGED Viewed

@@ -7,16 +7,18 @@ import torch
 from datasets import load_dataset
 from peft import LoraConfig
 from trl import SFTTrainer, SFTConfig
 import trackio
 # Disable tokenizer parallelism warning
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
-print("="*50)
 print("Fine-tuning Qwen3-0.6B on WirelessMATHBench-XL")
-print("Method: SFT with LoRA")
 print("Dataset: Wireless Communications Math")
-print("="*50)
 # Load WirelessMATHBench-XL dataset
 print("\nLoading WirelessMATHBench-XL dataset...")
@@ -26,24 +28,112 @@ eval_dataset = load_dataset('XINLI1997/WirelessMATHBench-XL', split='test')
 print(f"Train examples: {len(train_dataset)}")
 print(f"Eval examples: {len(eval_dataset)}")
 def format_for_sft(example):
-    """
-    Convert WirelessMATHBench-XL format to chat messages
-    Dataset has: prompt (pre-formatted), correct_answer, and other fields
-    """
-    # Use the pre-formatted prompt
     prompt = example['prompt']
-    answer = example['correct_answer']
-    # Create chat format
     messages = [
         {'role': 'user', 'content': prompt},
-        {'role': 'assistant', 'content': answer}
     ]
     return {'messages': messages}
-print("Preprocessing dataset...")
 train_dataset = train_dataset.map(
     format_for_sft,
     remove_columns=train_dataset.column_names
@@ -53,6 +143,8 @@ eval_dataset = eval_dataset.map(
     remove_columns=eval_dataset.column_names
 )
 # Configure LoRA for efficient fine-tuning
 print("\nConfiguring LoRA...")
 peft_config = LoraConfig(
@@ -91,7 +183,7 @@ training_args = SFTConfig(
     # Logging and monitoring
     logging_steps=10,
     report_to="trackio",
-    run_name="qwen3-0.6b-wireless-math",
     project="wireless-math-finetuning",
     # Memory optimization
@@ -100,7 +192,7 @@ training_args = SFTConfig(
     # Hub integration
     push_to_hub=True,
-    hub_model_id="wlabchoi/qwen3-0.6b-wireless-math",
     hub_strategy="every_save",
     hub_private_repo=False,
@@ -120,21 +212,28 @@ trainer = SFTTrainer(
 )
 # Start training
-print("\n" + "="*50)
-print("Starting Fine-Tuning...")
 print(f"Model: Qwen3-0.6B")
-print(f"Dataset: WirelessMATHBench-XL")
 print(f"Train: {len(train_dataset)} examples")
 print(f"Eval: {len(eval_dataset)} examples")
 print(f"Epochs: 3")
-print("="*50 + "\n")
 trainer.train()
 # Push final model to Hub
 print("\nPushing final model to Hub...")
-trainer.push_to_hub(commit_message="Fine-tuning complete - Qwen3-0.6B on WirelessMATHBench-XL")
-print("\n" + "="*50)
-print("Fine-Tuning Completed Successfully!")
-print("="*50)

 from datasets import load_dataset
 from peft import LoraConfig
 from trl import SFTTrainer, SFTConfig
+from transformers import AutoModelForCausalLM, AutoTokenizer
 import trackio
 # Disable tokenizer parallelism warning
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
+print("="*60)
 print("Fine-tuning Qwen3-0.6B on WirelessMATHBench-XL")
+print("Method: SFT with LoRA + Reasoning Generation")
 print("Dataset: Wireless Communications Math")
+print("Fix: Preserves <think></think> capability")
+print("="*60)
 # Load WirelessMATHBench-XL dataset
 print("\nLoading WirelessMATHBench-XL dataset...")
 print(f"Train examples: {len(train_dataset)}")
 print(f"Eval examples: {len(eval_dataset)}")
+# Load Teacher Model for Reasoning Generation (Preprocessing Step)
+TEACHER_MODEL = "Qwen/Qwen2.5-3B-Instruct"
+print(f"\n{'='*60}")
+print(f"STEP 1: Generating Reasoning Steps (Preserves <think></think>)")
+print(f"Teacher Model: {TEACHER_MODEL}")
+print(f"{'='*60}")
+teacher_tokenizer = AutoTokenizer.from_pretrained(TEACHER_MODEL, trust_remote_code=True)
+teacher_model = AutoModelForCausalLM.from_pretrained(
+    TEACHER_MODEL,
+    torch_dtype=torch.bfloat16,
+    device_map="auto",
+    trust_remote_code=True,
+)
+teacher_model.eval()
+print("✓ Teacher model loaded for reasoning generation\n")
+def generate_reasoning_batch(examples):
+    """Generate reasoning steps using teacher model (batch processing)"""
+    prompts = examples['prompt']
+    answers = examples['correct_answer']
+    # Create reasoning prompts
+    reasoning_prompts = []
+    for prompt in prompts:
+        reasoning_prompt = f"""<|im_start|>user
+{prompt}
+Solve step-by-step. Put reasoning in <think></think> tags, then give final answer.<|im_end|>
+<|im_start|>assistant
+<think>"""
+        reasoning_prompts.append(reasoning_prompt)
+    # Generate with teacher
+    inputs = teacher_tokenizer(
+        reasoning_prompts,
+        return_tensors="pt",
+        padding=True,
+        truncation=True,
+        max_length=512
+    ).to(teacher_model.device)
+    with torch.no_grad():
+        outputs = teacher_model.generate(
+            **inputs,
+            max_new_tokens=300,
+            do_sample=False,
+            pad_token_id=teacher_tokenizer.pad_token_id,
+        )
+    # Process responses
+    responses_with_reasoning = []
+    for i, output in enumerate(outputs):
+        generated_ids = output[inputs['input_ids'][i].shape[0]:]
+        response = teacher_tokenizer.decode(generated_ids, skip_special_tokens=False)
+        # Ensure format: <think>reasoning</think>\n\nanswer
+        if '</think>' not in response:
+            response = response.strip() + f"\n</think>\n\n{answers[i]}"
+        elif answers[i] not in response:
+            response = response.strip() + f"\n\n{answers[i]}"
+        responses_with_reasoning.append(response)
+    return {"reasoning_answer": responses_with_reasoning}
+print("Generating reasoning for training set (this may take time)...")
+train_dataset = train_dataset.map(
+    generate_reasoning_batch,
+    batched=True,
+    batch_size=4,
+    desc="Generating reasoning"
+)
+print("Generating reasoning for eval set...")
+eval_dataset = eval_dataset.map(
+    generate_reasoning_batch,
+    batched=True,
+    batch_size=4,
+    desc="Generating reasoning"
+)
+print("✓ Reasoning generation complete!\n")
+# Clean up teacher model to free memory
+del teacher_model
+del teacher_tokenizer
+torch.cuda.empty_cache()
+print("✓ Teacher model unloaded\n")
 def format_for_sft(example):
+    """Format augmented data for SFT training"""
     prompt = example['prompt']
+    answer_with_reasoning = example['reasoning_answer']
     messages = [
         {'role': 'user', 'content': prompt},
+        {'role': 'assistant', 'content': answer_with_reasoning}
     ]
     return {'messages': messages}
+print(f"{'='*60}")
+print(f"STEP 2: Formatting for SFT Training")
+print(f"{'='*60}\n")
 train_dataset = train_dataset.map(
     format_for_sft,
     remove_columns=train_dataset.column_names
     remove_columns=eval_dataset.column_names
 )
+print("✓ Dataset formatted with reasoning preserved")
 # Configure LoRA for efficient fine-tuning
 print("\nConfiguring LoRA...")
 peft_config = LoraConfig(
     # Logging and monitoring
     logging_steps=10,
     report_to="trackio",
+    run_name="qwen3-0.6b-wireless-math-reasoning",
     project="wireless-math-finetuning",
     # Memory optimization
     # Hub integration
     push_to_hub=True,
+    hub_model_id="wlabchoi/qwen3-0.6b-wireless-math-reasoning",
     hub_strategy="every_save",
     hub_private_repo=False,
 )
 # Start training
+print("\n" + "="*60)
+print("STEP 3: SFT Training on Reasoning-Augmented Data")
+print("="*60)
 print(f"Model: Qwen3-0.6B")
+print(f"Dataset: WirelessMATHBench-XL (with generated reasoning)")
 print(f"Train: {len(train_dataset)} examples")
 print(f"Eval: {len(eval_dataset)} examples")
 print(f"Epochs: 3")
+print(f"Result: Model preserves <think></think> capability")
+print("="*60 + "\n")
 trainer.train()
 # Push final model to Hub
 print("\nPushing final model to Hub...")
+trainer.push_to_hub(commit_message="SFT complete - Qwen3-0.6B on WirelessMATH with reasoning preservation")
+print("\n" + "="*60)
+print("✓ Fine-Tuning Complete - Reasoning Preserved!")
+print("="*60)
+print("Model now:")
+print("  ✓ Knows wireless communications mathematics")
+print("  ✓ Maintains <think></think> chain-of-thought")
+print("  ✓ Shows reasoning steps before answers")
+print("="*60)