stmasson
/

training-scripts

stmasson commited on Dec 26, 2025

Commit

ebb6ddd

verified ·

1 Parent(s): 5476247

Upload scripts/train_alizee_v2_stage1_sft.py with huggingface_hub

Files changed (1) hide show

scripts/train_alizee_v2_stage1_sft.py CHANGED Viewed

@@ -37,7 +37,9 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from trl import SFTTrainer, SFTConfig
 # Configuration
-MODEL_NAME = "stmasson/alizee-coder-devstral-1-small"
 OUTPUT_REPO = "stmasson/alizee-coder-devstral-2-small-stage1"
 FINAL_REPO = "stmasson/alizee-coder-devstral-2-small"
@@ -57,14 +59,14 @@ CODING_RATIO = 0.15
 print("=" * 60)
 print("Stage 1: Reasoning Distillation via SFT")
 print("=" * 60)
-print(f"Base model: {MODEL_NAME}")
 print(f"Output: {OUTPUT_REPO}")
 print(f"Data mix: {REASONING_RATIO*100}% reasoning + {CODING_RATIO*100}% coding")
 print("=" * 60)
 # Load tokenizer
 print("\n📝 Loading tokenizer...")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 tokenizer.padding_side = "right"
@@ -81,7 +83,7 @@ bnb_config = BitsAndBytesConfig(
 # Load model
 print("\n🔄 Loading model with QLoRA...")
 model = AutoModelForCausalLM.from_pretrained(
-    MODEL_NAME,
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True,

 from trl import SFTTrainer, SFTConfig
 # Configuration
+# Use the base Devstral model directly (v1 was LoRA adapter only)
+# Starting fresh with much larger dataset (736K vs 10K in v1)
+BASE_MODEL = "mistralai/Devstral-Small-2505"
 OUTPUT_REPO = "stmasson/alizee-coder-devstral-2-small-stage1"
 FINAL_REPO = "stmasson/alizee-coder-devstral-2-small"
 print("=" * 60)
 print("Stage 1: Reasoning Distillation via SFT")
 print("=" * 60)
+print(f"Base model: {BASE_MODEL}")
 print(f"Output: {OUTPUT_REPO}")
 print(f"Data mix: {REASONING_RATIO*100}% reasoning + {CODING_RATIO*100}% coding")
 print("=" * 60)
 # Load tokenizer
 print("\n📝 Loading tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 tokenizer.padding_side = "right"
 # Load model
 print("\n🔄 Loading model with QLoRA...")
 model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True,