stmasson
/

training-scripts

stmasson commited on Dec 25, 2025

Commit

5476247

verified ·

1 Parent(s): 285df1b

Upload scripts/train_alizee_v2_stage1_sft.py with huggingface_hub

Files changed (1) hide show

scripts/train_alizee_v2_stage1_sft.py CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/usr/bin/env python3
 # /// script
 # dependencies = [
 #     "trl>=0.17.0",
 #     "peft>=0.14.0",
 #     "transformers>=4.48.0",
@@ -8,7 +9,6 @@
 #     "bitsandbytes>=0.45.0",
 #     "trackio",
 #     "datasets>=3.0.0",
-#     "flash-attn>=2.5.0",
 # ]
 # ///
@@ -85,7 +85,7 @@ model = AutoModelForCausalLM.from_pretrained(
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True,
-    attn_implementation="flash_attention_2",
     torch_dtype="auto",
 )
 model = prepare_model_for_kbit_training(model)

 #!/usr/bin/env python3
 # /// script
 # dependencies = [
+#     "torch>=2.2.0",
 #     "trl>=0.17.0",
 #     "peft>=0.14.0",
 #     "transformers>=4.48.0",
 #     "bitsandbytes>=0.45.0",
 #     "trackio",
 #     "datasets>=3.0.0",
 # ]
 # ///
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True,
+    attn_implementation="sdpa",  # Use PyTorch's built-in SDPA
     torch_dtype="auto",
 )
 model = prepare_model_for_kbit_training(model)