stmasson
/

training-scripts

stmasson commited on Dec 26, 2025

Commit

6438e23

verified ·

1 Parent(s): ebb6ddd

Upload scripts/train_alizee_v2_stage1_sft.py with huggingface_hub

Files changed (1) hide show

scripts/train_alizee_v2_stage1_sft.py CHANGED Viewed

@@ -9,6 +9,8 @@
 #     "bitsandbytes>=0.45.0",
 #     "trackio",
 #     "datasets>=3.0.0",
 # ]
 # ///
@@ -66,7 +68,11 @@ print("=" * 60)
 # Load tokenizer
 print("\n📝 Loading tokenizer...")
-tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 tokenizer.padding_side = "right"

 #     "bitsandbytes>=0.45.0",
 #     "trackio",
 #     "datasets>=3.0.0",
+#     "protobuf>=3.20.0",
+#     "sentencepiece>=0.2.0",
 # ]
 # ///
 # Load tokenizer
 print("\n📝 Loading tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(
+    BASE_MODEL,
+    trust_remote_code=True,
+    use_fast=False,  # Use slow tokenizer to avoid conversion issues
+)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 tokenizer.padding_side = "right"