sunkencity
/

training-scripts

sunkencity commited on Dec 10, 2025

Commit

afbbcb3

verified ·

1 Parent(s): bfbfcaf

Upload train_aviation.py with huggingface_hub

Files changed (1) hide show

train_aviation.py CHANGED Viewed

@@ -18,21 +18,23 @@ import os
 from huggingface_hub import list_repo_files
 # DEBUG: Check token and repo access
-print("🔍 DIAGNOSTICS:")
-token = os.environ.get("HF_TOKEN")
-print(f"   HF_TOKEN env var present: {bool(token)}")
-if token:
-    print(f"   HF_TOKEN prefix: {token[:4]}...")
 model_id = "mistralai/Ministral-3-14B-Reasoning-2512"
-try:
-    print(f"   Attempting to list files for {model_id}...")
-    files = list_repo_files(model_id, token=token)
-    print(f"   ✅ Success! Found {len(files)} files.")
-    print(f"   First 5 files: {files[:5]}")
-except Exception as e:
-    print(f"   ❌ Failed to list repo files: {e}")
-print("="*40)
 from datasets import load_dataset
 from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model
@@ -40,6 +42,7 @@ from trl import SFTTrainer, SFTConfig
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, AutoConfig
 # Register 'ministral3' config to handle nested text_config
 print("🔧 Registering ministral3 config (Monkey Patch Strategy)...")
 try:
     from transformers import MinistralConfig, AutoConfig
@@ -174,7 +177,7 @@ trainer = SFTTrainer(
     eval_dataset=eval_dataset,
     args=config,
     peft_config=peft_config,
-    tokenizer=tokenizer,
 )
 print("🚀 Starting training...")

 from huggingface_hub import list_repo_files
 # DEBUG: Check token and repo access
+# print("🔍 DIAGNOSTICS:")
+# token = os.environ.get("HF_TOKEN")
+# print(f"   HF_TOKEN env var present: {bool(token)}")
+# if token:
+#     print(f"   HF_TOKEN prefix: {token[:4]}...")
+# model_id = "mistralai/Ministral-3-14B-Reasoning-2512"
+# try:
+#     print(f"   Attempting to list files for {model_id}...")
+#     files = list_repo_files(model_id, token=token)
+#     print(f"   ✅ Success! Found {len(files)} files.")
+#     print(f"   First 5 files: {files[:5]}")
+# except Exception as e:
+#     print(f"   ❌ Failed to list repo files: {e}")
+# print("="*40)
 model_id = "mistralai/Ministral-3-14B-Reasoning-2512"
 from datasets import load_dataset
 from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, AutoConfig
 # Register 'ministral3' config to handle nested text_config
+# ... (rest of registration logic)
 print("🔧 Registering ministral3 config (Monkey Patch Strategy)...")
 try:
     from transformers import MinistralConfig, AutoConfig
     eval_dataset=eval_dataset,
     args=config,
     peft_config=peft_config,
+    processing_class=tokenizer,
 )
 print("🚀 Starting training...")