sunkencity
/

training-scripts

Model card Files Files and versions

xet

Community

sunkencity commited on Dec 10, 2025

Commit

3b8ec8c

verified ·

1 Parent(s): 33b1a64

Upload train_aviation.py with huggingface_hub

Browse files

Files changed (1) hide show

train_aviation.py +56 -68

train_aviation.py CHANGED Viewed

@@ -17,65 +17,76 @@ import torch
 import os
 from huggingface_hub import list_repo_files
-model_id = "mistralai/Ministral-3-14B-Reasoning-2512" # Defined at top level
 from datasets import load_dataset
 from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model
 from trl import SFTTrainer, SFTConfig
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, AutoConfig, MistralConfig, MinistralModel, AutoModel
-# Explicitly register 'ministral3' model type to MistralConfig for the nested text config
-class RegistrableMinistralConfig(MistralConfig): # Subclass from MistralConfig (base)
-    model_type = "ministral3"
-AutoConfig.register("ministral3", RegistrableMinistralConfig)
-print("🔧 Registered 'ministral3' to RegistrableMinistralConfig.")
-# Register RegistrableMinistralConfig with AutoModel so Mistral3Model can load its language_model
 try:
-    AutoModel.register(RegistrableMinistralConfig, MinistralModel)
-    print("🔧 Registered RegistrableMinistralConfig to MinistralModel for AutoModel.")
-except Exception as e:
-    print(f"   ❌ Failed to register RegistrableMinistralConfig with AutoModel: {e}")
-# Register Mistral3Config to its model class for AutoModelForCausalLM
-print("🔧 Registering Mistral3 model class with AutoModelForCausalLM...")
-try:
-    from transformers.models.mistral3.configuration_mistral3 import Mistral3Config
-    from transformers.models.mistral3.modeling_mistral3 import Mistral3ForConditionalGeneration
-    AutoModelForCausalLM.register(Mistral3Config, Mistral3ForConditionalGeneration)
-    print("   Registered Mistral3Config -> Mistral3ForConditionalGeneration")
 except ImportError as e:
-    print(f"   ❌ Failed to import Mistral3 modeling classes: {e}")
-    print("   Attempting fallback registration for Mistral3Config with standard MistralForCausalLM.")
-    from transformers import MistralForCausalLM
-    try:
-        AutoModelForCausalLM.register(Mistral3Config, MistralForCausalLM)
-        print("   Registered Mistral3Config -> MistralForCausalLM (fallback)")
-    except Exception as fallback_e:
-        print(f"   ❌ Fallback registration also failed: {fallback_e}")
 # Load dataset
 print("📦 Loading dataset...")
 dataset = load_dataset("sakharamg/AviationQA", split="train")
-# Limit dataset size for reasonable training time (e.g., 10k examples)
-# 1M rows is too large for a single generic fine-tuning job without massive compute.
 print("✂️ Subsampling dataset to 10,000 examples for efficiency...")
-dataset = dataset.shuffle(seed=42).select(range(12000)) # Take slightly more to account for filtering
-# Filter out empty/null examples to prevent chat template errors
 print("🧹 Filtering invalid examples...")
 dataset = dataset.filter(lambda x: x["Question"] and x["Answer"] and len(x["Question"].strip()) > 0 and len(x["Answer"].strip()) > 0)
-print(f"   Remaining examples after filtering: {len(dataset)}")
-# Limit to final count
 if len(dataset) > 10000:
     dataset = dataset.select(range(10000))
-# Map to chat format
 print("🔄 Mapping dataset...")
 def to_messages(example):
     return {
@@ -86,13 +97,11 @@ def to_messages(example):
     }
 dataset = dataset.map(to_messages, remove_columns=dataset.column_names)
-# Split
 print("🔀 Creating train/eval split...")
 dataset_split = dataset.train_test_split(test_size=0.1, seed=42)
 train_dataset = dataset_split["train"]
 eval_dataset = dataset_split["test"]
-# Quantization Config (4-bit for memory efficiency)
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
@@ -100,42 +109,23 @@ bnb_config = BitsAndBytesConfig(
     bnb_4bit_use_double_quant=True,
 )
-# Load config first
-print(f"🤖 Loading config for {model_id}...")
-config = AutoConfig.from_pretrained(model_id)
-# Patch text_config to include sliding_window and layer_types
-print("🔧 Patching config.text_config...")
-if hasattr(config, 'text_config'):
-    if not hasattr(config.text_config, 'sliding_window') or config.text_config.sliding_window is None:
-        config.text_config.sliding_window = 4096
-        print("   Set config.text_config.sliding_window = 4096")
-    if not hasattr(config.text_config, 'layer_types'):
-        config.text_config.layer_types = ["sliding_attention"] * getattr(config.text_config, "num_hidden_layers", 40)
-        print("   Set config.text_config.layer_types")
-else:
-    print("   No text_config found, skipping patching.")
-# Load Model with the config
-print(f"🤖 Loading model {model_id} with config...")
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
-    config=config, # Pass the config
     quantization_config=bnb_config,
     device_map="auto",
     torch_dtype=torch.bfloat16,
-    attn_implementation="eager" # Default attention for compatibility
 )
 model = prepare_model_for_kbit_training(model)
-# Tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 tokenizer.pad_token = tokenizer.eos_token
-# Fix for some models that miss chat_template or padding
 if tokenizer.chat_template is None:
     tokenizer.chat_template = "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}"
-# LoRA Config
 peft_config = LoraConfig(
     r=16,
     lora_alpha=32,
@@ -145,11 +135,10 @@ peft_config = LoraConfig(
     target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
 )
-# Training Config
 config = SFTConfig(
-    output_dir="Mistral-3-14B-AviationQA-SFT",
     push_to_hub=True,
-    hub_model_id="sunkencity/Mistral-3-14B-AviationQA-SFT",
     hub_strategy="every_save",
     num_train_epochs=1,
     per_device_train_batch_size=4,
@@ -166,10 +155,9 @@ config = SFTConfig(
     project="aviation-qa-tuning",
     run_name="mistral-14b-sft-v1",
     max_length=2048,
-    dataset_kwargs={"add_special_tokens": False} # Let tokenizer handle chat template
 )
-# Trainer
 trainer = SFTTrainer(
     model=model,
     train_dataset=train_dataset,
@@ -183,4 +171,4 @@ print("🚀 Starting training...")
 trainer.train()
 print("💾 Pushing to Hub...")
-trainer.push_to_hub()

 import os
 from huggingface_hub import list_repo_files
+model_id = "mistralai/Ministral-3-14B-Reasoning-2512"
 from datasets import load_dataset
 from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model
 from trl import SFTTrainer, SFTConfig
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    BitsAndBytesConfig,
+    AutoConfig,
+    AutoModel,
+    MistralConfig # Standard Mistral
+)
+# ------------------------------------------------------------------
+# CRITICAL FIX: Manually wire the Ministral3 Inner Model
+# ------------------------------------------------------------------
+print("🔧 Starting Manual Registration/Wiring...")
 try:
+    # 1. Import the specific classes for Ministral (Inner Text Model)
+    # The traceback confirmed these exist in the installed transformers version
+    from transformers.models.ministral.configuration_ministral import MinistralConfig
+    from transformers.models.ministral.modeling_ministral import MinistralModel
+    print("   ✅ Found native MinistralConfig and MinistralModel")
+    # 2. Create a Compatibility Config Class
+    # The hub config says "model_type": "ministral3", but code expects attributes not in the JSON.
+    class Ministral3CompatConfig(MinistralConfig):
+        model_type = "ministral3" # Match the JSON
+        def __init__(self, **kwargs):
+            super().__init__(**kwargs)
+            # Inject missing attributes causing crashes
+            if not hasattr(self, 'sliding_window') or self.sliding_window is None:
+                self.sliding_window = 4096
+            if not hasattr(self, 'layer_types'):
+                # Default to sliding_attention for all layers if not specified
+                self.layer_types = ["sliding_attention"] * getattr(self, "num_hidden_layers", 40)
+    # 3. Register Config with AutoConfig (So it handles "model_type": "ministral3")
+    AutoConfig.register("ministral3", Ministral3CompatConfig)
+    print("   ✅ Registered AutoConfig: 'ministral3' -> Ministral3CompatConfig")
+    # 4. Register Model with AutoModel (So AutoModel.from_config knows what to build)
+    # THIS WAS THE MISSING PIECE causing "Unrecognized configuration class"
+    AutoModel.register(Ministral3CompatConfig, MinistralModel)
+    print("   ✅ Registered AutoModel: Ministral3CompatConfig -> MinistralModel")
 except ImportError as e:
+    print(f"   ❌ Failed to import Ministral classes: {e}")
+    print("   ⚠️ This usually means the transformers version is too old for Ministral-3.")
+# ------------------------------------------------------------------
+# Standard Training Setup
+# ------------------------------------------------------------------
 # Load dataset
 print("📦 Loading dataset...")
 dataset = load_dataset("sakharamg/AviationQA", split="train")
 print("✂️ Subsampling dataset to 10,000 examples for efficiency...")
+dataset = dataset.shuffle(seed=42).select(range(12000))
 print("🧹 Filtering invalid examples...")
 dataset = dataset.filter(lambda x: x["Question"] and x["Answer"] and len(x["Question"].strip()) > 0 and len(x["Answer"].strip()) > 0)
 if len(dataset) > 10000:
     dataset = dataset.select(range(10000))
 print("🔄 Mapping dataset...")
 def to_messages(example):
     return {
     }
 dataset = dataset.map(to_messages, remove_columns=dataset.column_names)
 print("🔀 Creating train/eval split...")
 dataset_split = dataset.train_test_split(test_size=0.1, seed=42)
 train_dataset = dataset_split["train"]
 eval_dataset = dataset_split["test"]
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_use_double_quant=True,
 )
+print(f"🤖 Loading model {model_id}...")
+# We use AutoModelForCausalLM, which should now handle the outer Mistral3Config
+# and recursively handle the inner Ministral3CompatConfig via our registration above.
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
     quantization_config=bnb_config,
     device_map="auto",
     torch_dtype=torch.bfloat16,
+    attn_implementation="eager"
 )
 model = prepare_model_for_kbit_training(model)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 tokenizer.pad_token = tokenizer.eos_token
 if tokenizer.chat_template is None:
     tokenizer.chat_template = "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}"
 peft_config = LoraConfig(
     r=16,
     lora_alpha=32,
     target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
 )
 config = SFTConfig(
+    output_dir="Ministral-3-14B-AviationQA-SFT",
     push_to_hub=True,
+    hub_model_id="sunkencity/Ministral-3-14B-AviationQA-SFT",
     hub_strategy="every_save",
     num_train_epochs=1,
     per_device_train_batch_size=4,
     project="aviation-qa-tuning",
     run_name="mistral-14b-sft-v1",
     max_length=2048,
+    dataset_kwargs={"add_special_tokens": False}
 )
 trainer = SFTTrainer(
     model=model,
     train_dataset=train_dataset,
 trainer.train()
 print("💾 Pushing to Hub...")
+trainer.push_to_hub()