sunkencity
/

training-scripts

Model card Files Files and versions

xet

Community

sunkencity commited on Dec 10, 2025

Commit

037cd7b

verified ·

1 Parent(s): 3b8ec8c

Upload train_aviation.py with huggingface_hub

Browse files

Files changed (1) hide show

train_aviation.py +13 -9

train_aviation.py CHANGED Viewed

@@ -28,7 +28,7 @@ from transformers import (
     BitsAndBytesConfig,
     AutoConfig,
     AutoModel,
-    MistralConfig # Standard Mistral
 )
 # ------------------------------------------------------------------
@@ -38,14 +38,12 @@ print("🔧 Starting Manual Registration/Wiring...")
 try:
     # 1. Import the specific classes for Ministral (Inner Text Model)
-    # The traceback confirmed these exist in the installed transformers version
     from transformers.models.ministral.configuration_ministral import MinistralConfig
     from transformers.models.ministral.modeling_ministral import MinistralModel
     print("   ✅ Found native MinistralConfig and MinistralModel")
     # 2. Create a Compatibility Config Class
-    # The hub config says "model_type": "ministral3", but code expects attributes not in the JSON.
     class Ministral3CompatConfig(MinistralConfig):
         model_type = "ministral3" # Match the JSON
@@ -58,14 +56,19 @@ try:
                 # Default to sliding_attention for all layers if not specified
                 self.layer_types = ["sliding_attention"] * getattr(self, "num_hidden_layers", 40)
-    # 3. Register Config with AutoConfig (So it handles "model_type": "ministral3")
     AutoConfig.register("ministral3", Ministral3CompatConfig)
     print("   ✅ Registered AutoConfig: 'ministral3' -> Ministral3CompatConfig")
-    # 4. Register Model with AutoModel (So AutoModel.from_config knows what to build)
-    # THIS WAS THE MISSING PIECE causing "Unrecognized configuration class"
-    AutoModel.register(Ministral3CompatConfig, MinistralModel)
-    print("   ✅ Registered AutoModel: Ministral3CompatConfig -> MinistralModel")
 except ImportError as e:
     print(f"   ❌ Failed to import Ministral classes: {e}")
@@ -158,6 +161,7 @@ config = SFTConfig(
     dataset_kwargs={"add_special_tokens": False}
 )
 trainer = SFTTrainer(
     model=model,
     train_dataset=train_dataset,
@@ -171,4 +175,4 @@ print("🚀 Starting training...")
 trainer.train()
 print("💾 Pushing to Hub...")
-trainer.push_to_hub()

     BitsAndBytesConfig,
     AutoConfig,
     AutoModel,
+    MistralConfig
 )
 # ------------------------------------------------------------------
 try:
     # 1. Import the specific classes for Ministral (Inner Text Model)
     from transformers.models.ministral.configuration_ministral import MinistralConfig
     from transformers.models.ministral.modeling_ministral import MinistralModel
     print("   ✅ Found native MinistralConfig and MinistralModel")
     # 2. Create a Compatibility Config Class
     class Ministral3CompatConfig(MinistralConfig):
         model_type = "ministral3" # Match the JSON
                 # Default to sliding_attention for all layers if not specified
                 self.layer_types = ["sliding_attention"] * getattr(self, "num_hidden_layers", 40)
+    # 3. Create a Compatibility Model Class
+    # This is required to satisfy the check: model.config_class == config_class
+    class Ministral3CompatModel(MinistralModel):
+        config_class = Ministral3CompatConfig
+    # 4. Register Config with AutoConfig
     AutoConfig.register("ministral3", Ministral3CompatConfig)
     print("   ✅ Registered AutoConfig: 'ministral3' -> Ministral3CompatConfig")
+    # 5. Register Model with AutoModel
+    # Now this should pass because Ministral3CompatModel.config_class matches Ministral3CompatConfig
+    AutoModel.register(Ministral3CompatConfig, Ministral3CompatModel)
+    print("   ✅ Registered AutoModel: Ministral3CompatConfig -> Ministral3CompatModel")
 except ImportError as e:
     print(f"   ❌ Failed to import Ministral classes: {e}")
     dataset_kwargs={"add_special_tokens": False}
 )
+# Trainer
 trainer = SFTTrainer(
     model=model,
     train_dataset=train_dataset,
 trainer.train()
 print("💾 Pushing to Hub...")
+trainer.push_to_hub()