mazesmazes
/

tiny-audio

@@ -164,15 +164,46 @@ class ASRModel(PreTrainedModel):
         cls._pretrained_model_path = pretrained_model_name_or_path
         try:
-            # Let parent class handle loading config and model.safetensors
-            model = super().from_pretrained(
-                pretrained_model_name_or_path, *args, config=config, **kwargs
             )
             # Convert projector to target dtype after loading weights
             target_dtype = getattr(torch, config.model_dtype)
             model.projector = model.projector.to(dtype=target_dtype)
             return model
         finally:
             cls._is_loading_from_pretrained = False

         cls._pretrained_model_path = pretrained_model_name_or_path
         try:
+            from safetensors.torch import load_file
+            from transformers.utils.hub import cached_file
+            # Create model instance (loads encoder/decoder fresh from HF)
+            model = cls(config, **kwargs)
+            # Manually load model.safetensors to avoid corrupted generation_config.json
+            subfolder = kwargs.get("subfolder")
+            revision = kwargs.get("revision")
+            cache_kwargs = {}
+            if subfolder:
+                cache_kwargs["subfolder"] = subfolder
+            if revision:
+                cache_kwargs["revision"] = revision
+            model_file = cached_file(
+                pretrained_model_name_or_path,
+                "model.safetensors",
+                _raise_exceptions_for_missing_entries=False,
+                **cache_kwargs,
             )
+            if not model_file:
+                raise FileNotFoundError(
+                    f"model.safetensors not found in {pretrained_model_name_or_path}. "
+                    "The repository may not have been trained yet."
+                )
+            # Load trainable state (projector weights with "projector." prefix)
+            state_dict = load_file(model_file)
+            model.load_state_dict(state_dict, strict=False, assign=True)
             # Convert projector to target dtype after loading weights
             target_dtype = getattr(torch, config.model_dtype)
             model.projector = model.projector.to(dtype=target_dtype)
+            device = kwargs.get("device")
+            if device is not None:
+                model = model.to(device)
             return model
         finally:
             cls._is_loading_from_pretrained = False