mazesmazes
/

tiny-audio-swiglu

@@ -130,7 +130,7 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         encoder_kwargs = {
             "attn_implementation": config.attn_implementation,
             "low_cpu_mem_usage": True,
-            "dtype": dtype,
         }
         if "whisper" in config.audio_model_id.lower():
@@ -143,13 +143,20 @@ class ASRModel(PreTrainedModel, GenerationMixin):
             # GLM-ASR models use audio_tower as the encoder
             # Requires transformers >= 5.x or installed from source
             from transformers import AutoModelForSeq2SeqLM
             full_model = AutoModelForSeq2SeqLM.from_pretrained(
                 config.audio_model_id, trust_remote_code=True, **encoder_kwargs
             )
             # GLM stores encoder at audio_tower (GlmAsrEncoder)
             encoder = full_model.audio_tower
             del full_model
         else:
             encoder = AutoModel.from_pretrained(config.audio_model_id, **encoder_kwargs)
@@ -427,12 +434,13 @@ class ASRModel(PreTrainedModel, GenerationMixin):
                 messages.append({"role": "system", "content": system_prompt})
             messages.append({"role": "user", "content": self.TRANSCRIBE_PROMPT + audio_placeholder})
-            input_ids = self.tokenizer.apply_chat_template(
                 messages,
                 tokenize=True,
                 add_generation_prompt=True,
                 return_tensors="pt",
-            ).to(device)
             if input_ids.dim() == 1:
                 input_ids = input_ids.unsqueeze(0)

         encoder_kwargs = {
             "attn_implementation": config.attn_implementation,
             "low_cpu_mem_usage": True,
+            "torch_dtype": dtype,
         }
         if "whisper" in config.audio_model_id.lower():
             # GLM-ASR models use audio_tower as the encoder
             # Requires transformers >= 5.x or installed from source
             from transformers import AutoModelForSeq2SeqLM
+            import gc
             full_model = AutoModelForSeq2SeqLM.from_pretrained(
                 config.audio_model_id, trust_remote_code=True, **encoder_kwargs
             )
             # GLM stores encoder at audio_tower (GlmAsrEncoder)
             encoder = full_model.audio_tower
+            # Clear references to free VRAM from the LLM decoder
+            full_model.language_model = None
+            full_model.multi_modal_projector = None
             del full_model
+            gc.collect()
+            if torch.cuda.is_available():
+                torch.cuda.empty_cache()
         else:
             encoder = AutoModel.from_pretrained(config.audio_model_id, **encoder_kwargs)
                 messages.append({"role": "system", "content": system_prompt})
             messages.append({"role": "user", "content": self.TRANSCRIBE_PROMPT + audio_placeholder})
+            chat_result = self.tokenizer.apply_chat_template(
                 messages,
                 tokenize=True,
                 add_generation_prompt=True,
                 return_tensors="pt",
+            )
+            input_ids = chat_result.input_ids.to(device)
             if input_ids.dim() == 1:
                 input_ids = input_ids.unsqueeze(0)