mazesmazes
/

tiny-audio

@@ -63,6 +63,10 @@ class ASRConfig(transformers.PretrainedConfig):
         lora_dropout: float = 0.0,
         lora_target_modules: Optional[list] = None,  # Default: all linear layers
         freeze_projector: bool = False,  # True for Stage 2 (LoRA-only training)
         max_new_tokens: Optional[int] = None,
         min_new_tokens: Optional[int] = None,
         repetition_penalty: Optional[float] = None,
@@ -169,6 +173,10 @@ class ASRConfig(transformers.PretrainedConfig):
             else generation_defaults["no_repeat_ngram_size"]
         )
         self.use_cache = use_cache if use_cache is not None else generation_defaults["use_cache"]
         if "audio_config" not in kwargs:
             self.audio_config = transformers.AutoConfig.from_pretrained(audio_model_id)

         lora_dropout: float = 0.0,
         lora_target_modules: Optional[list] = None,  # Default: all linear layers
         freeze_projector: bool = False,  # True for Stage 2 (LoRA-only training)
+        do_sample: bool = False,
+        temperature: Optional[float] = None,
+        top_p: Optional[float] = None,
+        top_k: Optional[int] = None,
         max_new_tokens: Optional[int] = None,
         min_new_tokens: Optional[int] = None,
         repetition_penalty: Optional[float] = None,
             else generation_defaults["no_repeat_ngram_size"]
         )
         self.use_cache = use_cache if use_cache is not None else generation_defaults["use_cache"]
+        self.do_sample = do_sample
+        self.temperature = temperature
+        self.top_p = top_p
+        self.top_k = top_k
         if "audio_config" not in kwargs:
             self.audio_config = transformers.AutoConfig.from_pretrained(audio_model_id)

asr_modeling.py CHANGED Viewed

@@ -120,7 +120,6 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         super().__init__(config)
         self.system_prompt = config.system_prompt
-        self.enable_thinking = False  # Can be enabled for experimental thinking mode
         target_dtype = getattr(torch, config.model_dtype)
         # Audio encoder (frozen)
@@ -137,11 +136,11 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         self.generation_config.max_new_tokens = config.max_new_tokens
         self.generation_config.min_new_tokens = config.min_new_tokens
         self.generation_config.num_beams = config.num_beams
-        self.generation_config.do_sample = False
-        # Clear sampling params (inherited from LLM) since we use greedy decoding
-        self.generation_config.temperature = None
-        self.generation_config.top_p = None
-        self.generation_config.top_k = None
         self.generation_config.use_cache = config.use_cache
         self.generation_config.length_penalty = config.length_penalty
         self.generation_config.repetition_penalty = config.repetition_penalty
@@ -554,7 +553,7 @@ class ASRModel(PreTrainedModel, GenerationMixin):
                 tokenize=True,
                 add_generation_prompt=True,
                 return_tensors="pt",
-                enable_thinking=self.enable_thinking,
             )
             input_ids = chat_result.input_ids.to(device)
@@ -574,17 +573,21 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         )
         # Generate using language model
         output = self.language_model.generate(
             inputs_embeds=inputs_embeds,
             attention_mask=attention_mask,
             generation_config=self.generation_config,
             **generate_kwargs,
         )
-        # When using inputs_embeds without input_ids, generate returns only new tokens
-        if isinstance(output, torch.Tensor):
-            return output
-        return output.sequences
     def generate_streaming(
         self,
@@ -632,7 +635,7 @@ class ASRModel(PreTrainedModel, GenerationMixin):
             tokenize=True,
             add_generation_prompt=True,
             return_tensors="pt",
-            enable_thinking=self.enable_thinking,
         )
         input_ids = chat_result.input_ids.to(device)
@@ -731,7 +734,7 @@ class ASRModel(PreTrainedModel, GenerationMixin):
             tokenize=True,
             add_generation_prompt=True,
             return_tensors="pt",
-            enable_thinking=self.enable_thinking,
         ).to(device)
         if input_ids.dim() == 1:

         super().__init__(config)
         self.system_prompt = config.system_prompt
         target_dtype = getattr(torch, config.model_dtype)
         # Audio encoder (frozen)
         self.generation_config.max_new_tokens = config.max_new_tokens
         self.generation_config.min_new_tokens = config.min_new_tokens
         self.generation_config.num_beams = config.num_beams
+        self.generation_config.do_sample = config.do_sample
+        # Set sampling params from config (None means use model defaults)
+        self.generation_config.temperature = config.temperature
+        self.generation_config.top_p = config.top_p
+        self.generation_config.top_k = config.top_k
         self.generation_config.use_cache = config.use_cache
         self.generation_config.length_penalty = config.length_penalty
         self.generation_config.repetition_penalty = config.repetition_penalty
                 tokenize=True,
                 add_generation_prompt=True,
                 return_tensors="pt",
+                enable_thinking=False,  # Disable Qwen3 thinking mode for ASR
             )
             input_ids = chat_result.input_ids.to(device)
         )
         # Generate using language model
+        # Pass both input_ids and inputs_embeds so repetition_penalty works correctly
+        # (it needs input_ids to track which tokens have been used)
         output = self.language_model.generate(
+            input_ids=input_ids,
             inputs_embeds=inputs_embeds,
             attention_mask=attention_mask,
             generation_config=self.generation_config,
             **generate_kwargs,
         )
+        # When using inputs_embeds with input_ids, generate returns full sequence
+        # Strip the input tokens to return only generated tokens
+        sequences = output if isinstance(output, torch.Tensor) else output.sequences
+        input_len = input_ids.shape[1]
+        return sequences[:, input_len:]
     def generate_streaming(
         self,
             tokenize=True,
             add_generation_prompt=True,
             return_tensors="pt",
+            enable_thinking=False,  # Disable Qwen3 thinking mode for ASR
         )
         input_ids = chat_result.input_ids.to(device)
             tokenize=True,
             add_generation_prompt=True,
             return_tensors="pt",
+            enable_thinking=False,  # Disable Qwen3 thinking mode for ASR
         ).to(device)
         if input_ids.dim() == 1: