mazesmazes
/

tiny-audio

@@ -100,6 +100,10 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         self.generation_config.max_new_tokens = config.max_new_tokens
         self.generation_config.num_beams = config.num_beams
         self.generation_config.do_sample = False
         self.generation_config.use_cache = config.use_cache
         self.generation_config.length_penalty = config.length_penalty
         self.generation_config.repetition_penalty = config.repetition_penalty

         self.generation_config.max_new_tokens = config.max_new_tokens
         self.generation_config.num_beams = config.num_beams
         self.generation_config.do_sample = False
+        # Clear sampling params (inherited from LLM) since we use greedy decoding
+        self.generation_config.temperature = None
+        self.generation_config.top_p = None
+        self.generation_config.top_k = None
         self.generation_config.use_cache = config.use_cache
         self.generation_config.length_penalty = config.length_penalty
         self.generation_config.repetition_penalty = config.repetition_penalty

asr_pipeline.py CHANGED Viewed

@@ -1,6 +1,5 @@
 from typing import Any
-import numpy as np
 import torch
 import transformers
@@ -10,14 +9,6 @@ except ImportError:
     from asr_modeling import ASRModel  # type: ignore[no-redef]
-def normalize_audio(audio: np.ndarray, target_peak: float = 0.95) -> np.ndarray:
-    """Normalize audio to target peak amplitude for consistent input levels."""
-    max_val = np.abs(audio).max()
-    if max_val > 0:
-        return audio / max_val * target_peak
-    return audio
 class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
     """ASR Pipeline for audio-to-text transcription."""
@@ -37,18 +28,10 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
     def preprocess(self, inputs, **preprocess_params):
         # Handle dict with "array" key (from datasets)
         if isinstance(inputs, dict) and "array" in inputs:
-            audio = inputs["array"]
-            if isinstance(audio, np.ndarray):
-                audio = normalize_audio(audio)
             inputs = {
-                "raw": audio,
                 "sampling_rate": inputs.get("sampling_rate", self.feature_extractor.sampling_rate),
             }
-        # Handle dict with "raw" key
-        elif isinstance(inputs, dict) and "raw" in inputs:
-            audio = inputs["raw"]
-            if isinstance(audio, np.ndarray):
-                inputs["raw"] = normalize_audio(audio)
         for item in super().preprocess(inputs, **preprocess_params):
             if "is_last" not in item:

 from typing import Any
 import torch
 import transformers
     from asr_modeling import ASRModel  # type: ignore[no-redef]
 class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
     """ASR Pipeline for audio-to-text transcription."""
     def preprocess(self, inputs, **preprocess_params):
         # Handle dict with "array" key (from datasets)
         if isinstance(inputs, dict) and "array" in inputs:
             inputs = {
+                "raw": inputs["array"],
                 "sampling_rate": inputs.get("sampling_rate", self.feature_extractor.sampling_rate),
             }
         for item in super().preprocess(inputs, **preprocess_params):
             if "is_last" not in item: