mazesmazes
/

tiny-audio

@@ -327,16 +327,33 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
             if key in kwargs:
                 generate_kwargs[key] = kwargs.pop(key)
         # Preprocess audio to get model inputs
-        model_inputs = self.preprocess(inputs, **kwargs)
         # Handle different input formats
         audio_inputs = None
         is_whisper = False
         if isinstance(model_inputs, torch.Tensor):
             audio_inputs = model_inputs
         elif isinstance(model_inputs, dict):
             # Get audio input (Whisper uses input_features, others use input_values)
             if "input_features" in model_inputs:
                 audio_inputs = model_inputs["input_features"]
@@ -345,7 +362,12 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
                 audio_inputs = model_inputs.get("input_values")
         if audio_inputs is None:
-            raise ValueError("Could not extract audio inputs from preprocessing")
         if isinstance(audio_inputs, torch.Tensor):
             audio_inputs = audio_inputs.to(self.model.device)

             if key in kwargs:
                 generate_kwargs[key] = kwargs.pop(key)
+        # Disable chunking for streaming - we want the whole audio at once
+        kwargs.pop("chunk_length_s", None)
+        kwargs.pop("stride_length_s", None)
         # Preprocess audio to get model inputs
+        model_inputs = self.preprocess(inputs, chunk_length_s=0, **kwargs)
         # Handle different input formats
         audio_inputs = None
         is_whisper = False
+        # Check if preprocess returned an iterator (shouldn't with chunk_length_s=0)
+        from collections.abc import Iterator
+        if isinstance(model_inputs, Iterator):
+            # Get the first (and should be only) chunk
+            try:
+                model_inputs = next(model_inputs)
+            except StopIteration:
+                raise ValueError("Preprocess returned empty iterator")
         if isinstance(model_inputs, torch.Tensor):
             audio_inputs = model_inputs
         elif isinstance(model_inputs, dict):
+            # Remove metadata fields
+            model_inputs.pop("is_last", None)
+            model_inputs.pop("stride", None)
             # Get audio input (Whisper uses input_features, others use input_values)
             if "input_features" in model_inputs:
                 audio_inputs = model_inputs["input_features"]
                 audio_inputs = model_inputs.get("input_values")
         if audio_inputs is None:
+            # Debug info
+            import sys
+            print(f"DEBUG: model_inputs type: {type(model_inputs)}", file=sys.stderr)
+            if isinstance(model_inputs, dict):
+                print(f"DEBUG: model_inputs keys: {model_inputs.keys()}", file=sys.stderr)
+            raise ValueError(f"Could not extract audio inputs from preprocessing. Got type: {type(model_inputs)}")
         if isinstance(audio_inputs, torch.Tensor):
             audio_inputs = audio_inputs.to(self.model.device)