Vikhrmodels
/

Borealis-5b-it

@@ -51,6 +51,7 @@ class BorealisProcessor(ProcessorMixin):
         self,
         text: Optional[Union[str, List[str]]] = None,
         audio: Optional[Union[torch.Tensor, List[torch.Tensor]]] = None,
         sampling_rate: Optional[int] = None,
         return_tensors: Optional[str] = "pt",
         **kwargs,
@@ -61,12 +62,17 @@ class BorealisProcessor(ProcessorMixin):
         Args:
             text: Text prompt(s)
             audio: Audio waveform(s) at 16kHz
             sampling_rate: Audio sampling rate (default: 16000)
             return_tensors: Return tensor type
         Returns:
             BatchFeature with input_ids and optionally input_features
         """
         if sampling_rate is None:
             sampling_rate = self.sampling_rate
@@ -74,7 +80,7 @@ class BorealisProcessor(ProcessorMixin):
         # Process audio if provided
         if audio is not None:
-            if isinstance(audio, torch.Tensor):
                 audio = [audio]
             # Convert to numpy for feature extractor
@@ -96,11 +102,15 @@ class BorealisProcessor(ProcessorMixin):
             if isinstance(text, str):
                 text = [text]
             text_inputs = self.tokenizer(
                 text,
                 return_tensors=return_tensors,
                 padding=True,
-                **kwargs,
             )
             data["input_ids"] = text_inputs.input_ids
             if "attention_mask" in text_inputs:

         self,
         text: Optional[Union[str, List[str]]] = None,
         audio: Optional[Union[torch.Tensor, List[torch.Tensor]]] = None,
+        audios: Optional[List] = None,  # vLLM uses plural
         sampling_rate: Optional[int] = None,
         return_tensors: Optional[str] = "pt",
         **kwargs,
         Args:
             text: Text prompt(s)
             audio: Audio waveform(s) at 16kHz
+            audios: Audio waveform(s) at 16kHz (vLLM style)
             sampling_rate: Audio sampling rate (default: 16000)
             return_tensors: Return tensor type
         Returns:
             BatchFeature with input_ids and optionally input_features
         """
+        # vLLM uses 'audios' (plural)
+        if audios is not None and audio is None:
+            audio = audios
         if sampling_rate is None:
             sampling_rate = self.sampling_rate
         # Process audio if provided
         if audio is not None:
+            if not isinstance(audio, list):
                 audio = [audio]
             # Convert to numpy for feature extractor
             if isinstance(text, str):
                 text = [text]
+            # Filter out kwargs that tokenizer doesn't accept
+            tok_kwargs = {k: v for k, v in kwargs.items()
+                         if k in ['padding', 'truncation', 'max_length', 'add_special_tokens']}
             text_inputs = self.tokenizer(
                 text,
                 return_tensors=return_tensors,
                 padding=True,
+                **tok_kwargs,
             )
             data["input_ids"] = text_inputs.input_ids
             if "attention_mask" in text_inputs: