mazesmazes
/

tiny-audio

@@ -707,6 +707,9 @@ class ASRModel(PreTrainedModel):
                 streamer=streamer,
                 **generate_kwargs,
             )
         else:
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
@@ -714,8 +717,8 @@ class ASRModel(PreTrainedModel):
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )
-        return generated_ids[:, prompt_length:]
     @torch.no_grad()
     def generate_stream(
@@ -789,6 +792,8 @@ class ASRModel(PreTrainedModel):
                 import sys
                 result = future.result()
                 if result is not None:
                     decoded = self.tokenizer.decode(result[0], skip_special_tokens=True)
                     print(f"DEBUG: No chunks yielded but generated: {decoded}", file=sys.stderr)

                 streamer=streamer,
                 **generate_kwargs,
             )
+            # When using a streamer, return the full output (streamer will handle skipping prompt)
+            # The streamer needs the full sequence to properly identify what to skip
+            return generated_ids
         else:
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )
+            # When not streaming, return only the new tokens (without prompt)
+            return generated_ids[:, prompt_length:]
     @torch.no_grad()
     def generate_stream(
                 import sys
                 result = future.result()
                 if result is not None:
+                    # Note: result now includes the full sequence (including prompt)
+                    # when streaming, so decode the full thing
                     decoded = self.tokenizer.decode(result[0], skip_special_tokens=True)
                     print(f"DEBUG: No chunks yielded but generated: {decoded}", file=sys.stderr)