parler-tts-streaming

Sleeping

sanchit-gandhi commited on Apr 24, 2024

Commit

6f5cea7

1 Parent(s): 5039fa6

generation logic

Files changed (1) hide show

app.py CHANGED Viewed

@@ -149,10 +149,22 @@ class ParlerTTSStreamer(BaseStreamer):
         # send the input_ids to the correct device
         input_ids = input_ids.to(self.audio_encoder.device)
-        output_values = self.audio_encoder.decode(
-            input_ids,
-            audio_scales=[None],
         )
         audio_values = output_values.audio_values[0, 0]
         return audio_values.cpu().float().numpy()

         # send the input_ids to the correct device
         input_ids = input_ids.to(self.audio_encoder.device)
+        decode_sequentially = (
+            self.generation_config.bos_token_id in input_ids
+            or self.generation_config.pad_token_id in input_ids
+            or self.generation_config.eos_token_id in input_ids
         )
+        if not decode_sequentially:
+            output_values = self.audio_encoder.decode(
+                input_ids,
+                audio_scales=[None],
+            )
+        else:
+            sample = input_ids[:, 0]
+            sample_mask = (sample >= self.audio_encoder.config.codebook_size).sum(dim=(0, 1)) == 0
+            sample = sample[:, :, sample_mask]
+            output_values = self.audio_encoder.decode(sample[None, ...], [None])
         audio_values = output_values.audio_values[0, 0]
         return audio_values.cpu().float().numpy()