Spaces:

MoHamdyy
/

Translation_Stack

Sleeping

App Files Files Community

MoHamdyy commited on Jul 13, 2025

Commit

8785760

1 Parent(s): de6f9f5

Fix syntax error in TTS stage and complete pipeline

Browse files

Files changed (1) hide show

app.py +21 -6

app.py CHANGED Viewed

@@ -323,7 +323,8 @@ class TransformerTTS(nn.Module):
         else:
             iters = range(max_length)
-        for _ in iters:
             mel_postnet, mel_linear, stop_token = self(
                 text,
                 text_lengths,
@@ -331,6 +332,7 @@ class TransformerTTS(nn.Module):
                 mel_lengths
             )
             mel_padded = torch.cat(
                 [
                     mel_padded,
@@ -338,13 +340,18 @@ class TransformerTTS(nn.Module):
                 ],
                 dim=1
             )
-            if torch.sigmoid(stop_token[:, -1]) > gate_threshold:
                 break
             else:
                 stop_token_outputs = torch.cat([stop_token_outputs, stop_token[:, -1:]], dim=1)
                 mel_lengths = torch.tensor(mel_padded.shape[1]).unsqueeze(0).to(DEVICE)
         return mel_postnet, stop_token_outputs
 # --- (End of your model definitions) ---
@@ -466,11 +473,19 @@ def full_speech_translation_pipeline(audio_input_path: str):
             generated_mel, _ = TTS_MODEL.inference(sequence, max_length=hp.max_mel_time-50, gate_threshold=1e-5, with_tqdm=False)
             print(f"TTS: Generated mel shape: {generated_mel.shape if generated_mel is not None else 'None'}")
-            if generated_mel is not None and generated_mel.numel() > 0:
                 mel_for_vocoder = generated_mel.detach().squeeze(0).transpose(0, 1)
-                audio_tensor = inverse_mel_spec_to_wav(mel_for_vocoder)
-                synthesized_audio_np = audio_tensor.cpu().numpy()
-                print(f"TTS: Synthesized audio shape: {synthesized_audio_np.shape}")
         except Exception as e:
             print(f"TTS Error: {e}")

         else:
             iters = range(max_length)
+        frames_generated = 0
+        for i in iters:
             mel_postnet, mel_linear, stop_token = self(
                 text,
                 text_lengths,
                 mel_lengths
             )
+            # Add the new frame
             mel_padded = torch.cat(
                 [
                     mel_padded,
                 ],
                 dim=1
             )
+            frames_generated += 1
+            # Check stop condition but ensure minimum generation
+            stop_prob = torch.sigmoid(stop_token[:, -1])
+            if stop_prob > gate_threshold and frames_generated > 50:  # Ensure at least 50 frames
+                print(f"TTS: Stopping at frame {frames_generated}, stop_prob: {stop_prob:.6f}")
                 break
             else:
                 stop_token_outputs = torch.cat([stop_token_outputs, stop_token[:, -1:]], dim=1)
                 mel_lengths = torch.tensor(mel_padded.shape[1]).unsqueeze(0).to(DEVICE)
+        print(f"TTS: Generated {frames_generated} frames, final mel shape: {mel_postnet.shape}")
         return mel_postnet, stop_token_outputs
 # --- (End of your model definitions) ---
             generated_mel, _ = TTS_MODEL.inference(sequence, max_length=hp.max_mel_time-50, gate_threshold=1e-5, with_tqdm=False)
             print(f"TTS: Generated mel shape: {generated_mel.shape if generated_mel is not None else 'None'}")
+            if generated_mel is not None and generated_mel.numel() > 128:  # Ensure minimum size
                 mel_for_vocoder = generated_mel.detach().squeeze(0).transpose(0, 1)
+                # Add safety check for mel dimensions
+                if mel_for_vocoder.numel() > 0 and mel_for_vocoder.shape[0] > 10:
+                    audio_tensor = inverse_mel_spec_to_wav(mel_for_vocoder)
+                    synthesized_audio_np = audio_tensor.cpu().numpy()
+                    print(f"TTS: Synthesized audio shape: {synthesized_audio_np.shape}")
+                else:
+                    print("TTS: Generated mel too small, using silence")
+                    synthesized_audio_np = np.zeros(hp.sr, dtype=np.float32)  # 1 second of silence
+            else:
+                print("TTS: Generated mel is empty or too small, using silence")
+                synthesized_audio_np = np.zeros(hp.sr, dtype=np.float32)  # 1 second of silence
         except Exception as e:
             print(f"TTS Error: {e}")