Spaces:

bnaghib
/

LugandaTTSUCI

Running

bnaghib commited on Jan 22

Commit

d0ba962

verified ·

1 Parent(s): 263b1b4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,16 +16,18 @@ vocoder = HIFIGAN.from_hparams(
 )
 def generate_wav(text):
-    # Generate mel spectrogram (no pace argument)
     mel_output, mel_length, alignment = taco.encode_text(text)
-    # Slow down speech by stretching mel spectrogram
     mel_output = torch.nn.functional.interpolate(
-        mel_output.transpose(1, 2),
-        scale_factor=1.25,   # 1.1 = slightly slower, 1.25 = calm, 1.35 = very slow
         mode="linear",
         align_corners=False
-    ).transpose(1, 2)
     # Smooth mel for more natural prosody
     mel_output = mel_output * 0.9

 )
 def generate_wav(text):
+    # Generate mel spectrogram
     mel_output, mel_length, alignment = taco.encode_text(text)
+    # Slow down speech by stretching ONLY the time dimension
+    mel_output = mel_output.permute(0, 2, 1)  # [1, 80, T]
     mel_output = torch.nn.functional.interpolate(
+        mel_output,
+        scale_factor=1.25,   # 1.1 = slightly slower, 1.25 = calm
         mode="linear",
         align_corners=False
+    )
+    mel_output = mel_output.permute(0, 2, 1)  # back to [1, T, 80]
     # Smooth mel for more natural prosody
     mel_output = mel_output * 0.9