Spaces:

Shroukkkk
/

Project_Tacotron

Sleeping

Shroukkkk commited on Jan 18

Commit

e030059

verified ·

1 Parent(s): d2713b5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,15 +25,26 @@ def synth(text):
     if not text:
         return None
-    # Force integer token ids for embedding
-    seq, seq_len = tacotron2.text_to_seq(text)  # uses hparams.text_to_sequence internally :contentReference[oaicite:1]{index=1}
-    seq = [int(x) for x in seq]                 # convert any float-like ids to int
     seq = torch.tensor(seq, dtype=torch.long, device=DEVICE).unsqueeze(0)
     seq_len = torch.tensor([seq_len], device=DEVICE)
     mel, _, _ = tacotron2.infer(seq, seq_len)
-    wav = hifigan.decode_batch(mel)
     if wav.dim() == 3:
         wav = wav.squeeze(1)
     wav = wav[0].cpu()

     if not text:
         return None
+    seq, seq_len = tacotron2.text_to_seq(text)
+    seq = [int(x) for x in seq]
+    # Tacotron2 encoder conv needs enough timesteps
+    min_tokens = 5
+    pad_id = 0
+    if len(seq) < min_tokens:
+        seq = seq + [pad_id] * (min_tokens - len(seq))
+        seq_len = len(seq)
     seq = torch.tensor(seq, dtype=torch.long, device=DEVICE).unsqueeze(0)
     seq_len = torch.tensor([seq_len], device=DEVICE)
     mel, _, _ = tacotron2.infer(seq, seq_len)
+    # Optional: still keep mel padding for vocoder safety
+    if mel.shape[-1] < 5:
+        mel = F.pad(mel, (0, 5 - mel.shape[-1]), mode="replicate")
+    wav = hifigan.decode_batch(mel)
     if wav.dim() == 3:
         wav = wav.squeeze(1)
     wav = wav[0].cpu()