Spaces:

stephenhoang
/

ttsStyleTTS2

Sleeping

stephenhoang commited on 25 days ago

Commit

a3e843d

verified ·

1 Parent(s): c921121

Update inference.py

Files changed (1) hide show

inference.py CHANGED Viewed

@@ -402,19 +402,27 @@ class StyleTTS2(torch.nn.Module):
                 )
                 print("[DBG] wav shape:", wav.shape)
                 print("[DBG] wav min/max:", wav.min().item(), wav.max().item())
-                print("[DBG] wav mean abs:", wav.abs().mean().item())
                 # trim an toàn
-                trim = 4000
-                if wav.shape[0] > 2 * trim:
                     wav = wav[trim:-trim]
                 if wav.size > 0:
                     list_wav.append(wav)
         if len(list_wav) == 0:
             return np.zeros((2400,), dtype=np.float32)  # 0.1s silence để không crash
         final_wav = np.concatenate(list_wav)
-        final_wav = np.concatenate([np.zeros((4000,), dtype=np.float32), final_wav, np.zeros((4000,), dtype=np.float32)])
         return final_wav

                 )
                 print("[DBG] wav shape:", wav.shape)
                 print("[DBG] wav min/max:", wav.min().item(), wav.max().item())
+                print("[DBG] wav mean abs:", np.abs(wav).mean())
                 # trim an toàn
+                # trim only if long enough
+                trim = int(0.05 * 24000)   # 50ms instead of 4000
+                if wav.shape[0] > 4 * trim:
                     wav = wav[trim:-trim]
                 if wav.size > 0:
                     list_wav.append(wav)
         if len(list_wav) == 0:
             return np.zeros((2400,), dtype=np.float32)  # 0.1s silence để không crash
         final_wav = np.concatenate(list_wav)
+        # final_wav = np.concatenate([np.zeros((4000,), dtype=np.float32), final_wav, np.zeros((4000,), dtype=np.float32)])
+        pad = int(0.05 * 24000)   # 50ms
+        final_wav = np.concatenate([np.zeros((pad,), dtype=np.float32), final_wav, np.zeros((pad,), dtype=np.float32)])
         return final_wav