Spaces:

stephenhoang
/

ttsStyleTTS2

Sleeping

App Files Files Community

stephenhoang commited on 27 days ago

Commit

d3f42ba

1 Parent(s): e835266

Remove torchaudio; compute mel with librosa

Browse files

Files changed (1) hide show

inference.py +138 -24

inference.py CHANGED Viewed

@@ -1,21 +1,103 @@
 import re
 import yaml
-from munch import Munch
 import numpy as np
 import librosa
-import noisereduce as nr
-from meldataset import TextCleaner
 import torch
-import torchaudio
 from nltk.tokenize import word_tokenize
-import nltk
-nltk.download('punkt_tab')
 from models import ProsodyPredictor, TextEncoder, StyleEncoder
 from Modules.hifigan import Decoder
-import sys
-import phonemizer
 if sys.platform.startswith("win"):
     try:
         from phonemizer.backend.espeak.wrapper import EspeakWrapper
@@ -24,23 +106,30 @@ if sys.platform.startswith("win"):
     except Exception as e:
         print(e)
 def espeak_phn(text, lang):
     try:
-        my_phonemizer = phonemizer.backend.EspeakBackend(language=lang, preserve_punctuation=True,  with_stress=True, language_switch='remove-flags')
         return my_phonemizer.phonemize([text])[0]
     except Exception as e:
         print(e)
 class Preprocess:
     def __text_normalize(self, text):
         punctuation = ["，", "、", "،", ";", "(", "．", "。", "…", "!", "–", ":", "?"]
         map_to = "."
         punctuation_pattern = re.compile(f"[{''.join(re.escape(p) for p in punctuation)}]")
-        #replace punctuation that acts like a comma or period
         text = punctuation_pattern.sub(map_to, text)
-        #replace consecutive whitespace chars with a single space and strip leading/trailing spaces
-        text = re.sub(r'\s+', ' ', text).strip()
         return text
     def __merge_fragments(self, texts, n):
         merged = []
         i = 0
@@ -52,30 +141,55 @@ class Preprocess:
                 j += 1
             merged.append(fragment)
             i = j
-        if len(merged[-1].split()) < n and len(merged) > 1: #handle last sentence
             merged[-2] = merged[-2] + ", " + merged[-1]
             del merged[-1]
-        else:
-            merged[-1] = merged[-1]
         return merged
-    def wave_preprocess(self, wave):
-        to_mel = torchaudio.transforms.MelSpectrogram(n_mels=80, n_fft=2048, win_length=1200, hop_length=300)
         mean, std = -4, 4
-        wave_tensor = torch.from_numpy(wave).float()
-        mel_tensor = to_mel(wave_tensor)
-        mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std
         return mel_tensor
     def text_preprocess(self, text, n_merge=12):
-        text_norm = self.__text_normalize(text).split(".")#split by sentences.
         text_norm = [s.strip() for s in text_norm]
-        text_norm = list(filter(lambda x: x != '', text_norm)) #filter empty index
-        text_norm = self.__merge_fragments(text_norm, n=n_merge) #merge if a sentence has less that n
         return text_norm
     def length_to_mask(self, lengths):
         mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)
-        mask = torch.gt(mask+1, lengths.unsqueeze(1))
         return mask
 #For inference only
 class StyleTTS2(torch.nn.Module):
     def __init__(self, config_path, models_path):

+# import re
+# import yaml
+# from munch import Munch
+# import numpy as np
+# import librosa
+# import noisereduce as nr
+# from meldataset import TextCleaner
+# import torch
+# import torchaudio
+# from nltk.tokenize import word_tokenize
+# import nltk
+# nltk.download('punkt_tab')
+# from models import ProsodyPredictor, TextEncoder, StyleEncoder
+# from Modules.hifigan import Decoder
+# import sys
+# import phonemizer
+# if sys.platform.startswith("win"):
+#     try:
+#         from phonemizer.backend.espeak.wrapper import EspeakWrapper
+#         import espeakng_loader
+#         EspeakWrapper.set_library(espeakng_loader.get_library_path())
+#     except Exception as e:
+#         print(e)
+# def espeak_phn(text, lang):
+#     try:
+#         my_phonemizer = phonemizer.backend.EspeakBackend(language=lang, preserve_punctuation=True,  with_stress=True, language_switch='remove-flags')
+#         return my_phonemizer.phonemize([text])[0]
+#     except Exception as e:
+#         print(e)
+# class Preprocess:
+#     def __text_normalize(self, text):
+#         punctuation = ["，", "、", "،", ";", "(", "．", "。", "…", "!", "–", ":", "?"]
+#         map_to = "."
+#         punctuation_pattern = re.compile(f"[{''.join(re.escape(p) for p in punctuation)}]")
+#         #replace punctuation that acts like a comma or period
+#         text = punctuation_pattern.sub(map_to, text)
+#         #replace consecutive whitespace chars with a single space and strip leading/trailing spaces
+#         text = re.sub(r'\s+', ' ', text).strip()
+#         return text
+#     def __merge_fragments(self, texts, n):
+#         merged = []
+#         i = 0
+#         while i < len(texts):
+#             fragment = texts[i]
+#             j = i + 1
+#             while len(fragment.split()) < n and j < len(texts):
+#                 fragment += ", " + texts[j]
+#                 j += 1
+#             merged.append(fragment)
+#             i = j
+#         if len(merged[-1].split()) < n and len(merged) > 1: #handle last sentence
+#             merged[-2] = merged[-2] + ", " + merged[-1]
+#             del merged[-1]
+#         else:
+#             merged[-1] = merged[-1]
+#         return merged
+#     def wave_preprocess(self, wave):
+#         to_mel = torchaudio.transforms.MelSpectrogram(n_mels=80, n_fft=2048, win_length=1200, hop_length=300)
+#         mean, std = -4, 4
+#         wave_tensor = torch.from_numpy(wave).float()
+#         mel_tensor = to_mel(wave_tensor)
+#         mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std
+#         return mel_tensor
+#     def text_preprocess(self, text, n_merge=12):
+#         text_norm = self.__text_normalize(text).split(".")#split by sentences.
+#         text_norm = [s.strip() for s in text_norm]
+#         text_norm = list(filter(lambda x: x != '', text_norm)) #filter empty index
+#         text_norm = self.__merge_fragments(text_norm, n=n_merge) #merge if a sentence has less that n
+#         return text_norm
+#     def length_to_mask(self, lengths):
+#         mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)
+#         mask = torch.gt(mask+1, lengths.unsqueeze(1))
+#         return mask
 import re
+import sys
 import yaml
+import nltk
 import numpy as np
 import librosa
 import torch
+import phonemizer
+import noisereduce as nr
+from munch import Munch
 from nltk.tokenize import word_tokenize
+from meldataset import TextCleaner
 from models import ProsodyPredictor, TextEncoder, StyleEncoder
 from Modules.hifigan import Decoder
+# Không download ở runtime trên Space (dễ treo / fail do network)
+# nltk.download('punkt_tab')
+# Nếu bạn cần, chuyển sang packages/requirements hoặc chạy local build step.
+# Trên Space, khuyến nghị bỏ phụ thuộc NLTK hoặc thay bằng tokenizer đơn giản.
 if sys.platform.startswith("win"):
     try:
         from phonemizer.backend.espeak.wrapper import EspeakWrapper
     except Exception as e:
         print(e)
 def espeak_phn(text, lang):
     try:
+        my_phonemizer = phonemizer.backend.EspeakBackend(
+            language=lang,
+            preserve_punctuation=True,
+            with_stress=True,
+            language_switch="remove-flags",
+        )
         return my_phonemizer.phonemize([text])[0]
     except Exception as e:
         print(e)
+        return text
 class Preprocess:
     def __text_normalize(self, text):
         punctuation = ["，", "、", "،", ";", "(", "．", "。", "…", "!", "–", ":", "?"]
         map_to = "."
         punctuation_pattern = re.compile(f"[{''.join(re.escape(p) for p in punctuation)}]")
         text = punctuation_pattern.sub(map_to, text)
+        text = re.sub(r"\s+", " ", text).strip()
         return text
     def __merge_fragments(self, texts, n):
         merged = []
         i = 0
                 j += 1
             merged.append(fragment)
             i = j
+        if len(merged) > 1 and len(merged[-1].split()) < n:
             merged[-2] = merged[-2] + ", " + merged[-1]
             del merged[-1]
         return merged
+    def wave_preprocess(self, wave, sr=24000):
+        """
+        Thay torchaudio bằng librosa để tránh dependency torchaudio trên HF Space.
+        Output giống shape cũ: (1, 80, T)
+        """
+        if wave is None:
+            raise ValueError("wave is None")
+        wave = np.asarray(wave)
+        if wave.ndim != 1:
+            wave = wave.squeeze()
+        wave = wave.astype(np.float32)
+        # Mel spectrogram (power). Nếu muốn khớp torchaudio default power=2.0, để power=2.0.
+        mel = librosa.feature.melspectrogram(
+            y=wave,
+            sr=sr,
+            n_fft=2048,
+            win_length=1200,
+            hop_length=300,
+            n_mels=80,
+            power=2.0,
+        )  # (80, T)
         mean, std = -4, 4
+        mel = np.log(1e-5 + mel)
+        mel = (mel - mean) / std
+        mel_tensor = torch.from_numpy(mel).float().unsqueeze(0)  # (1, 80, T)
         return mel_tensor
     def text_preprocess(self, text, n_merge=12):
+        text_norm = self.__text_normalize(text).split(".")
         text_norm = [s.strip() for s in text_norm]
+        text_norm = list(filter(lambda x: x != "", text_norm))
+        text_norm = self.__merge_fragments(text_norm, n=n_merge)
         return text_norm
     def length_to_mask(self, lengths):
         mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)
+        mask = torch.gt(mask + 1, lengths.unsqueeze(1))
         return mask
 #For inference only
 class StyleTTS2(torch.nn.Module):
     def __init__(self, config_path, models_path):