Spaces:

Nick021402
/

Text2speech

Sleeping

App Files Files Community

Nick021402 commited on May 23, 2025

Commit

120ea4f

verified ·

1 Parent(s): 266bfcf

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -19

app.py CHANGED Viewed

@@ -14,22 +14,13 @@ from datasets import load_dataset
 warnings.filterwarnings("ignore")
-# Add this at the top of your app.py or equivalent
-import nltk
-# Download necessary NLTK data
 try:
     nltk.data.find('tokenizers/punkt')
-    nltk.data.find('tokenizers/punkt_tab')  # This is the missing one!
 except LookupError:
     nltk.download(['punkt', 'punkt_tab'], quiet=True)
-# Download required NLTK data
-try:
-    nltk.data.find('tokenizers/punkt')
-except LookupError:
-    nltk.download('punkt')
 class LongFormTTS:
     def __init__(self):
@@ -61,7 +52,7 @@ class LongFormTTS:
         # Handle common abbreviations
         abbreviations = {
             'Dr.': 'Doctor',
-            'Mr.': 'Mister',
             'Mrs.': 'Missus',
             'Ms.': 'Miss',
             'Prof.': 'Professor',
@@ -99,8 +90,8 @@ class LongFormTTS:
         if num > 9999:
             return str(num)
         ones = ["", "one", "two", "three", "four", "five", "six", "seven", "eight", "nine"]
-        teens = ["ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
-                "sixteen", "seventeen", "eighteen", "nineteen"]
         tens = ["", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"]
         if num < 10:
             return ones[num]
@@ -163,8 +154,8 @@ class LongFormTTS:
             inputs = self.processor(text=text_chunk, return_tensors="pt").to(self.device)
             with torch.no_grad():
                 speech = self.model.generate_speech(
-                    inputs["input_ids"],
-                    self.speaker_embeddings,
                     vocoder=self.vocoder
                 )
             # Convert to numpy and move to CPU
@@ -247,7 +238,7 @@ def text_to_speech_interface(text, progress=gr.Progress()):
             return None, "❌ Failed to generate audio. Please try with different text."
         progress(0.9, desc="💾 Saving audio file...")
         # Save to temporary file
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
             sf.write(tmp_file.name, audio, sample_rate)
             audio_path = tmp_file.name
         progress(1.0, desc="✅ Complete!")
@@ -336,7 +327,7 @@ def create_interface():
                         <li>🎭 Natural human voice</li>
                         <li>⚡ Smart text processing</li>
                         <li>🔧 Auto chunking</li>
-                        <li>_FREE_ Completely free</li>
                         <li>📱 Mobile friendly</li>
                         <li>🎵 High quality audio</li>
                     </ul>
@@ -410,5 +401,6 @@ if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
-        share=True
     )

 warnings.filterwarnings("ignore")
+# Download required NLTK data including punkt_tab
 try:
     nltk.data.find('tokenizers/punkt')
+    nltk.data.find('tokenizers/punkt_tab')
 except LookupError:
     nltk.download(['punkt', 'punkt_tab'], quiet=True)
 class LongFormTTS:
     def __init__(self):
         # Handle common abbreviations
         abbreviations = {
             'Dr.': 'Doctor',
+            'Mr.': 'Mister',
             'Mrs.': 'Missus',
             'Ms.': 'Miss',
             'Prof.': 'Professor',
         if num > 9999:
             return str(num)
         ones = ["", "one", "two", "three", "four", "five", "six", "seven", "eight", "nine"]
+        teens = ["ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
+                 "sixteen", "seventeen", "eighteen", "nineteen"]
         tens = ["", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"]
         if num < 10:
             return ones[num]
             inputs = self.processor(text=text_chunk, return_tensors="pt").to(self.device)
             with torch.no_grad():
                 speech = self.model.generate_speech(
+                    inputs["input_ids"],
+                    self.speaker_embeddings,
                     vocoder=self.vocoder
                 )
             # Convert to numpy and move to CPU
             return None, "❌ Failed to generate audio. Please try with different text."
         progress(0.9, desc="💾 Saving audio file...")
         # Save to temporary file
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
             sf.write(tmp_file.name, audio, sample_rate)
             audio_path = tmp_file.name
         progress(1.0, desc="✅ Complete!")
                         <li>🎭 Natural human voice</li>
                         <li>⚡ Smart text processing</li>
                         <li>🔧 Auto chunking</li>
+                        <li>🆓 Completely free</li>
                         <li>📱 Mobile friendly</li>
                         <li>🎵 High quality audio</li>
                     </ul>
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
+        share=True,
+        ssr_mode=False
     )