TextToSpeech

Runtime error

Mynameisju commited on Jun 16, 2025

Commit

637e45f

verified ·

1 Parent(s): eb67530

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,11 +6,16 @@ import soundfile as sf
 import numpy as np
 import os
 # Set device (GPU if available, else CPU)
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # Load Indic Parler-TTS model and tokenizer
-model = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts").to(device)
 tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 # Supported languages (Indic Parler-TTS officially supports these)
@@ -39,13 +44,17 @@ def generate_speech(text, language, voice_description):
     # Generate audio
     try:
-        generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
-        audio_arr = generation.cpu().numpy().squeeze()
-        # Save audio to a temporary file
-        output_file = "output.wav"
-        sf.write(output_file, audio_arr, model.config.sampling_rate)
-        return output_file, None
     except Exception as e:
         return None, f"Error generating audio: {str(e)}"

 import numpy as np
 import os
+# Optimize for CPU usage
+torch.set_num_threads(2)  # Optional: adjust this based on your CPU core count
 # Set device (GPU if available, else CPU)
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # Load Indic Parler-TTS model and tokenizer
+model = ParlerTTSForConditionalGeneration.from_pretrained(
+    "ai4bharat/indic-parler-tts", torch_dtype=torch.float32
+).to(device)
 tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 # Supported languages (Indic Parler-TTS officially supports these)
     # Generate audio
     try:
+        with torch.inference_mode():  # Optimization: avoid gradient tracking
+            generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
+            audio_arr = generation.cpu().numpy().squeeze()
+            # Normalize audio to avoid clipping
+            audio_arr = audio_arr / np.max(np.abs(audio_arr) + 1e-6)
+            # Save audio to a temporary file
+            output_file = "output.wav"
+            sf.write(output_file, audio_arr, model.config.sampling_rate)
+            return output_file, None
     except Exception as e:
         return None, f"Error generating audio: {str(e)}"