Spaces:

Revrse
/

sub200

Runtime error

App Files Files Community

Revrse commited on Nov 10, 2025

Commit

65621f7

verified ·

1 Parent(s): 9c2e92c

Upload 3 files

Browse files

Files changed (2) hide show

app.py +129 -6
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -119,10 +119,40 @@ def generate_audio_piper(text: str, speed: float = 1.0):
             raise FileNotFoundError("Piper model not found")
         piper_voice = piper.PiperVoice.load(model_path)
-        audio_data_np = piper_voice.synthesize(text)
-        # Return as numpy array for Gradio
-        return (piper_voice.config.sample_rate, audio_data_np)
     except Exception as e:
         raise Exception(f"Piper TTS failed: {str(e)}")
@@ -156,6 +186,22 @@ def generate_audio_coqui(text: str, speed: float = 1.0):
         if hasattr(tts, 'synthesizer') and hasattr(tts.synthesizer, 'output_sample_rate'):
             sample_rate = tts.synthesizer.output_sample_rate
         return (sample_rate, wav)
     except Exception as e:
@@ -173,6 +219,18 @@ def generate_audio_espeak(text: str, speed: float = 1.0):
         import soundfile as sf
         audio_data, sample_rate = sf.read(audio_file_path)
         return (sample_rate, audio_data)
     except Exception as e:
         raise Exception(f"eSpeak TTS failed: {str(e)}")
@@ -203,6 +261,18 @@ def generate_audio_gtts(text: str, speed: float = 1.0):
         import soundfile as sf
         audio_data, sample_rate = sf.read(wav_buffer)
         return (sample_rate, audio_data)
     except Exception as e:
         raise Exception(f"gTTS failed: {str(e)}")
@@ -224,6 +294,18 @@ def generate_audio_pyttsx3(text: str, speed: float = 1.0):
         import soundfile as sf
         audio_data, sample_rate = sf.read(audio_file_path)
         os.unlink(audio_file_path)
         return (sample_rate, audio_data)
     except Exception as e:
@@ -263,6 +345,18 @@ def generate_audio_edge_tts(text: str, speed: float = 1.0):
         import soundfile as sf
         audio_array, sample_rate = sf.read(wav_buffer)
         return (sample_rate, audio_array)
     except Exception as e:
@@ -295,7 +389,34 @@ def generate_speech(text: str, engine: str, speed: float = 1.0):
         else:  # espeak
             sample_rate, audio_data = generate_audio_espeak(text, speed)
-        return (sample_rate, audio_data), None
     except Exception as e:
         return None, f"Error: {str(e)}"
@@ -341,7 +462,7 @@ with gr.Blocks(title="sub200 - Ultra Low Latency TTS", theme=gr.themes.Soft()) a
     generate_btn = gr.Button("Generate Speech", variant="primary", size="lg")
-    audio_output = gr.Audio(label="Generated Audio", type="numpy", autoplay=True)
     error_output = gr.Textbox(label="Status", visible=True)
     # Engine status
@@ -374,4 +495,6 @@ except:
     pass
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

             raise FileNotFoundError("Piper model not found")
         piper_voice = piper.PiperVoice.load(model_path)
+        # synthesize() returns an iterable of AudioChunk objects
+        audio_chunks = piper_voice.synthesize(text)
+        # Collect all audio chunks and concatenate them
+        audio_arrays = []
+        sample_rate = piper_voice.config.sample_rate
+        for chunk in audio_chunks:
+            # Each chunk has an audio_float_array property
+            audio_arrays.append(chunk.audio_float_array)
+            # Use sample_rate from first chunk if available
+            if hasattr(chunk, 'sample_rate') and chunk.sample_rate:
+                sample_rate = chunk.sample_rate
+        # Concatenate all chunks into a single array
+        if audio_arrays:
+            audio_data_np = np.concatenate(audio_arrays)
+        else:
+            raise Exception("No audio chunks generated")
+        # Ensure it's a numpy array and float32
+        if not isinstance(audio_data_np, np.ndarray):
+            audio_data_np = np.array(audio_data_np, dtype=np.float32)
+        # Ensure audio is 1D (mono)
+        if len(audio_data_np.shape) > 1:
+            audio_data_np = audio_data_np.flatten()
+        # Convert to float32 if needed
+        if audio_data_np.dtype != np.float32:
+            audio_data_np = audio_data_np.astype(np.float32)
+        return (sample_rate, audio_data_np)
     except Exception as e:
         raise Exception(f"Piper TTS failed: {str(e)}")
         if hasattr(tts, 'synthesizer') and hasattr(tts.synthesizer, 'output_sample_rate'):
             sample_rate = tts.synthesizer.output_sample_rate
+        # Convert to numpy array if it's a tensor or list
+        if hasattr(wav, 'cpu'):  # PyTorch tensor
+            wav = wav.cpu().numpy()
+        elif hasattr(wav, 'numpy'):  # TensorFlow tensor
+            wav = wav.numpy()
+        elif not isinstance(wav, np.ndarray):
+            wav = np.array(wav, dtype=np.float32)
+        # Ensure audio is 1D (mono) and float32
+        if len(wav.shape) > 1:
+            wav = wav.flatten()
+        # Convert to float32 if needed
+        if wav.dtype != np.float32:
+            wav = wav.astype(np.float32)
         return (sample_rate, wav)
     except Exception as e:
         import soundfile as sf
         audio_data, sample_rate = sf.read(audio_file_path)
+        # Ensure it's a numpy array and float32
+        if not isinstance(audio_data, np.ndarray):
+            audio_data = np.array(audio_data, dtype=np.float32)
+        # Ensure audio is 1D (mono)
+        if len(audio_data.shape) > 1:
+            audio_data = audio_data.flatten()
+        # Convert to float32 if needed
+        if audio_data.dtype != np.float32:
+            audio_data = audio_data.astype(np.float32)
         return (sample_rate, audio_data)
     except Exception as e:
         raise Exception(f"eSpeak TTS failed: {str(e)}")
         import soundfile as sf
         audio_data, sample_rate = sf.read(wav_buffer)
+        # Ensure it's a numpy array and float32
+        if not isinstance(audio_data, np.ndarray):
+            audio_data = np.array(audio_data, dtype=np.float32)
+        # Ensure audio is 1D (mono)
+        if len(audio_data.shape) > 1:
+            audio_data = audio_data.flatten()
+        # Convert to float32 if needed
+        if audio_data.dtype != np.float32:
+            audio_data = audio_data.astype(np.float32)
         return (sample_rate, audio_data)
     except Exception as e:
         raise Exception(f"gTTS failed: {str(e)}")
         import soundfile as sf
         audio_data, sample_rate = sf.read(audio_file_path)
+        # Ensure it's a numpy array and float32
+        if not isinstance(audio_data, np.ndarray):
+            audio_data = np.array(audio_data, dtype=np.float32)
+        # Ensure audio is 1D (mono)
+        if len(audio_data.shape) > 1:
+            audio_data = audio_data.flatten()
+        # Convert to float32 if needed
+        if audio_data.dtype != np.float32:
+            audio_data = audio_data.astype(np.float32)
         os.unlink(audio_file_path)
         return (sample_rate, audio_data)
     except Exception as e:
         import soundfile as sf
         audio_array, sample_rate = sf.read(wav_buffer)
+        # Ensure it's a numpy array and float32
+        if not isinstance(audio_array, np.ndarray):
+            audio_array = np.array(audio_array, dtype=np.float32)
+        # Ensure audio is 1D (mono)
+        if len(audio_array.shape) > 1:
+            audio_array = audio_array.flatten()
+        # Convert to float32 if needed
+        if audio_array.dtype != np.float32:
+            audio_array = audio_array.astype(np.float32)
         return (sample_rate, audio_array)
     except Exception as e:
         else:  # espeak
             sample_rate, audio_data = generate_audio_espeak(text, speed)
+        # Ensure audio_data is a numpy array (not a list)
+        if not isinstance(audio_data, np.ndarray):
+            audio_data = np.array(audio_data, dtype=np.float32)
+        # Ensure audio is 1D (mono)
+        if len(audio_data.shape) > 1:
+            audio_data = audio_data.flatten()
+        # Normalize audio to [-1, 1] range if needed
+        max_val = np.max(np.abs(audio_data))
+        if max_val > 1.0:
+            audio_data = audio_data / max_val
+        # Ensure it's still a numpy array after normalization
+        if not isinstance(audio_data, np.ndarray):
+            audio_data = np.array(audio_data, dtype=np.float32)
+        # Save to temporary file for Gradio Audio component
+        import tempfile
+        import soundfile as sf
+        with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp:
+            tmp_path = tmp.name
+        sf.write(tmp_path, audio_data, int(sample_rate))
+        # Return file path for Gradio Audio component
+        return tmp_path, None
     except Exception as e:
         return None, f"Error: {str(e)}"
     generate_btn = gr.Button("Generate Speech", variant="primary", size="lg")
+    audio_output = gr.Audio(label="Generated Audio", type="filepath", autoplay=True)
     error_output = gr.Textbox(label="Status", visible=True)
     # Engine status
     pass
 if __name__ == "__main__":
+    # Get port from environment (Hugging Face Spaces uses 7860, local uses 8000)
+    port = int(os.getenv("PORT", 8000))
+    demo.launch(server_name="0.0.0.0", server_port=port, share=False)

requirements.txt CHANGED Viewed

@@ -14,3 +14,4 @@ pydub==0.25.1
 # Note: numpy version is managed by TTS (1.22.0 for Python 3.10)
 # torch and torchaudio are pre-installed in HF Spaces base image

 # Note: numpy version is managed by TTS (1.22.0 for Python 3.10)
 # torch and torchaudio are pre-installed in HF Spaces base image
+# pandas version is managed by Gradio (compatible version)