Spaces:

Hyprlyf
/

hypr1

Sleeping

App Files Files Community

Hyprlyf commited on Sep 20, 2025

Commit

f4b2387

verified ·

1 Parent(s): 032c086

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -52

app.py CHANGED Viewed

@@ -1,56 +1,17 @@
-import gradio as gr
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
 import torch
-import soundfile as sf
-import numpy as np
-# Device configuration
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# Languages & models
-# Note: SpeechT5 primarily English, other languages may require Roman transliteration
-languages = {
-    "English": "microsoft/speecht5_tts",
-    "Hindi": "microsoft/speecht5_tts",
-    "Urdu": "microsoft/speecht5_tts",
-    "Arabic": "microsoft/speecht5_tts",
-    "Turkish": "microsoft/speecht5_tts",
-    "Persian": "microsoft/speecht5_tts",
-    "Malay": "microsoft/speecht5_tts"
-}
-# Load models (CPU-friendly)
-tts_pipelines = {}
-for lang, model_name in languages.items():
-    processor = SpeechT5Processor.from_pretrained(model_name)
-    model = SpeechT5ForTextToSpeech.from_pretrained(model_name).to(device)
-    tts_pipelines[lang] = {"processor": processor, "model": model}
-# Text-to-Speech function
-def text_to_speech(text, language):
-    processor = tts_pipelines[language]["processor"]
-    model = tts_pipelines[language]["model"]
-    inputs = processor(text=text, return_tensors="pt").to(device)
-    with torch.no_grad():
-        speech = model.generate_speech(inputs["input_ids"], speaker_embeddings=None)
-    audio_np = speech.squeeze().cpu().numpy()
-    samplerate = processor.feature_extractor.sampling_rate
-    sf.write("output.wav", audio_np, samplerate)
-    return (audio_np, samplerate)
-# Gradio Interface
-iface = gr.Interface(
-    fn=text_to_speech,
-    inputs=[
-        gr.Textbox(lines=2, placeholder="Type your text here..."),
-        gr.Dropdown(list(languages.keys()), label="Select Language")
-    ],
-    outputs=gr.Audio(type="numpy", autoplay=True),
-    title="Multi-Language TTS (SpeechT5)",
-    description="Type text, select language, and get speech output. Roman transliteration recommended for non-English languages."
-)
-iface.launch()

+from transformers import SpeechT5HifiGan
 import torch
+# Load TTS model
+model_name = "microsoft/speecht5_tts"
+processor = SpeechT5Processor.from_pretrained(model_name)
+model = SpeechT5ForTextToSpeech.from_pretrained(model_name).to(device)
+# Load default HiFi-GAN vocoder
+vocoder = SpeechT5HifiGan.from_pretrained(model_name)
+# Example speaker embedding
+# Hugging Face dataset example: cmu-arctic-xvectors
+# Here we can use 'matthijs/cmu-arctic-xvectors' speaker
+from datasets import load_dataset
+dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="train[:1]")
+speaker_embedding = torch.tensor(dataset[0]["xvector"]).unsqueeze(0).to(device)