Spaces:

Shanuka01
/

test_03

Runtime error

App Files Files Community

Shanuka01 commited on Oct 2, 2023

Commit

363c60e

1 Parent(s): 100749a

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -28

app.py CHANGED Viewed

@@ -1,37 +1,84 @@
-import os
-import torch
-from TTS.api import TTS
 import gradio as gr
-from TTS.tts.configs.xtts_config import XttsConfig
-from TTS.tts.models.xtts import Xtts
-from scipy.io.wavfile import write
-import numpy as np
-from transformers import pipeline
-def tts_generate(text, speaker_wav="model2.mp3"):
-    # Get device
-    device = device = "cuda" if torch.cuda.is_available() else "cpu"
-    # Run TTS
-    asr = pipeline("Text-to-Speech", model="coqui/XTTS-v1")
-    # generate speech by cloning a voice using default settings
-    tts.tts_to_file(text=text, speaker_wav="voice_models/" + speaker_wav, language="en", file_path="output.wav")
-    return "output.wav"
-def greet(name):
-    return "Hello " + name + "!!"
-iface = gr.Interface(fn=tts_generate,
-                     inputs=["text", "text"],
-                     outputs=["audio"],
-                     examples=[
-                         ["Hello Jhon. Welcome to our group.", "model1.wav"],
-                         ["Hello Jhon. Welcome to our group.", "model2.mp3"]]
-                     )
-iface.launch(share=True, debug=True)
-# tts_generate("Hello Jhon. Welcome to our group.", "model2.mp3")

 import gradio as gr
+import torch
+from transformers import VITSTokenizer, VITSForConditionalGeneration
+# Load the pre-trained VITS model and tokenizer
+model_name = "user/vits-large-melgan-ljspeech"  # Replace with your desired VITS model
+tokenizer = VITSTokenizer.from_pretrained(model_name)
+model = VITSForConditionalGeneration.from_pretrained(model_name)
+# Function to record a voice sample
+def record_voice_sample():
+    duration = 5  # Record for 5 seconds
+    sample_rate = 44100  # Standard sample rate
+    print("Recording...")
+    audio_data = sd.rec(int(duration * sample_rate), samplerate=sample_rate, channels=1)
+    sd.wait()
+    print("Recording finished.")
+    return audio_data
+# Function to perform voice cloning (replace with your actual voice cloning model)
+def perform_voice_cloning(audio_data, text_to_clone):
+    # Use your voice cloning model to perform voice cloning
+    # Replace this code with your actual voice cloning model
+    cloned_audio = audio_data  # Dummy result
+    return cloned_audio
+# Function to perform text-to-speech (TTS) using the VITS model
+def generate_speech(text_to_generate):
+    inputs = tokenizer(text_to_generate, return_tensors="pt", padding=True, truncation=True, max_length=200)
+    with torch.no_grad():
+        output = model.generate(**inputs)
+    generated_audio = output[0].numpy()
+    return generated_audio
+# Create Gradio interfaces for each step
+voice_sample_interface = gr.Interface(
+    fn=record_voice_sample,
+    inputs=None,
+    outputs=gr.outputs.Audio(),
+    live=True,
+    title="Voice Sample Recording",
+    description="Click 'Play' to record a voice sample.",
+)
+voice_cloning_interface = gr.Interface(
+    fn=perform_voice_cloning,
+    inputs=gr.inputs.Audio(),
+    outputs=gr.outputs.Audio(),
+    live=True,
+    title="Voice Cloning",
+    description="Clone the recorded voice sample.",
+)
+tts_interface = gr.Interface(
+    fn=generate_speech,
+    inputs=gr.inputs.Textbox(),
+    outputs=gr.outputs.Audio(),
+    live=True,
+    title="Text-to-Speech (TTS) using VITS",
+    description="Enter text, and the VITS model will generate speech.",
+)
+# Launch Gradio interfaces
+voice_sample_interface.launch()
+voice_cloning_interface.launch()
+tts_interface.launch()