Spaces:

mujahid1214
/

voice-clone-studio

Runtime error

App Files Files Community

mujahid1214 commited on Dec 2, 2025

Commit

769a124

verified ·

1 Parent(s): e7f5b9e

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -25

app.py CHANGED Viewed

@@ -1,39 +1,66 @@
 import gradio as gr
-import librosa
-import soundfile as sf
-import numpy as np
 import torch
-# Simple CPU-based RVC-like voice conversion
-# NOTE: This is a lightweight approximation for HF Spaces (no GPU needed)
-def clone_voice(input_voice, target_voice):
-    if input_voice is None or target_voice is None:
-        return "Upload input and target voices!", None
-    # load voices
-    inp_audio, sr = librosa.load(input_voice, sr=16000)
-    tgt_audio, _ = librosa.load(target_voice, sr=16000)
-    # Simple timbre transfer (placeholder lightweight model)
-    converted = inp_audio * 0.3 + tgt_audio * 0.7
-    output_path = "cloned.wav"
-    sf.write(output_path, converted, 16000)
-    return "Voice cloned!", output_path
-with gr.Blocks() as demo:
-    gr.Markdown("# 🎤 Free Voice Clone Studio (HuggingFace Compatible RVC-lite)")
-    input_voice = gr.Audio(label="Upload main voice (speech to convert)", type="filepath")
-    target_voice = gr.Audio(label="Upload target voice (the voice to clone)", type="filepath")
-    output_audio = gr.Audio(label="Cloned Voice Output")
-    status = gr.Textbox(label="Status")
-    btn = gr.Button("Clone Voice")
-    btn.click(fn=clone_voice, inputs=[input_voice, target_voice], outputs=[status, output_audio])
-demo.launch()

 import gradio as gr
 import torch
+import numpy as np
+import torchaudio
+from bark import SAMPLE_RATE, generate_audio, preload_models
+from encodec import EncodecModel
+from transformers import Wav2Vec2Processor, HubertModel
+# -----------------------
+# Load Bark
+# -----------------------
+preload_models()
+# -----------------------
+# Load Voice Encoder (HuBERT)
+# -----------------------
+processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
+hubert = HubertModel.from_pretrained("facebook/hubert-large-ls960-ft")
+# -----------------------
+# Load Encodec for audio reconstruction
+# -----------------------
+encodec_model = EncodecModel.encodec_model_24khz()
+encodec_model.set_target_bandwidth(6.0)
+def extract_voice_embedding(audio):
+    speech, sr = torchaudio.load(audio)
+    speech = torchaudio.functional.resample(speech, sr, 16000)
+    inputs = processor(speech.squeeze(), sampling_rate=16000, return_tensors="pt")
+    with torch.no_grad():
+        hidden_states = hubert(**inputs).last_hidden_state
+    # Average pooling for embedding
+    embedding = hidden_states.mean(dim=1)
+    return embedding
+def generate_voice(text, ref_audio):
+    embedding = extract_voice_embedding(ref_audio)
+    # Bark generation
+    audio_array = generate_audio(
+        text,
+        history_prompt=None,
+        speaker_embedding=embedding.squeeze().tolist()
+    )
+    return (SAMPLE_RATE, np.array(audio_array))
+# -----------------------
+# Gradio UI
+# -----------------------
+app = gr.Interface(
+    fn=generate_voice,
+    inputs=[
+        gr.Textbox(label="Text to Speak"),
+        gr.Audio(label="Reference Voice (5–20 sec)", type="filepath")
+    ],
+    outputs=gr.Audio(label="Generated Voice"),
+    title="Free Voice Cloner (Bark + HuBERT)",
+)
+app.launch()