Spaces:

Hammad112
/

Voice_clone

Sleeping

App Files Files Community

Hammad112 commited on Feb 25, 2025

Commit

31beb62

verified ·

1 Parent(s): 410e3d8

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -7

app.py CHANGED Viewed

@@ -4,6 +4,9 @@ from scipy.io.wavfile import write
 import tempfile
 import os
 from pydub import AudioSegment
 # Initialize model configuration
 model_config = outetts.HFModelConfig_v1(
@@ -21,6 +24,7 @@ st.write("Enter text below to generate speech.")
 # Sidebar for reference voice
 st.sidebar.title("Voice Cloning")
 reference_audio = st.sidebar.file_uploader("Upload a reference audio (any format)", type=["wav", "mp3", "ogg", "flac", "m4a"])
 # Function to convert audio to WAV format
 def convert_to_wav(audio_file):
@@ -29,28 +33,51 @@ def convert_to_wav(audio_file):
     audio.export(temp_audio.name, format="wav")
     return temp_audio.name
-if reference_audio:
     ref_audio_path = convert_to_wav(reference_audio)
 else:
-    ref_audio_path = None
 # Recording functionality
-if ref_audio_path is None:
     st.sidebar.write("Or record your voice below:")
     if st.sidebar.button("Record Voice"):
-        st.sidebar.warning("Recording functionality not implemented yet. Please upload a file.")
 text_input = st.text_area("Text to convert to speech:", "Hello, this is an AI-generated voice.")
 if st.button("Generate Speech"):
     with st.spinner("Generating audio..."):
-        # Generate speech with reference audio
         output = interface.generate(
             text=text_input,
             temperature=0.1,
             repetition_penalty=1.1,
             max_length=4096,
-            speaker_wav=ref_audio_path if ref_audio_path else None
         )
         # Save the synthesized speech to a file
@@ -62,5 +89,5 @@ if st.button("Generate Speech"):
         st.success("Speech generated successfully!")
 # Clean up temporary files
-if ref_audio_path:
     os.remove(ref_audio_path)

 import tempfile
 import os
 from pydub import AudioSegment
+import sounddevice as sd
+import wave
+import numpy as np
 # Initialize model configuration
 model_config = outetts.HFModelConfig_v1(
 # Sidebar for reference voice
 st.sidebar.title("Voice Cloning")
 reference_audio = st.sidebar.file_uploader("Upload a reference audio (any format)", type=["wav", "mp3", "ogg", "flac", "m4a"])
+transcript = st.sidebar.text_area("Transcription of the reference audio")
 # Function to convert audio to WAV format
 def convert_to_wav(audio_file):
     audio.export(temp_audio.name, format="wav")
     return temp_audio.name
+if reference_audio and transcript:
     ref_audio_path = convert_to_wav(reference_audio)
+    # Create speaker profile
+    speaker = interface.create_speaker(ref_audio_path, transcript)
+    # Save the speaker profile
+    interface.save_speaker(speaker, "speaker.json")
 else:
+    speaker = None
 # Recording functionality
+def record_audio(duration=5, samplerate=44100):
+    st.sidebar.write("Recording...")
+    recording = sd.rec(int(duration * samplerate), samplerate=samplerate, channels=1, dtype=np.int16)
+    sd.wait()
+    temp_audio_path = tempfile.NamedTemporaryFile(delete=False, suffix=".wav").name
+    with wave.open(temp_audio_path, "wb") as wf:
+        wf.setnchannels(1)
+        wf.setsampwidth(2)
+        wf.setframerate(samplerate)
+        wf.writeframes(recording.tobytes())
+    return temp_audio_path
+if not speaker:
     st.sidebar.write("Or record your voice below:")
     if st.sidebar.button("Record Voice"):
+        ref_audio_path = record_audio()
+        st.sidebar.success("Recording complete!")
+        transcript = st.sidebar.text_area("Transcription of the recorded audio")
+        if transcript:
+            # Create speaker profile from recorded audio
+            speaker = interface.create_speaker(ref_audio_path, transcript)
+            # Save the speaker profile
+            interface.save_speaker(speaker, "speaker.json")
 text_input = st.text_area("Text to convert to speech:", "Hello, this is an AI-generated voice.")
 if st.button("Generate Speech"):
     with st.spinner("Generating audio..."):
+        # Generate speech with or without the speaker profile
         output = interface.generate(
             text=text_input,
             temperature=0.1,
             repetition_penalty=1.1,
             max_length=4096,
+            speaker=speaker
         )
         # Save the synthesized speech to a file
         st.success("Speech generated successfully!")
 # Clean up temporary files
+if reference_audio:
     os.remove(ref_audio_path)