Spaces:

Hammad112
/

Voice_clone

Running

App Files Files Community

Hammad112 commited on Feb 25, 2025

Commit

084f05a

verified ·

1 Parent(s): 31beb62

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -39

app.py CHANGED Viewed

@@ -4,9 +4,6 @@ from scipy.io.wavfile import write
 import tempfile
 import os
 from pydub import AudioSegment
-import sounddevice as sd
-import wave
-import numpy as np
 # Initialize model configuration
 model_config = outetts.HFModelConfig_v1(
@@ -24,7 +21,6 @@ st.write("Enter text below to generate speech.")
 # Sidebar for reference voice
 st.sidebar.title("Voice Cloning")
 reference_audio = st.sidebar.file_uploader("Upload a reference audio (any format)", type=["wav", "mp3", "ogg", "flac", "m4a"])
-transcript = st.sidebar.text_area("Transcription of the reference audio")
 # Function to convert audio to WAV format
 def convert_to_wav(audio_file):
@@ -33,51 +29,21 @@ def convert_to_wav(audio_file):
     audio.export(temp_audio.name, format="wav")
     return temp_audio.name
-if reference_audio and transcript:
     ref_audio_path = convert_to_wav(reference_audio)
-    # Create speaker profile
-    speaker = interface.create_speaker(ref_audio_path, transcript)
-    # Save the speaker profile
-    interface.save_speaker(speaker, "speaker.json")
 else:
-    speaker = None
-# Recording functionality
-def record_audio(duration=5, samplerate=44100):
-    st.sidebar.write("Recording...")
-    recording = sd.rec(int(duration * samplerate), samplerate=samplerate, channels=1, dtype=np.int16)
-    sd.wait()
-    temp_audio_path = tempfile.NamedTemporaryFile(delete=False, suffix=".wav").name
-    with wave.open(temp_audio_path, "wb") as wf:
-        wf.setnchannels(1)
-        wf.setsampwidth(2)
-        wf.setframerate(samplerate)
-        wf.writeframes(recording.tobytes())
-    return temp_audio_path
-if not speaker:
-    st.sidebar.write("Or record your voice below:")
-    if st.sidebar.button("Record Voice"):
-        ref_audio_path = record_audio()
-        st.sidebar.success("Recording complete!")
-        transcript = st.sidebar.text_area("Transcription of the recorded audio")
-        if transcript:
-            # Create speaker profile from recorded audio
-            speaker = interface.create_speaker(ref_audio_path, transcript)
-            # Save the speaker profile
-            interface.save_speaker(speaker, "speaker.json")
 text_input = st.text_area("Text to convert to speech:", "Hello, this is an AI-generated voice.")
 if st.button("Generate Speech"):
     with st.spinner("Generating audio..."):
-        # Generate speech with or without the speaker profile
         output = interface.generate(
             text=text_input,
             temperature=0.1,
             repetition_penalty=1.1,
-            max_length=4096,
-            speaker=speaker
         )
         # Save the synthesized speech to a file
@@ -89,5 +55,5 @@ if st.button("Generate Speech"):
         st.success("Speech generated successfully!")
 # Clean up temporary files
-if reference_audio:
     os.remove(ref_audio_path)

 import tempfile
 import os
 from pydub import AudioSegment
 # Initialize model configuration
 model_config = outetts.HFModelConfig_v1(
 # Sidebar for reference voice
 st.sidebar.title("Voice Cloning")
 reference_audio = st.sidebar.file_uploader("Upload a reference audio (any format)", type=["wav", "mp3", "ogg", "flac", "m4a"])
 # Function to convert audio to WAV format
 def convert_to_wav(audio_file):
     audio.export(temp_audio.name, format="wav")
     return temp_audio.name
+if reference_audio:
     ref_audio_path = convert_to_wav(reference_audio)
 else:
+    ref_audio_path = None
 text_input = st.text_area("Text to convert to speech:", "Hello, this is an AI-generated voice.")
 if st.button("Generate Speech"):
     with st.spinner("Generating audio..."):
+        # Generate speech with reference audio
         output = interface.generate(
             text=text_input,
             temperature=0.1,
             repetition_penalty=1.1,
+            max_length=4096
         )
         # Save the synthesized speech to a file
         st.success("Speech generated successfully!")
 # Clean up temporary files
+if ref_audio_path:
     os.remove(ref_audio_path)