Spaces:

cocktailpeanut
/

xtts-streaming

Runtime error

App Files Files Community

Upload 4 files

by antoniomae1234 - opened May 25, 2024

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+63

-42

Files changed (4) hide show

README.md +1 -3
app.py +25 -39
gitattributes +1 -0
gitattributes (1) +36 -0

README.md CHANGED Viewed

@@ -3,9 +3,7 @@ title: XTTS-streaming
 emoji: 🐸
 colorFrom: green
 colorTo: red
-sdk: gradio
-sdk_version: 3.44.3
-app_file: app.py
 pinned: false
 models:
 - coqui/XTTS-v1

 emoji: 🐸
 colorFrom: green
 colorTo: red
+sdk: static
 pinned: false
 models:
 - coqui/XTTS-v1

app.py CHANGED Viewed

@@ -29,20 +29,20 @@ from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 from TTS.utils.generic_utils import get_user_data_dir
-#HF_TOKEN = os.environ.get("HF_TOKEN")
 from huggingface_hub import HfApi
 # will use api to restart space on a unrecoverable error
-#api = HfApi(token=HF_TOKEN)
 repo_id = "coqui/xtts-streaming"
-## Use never ffmpeg binary for Ubuntu20 to use denoising for microphone input
-#print("Export newer ffmpeg binary for denoise filter")
-#ZipFile("ffmpeg.zip").extractall()
-#print("Make ffmpeg binary executable")
-#st = os.stat('ffmpeg')
-#os.chmod('ffmpeg', st.st_mode | stat.S_IEXEC)
 # This will trigger downloading model
 print("Downloading if not downloaded Coqui XTTS V1.1")
@@ -73,7 +73,7 @@ DEVICE_ASSERT_DETECTED=0
 DEVICE_ASSERT_PROMPT=None
 DEVICE_ASSERT_LANG=None
-#supported_languages=["en","es","fr","de","it","pt","pl","tr","ru","nl","cs","ar","zh-cn"]
 supported_languages=config.languages
 def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_cleanup, no_lang_auto_detect, agree,):
@@ -91,11 +91,11 @@ def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_clea
         language_predicted=langid.classify(prompt)[0].strip() # strip need as there is space at end!
-        # tts expects chinese as zh-cn
-        if language_predicted == "zh":
             #we use zh-cn
-            language_predicted = "zh-cn"
-        print(f"Detected language:{language_predicted}, Chosen language:{language}")
         # After text character length 15 trigger language detection
         if len(prompt)>15:
@@ -151,8 +151,7 @@ def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_clea
                 out_filename = speaker_wav + str(uuid.uuid4()) + ".wav"  #ffmpeg to know output format
                 #we will use newer ffmpeg as that has afftn denoise filter
-                #shell_command = f"./ffmpeg -y -i {speaker_wav} -af {lowpass_highpass}{trim_silence} {out_filename}".split(" ")
-                shell_command = f"ffmpeg -y -i {speaker_wav} -af {lowpass_highpass}{trim_silence} {out_filename}".split(" ")
                 command_result = subprocess.run([item for item in shell_command], capture_output=False,text=True, check=True)
                 speaker_wav=out_filename
@@ -163,15 +162,15 @@ def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_clea
         else:
             speaker_wav=speaker_wav
-        if len(prompt)<2:
             gr.Warning("Please give a longer prompt text")
             return (
                     None,
                     None,
                     None,
                 )
-        if len(prompt)>200:
-            gr.Warning("Text length limited to 200 characters for this demo, please try shorter text. You can clone this space and edit code for your own usage")
             return (
                     None,
                     None,
@@ -253,7 +252,7 @@ def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_clea
                 print(error_data)
                 print(speaker_wav)
                 write_io = StringIO()
-                csv.writer(write_io).writerows(error_data)
                 csv_upload= write_io.getvalue().encode()
                 filename =  error_time+"_xtts-stream_" + str(uuid.uuid4()) +".csv"
@@ -278,7 +277,7 @@ def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_clea
                 )
                 # HF Space specific.. This error is unrecoverable need to restart space
-                #api.restart_space(repo_id=repo_id)
             else:
                 if "Failed to decode" in str(e):
                     print("Speaker encoding error", str(e))
@@ -342,9 +341,7 @@ Leave a star on the Github <a href="https://github.com/coqui-ai/TTS">🐸TTS</a>
 </p>
 <p>Language Selectors:
-Arabic: ar, Brazilian Portuguese: pt , Chinese: zh-cn, Czech: cs,<br/>
-Dutch: nl, English: en, French: fr, Italian: it, Polish: pl,<br/>
-Russian: ru, Spanish: es, Turkish: tr, Japanese: ja <br/>
 </p>
 <p> Notice: Autoplay may not work on mobile, if you see black waveform image on mobile click it your Audio is there</p>
 <img referrerpolicy="no-referrer-when-downgrade" src="https://static.scarf.sh/a.png?x-pxid=8946ef36-c454-4a8e-a9c9-8a8dd735fabd" />
@@ -497,30 +494,19 @@ gr.Interface(
     inputs=[
         gr.Textbox(
             label="Text Prompt",
-            info="One or two sentences at a time is better. Up to 200 text characters.",
             value="Hi there, I'm your new voice clone. Try your best to upload quality audio",
         ),
         gr.Dropdown(
             label="Language",
             info="Select an output language for the synthesised speech",
             choices=[
-                "en",
-                "es",
-                "fr",
-                "de",
-                "it",
                 "pt",
-                "pl",
-                "tr",
-                "ru",
-                "nl",
-                "cs",
-                "ar",
-                "zh-cn",
-                "ja"
             ],
             max_choices=1,
-            value="en",
         ),
         gr.Audio(
             label="Reference Audio",
@@ -561,4 +547,4 @@ gr.Interface(
     article=article,
     examples=examples,
     cache_examples=False,
-).queue().launch(debug=True,show_api=True)

 from TTS.tts.models.xtts import Xtts
 from TTS.utils.generic_utils import get_user_data_dir
+HF_TOKEN = os.environ.get("HF_TOKEN")
 from huggingface_hub import HfApi
 # will use api to restart space on a unrecoverable error
+api = HfApi(token=HF_TOKEN)
 repo_id = "coqui/xtts-streaming"
+# Use never ffmpeg binary for Ubuntu20 to use denoising for microphone input
+print("Export newer ffmpeg binary for denoise filter")
+ZipFile("ffmpeg.zip").extractall()
+print("Make ffmpeg binary executable")
+st = os.stat('ffmpeg')
+os.chmod('ffmpeg', st.st_mode | stat.S_IEXEC)
 # This will trigger downloading model
 print("Downloading if not downloaded Coqui XTTS V1.1")
 DEVICE_ASSERT_PROMPT=None
 DEVICE_ASSERT_LANG=None
+#supported_languages=["pt"]
 supported_languages=config.languages
 def predict(prompt, language, audio_file_pth, mic_file_path, use_mic, voice_cleanup, no_lang_auto_detect, agree,):
         language_predicted=langid.classify(prompt)[0].strip() # strip need as there is space at end!
+        # tts expects
+        if language_predicted
             #we use zh-cn
+            language_predicted
+        print(f"Detected language:{language_predicted}n language:{language}")
         # After text character length 15 trigger language detection
         if len(prompt)>15:
                 out_filename = speaker_wav + str(uuid.uuid4()) + ".wav"  #ffmpeg to know output format
                 #we will use newer ffmpeg as that has afftn denoise filter
+                shell_command = f"./ffmpeg -y -i {speaker_wav} -af {lowpass_highpass}{trim_silence} {out_filename}".split(" ")
                 command_result = subprocess.run([item for item in shell_command], capture_output=False,text=True, check=True)
                 speaker_wav=out_filename
         else:
             speaker_wav=speaker_wav
+        if len(prompt)<1:
             gr.Warning("Please give a longer prompt text")
             return (
                     None,
                     None,
                     None,
                 )
+        if len(prompt)>3000:
+            gr.Warning("Text length limited to characters for this demo, please try shorter text. You can clone this space and edit code for your own usage")
             return (
                     None,
                     None,
                 print(error_data)
                 print(speaker_wav)
                 write_io = StringIO()
+                csv.writer(write_io).writerows([error_data])
                 csv_upload= write_io.getvalue().encode()
                 filename =  error_time+"_xtts-stream_" + str(uuid.uuid4()) +".csv"
                 )
                 # HF Space specific.. This error is unrecoverable need to restart space
+                api.restart_space(repo_id=repo_id)
             else:
                 if "Failed to decode" in str(e):
                     print("Speaker encoding error", str(e))
 </p>
 <p>Language Selectors:
+Arabic: ar, Brazilian Portuguese: pt
 </p>
 <p> Notice: Autoplay may not work on mobile, if you see black waveform image on mobile click it your Audio is there</p>
 <img referrerpolicy="no-referrer-when-downgrade" src="https://static.scarf.sh/a.png?x-pxid=8946ef36-c454-4a8e-a9c9-8a8dd735fabd" />
     inputs=[
         gr.Textbox(
             label="Text Prompt",
+            info="One or two sentences at a time is better. Up to  text characters.",
             value="Hi there, I'm your new voice clone. Try your best to upload quality audio",
         ),
         gr.Dropdown(
             label="Language",
             info="Select an output language for the synthesised speech",
             choices=[
                 "pt",
             ],
             max_choices=1,
+            value="pt",
         ),
         gr.Audio(
             label="Reference Audio",
     article=article,
     examples=examples,
     cache_examples=False,
+).queue().launch(debug=True,show_api=True)

gitattributes ADDED Viewed

	@@ -0,0 +1 @@


1	+ examples/female.wav filter=lfs diff=lfs merge=lfs -text

gitattributes (1) ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+examples/female.wav filter=lfs diff=lfs merge=lfs -text