Spaces:

Elyadata
/

TunArTTS

Running

imenLa commited on Feb 28, 2024

Commit

23e6066

verified ·

1 Parent(s): f572cd2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,30 @@
 import numpy as np
 import gradio as gr
 from scipy.io import wavfile
 from espnet2.bin.tts_inference import Text2Speech
 import soundfile as sf
-notes = ["C", "C#", "D", "D#", "E", "F", "F#", "G", "G#", "A", "A#", "B"]
-def generate_tts():
     tts = Text2Speech.from_pretrained(model_file="exp/tts_train_conformer_fastspeech2_raw_phn_none/train.loss.ave_5best.pth", vocoder_file="train_tun_parallel_wavegan.v3/checkpoint-560000steps.pkl")
-    wav = tts("sil t r aa ii0 m a rr a < u0 x r aa uu0 sil h uu0 sil n uu0 uu0 z sil m aa ii0 b ii0 n aa k s t t aa ii0 m sil")["wav"]
     audio_data = wav.numpy()
     sf.write('output.wav', audio_data, samplerate=22050)
 def generate_audio(note, octave, duration):
-    generate_tts()
     wav_file_path = "output.wav"
     sr, audio_data = wavfile.read(wav_file_path)
@@ -23,9 +34,8 @@ def generate_audio(note, octave, duration):
 demo = gr.Interface(
     generate_audio,
     [
-        gr.Dropdown(notes, type="index"),
         gr.Slider(4, 6, step=1),
-        gr.Textbox(value=1, label="Duration in seconds"),
     ],
     "audio",
 )

 import numpy as np
 import gradio as gr
 from scipy.io import wavfile
 from espnet2.bin.tts_inference import Text2Speech
+from arabic_pronounce import phonetise
 import soundfile as sf
+def text_to_phoneme(tun_text):
+    space_split = tun_text.split(" ")
+    res = ""
+    for i in range(len(space_split)):
+      res +=" "+phonetise(space_split[i])[0]
+    res = res.strip()
+    res = "sil "+res+" sil"
+    return res
+def generate_tts(input_text):
+    phonemized_text = text_to_phoneme(input_text)
     tts = Text2Speech.from_pretrained(model_file="exp/tts_train_conformer_fastspeech2_raw_phn_none/train.loss.ave_5best.pth", vocoder_file="train_tun_parallel_wavegan.v3/checkpoint-560000steps.pkl")
+    wav = tts(f"sil {phonemized_text} sil")["wav"]
     audio_data = wav.numpy()
     sf.write('output.wav', audio_data, samplerate=22050)
 def generate_audio(note, octave, duration):
+    generate_tts(duration)
     wav_file_path = "output.wav"
     sr, audio_data = wavfile.read(wav_file_path)
 demo = gr.Interface(
     generate_audio,
     [
         gr.Slider(4, 6, step=1),
+        gr.Textbox(value="empty", label="Text of Arabic Text"),
     ],
     "audio",
 )