NGHIA_Test_Edge_TTS_transcript_w_timestamp

Sleeping

App Files Files Community

cnph001 commited on May 13, 2025

Commit

33573d8

verified ·

1 Parent(s): 49d3ed3

Update app.py

Browse files

Multi send to Edge to speed up

Files changed (1) hide show

app.py +7 -11

app.py CHANGED Viewed

@@ -1,5 +1,3 @@
-## Low pass filtering applied to final Audio
 import spaces
 import gradio as gr
 import edge_tts
@@ -36,9 +34,9 @@ def apply_low_pass_filter(audio_segment, cutoff_freq, sample_rate, order=5):
     filtered_data_int16 = (filtered_data * (2**15 - 1)).astype(np.int16)
     filtered_audio = AudioSegment(filtered_data_int16.tobytes(),
-                                 frame_rate=sample_rate,
-                                 sample_width=audio_segment.sample_width,
-                                 channels=audio_segment.channels)
     return filtered_audio
@@ -113,7 +111,7 @@ async def generate_audio_with_voice_prefix(text_segment, default_voice, rate, pi
             processed_text = processed_text[len(prefix):].strip()  #this removes the Prefix and leave only number or text after it.
             break
     #match = re.search(r'([A-Za-z]+)-?(\d+)', processed_text)
-    match = re.search(r"^(-?\d+)\s*(.*)", processed_text)
     if match:
         #prefix_pitch = match.group(1)
         number = match.group(1)
@@ -123,7 +121,7 @@ async def generate_audio_with_voice_prefix(text_segment, default_voice, rate, pi
         #processed_text = re.sub(r'([A-Za-z]+)([-]?\d*)', '', processed_text, count=1).strip()
         processed_text = match.group(2)
     #elif detect:
-    #       processed_text = processed_text.lstrip('-0123456789').strip() # Remove potential leftover numbers
     if processed_text:
         rate_str = f"{current_rate:+d}%"
@@ -281,10 +279,9 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch, speed_adjust
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
     # Apply the low-pass filter here
     cutoff_frequency = 3500  # 3.5 kHz (you can make this a user-configurable parameter later)
-    print(f"Applying Low pass filter, cut off frequency: {cutoff_frequency}")
     filtered_final_audio = apply_low_pass_filter(final_audio, cutoff_frequency, final_audio.frame_rate)
     combined_audio_path = tempfile.mktemp(suffix=".mp3")
@@ -292,7 +289,6 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch, speed_adjust
     filtered_final_audio.export(combined_audio_path, format="mp3")
     return combined_audio_path, None
 @spaces.GPU
 def tts_interface(transcript, voice, rate, pitch, speed_adjustment_factor):
     audio, warning = asyncio.run(transcript_to_speech(transcript, voice, rate, pitch, speed_adjustment_factor))
@@ -352,4 +348,4 @@ async def create_demo():
 if __name__ == "__main__":
     demo = asyncio.run(create_demo())
-    demo.launch()

 import spaces
 import gradio as gr
 import edge_tts
     filtered_data_int16 = (filtered_data * (2**15 - 1)).astype(np.int16)
     filtered_audio = AudioSegment(filtered_data_int16.tobytes(),
+                                     frame_rate=sample_rate,
+                                     sample_width=audio_segment.sample_width,
+                                     channels=audio_segment.channels)
     return filtered_audio
             processed_text = processed_text[len(prefix):].strip()  #this removes the Prefix and leave only number or text after it.
             break
     #match = re.search(r'([A-Za-z]+)-?(\d+)', processed_text)
+    match = re.search(r"^(-?\d+)\s*(.*)", processed_text)
     if match:
         #prefix_pitch = match.group(1)
         number = match.group(1)
         #processed_text = re.sub(r'([A-Za-z]+)([-]?\d*)', '', processed_text, count=1).strip()
         processed_text = match.group(2)
     #elif detect:
+    #    processed_text = processed_text.lstrip('-0123456789').strip() # Remove potential leftover numbers
     if processed_text:
         rate_str = f"{current_rate:+d}%"
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
     # Apply the low-pass filter here
     cutoff_frequency = 3500  # 3.5 kHz (you can make this a user-configurable parameter later)
     filtered_final_audio = apply_low_pass_filter(final_audio, cutoff_frequency, final_audio.frame_rate)
     combined_audio_path = tempfile.mktemp(suffix=".mp3")
     filtered_final_audio.export(combined_audio_path, format="mp3")
     return combined_audio_path, None
 @spaces.GPU
 def tts_interface(transcript, voice, rate, pitch, speed_adjustment_factor):
     audio, warning = asyncio.run(transcript_to_speech(transcript, voice, rate, pitch, speed_adjustment_factor))
 if __name__ == "__main__":
     demo = asyncio.run(create_demo())
+    demo.launch()