NGHIA_Test_Edge_TTS_transcript_w_timestamp

Sleeping

cnph001 commited on May 1, 2025

Commit

eae282d

verified ·

1 Parent(s): 27bebc1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,11 +9,35 @@ from pathlib import Path
 from pydub import AudioSegment
 def get_silence(duration_ms=1000):
-    # ... (get_silence function remains the same)
 # Get all available voices
 async def get_voices():
-    # ... (get_voices function remains the same)
 async def text_to_speech_segment(text_segment, voice, rate, pitch):
     """Processes a single text segment for voice commands and generates audio."""

 from pydub import AudioSegment
 def get_silence(duration_ms=1000):
+    # Create silent audio segment with specified parameters
+    silent_audio = AudioSegment.silent(
+        duration=duration_ms,
+        frame_rate=24000  # 24kHz sampling rate
+    )
+    # Set audio parameters
+    silent_audio = silent_audio.set_channels(1)  # Mono
+    silent_audio = silent_audio.set_sample_width(4)  # 32-bit (4 bytes per sample)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
+        # Export with specific bitrate and codec parameters
+        silent_audio.export(
+            tmp_file.name,
+            format="mp3",
+            bitrate="48k",
+            parameters=[
+                "-ac", "1",  # Mono
+                "-ar", "24000",  # Sample rate
+                "-sample_fmt", "s32",  # 32-bit samples
+                "-codec:a", "libmp3lame"  # MP3 codec
+            ]
+        )
+        return tmp_file.name
 # Get all available voices
 async def get_voices():
+    voices = await edge_tts.list_voices()
+    return {f"{v['ShortName']} - {v['Locale']} ({v['Gender']})": v['ShortName'] for v in voices}
 async def text_to_speech_segment(text_segment, voice, rate, pitch):
     """Processes a single text segment for voice commands and generates audio."""