Spaces:

GoodResearch
/

speech_to_text

Sleeping

GoodResearch commited on Jul 28, 2025

Commit

a52af1d

verified ·

1 Parent(s): 065002c

Upload 2 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -26,10 +26,17 @@ def get_audio_duration(filename):
 def transcribe_single(audio_file):
-    # 存储原始上传文件
     input_path = "audio.mp3"
-    with open(input_path, "wb") as f:
-        f.write(audio_file.read())
     # Step 1: 静音检测
     silence_cmd = f"ffmpeg -i {input_path} -af silencedetect=noise=-30dB:d=1 -f null - 2> silence_log.txt"
@@ -91,8 +98,14 @@ def transcribe_single(audio_file):
 def transcribe_multi(audio_file):
     input_path = "audio_multi.mp3"
-    with open(input_path, "wb") as f:
-        f.write(audio_file.read())
     diarization = diarization_pipeline(input_path)
     segments = []

 def transcribe_single(audio_file):
     input_path = "audio.mp3"
+    # 判断是否是 bytes-like 文件
+    if hasattr(audio_file, "read"):
+        with open(input_path, "wb") as f:
+            f.write(audio_file.read())
+    else:
+        # 如果是 (numpy_array, sr) 格式
+        import soundfile as sf
+        waveform, sample_rate = audio_file
+        sf.write(input_path, waveform, sample_rate)
     # Step 1: 静音检测
     silence_cmd = f"ffmpeg -i {input_path} -af silencedetect=noise=-30dB:d=1 -f null - 2> silence_log.txt"
 def transcribe_multi(audio_file):
     input_path = "audio_multi.mp3"
+    if hasattr(audio_file, "read"):
+        with open(input_path, "wb") as f:
+            f.write(audio_file.read())
+    else:
+        import soundfile as sf
+        waveform, sample_rate = audio_file
+        sf.write(input_path, waveform, sample_rate)
     diarization = diarization_pipeline(input_path)
     segments = []

requirements.txt CHANGED Viewed

@@ -3,4 +3,5 @@ git+https://github.com/openai/whisper.git
 ffmpeg-python
 setuptools-rust
 # PyAnnote 音频说话人分离（推荐 pin 版本）
-pyannote.audio>=2.1.1

 ffmpeg-python
 setuptools-rust
 # PyAnnote 音频说话人分离（推荐 pin 版本）
+pyannote.audio>=2.1.1
+soundfile