Spaces:

Grinding
/

SpeechtoTextMicroservice5

Sleeping

App Files Files Community

Grinding commited on Aug 25, 2025

Commit

ccedece

verified ·

1 Parent(s): f4750da

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -6

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import subprocess
 import soundfile as sf
 import logging
-# Configure logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -15,10 +15,15 @@ app = FastAPI()
 # Load the ASR model on startup
 try:
     asr_model = WhisperModel(
         "distil-whisper/distil-large-v3",
         device="cpu",
-        compute_type="int8"  # Quantization for speed and memory efficiency
     )
     logger.info("✅ ASR model loaded successfully with faster-whisper")
 except Exception as e:
@@ -37,13 +42,13 @@ async def transcribe_audio(audio_file: UploadFile = File(...)):
     try:
         # Save uploaded bytes to a temporary file
         suffix = os.path.splitext(audio_file.filename)[1] or ""
-        with tempfile.NamedTemporaryFile(suffix=suffix, delete=False) as tf:
             tf.write(audio_bytes)
             tf.flush()
             tmp_in = tf.name
         # Convert to 16kHz mono WAV PCM using ffmpeg
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tfwav:
             tmp_wav = tfwav.name
         ffmpeg_cmd = [
@@ -71,9 +76,14 @@ async def transcribe_audio(audio_file: UploadFile = File(...)):
         if speech.ndim > 1:
             speech = np.mean(speech, axis=1)
-        # Transcribe using faster-whisper
         logger.info("Starting transcription")
-        segments, _ = asr_model.transcribe(speech, beam_size=5)
         text = " ".join(segment.text.strip() for segment in segments)
         logger.info("Transcription completed")

 import soundfile as sf
 import logging
+# Configure logging for debugging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 # Load the ASR model on startup
 try:
+    # Use HF Spaces-compatible cache directory
+    cache_dir = os.getenv("HF_HOME", "/data/hf_cache")
+    os.makedirs(cache_dir, exist_ok=True)
     asr_model = WhisperModel(
         "distil-whisper/distil-large-v3",
         device="cpu",
+        compute_type="int8",  # Quantization for speed/memory
+        local_files_only=True,  # Use pre-downloaded model
+        model_dir=cache_dir
     )
     logger.info("✅ ASR model loaded successfully with faster-whisper")
 except Exception as e:
     try:
         # Save uploaded bytes to a temporary file
         suffix = os.path.splitext(audio_file.filename)[1] or ""
+        with tempfile.NamedTemporaryFile(suffix=suffix, delete=False, dir="/tmp") as tf:
             tf.write(audio_bytes)
             tf.flush()
             tmp_in = tf.name
         # Convert to 16kHz mono WAV PCM using ffmpeg
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False, dir="/tmp") as tfwav:
             tmp_wav = tfwav.name
         ffmpeg_cmd = [
         if speech.ndim > 1:
             speech = np.mean(speech, axis=1)
+        # Transcribe using faster-whisper with optimized settings
         logger.info("Starting transcription")
+        segments, _ = asr_model.transcribe(
+            speech,
+            beam_size=5,
+            vad_filter=True,  # Voice activity detection to skip silence
+            vad_parameters=dict(min_silence_duration_ms=500)
+        )
         text = " ".join(segment.text.strip() for segment in segments)
         logger.info("Transcription completed")