Spaces:

Grinding
/

SpeechtoTextMicroservice5

Sleeping

Grinding commited on Aug 25, 2025

Commit

7ce9c0c

verified ·

1 Parent(s): 646c461

Upload 3 files

Files changed (3) hide show

Dockerfile ADDED Viewed

+# [cite: 173-178]
+FROM python:3.9-slim
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+COPY ./app.py /code/app.py
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

+# Adapted from source [cite: 147-169]
+from fastapi import FastAPI, UploadFile, File, HTTPException
+from transformers import pipeline
+import torch
+import librosa
+import io
+app = FastAPI()
+# Load the ASR pipeline on startup
+try:
+    asr_pipeline = pipeline(
+        "automatic-speech-recognition",
+        model="distil-whisper/distil-large-v3",
+        torch_dtype=torch.float32,
+        device="cpu",
+    )
+except Exception as e:
+    asr_pipeline = None
+    print(f"Error loading ASR model: {e}")
+@app.post("/transcribe")
+async def transcribe_audio(audio_file: UploadFile = File(...)):
+    if not asr_pipeline:
+        raise HTTPException(status_code=503, detail="ASR model is not available.")
+    # Read audio file into memory
+    audio_bytes = await audio_file.read()
+    # Use librosa to load and resample the audio to 16kHz mono
+    try:
+        speech, sr = librosa.load(io.BytesIO(audio_bytes), sr=16000, mono=True)
+    except Exception as e:
+        raise HTTPException(status_code=400, detail=f"Could not process audio file: {e}")
+    # Perform transcription with chunking for long audio
+    result = asr_pipeline(speech, chunk_length_s=30, stride_length_s=5)
+    return {"transcription": result["text"]}

requirements.txt ADDED Viewed

+fastapi
+uvicorn
+torch
+transformers
+accelerate
+python-multipart
+librosa
+pydub