Spaces:

Gaoussin
/

bm_speech

Sleeping

App Files Files Community

Gaoussin commited on Jan 9

Commit

1945a83

verified ·

1 Parent(s): 906c6bf

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -26

app.py CHANGED Viewed

@@ -1,43 +1,63 @@
-from fastapi import FastAPI, File, UploadFile, HTTPException
-from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torch
 import librosa
-import io
-app = FastAPI()
-# Load model and processor once at startup
-MODEL_ID = "facebook/mms-1b-all"
-processor = AutoProcessor.from_pretrained(MODEL_ID)
-model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
-@app.post("/transcribe/")
-async def transcribe(audio_file: UploadFile = File(...)):
-    # 1. Check if a file was actually uploaded
-    if not audio_file:
-        raise HTTPException(status_code=400, detail="No file uploaded")
     try:
-        # 2. Read the file into memory
-        audio_bytes = await audio_file.read()
-        # 3. Load and Resample to 16,000 Hz using librosa
-        # io.BytesIO(audio_bytes) lets librosa treat the bytes like a file
-        audio_data, _ = librosa.load(io.BytesIO(audio_bytes), sr=16000)
-        # 4. Setup Bambara Adapter
-        processor.tokenizer.set_target_lang("bam")
-        model.load_adapter("bam")
-        # 5. Perform Inference
-        inputs = processor(audio_data, sampling_rate=16_000, return_tensors="pt")
-        with torch.no_grad():
             logits = model(**inputs).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(predicted_ids)[0]
         return {"text": transcription}
     except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Error processing audio: {str(e)}")

+import os
+import io
 import torch
 import librosa
+from fastapi import FastAPI, File, UploadFile, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from transformers import Wav2Vec2ForCTC, AutoProcessor
+# Set cache to writable directory
+os.environ["HF_HOME"] = "/tmp/hf"
+os.makedirs("/tmp/hf", exist_ok=True)
+app = FastAPI(title="Bambara ASR Dedicated API")
+# Enable CORS for your frontend
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# Load ASR components globally
+device = "cpu"
+model_id = "facebook/mms-1b-all"
+print("Loading processor and model...")
+processor = AutoProcessor.from_pretrained(model_id)
+model = Wav2Vec2ForCTC.from_pretrained(model_id).to(device)
+# Pre-load Bambara adapter to prevent lag/OOM on first request
+processor.tokenizer.set_target_lang("bam")
+model.load_adapter("bam")
+print("Bambara adapter loaded. System Ready.")
+@app.post("/transcribe")
+async def transcribe(audio_file: UploadFile = File(...)):
     try:
+        # Read file stream
+        content = await audio_file.read()
+        if not content:
+            return {"text": "Error: Empty audio file"}
+        # Load & Resample (Critical: Model expects 16,000Hz)
+        audio_data, _ = librosa.load(io.BytesIO(content), sr=16000)
+        # Prepare inputs
+        inputs = processor(audio_data, sampling_rate=16000, return_tensors="pt").to(device)
+        # Inference (inference_mode is more memory efficient than no_grad)
+        with torch.inference_mode():
             logits = model(**inputs).logits
+        # Decode output
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(predicted_ids)[0]
         return {"text": transcription}
     except Exception as e:
+        print(f"Server Error: {e}")
+        return {"text": f"Error: {str(e)}"}