Spaces:

Gaoussin
/

bamara-tts

Running

App Files Files Community

Gaoussin commited on 16 days ago

Commit

673b955

verified ·

1 Parent(s): 5e43fc7

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -2

app.py CHANGED Viewed

@@ -5,11 +5,12 @@ os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf"
 os.environ["HF_DATASETS_CACHE"] = "/tmp/hf"
 os.makedirs("/tmp/hf", exist_ok=True)
-from fastapi import FastAPI, Query
 from fastapi.responses import StreamingResponse
-from transformers import VitsModel, AutoTokenizer
 import torch, scipy.io.wavfile as wavfile
 import io
 import edge_tts
@@ -19,6 +20,10 @@ app = FastAPI(title="Bambara TTS API")
 model = VitsModel.from_pretrained("facebook/mms-tts-bam")
 tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-bam")
 sampling_rate = model.config.sampling_rate
 @app.get("/tts/")
@@ -69,3 +74,37 @@ async def noneBmTts(
     except Exception as e:
         # Catch errors like invalid voice names
         raise HTTPException(status_code=400, detail=str(e))

 os.environ["HF_DATASETS_CACHE"] = "/tmp/hf"
 os.makedirs("/tmp/hf", exist_ok=True)
+from fastapi import FastAPI, Query, File, UploadFile, HTTPException
 from fastapi.responses import StreamingResponse
+from transformers import VitsModel, AutoTokenizer, Wav2Vec2ForCTC, AutoProcessor
 import torch, scipy.io.wavfile as wavfile
 import io
+import librosa
 import edge_tts
 model = VitsModel.from_pretrained("facebook/mms-tts-bam")
 tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-bam")
 sampling_rate = model.config.sampling_rate
+# Load model once when the server starts
+speech_model_id = "facebook/mms-1b-all"
+processor = AutoProcessor.from_pretrained(speech_model_id)
+speech_model = Wav2Vec2ForCTC.from_pretrained(speech_model_id)
 @app.get("/tts/")
     except Exception as e:
         # Catch errors like invalid voice names
         raise HTTPException(status_code=400, detail=str(e))
+@app.post("/transcribe")
+async def transcribe(audio_file: UploadFile = File(...)):
+    # 1. Check if a file was actually uploaded
+    if not audio_file:
+        raise HTTPException(status_code=400, detail="No file uploaded")
+    try:
+        # 2. Read the file into memory
+        audio_bytes = await audio_file.read()
+        # 3. Load and Resample to 16,000 Hz using librosa
+        # io.BytesIO(audio_bytes) lets librosa treat the bytes like a file
+        audio_data, _ = librosa.load(io.BytesIO(audio_bytes), sr=16000)
+        # 4. Setup Bambara Adapter
+        processor.tokenizer.set_target_lang("bam")
+        model.load_adapter("bam")
+        # 5. Perform Inference
+        inputs = processor(audio_data, sampling_rate=16_000, return_tensors="pt")
+        with torch.no_grad():
+            logits = speech_model(**inputs).logits
+        predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = processor.batch_decode(predicted_ids)[0]
+        return {"text": transcription}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Error processing audio: {str(e)}")