Spaces:

Gaoussin
/

bamara-tts

Running

App Files Files Community

Gaoussin commited on Jan 9

Commit

e578353

verified ·

1 Parent(s): a799512

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -30

app.py CHANGED Viewed

@@ -9,13 +9,10 @@ from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import StreamingResponse
 from transformers import VitsModel, AutoTokenizer, Wav2Vec2ForCTC, AutoProcessor
-# 1. Set cache before importing/loading models
 os.environ["HF_HOME"] = "/tmp/hf"
-os.makedirs("/tmp/hf", exist_ok=True)
 app = FastAPI(title="Bambara AI API")
-# CRITICAL: Allow your frontend to talk to your HF Space
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -24,55 +21,63 @@ app.add_middleware(
     allow_headers=["*"],
 )
-# 2. Load Models (Memory Efficient)
-# Use .to("cpu") explicitly if you don't have a GPU on the free tier
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# TTS Model
-tts_model_id = "facebook/mms-tts-bam"
-tts_tokenizer = AutoTokenizer.from_pretrained(tts_model_id)
-tts_model = VitsModel.from_pretrained(tts_model_id).to(device)
-# ASR (Speech-to-Text) Model
-asr_model_id = "facebook/mms-1b-all"
 asr_processor = AutoProcessor.from_pretrained(asr_model_id)
 asr_model = Wav2Vec2ForCTC.from_pretrained(asr_model_id).to(device)
-# Pre-load the Bambara adapter so it doesn't slow down the first request
 asr_processor.tokenizer.set_target_lang("bam")
 asr_model.load_adapter("bam")
-@app.get("/tts/")
-async def tts(text: str = Query(..., description="Bambara text")):
-    inputs = tts_tokenizer(text, return_tensors="pt").to(device)
-    with torch.no_grad():
-        output = tts_model(**inputs).waveform
-    buffer = io.BytesIO()
-    wavfile.write(buffer, rate=tts_model.config.sampling_rate, data=output[0].cpu().numpy())
-    buffer.seek(0)
-    return StreamingResponse(buffer, media_type="audio/wav")
 @app.post("/transcribe")
 async def transcribe(audio_file: UploadFile = File(...)):
     try:
-        # Read and load audio
-        audio_bytes = await audio_file.read()
-        audio_data, _ = librosa.load(io.BytesIO(audio_bytes), sr=16000)
-        # Prepare inputs
         inputs = asr_processor(audio_data, sampling_rate=16000, return_tensors="pt").to(device)
-        with torch.no_grad():
             logits = asr_model(**inputs).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = asr_processor.batch_decode(predicted_ids)[0]
         return {"text": transcription}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.get("/noneBmTts/")
 async def noneBmTts(text: str, voice: str = "fr-FR-DeniseNeural"):
     communicate = edge_tts.Communicate(text, voice)

 from fastapi.responses import StreamingResponse
 from transformers import VitsModel, AutoTokenizer, Wav2Vec2ForCTC, AutoProcessor
+# 1. Environment and App Setup
 os.environ["HF_HOME"] = "/tmp/hf"
 app = FastAPI(title="Bambara AI API")
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     allow_headers=["*"],
 )
+device = "cpu"
+# 2. Load Models (Switching to 300M for stability)
+# ASR Model
+asr_model_id = "facebook/mms-300m-1107" # Smaller, faster, more stable
 asr_processor = AutoProcessor.from_pretrained(asr_model_id)
 asr_model = Wav2Vec2ForCTC.from_pretrained(asr_model_id).to(device)
+# Load Bambara Adapter
 asr_processor.tokenizer.set_target_lang("bam")
 asr_model.load_adapter("bam")
+# TTS Model
+tts_model_id = "facebook/mms-tts-bam"
+tts_tokenizer = AutoTokenizer.from_pretrained(tts_model_id)
+tts_model = VitsModel.from_pretrained(tts_model_id).to(device)
 @app.post("/transcribe")
 async def transcribe(audio_file: UploadFile = File(...)):
     try:
+        # Read file
+        content = await audio_file.read()
+        if not content:
+            raise HTTPException(status_code=400, detail="Empty audio file")
+        # Load audio into memory
+        # Resampling here to 16kHz is mandatory
+        audio_data, _ = librosa.load(io.BytesIO(content), sr=16000)
+        # Prepare for model
         inputs = asr_processor(audio_data, sampling_rate=16000, return_tensors="pt").to(device)
+        # Inference
+        with torch.inference_mode():
             logits = asr_model(**inputs).logits
+        # Decode
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = asr_processor.batch_decode(predicted_ids)[0]
         return {"text": transcription}
     except Exception as e:
+        print(f"Error: {e}")
         raise HTTPException(status_code=500, detail=str(e))
+@app.get("/tts/")
+async def tts(text: str = Query(..., description="Bambara text")):
+    inputs = tts_tokenizer(text, return_tensors="pt").to(device)
+    with torch.inference_mode():
+        output = tts_model(**inputs).waveform
+    buffer = io.BytesIO()
+    wavfile.write(buffer, rate=tts_model.config.sampling_rate, data=output[0].cpu().numpy())
+    buffer.seek(0)
+    return StreamingResponse(buffer, media_type="audio/wav")
 @app.get("/noneBmTts/")
 async def noneBmTts(text: str, voice: str = "fr-FR-DeniseNeural"):
     communicate = edge_tts.Communicate(text, voice)