Spaces:

Mariame16
/

dida-api

Sleeping

App Files Files Community

Mariame16 commited on Apr 21

Commit

e2da8d7

1 Parent(s): fab623d

feat: déploiement API Dida

Browse files

Files changed (3) hide show

Dockerfile +12 -0
main.py +75 -0
requirements.txt +10 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,12 @@

+FROM python:3.11-slim
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY main.py .
+EXPOSE 7860
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py ADDED Viewed

	@@ -0,0 +1,75 @@

+import os
+os.environ["TRANSFORMERS_CACHE"] = "/tmp/huggingface"
+from fastapi import FastAPI, UploadFile
+from fastapi.responses import JSONResponse
+from transformers import (
+    VitsModel, AutoTokenizer,
+    Wav2Vec2ForCTC, AutoProcessor,
+    NllbTokenizer, AutoModelForSeq2SeqLM
+)
+import torch, scipy, base64, numpy as np
+import soundfile as sf
+from io import BytesIO
+app = FastAPI()
+# ─── Chargement des modèles ───
+print("Chargement TTS Dida Yocoboué...")
+tts_model = VitsModel.from_pretrained("facebook/mms-tts-gud")
+tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-gud")
+print("Chargement ASR...")
+asr_processor = AutoProcessor.from_pretrained("facebook/mms-1b-all")
+asr_model = Wav2Vec2ForCTC.from_pretrained("facebook/mms-1b-all")
+asr_processor.tokenizer.set_target_lang("gud")
+asr_model.load_adapter("gud")
+print("Chargement Traduction NLLB...")
+nllb_tokenizer = NllbTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
+nllb_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M")
+# ─── TTS ───
+@app.post("/api/tts")
+async def text_to_speech(payload: dict):
+    text = payload["text"]
+    inputs = tts_tokenizer(text, return_tensors="pt")
+    with torch.no_grad():
+        waveform = tts_model(**inputs).waveform.squeeze()
+    buffer = BytesIO()
+    scipy.io.wavfile.write(buffer, rate=tts_model.config.sampling_rate, data=waveform.numpy())
+    audio_b64 = base64.b64encode(buffer.getvalue()).decode()
+    return {"audio_base64": audio_b64, "sample_rate": tts_model.config.sampling_rate}
+# ─── ASR ───
+@app.post("/api/asr")
+async def speech_to_text(file: UploadFile):
+    audio_bytes = await file.read()
+    audio_array, sr = sf.read(BytesIO(audio_bytes))
+    if sr != 16000:
+        import librosa
+        audio_array = librosa.resample(audio_array, orig_sr=sr, target_sr=16000)
+    inputs = asr_processor(audio_array, sampling_rate=16000, return_tensors="pt")
+    with torch.no_grad():
+        logits = asr_model(**inputs).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = asr_processor.batch_decode(predicted_ids)[0]
+    return {"transcription": transcription}
+# ─── Traduction ───
+@app.post("/api/translate")
+async def translate(payload: dict):
+    text = payload["text"]
+    source_lang = payload.get("source_lang", "fra_Latn")
+    target_lang = payload.get("target_lang", "fra_Latn")
+    inputs = nllb_tokenizer(text, return_tensors="pt", src_lang=source_lang)
+    translated = nllb_model.generate(
+        **inputs,
+        forced_bos_token_id=nllb_tokenizer.lang_code_to_id[target_lang]
+    )
+    result = nllb_tokenizer.decode(translated[0], skip_special_tokens=True)
+    return {"translation": result}
+# ─── Health check ───
+@app.get("/")
+async def root():
+    return {"status": "ok", "message": "API Dida opérationnelle !"}

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+fastapi==0.111.0
+uvicorn==0.30.0
+transformers==4.41.0
+torch==2.11.0
+scipy==1.13.0
+soundfile==0.12.1
+librosa==0.10.2
+numpy==1.26.4
+python-multipart==0.0.9
+accelerate==0.30.0