Spaces:

CrazyMonkey0
/

APi_English

Running

CrazyMonkey0 commited on Dec 18, 2025

Commit

c84acef

1 Parent(s): 20a7446

feat(asr): replace Whisper HF with faster-whisper for CPU-friendly transcription

Files changed (3) hide show

app/routes/asr.py CHANGED Viewed

@@ -1,40 +1,30 @@
-from transformers import WhisperForConditionalGeneration, WhisperProcessor
-from fastapi import APIRouter, Request, UploadFile, File
-import librosa
 import io
-import soundfile as sf
-import os
 router = APIRouter()
-def load_model_asr():
-    processor = WhisperProcessor.from_pretrained("openai/whisper-small.en")
-    model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small.en")
-    return processor, model
-@router.post("/asr")
-async def asr(request: Request, audio: UploadFile = File(...)):
-    # Get the loaded ASR model and processor
-    processor, model = request.app.state.processor_asr, request.app.state.model_asr
-    # Audio file path
-    audio_bytes = await audio.read()
-    buffer = io.BytesIO(audio_bytes)
-    # Loading audio file
-    audio_data, sampling_rate = sf.read(buffer, dtype="float32")
-    if sampling_rate != 16000:
-        audio_data = librosa.resample(audio_data, orig_sr=sampling_rate, target_sr=16000)
-        sampling_rate = 16000
-    # Preparing input data
-    inputs = processor(audio_data, return_tensors="pt", sampling_rate=sampling_rate)
-    input_features = inputs["input_features"]
-    # Generating token IDs
-    output = model.generate(input_features)
-    # Decoding tokens into text
-    transcription = processor.batch_decode(output, skip_special_tokens=True)
-    return {"transcription": transcription[0]}

+from fastapi import APIRouter, UploadFile, File, HTTPException
+from faster_whisper import WhisperModel
 import io
 router = APIRouter()
+# Ładujemy model raz
+model = WhisperModel("tiny", device="cpu", compute_type="int8")
+# Globalny lock dla bezpieczeństwa RAM
+import asyncio
+asr_lock = asyncio.Lock()
+@router.post("/asr")
+async def asr(audio: UploadFile = File(...)):
+    async with asr_lock:
+        try:
+            # Wczytanie audio do BytesIO
+            audio_bytes = await audio.read()
+            buffer = io.BytesIO(audio_bytes)
+            # faster-whisper obsługuje path lub file-like object
+            segments, info = model.transcribe(buffer, beam_size=1, vad_filter=True)
+            # Sklejamy transkrypcję
+            transcription = " ".join([s.text for s in segments])
+            return {"transcription": transcription}
+        except Exception as e:
+            raise HTTPException(status_code=500, detail=str(e))

app/routes/tts.py CHANGED Viewed

@@ -6,7 +6,10 @@ import numpy as np
 import scipy.io.wavfile as wavfile
 import torch
 import io
 # load TTS model
 def load_model_tts():
@@ -36,7 +39,7 @@ def send_audio(request: Request, text: str,) -> bytes:
     buffer.seek(0)
     file_name = f"{uuid.uuid4()}.wav"
-    upload_url = "http://kowalskidev.pl/ai_tutor/upload/"
     try:
         files = {"file": (file_name, buffer, "audio/wav")}

 import scipy.io.wavfile as wavfile
 import torch
 import io
+import os
+from dotenv import load_dotenv
+load_dotenv()
 # load TTS model
 def load_model_tts():
     buffer.seek(0)
     file_name = f"{uuid.uuid4()}.wav"
+    upload_url = os.getenv("UPLOAD_URL")
     try:
         files = {"file": (file_name, buffer, "audio/wav")}

requirements.txt CHANGED Viewed

@@ -10,6 +10,7 @@ asttokens==3.0.0
 astunparse==1.6.3
 attrs==25.3.0
 audioread==3.0.1
 babel==2.17.0
 blis==1.2.0
 catalogue==2.0.10
@@ -19,8 +20,10 @@ charset-normalizer==3.4.1
 click==8.1.8
 cloudpathlib==0.21.0
 colorama==0.4.6
 confection==0.1.5
 csvw==3.5.1
 curated-tokenizers==0.0.9
 curated-transformers==0.1.1
 cymem==2.0.11
@@ -36,6 +39,7 @@ email_validator==2.2.0
 executing==2.2.0
 fastapi==0.115.11
 fastapi-cli==0.0.7
 filelock==3.18.0
 flatbuffers==25.2.10
 frozenlist==1.5.0
@@ -52,6 +56,7 @@ httpcore==1.0.7
 httptools==0.6.4
 httpx==0.28.1
 huggingface-hub==0.36.0
 idna==3.10
 inflect==7.5.0
 ipython==9.0.2
@@ -92,6 +97,20 @@ nltk==3.9.1
 num2words==0.5.14
 numba==0.61.0
 numpy==1.26.4
 opt_einsum==3.4.0
 optree==0.14.1
 orjson==3.10.15

 astunparse==1.6.3
 attrs==25.3.0
 audioread==3.0.1
+av==16.0.1
 babel==2.17.0
 blis==1.2.0
 catalogue==2.0.10
 click==8.1.8
 cloudpathlib==0.21.0
 colorama==0.4.6
+coloredlogs==15.0.1
 confection==0.1.5
 csvw==3.5.1
+ctranslate2==4.6.2
 curated-tokenizers==0.0.9
 curated-transformers==0.1.1
 cymem==2.0.11
 executing==2.2.0
 fastapi==0.115.11
 fastapi-cli==0.0.7
+faster-whisper==1.2.1
 filelock==3.18.0
 flatbuffers==25.2.10
 frozenlist==1.5.0
 httptools==0.6.4
 httpx==0.28.1
 huggingface-hub==0.36.0
+humanfriendly==10.0
 idna==3.10
 inflect==7.5.0
 ipython==9.0.2
 num2words==0.5.14
 numba==0.61.0
 numpy==1.26.4
+nvidia-cublas-cu12==12.4.5.8
+nvidia-cuda-cupti-cu12==12.4.127
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-runtime-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+nvidia-cufft-cu12==11.2.1.3
+nvidia-curand-cu12==10.3.5.147
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-cusparse-cu12==12.3.1.170
+nvidia-cusparselt-cu12==0.6.2
+nvidia-nccl-cu12==2.21.5
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-nvtx-cu12==12.4.127
+onnxruntime==1.23.2
 opt_einsum==3.4.0
 optree==0.14.1
 orjson==3.10.15