Spaces:

bichnhan2701
/

PhoWhisperBaseAPI

Sleeping

bichnhan2701 commited on Jan 6

Commit

b55d9e8

1 Parent(s): bd471fc

Update model version

Files changed (4) hide show

app/api/transcribe.py CHANGED Viewed

@@ -10,6 +10,7 @@ from fastapi.responses import JSONResponse
 from rq import Queue, Retry
 from app.config import settings
 from app.infra.redis_client import redis_client
 from app.infra.metrics import REQUEST_COUNT, REQUEST_LATENCY, ASR_DURATION
 from app.schemas.transcribe import TranscribeResponse
@@ -126,7 +127,7 @@ async def _run_sync_pipeline(tmp_wav: str, note_id: str, audio_url: str | None =
                 "duration": info.get("duration"),
                 "sample_rate": info.get("samplerate"),
                 "chunks": chunks,
-                "asr_model": "PhoWhisper-base",
             }
         },
         "generate": ["normalize", "keywords", "summary", "mindmap"],
@@ -156,7 +157,7 @@ async def _create_placeholder_note(note_id: str, duration: float, audio_url: str
             "audio": {
                 "duration": duration,
                 "chunks": [],
-                "asr_model": "PhoWhisper-base",
             }
         },
         # ❌ KHÔNG generate ở đây

 from rq import Queue, Retry
 from app.config import settings
+from app.config.settings import MODEL_NAME
 from app.infra.redis_client import redis_client
 from app.infra.metrics import REQUEST_COUNT, REQUEST_LATENCY, ASR_DURATION
 from app.schemas.transcribe import TranscribeResponse
                 "duration": info.get("duration"),
                 "sample_rate": info.get("samplerate"),
                 "chunks": chunks,
+                "asr_model": MODEL_NAME,
             }
         },
         "generate": ["normalize", "keywords", "summary", "mindmap"],
             "audio": {
                 "duration": duration,
                 "chunks": [],
+                "asr_model": MODEL_NAME,
             }
         },
         # ❌ KHÔNG generate ở đây

app/config/settings.py CHANGED Viewed

@@ -2,7 +2,8 @@ import os
 MAX_UPLOAD_BYTES = int(os.getenv("MAX_UPLOAD_BYTES", 100 * 1024 * 1024))
 MAX_DURATION_SECS = int(os.getenv("MAX_DURATION_SECS", 60 * 60))
-MODEL_NAME = os.getenv("MODEL_NAME", "vinai/PhoWhisper-base")
 TMP_DIR = os.getenv("TMP_DIR", "/tmp/uploads")
 os.makedirs(TMP_DIR, exist_ok=True)

 MAX_UPLOAD_BYTES = int(os.getenv("MAX_UPLOAD_BYTES", 100 * 1024 * 1024))
 MAX_DURATION_SECS = int(os.getenv("MAX_DURATION_SECS", 60 * 60))
+# MODEL_NAME = os.getenv("MODEL_NAME", "vinai/PhoWhisper-base")
+MODEL_NAME = os.getenv("MODEL_NAME", "vinai/PhoWhisper-small")
 TMP_DIR = os.getenv("TMP_DIR", "/tmp/uploads")
 os.makedirs(TMP_DIR, exist_ok=True)

app/core/asr_engine.py CHANGED Viewed

@@ -10,6 +10,7 @@ import os
 from app.core.chunking import split_audio_to_chunks
 from app.core.audio_utils import get_audio_info
 logger = logging.getLogger(__name__)
@@ -28,7 +29,7 @@ def load_model(chunk_length_s: float = 30.0):
     if _ASR_MODEL is not None:
         return _ASR_MODEL
-    logger.info("Loading ASR model PhoWhisper-base")
     device = 0 if torch.cuda.is_available() else -1
     dtype = torch.float16 if torch.cuda.is_available() else torch.float32
@@ -43,7 +44,7 @@ def load_model(chunk_length_s: float = 30.0):
     _ASR_MODEL = pipeline(
         task="automatic-speech-recognition",
-        model="vinai/PhoWhisper-base",
         device=device,
         dtype=dtype,
         chunk_length_s=chunk_length_s,

 from app.core.chunking import split_audio_to_chunks
 from app.core.audio_utils import get_audio_info
+from app.config.settings import MODEL_NAME
 logger = logging.getLogger(__name__)
     if _ASR_MODEL is not None:
         return _ASR_MODEL
+    logger.info("Loading ASR model %s", MODEL_NAME)
     device = 0 if torch.cuda.is_available() else -1
     dtype = torch.float16 if torch.cuda.is_available() else torch.float32
     _ASR_MODEL = pipeline(
         task="automatic-speech-recognition",
+        model=MODEL_NAME,
         device=device,
         dtype=dtype,
         chunk_length_s=chunk_length_s,

app/jobs/transcribe_job.py CHANGED Viewed

@@ -7,6 +7,7 @@ import httpx
 import time
 from app.core.asr_engine import load_model, transcribe_file, transcribe_file_chunks, transcribe_file_unified
 from app.services.note_client import NoteServiceClient
 from app.core.audio_utils import get_audio_info
 from app.core.audio_utils import ensure_wav_16k_mono, make_temp_path
@@ -103,7 +104,7 @@ def transcribe_job(audio_url: str, note_id: str, user_id: str | None = None):
                     "duration": info.get("duration"),
                     "sample_rate": info.get("samplerate"),
                     "chunks": chunks,
-                    "asr_model": "PhoWhisper-base",
                 },
                 "client": {"user_id": user_id},
             },

 import time
 from app.core.asr_engine import load_model, transcribe_file, transcribe_file_chunks, transcribe_file_unified
+from app.config.settings import MODEL_NAME
 from app.services.note_client import NoteServiceClient
 from app.core.audio_utils import get_audio_info
 from app.core.audio_utils import ensure_wav_16k_mono, make_temp_path
                     "duration": info.get("duration"),
                     "sample_rate": info.get("samplerate"),
                     "chunks": chunks,
+                    "asr_model": MODEL_NAME,
                 },
                 "client": {"user_id": user_id},
             },