mvp1024
/

asr

Model card Files Files and versions

xet

Community

maolin.liu commited on Nov 26, 2024

Commit

705afb7

1 Parent(s): e335f35

[bugfix]Revise response body field value.

Browse files

Files changed (1) hide show

server.py +30 -4

server.py CHANGED Viewed

@@ -21,6 +21,8 @@ async def register_init(app: FastAPI):
     :return:
     """
     yield
@@ -51,7 +53,16 @@ app = create_app()
 model_size = os.environ.get('WHISPER-MODEL-SIZE', 'large-v3')
 # Run on GPU with FP16
-whisper_model: typing.Optional[WhisperModel] = WhisperModel(model_size, device='cuda', compute_type='float16')
 class TranscribeRequestParams(BaseModel):
@@ -68,7 +79,12 @@ async def transcribe_api(
     try:
         audio_file = io.BytesIO(base64.b64decode(obj.audio_file))
-        transcribed_text = whisper_model.transcribe(audio_file, language=obj.language)
     except Exception as exc:
         logging.exception(exc)
         response_body = {
@@ -93,7 +109,12 @@ async def transcribe_file_api(
         language: typing.Literal['en', 'zh']
 ):
     try:
-        transcribed_text = whisper_model.transcribe(audio_file.file, language=language)
     except Exception as exc:
         logging.exception(exc)
         response_body = {
@@ -134,7 +155,12 @@ async def transcribe_ws_api(
         try:
             audio_file = io.BytesIO(base64.b64decode(form.audio_file))
-            transcribed_text = whisper_model.transcribe(audio_file, language=form.language)
         except Exception as exc:
             logging.exception(exc)
             response_body = {

     :return:
     """
+    print('Loading ASR model...')
+    setup_asr_model()
     yield
 model_size = os.environ.get('WHISPER-MODEL-SIZE', 'large-v3')
 # Run on GPU with FP16
+asr_model: typing.Optional[WhisperModel] = None
+def setup_asr_model():
+    global asr_model
+    if asr_model is None:
+        logging.info('Loading ASR model...')
+        asr_model = WhisperModel(model_size, device='cuda', compute_type='float16')
+        logging.info('Load ASR model finished.')
+    return asr_model
 class TranscribeRequestParams(BaseModel):
     try:
         audio_file = io.BytesIO(base64.b64decode(obj.audio_file))
+        segments, _ = asr_model.transcribe(audio_file, language=obj.language)
+        transcribed_text = ''
+        for segment in segments:
+            transcribed_text = segment.text
+            break
     except Exception as exc:
         logging.exception(exc)
         response_body = {
         language: typing.Literal['en', 'zh']
 ):
     try:
+        segments, _ = asr_model.transcribe(audio_file.file, language=language)
+        transcribed_text = ''
+        for segment in segments:
+            transcribed_text = segment.text
+            break
     except Exception as exc:
         logging.exception(exc)
         response_body = {
         try:
             audio_file = io.BytesIO(base64.b64decode(form.audio_file))
+            segments, _ = asr_model.transcribe(audio_file, language=form.language)
+            transcribed_text = ''
+            for segment in segments:
+                transcribed_text = segment.text
+                break
         except Exception as exc:
             logging.exception(exc)
             response_body = {