Fun-ASR-Nano-GPU-Debug

Running on Zero

App Files Files Community

FFomy commited on Dec 18, 2025

Commit

d666310

verified ·

1 Parent(s): 061cbc3

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -21

app.py CHANGED Viewed

@@ -438,8 +438,7 @@ def get_model_options(pipeline_type):
     # else:
     #     return []
-# Dictionary to store loaded models
-loaded_models = {}
 @spaces.GPU(duration=40)
 def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_password, pipeline_type, model_id, download_method, start_time=None, end_time=None, verbose=False):
@@ -511,24 +510,18 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
             if verbose:
                 yield verbose_messages, "", None
-        # Model caching
-        model_key = (pipeline_type, model_id)
-        if model_key in loaded_models:
-            model = loaded_models[model_key]
-            logging.info("Loaded model from cache")
         else:
-            if pipeline_type == "fun-asr-nano":
-                model = MODEL_FUN_ASR
-                logging.info("Using pre-initialized Fun-ASR-Nano model")
-            elif pipeline_type == "sensevoice":
-                model = MODEL_SENSE_VOICE
-                logging.info("Using pre-initialized SenseVoice model")
-            else:
-                error_msg = "Invalid pipeline type. Only 'sensevoice' is supported."
-                logging.error(error_msg)
-                yield verbose_messages + error_msg, "", None
-                return
-            loaded_models[model_key] = model
         # Perform the transcription
         start_time_perf = time.time()
@@ -538,8 +531,6 @@ def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_pa
                 input=[audio_path],
                 use_itn=True,
                 batch_size=1,
-                merge_vad=True,
-                merge_length_s=15,
             )
         elif pipeline_type == "sensevoice":
             res = model.generate(

     # else:
     #     return []
 @spaces.GPU(duration=40)
 def transcribe_audio(audio_input, audio_url, proxy_url, proxy_username, proxy_password, pipeline_type, model_id, download_method, start_time=None, end_time=None, verbose=False):
             if verbose:
                 yield verbose_messages, "", None
+        if pipeline_type == "fun-asr-nano":
+            model = MODEL_FUN_ASR
+            logging.info("Using pre-initialized Fun-ASR-Nano model")
+        elif pipeline_type == "sensevoice":
+            model = MODEL_SENSE_VOICE
+            logging.info("Using pre-initialized SenseVoice model")
         else:
+            error_msg = "Invalid pipeline type. Only 'sensevoice' is supported."
+            logging.error(error_msg)
+            yield verbose_messages + error_msg, "", None
+            return
         # Perform the transcription
         start_time_perf = time.time()
                 input=[audio_path],
                 use_itn=True,
                 batch_size=1,
             )
         elif pipeline_type == "sensevoice":
             res = model.generate(