Spaces:

FireRedTeam
/

FireRedASR2S

Running on Zero

App Files Files Community

FireRed Team commited on 22 days ago

Commit

f3bc9f0

verified ·

1 Parent(s): 92dd882

Upload app.py

Browse files

Files changed (1) hide show

app.py +22 -6

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ from fireredasr2s import FireRedAsr2System, FireRedAsr2SystemConfig
 from fireredasr2s.fireredasr2.asr import FireRedAsr2, FireRedAsr2Config
 from fireredasr2s.fireredvad.vad import FireRedVad, FireRedVadConfig
 from fireredasr2s.fireredvad.aed import FireRedAed, FireRedAedConfig
 asr_system = None
@@ -16,6 +17,7 @@ asr_model_aed = None
 asr_model_llm = None
 vad_model = None
 aed_model = None
 def init_model(model_dir_aed, model_dir_llm):
@@ -24,6 +26,7 @@ def init_model(model_dir_aed, model_dir_llm):
     global asr_model_llm
     global vad_model
     global aed_model
     if asr_system is None:
         asr_system_config = FireRedAsr2SystemConfig()  # Use default config
         asr_system = FireRedAsr2System(asr_system_config)
@@ -61,7 +64,8 @@ def init_model(model_dir_aed, model_dir_llm):
             extend_speech_frame=0,
             chunk_max_frame=30000)
         vad_model = FireRedVad.from_pretrained("pretrained_models/FireRedVAD/VAD", vad_config)
-        aed_config=FireRedAedConfig(
             use_gpu=False,
             smooth_window_size=5,
             speech_threshold=0.4,
@@ -74,7 +78,17 @@ def init_model(model_dir_aed, model_dir_llm):
             extend_speech_frame=0,
             chunk_max_frame=30000)
         aed_model = FireRedAed.from_pretrained("pretrained_models/FireRedVAD/AED", aed_config)
 @spaces.GPU(duration=20)
@@ -118,11 +132,13 @@ def asr_inference_llm(audio_file):
 def vad_inference(audio_file):
     if not audio_file:
         return "Please upload a wav file"
-    result, probs = vad.detect(audio_file)
     s = f'Duration: {result["dur"]}s'
-    s += f'\nVoice: {result["timestamps"]}'
-    result, probs = aed.detect(audio_file)
-    s += f'\nEvent: {results["event2ratio"]}\n  {result["event2timestamps"]}'
     return s

 from fireredasr2s.fireredasr2.asr import FireRedAsr2, FireRedAsr2Config
 from fireredasr2s.fireredvad.vad import FireRedVad, FireRedVadConfig
 from fireredasr2s.fireredvad.aed import FireRedAed, FireRedAedConfig
+from fireredasr2s.fireredvad.stream_vad import FireRedStreamVad, FireRedStreamVadConfig
 asr_system = None
 asr_model_llm = None
 vad_model = None
 aed_model = None
+stream_vad_model = None
 def init_model(model_dir_aed, model_dir_llm):
     global asr_model_llm
     global vad_model
     global aed_model
+    global stream_vad_model
     if asr_system is None:
         asr_system_config = FireRedAsr2SystemConfig()  # Use default config
         asr_system = FireRedAsr2System(asr_system_config)
             extend_speech_frame=0,
             chunk_max_frame=30000)
         vad_model = FireRedVad.from_pretrained("pretrained_models/FireRedVAD/VAD", vad_config)
+    if aed_model is None:
+        aed_config = FireRedAedConfig(
             use_gpu=False,
             smooth_window_size=5,
             speech_threshold=0.4,
             extend_speech_frame=0,
             chunk_max_frame=30000)
         aed_model = FireRedAed.from_pretrained("pretrained_models/FireRedVAD/AED", aed_config)
+    if stream_vad_model is None:
+        vad_config = FireRedStreamVadConfig(
+            use_gpu=False,
+            smooth_window_size=5,
+            speech_threshold=0.4,
+            pad_start_frame=5,
+            min_speech_frame=8,
+            max_speech_frame=2000,
+            min_silence_frame=20,
+            chunk_max_frame=30000)
+        stream_vad_model = FireRedStreamVad.from_pretrained("pretrained_models/FireRedVAD/Stream-VAD", vad_config)
 @spaces.GPU(duration=20)
 def vad_inference(audio_file):
     if not audio_file:
         return "Please upload a wav file"
+    result, probs = vad_model.detect(audio_file)
     s = f'Duration: {result["dur"]}s'
+    s += f'\nVAD: {result["timestamps"]}'
+    result, probs = stream_vad_model.detect_full(audio_file)
+    s += f'\nStream VAD: {result["timestamps"]}'
+    result, probs = aed_model.detect(audio_file)
+    s += f'\nAudio Event: {results["event2ratio"]}\n  {result["event2timestamps"]}'
     return s