Spaces:

FireRedTeam
/

FireRedASR2S

Running on Zero

App Files Files Community

FireRed Team commited on Mar 13

Commit

b71b08b

verified ·

1 Parent(s): cd83b92

Upload app.py

Browse files

Files changed (1) hide show

app.py +52 -1

app.py CHANGED Viewed

@@ -7,17 +7,22 @@ from huggingface_hub import snapshot_download
 sys.path.append("./fireredasr2s")
 from fireredasr2s import FireRedAsr2System, FireRedAsr2SystemConfig
 from fireredasr2s.fireredasr2.asr import FireRedAsr2, FireRedAsr2Config
 asr_system = None
 asr_model_aed = None
 asr_model_llm = None
 def init_model(model_dir_aed, model_dir_llm):
     global asr_system
     global asr_model_aed
     global asr_model_llm
     if asr_system is None:
         asr_system_config = FireRedAsr2SystemConfig()  # Use default config
         asr_system = FireRedAsr2System(asr_system_config)
@@ -43,6 +48,32 @@ def init_model(model_dir_aed, model_dir_llm):
             temperature=1.0
         )
         asr_model_llm = FireRedAsr2.from_pretrained("llm", model_dir_llm, asr_config_llm)
 @spaces.GPU(duration=20)
@@ -50,7 +81,7 @@ def asr_sys_inference(audio_file):
     if not audio_file:
         return "Please upload a wav file"
     results = asr_system.process(audio_file)
-    s = f'ASR: {results["text"]}\nSentences: {results["sentences"]}\nVAD(ms): {results["vad_segments_ms"]}'
     return s
@@ -82,6 +113,18 @@ def asr_inference_llm(audio_file):
     return text_output
 with gr.Blocks(title="FireRedASR2S") as demo:
     gr.HTML(
         "<h1 style='text-align: center'>FireRedASR2S Demo</h1>"
@@ -92,6 +135,8 @@ with gr.Blocks(title="FireRedASR2S") as demo:
         with gr.Column():
             #audio_file = gr.Audio(label="Upload Audio", sources=["upload", "microphone"], type="filepath")
             audio_file = gr.Audio(label="Upload wav file", sources=["upload"], type="filepath")
         with gr.Column():
             asr_sys_button = gr.Button("Start Recognition (FireRedASR2S)", variant="primary")
@@ -101,6 +146,12 @@ with gr.Blocks(title="FireRedASR2S") as demo:
             asr_button_llm = gr.Button("Start Recognition (FireRedASR2-LLM-L)", variant="primary")
             text_output_llm = gr.Textbox(label="Model Result (FireRedASR2-LLM-L)", interactive=False, lines=3, max_lines=12)
     asr_sys_button.click(
         fn=asr_sys_inference,
         inputs=[audio_file],

 sys.path.append("./fireredasr2s")
 from fireredasr2s import FireRedAsr2System, FireRedAsr2SystemConfig
 from fireredasr2s.fireredasr2.asr import FireRedAsr2, FireRedAsr2Config
+from fireredasr2s.fireredvad.vad import FireRedVad, FireRedVadConfig
 asr_system = None
 asr_model_aed = None
 asr_model_llm = None
+vad_model = None
+aed_model = None
 def init_model(model_dir_aed, model_dir_llm):
     global asr_system
     global asr_model_aed
     global asr_model_llm
+    global vad_model
+    global aed_model
     if asr_system is None:
         asr_system_config = FireRedAsr2SystemConfig()  # Use default config
         asr_system = FireRedAsr2System(asr_system_config)
             temperature=1.0
         )
         asr_model_llm = FireRedAsr2.from_pretrained("llm", model_dir_llm, asr_config_llm)
+    if vad_model is None:
+        vad_config = FireRedVadConfig(
+            use_gpu=False,
+            smooth_window_size=5,
+            speech_threshold=0.4,
+            min_speech_frame=20,
+            max_speech_frame=2000,
+            min_silence_frame=20,
+            merge_silence_frame=0,
+            extend_speech_frame=0,
+            chunk_max_frame=30000)
+        vad_model = FireRedVad.from_pretrained("pretrained_models/FireRedVAD/VAD", vad_config)
+        aed_config=FireRedAedConfig(
+            use_gpu=False,
+            smooth_window_size=5,
+            speech_threshold=0.4,
+            singing_threshold=0.5,
+            music_threshold=0.5,
+            min_event_frame=20,
+            max_event_frame=2000,
+            min_silence_frame=20,
+            merge_silence_frame=0,
+            extend_speech_frame=0,
+            chunk_max_frame=30000)
+        aed_model = FireRedAed.from_pretrained("pretrained_models/FireRedVAD/AED", aed_config)
 @spaces.GPU(duration=20)
     if not audio_file:
         return "Please upload a wav file"
     results = asr_system.process(audio_file)
+    s = f'ASR: {results["text"]}\nSentences: {results["sentences"]}\nVAD(ms): {results["vad_segments_ms"]}\nDuration: {results["dur_s"]}s'
     return s
     return text_output
+@spaces.GPU(duration=20)
+def vad_inference(audio_file):
+    if not audio_file:
+        return "Please upload a wav file"
+    result, probs = vad.detect(audio_file)
+    s = f'Duration: {result["dur"]}s'
+    s += f'\nVoice: {result["timestamps"]}'
+    result, probs = aed.detect(audio_file)
+    s += f'\nEvent: {results["event2ratio"]}\n  {result["event2timestamps"]}'
+    return s
 with gr.Blocks(title="FireRedASR2S") as demo:
     gr.HTML(
         "<h1 style='text-align: center'>FireRedASR2S Demo</h1>"
         with gr.Column():
             #audio_file = gr.Audio(label="Upload Audio", sources=["upload", "microphone"], type="filepath")
             audio_file = gr.Audio(label="Upload wav file", sources=["upload"], type="filepath")
+            vad_button = gr.Button("Start Recognition (FireRedVAD)", variant="primary")
+            vad_output = gr.Textbox(label="Model Result (FireRedVAD)", interactive=False, lines=3, max_lines=12)
         with gr.Column():
             asr_sys_button = gr.Button("Start Recognition (FireRedASR2S)", variant="primary")
             asr_button_llm = gr.Button("Start Recognition (FireRedASR2-LLM-L)", variant="primary")
             text_output_llm = gr.Textbox(label="Model Result (FireRedASR2-LLM-L)", interactive=False, lines=3, max_lines=12)
+    vad_button.click(
+        fn=vad_inference,
+        inputs=[audio_file],
+        outputs=[vad_output]
+    )
     asr_sys_button.click(
         fn=asr_sys_inference,
         inputs=[audio_file],