Spaces:

FireRedTeam
/

FireRedASR2S

Running on Zero

App Files Files Community

FireRed Team commited on Mar 13

Commit

c0614ee

verified ·

1 Parent(s): a7ae0c0

Upload 2 files

Browse files

Files changed (2) hide show

app.py +23 -2
requirements.txt +5 -5

app.py CHANGED Viewed

@@ -18,6 +18,9 @@ def init_model(model_dir_aed, model_dir_llm):
     global asr_system
     global asr_model_aed
     global asr_model_llm
     if asr_model_aed is None:
         asr_config_aed = FireRedAsr2Config(
             use_gpu=True,
@@ -42,6 +45,14 @@ def init_model(model_dir_aed, model_dir_llm):
         asr_model_llm = FireRedAsr2.from_pretrained("llm", model_dir_llm, asr_config_llm)
 @spaces.GPU(duration=20)
 def asr_inference(audio_file):
     if not audio_file:
@@ -70,9 +81,9 @@ def asr_inference_llm(audio_file):
     return text_output
-with gr.Blocks(title="FireRedASR") as demo:
     gr.HTML(
-        "<h1 style='text-align: center'>FireRedASR2 Demo</h1>"
     )
     gr.Markdown("Upload an audio file (wav) to get speech-to-text results.")
@@ -82,11 +93,19 @@ with gr.Blocks(title="FireRedASR") as demo:
             audio_file = gr.Audio(label="Upload wav file", sources=["upload"], type="filepath")
         with gr.Column():
             asr_button = gr.Button("Start Recognition (FireRedASR2-AED-L)", variant="primary")
             text_output = gr.Textbox(label="Model Result (FireRedASR2-AED-L)", interactive=False, lines=3, max_lines=12)
             asr_button_llm = gr.Button("Start Recognition (FireRedASR2-LLM-L)", variant="primary")
             text_output_llm = gr.Textbox(label="Model Result (FireRedASR2-LLM-L)", interactive=False, lines=3, max_lines=12)
     asr_button.click(
         fn=asr_inference,
         inputs=[audio_file],
@@ -106,6 +125,8 @@ if __name__ == "__main__":
     snapshot_download(repo_id='FireRedTeam/FireRedASR2-AED', local_dir=local_dir)
     local_dir_llm='pretrained_models/FireRedASR2-LLM'
     snapshot_download(repo_id='FireRedTeam/FireRedASR2-LLM', local_dir=local_dir_llm)
     # Init model
     init_model(local_dir, local_dir_llm)
     # UI

     global asr_system
     global asr_model_aed
     global asr_model_llm
+    if asr_system is None:
+        asr_system_config = FireRedAsr2SystemConfig()  # Use default config
+        asr_system = FireRedAsr2System(asr_system_config)
     if asr_model_aed is None:
         asr_config_aed = FireRedAsr2Config(
             use_gpu=True,
         asr_model_llm = FireRedAsr2.from_pretrained("llm", model_dir_llm, asr_config_llm)
+@spaces.GPU(duration=20)
+def asr_sys_inference(audio_file):
+    if not audio_file:
+        return "Please upload a wav file"
+    results = asr_system.process(audio_file)
+    return results
 @spaces.GPU(duration=20)
 def asr_inference(audio_file):
     if not audio_file:
     return text_output
+with gr.Blocks(title="FireRedASR2S") as demo:
     gr.HTML(
+        "<h1 style='text-align: center'>FireRedASR2S Demo</h1>"
     )
     gr.Markdown("Upload an audio file (wav) to get speech-to-text results.")
             audio_file = gr.Audio(label="Upload wav file", sources=["upload"], type="filepath")
         with gr.Column():
+            asr_sys_button = gr.Button("Start Recognition (FireRedASR2S)", variant="primary")
+            text_sys_output = gr.Textbox(label="Model Result (FireRedASR2S)", interactive=False, lines=3, max_lines=12)
             asr_button = gr.Button("Start Recognition (FireRedASR2-AED-L)", variant="primary")
             text_output = gr.Textbox(label="Model Result (FireRedASR2-AED-L)", interactive=False, lines=3, max_lines=12)
             asr_button_llm = gr.Button("Start Recognition (FireRedASR2-LLM-L)", variant="primary")
             text_output_llm = gr.Textbox(label="Model Result (FireRedASR2-LLM-L)", interactive=False, lines=3, max_lines=12)
+    asr_sys_button.click(
+        fn=asr_sys_inference,
+        inputs=[audio_file],
+        outputs=[text_sys_output]
+    )
     asr_button.click(
         fn=asr_inference,
         inputs=[audio_file],
     snapshot_download(repo_id='FireRedTeam/FireRedASR2-AED', local_dir=local_dir)
     local_dir_llm='pretrained_models/FireRedASR2-LLM'
     snapshot_download(repo_id='FireRedTeam/FireRedASR2-LLM', local_dir=local_dir_llm)
+    for name in ['FireRedVAD', 'FireRedLID', 'FireRedPunc']:
+        snapshot_download(repo_id=f'FireRedTeam/{name}', local_dir=f'pretrained_models/{name}')
     # Init model
     init_model(local_dir, local_dir_llm)
     # UI

requirements.txt CHANGED Viewed

@@ -1,11 +1,11 @@
-torch>=2.1.0
-torchaudio>=2.1.0
-transformers>=4.51.3
-numpy>=1.26.1
 cn2an>=0.5.23
 kaldiio>=2.18.0
 kaldi_native_fbank>=1.15
 sentencepiece
 soundfile>=0.12.1
 textgrid
-peft

+torch==2.1.0
+torchaudio==2.1.0
+transformers==4.51.3
+numpy==1.26.1
 cn2an>=0.5.23
 kaldiio>=2.18.0
 kaldi_native_fbank>=1.15
 sentencepiece
 soundfile>=0.12.1
 textgrid
+peft==0.13.2