Voice_Assistant_Demo

Paused

App Files Files Community

wanchichen commited on Jan 20

Commit

b2af2e4

1 Parent(s): 1efc72a

u

Browse files

Files changed (1) hide show

app.py +10 -101

app.py CHANGED Viewed

@@ -20,10 +20,10 @@ from espnet2.sds.espnet_model import ESPnetSDSModelInterface
 access_token = os.environ.get("HF_TOKEN")
 ASR_name="pyf98/owsm_ctc_v3.1_1B"
 LLM_name="meta-llama/Llama-3.2-1B-Instruct"
-TTS_name="kan-bayashi/ljspeech_vits"
-ASR_options="pyf98/owsm_ctc_v3.1_1B,espnet/owsm_ctc_v3.2_ft_1B,espnet/owsm_v3.1_ebf,librispeech_asr".split(",")
-LLM_options="meta-llama/Llama-3.2-1B-Instruct,HuggingFaceTB/SmolLM2-1.7B-Instruct".split(",")
-TTS_options="kan-bayashi/ljspeech_vits,kan-bayashi/libritts_xvector_vits,kan-bayashi/vctk_multi_spk_vits,ChatTTS".split(",")
 Eval_options="Latency,TTS Intelligibility,TTS Speech Quality,ASR WER,Text Dialog Metrics"
 upload_to_hub=None
 dialogue_model = ESPnetSDSModelInterface(
@@ -241,10 +241,10 @@ def start_warmup():
             if opt == LLM_name:
                 LLM_name = LLM_options[0]
     for opt_count in range(len(TTS_options)):
-        opt = TTS_options[opt_count]
         opt_count-=remove
         if opt_count>=len(TTS_options):
             break
         try:
             for _ in dialogue_model.handle_TTS_selection(opt):
                 continue
@@ -493,7 +493,7 @@ with gr.Blocks(
             )
             with gr.Row():
                 type_radio = gr.Radio(
-                    choices=["Cascaded", "E2E"],
                     label="Choose type of Spoken Dialog:",
                     value="Cascaded",
                 )
@@ -522,51 +522,6 @@ with gr.Blocks(
                     value="mini-omni",
                     visible=False,
                 )
-            with gr.Row():
-                feedback_btn = gr.Button(
-                    value=(
-                        "Please provide your feedback "
-                        "after each system response below."
-                    ),
-                    visible=True,
-                    interactive=False,
-                    elem_id="button",
-                )
-            with gr.Row():
-                natural_btn1 = gr.Button(
-                    value="Very Natural", visible=False, interactive=False, scale=1
-                )
-                natural_btn2 = gr.Button(
-                    value="Somewhat Awkward", visible=False, interactive=False, scale=1
-                )
-                natural_btn3 = gr.Button(
-                    value="Very Awkward", visible=False, interactive=False, scale=1
-                )
-                natural_btn4 = gr.Button(
-                    value="Unnatural", visible=False, interactive=False, scale=1
-                )
-            with gr.Row():
-                relevant_btn1 = gr.Button(
-                    value="Highly Relevant", visible=False, interactive=False, scale=1
-                )
-                relevant_btn2 = gr.Button(
-                    value="Partially Relevant",
-                    visible=False,
-                    interactive=False,
-                    scale=1,
-                )
-                relevant_btn3 = gr.Button(
-                    value="Slightly Irrelevant",
-                    visible=False,
-                    interactive=False,
-                    scale=1,
-                )
-                relevant_btn4 = gr.Button(
-                    value="Completely Irrelevant",
-                    visible=False,
-                    interactive=False,
-                    scale=1,
-                )
         with gr.Column(scale=1):
             output_audio = gr.Audio(label="Output", autoplay=True, visible=True, interactive=False)
             output_audio1 = gr.Audio(label="Output1", autoplay=False, visible=False, interactive=False)
@@ -581,6 +536,7 @@ with gr.Blocks(
                     "Text Dialog Metrics",
                 ],
                 label="Choose Evaluation metrics:",
             )
             eval_radio_E2E = gr.Radio(
                 choices=[
@@ -592,47 +548,10 @@ with gr.Blocks(
                 label="Choose Evaluation metrics:",
                 visible=False,
             )
-            output_eval_text = gr.Textbox(label="Evaluation Results")
             state = gr.State(value=None)
-    #gr.Markdown("### Example Prompts & Responses")
-    #gr.DataFrame(value=examples, headers=["Task", "LLM Prompt"], interactive=False)
-    with gr.Row():
-        privacy_text = gr.Textbox(
-            label="Privacy Notice",
-            interactive=False,
-            value=(
-                "By using this demo, you acknowledge that"
-                "interactions with this dialog system are collected "
-                "for research and improvement purposes. The data "
-                "will only be used to enhance the performance and "
-                "understanding of the system. If you have any "
-                "concerns about data collection, please discontinue "
-                "use."
-            ),
-        )
-    btn_list = [
-        natural_btn1,
-        natural_btn2,
-        natural_btn3,
-        natural_btn4,
-        relevant_btn1,
-        relevant_btn2,
-        relevant_btn3,
-        relevant_btn4,
-    ]
-    natural_btn_list = [
-        natural_btn1,
-        natural_btn2,
-        natural_btn3,
-        natural_btn4,
-    ]
-    relevant_btn_list = [
-        relevant_btn1,
-        relevant_btn2,
-        relevant_btn3,
-        relevant_btn4,
-    ]
     natural_response = gr.Textbox(
         label="natural_response", visible=False, interactive=False
     )
@@ -660,16 +579,6 @@ with gr.Blocks(
         inputs=[ASR_radio],
         outputs=[output_asr_text, output_text, output_audio],
     )
-    eval_radio.change(
-        fn=handle_eval_selection,
-        inputs=[eval_radio, output_audio, output_text, output_audio1, output_asr_text],
-        outputs=[eval_radio, output_eval_text],
-    )
-    eval_radio_E2E.change(
-        fn=handle_eval_selection_E2E,
-        inputs=[eval_radio_E2E, output_audio, output_text],
-        outputs=[eval_radio_E2E, output_eval_text],
-    )
     type_radio.change(
         fn=dialogue_model.handle_type_selection,
         inputs=[type_radio, radio, ASR_radio, LLM_radio],
@@ -686,7 +595,7 @@ with gr.Blocks(
         ],
     )
     output_audio.play(
-        flash_buttons, [], [natural_response, diversity_response] + btn_list
     )
 demo.queue(max_size=10, default_concurrency_limit=1)

 access_token = os.environ.get("HF_TOKEN")
 ASR_name="pyf98/owsm_ctc_v3.1_1B"
 LLM_name="meta-llama/Llama-3.2-1B-Instruct"
+TTS_name="espnet/kan-bayashi_ljspeech_vits"
+ASR_options="pyf98/owsm_ctc_v3.1_1B,espnet/owsm_ctc_v3.2_ft_1B,espnet/owsm_v3.1_ebf".split(",")
+LLM_options="meta-llama/Llama-3.2-1B-Instruct".split(",")
+TTS_options="espnet/kan-bayashi_ljspeech_vits,espnet/kan-bayashi_libritts_xvector_vits,espnet/kan-bayashi_vctk_multi_spk_vits,ChatTTS".split(",")
 Eval_options="Latency,TTS Intelligibility,TTS Speech Quality,ASR WER,Text Dialog Metrics"
 upload_to_hub=None
 dialogue_model = ESPnetSDSModelInterface(
             if opt == LLM_name:
                 LLM_name = LLM_options[0]
     for opt_count in range(len(TTS_options)):
         opt_count-=remove
         if opt_count>=len(TTS_options):
             break
+        opt = TTS_options[opt_count]
         try:
             for _ in dialogue_model.handle_TTS_selection(opt):
                 continue
             )
             with gr.Row():
                 type_radio = gr.Radio(
+                    choices=["Cascaded"],
                     label="Choose type of Spoken Dialog:",
                     value="Cascaded",
                 )
                     value="mini-omni",
                     visible=False,
                 )
         with gr.Column(scale=1):
             output_audio = gr.Audio(label="Output", autoplay=True, visible=True, interactive=False)
             output_audio1 = gr.Audio(label="Output1", autoplay=False, visible=False, interactive=False)
                     "Text Dialog Metrics",
                 ],
                 label="Choose Evaluation metrics:",
+                visible=False,
             )
             eval_radio_E2E = gr.Radio(
                 choices=[
                 label="Choose Evaluation metrics:",
                 visible=False,
             )
+            output_eval_text = gr.Textbox(label="Evaluation Results", visible=False)
             state = gr.State(value=None)
     natural_response = gr.Textbox(
         label="natural_response", visible=False, interactive=False
     )
         inputs=[ASR_radio],
         outputs=[output_asr_text, output_text, output_audio],
     )
     type_radio.change(
         fn=dialogue_model.handle_type_selection,
         inputs=[type_radio, radio, ASR_radio, LLM_radio],
         ],
     )
     output_audio.play(
+        flash_buttons, [], [natural_response, diversity_response]
     )
 demo.queue(max_size=10, default_concurrency_limit=1)