Voxtral_Mini_Evaluation

Running

App Files Files Community

Loren commited on Jul 25

Commit

2491436

verified ·

1 Parent(s): 5d5510d

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -26

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import gradio as gr
 import torch
 from transformers import AutoProcessor, VoxtralForConditionalGeneration
 import spaces
 #### Functions
@@ -83,39 +84,47 @@ dict_languages = {"English": "en",
 #### Gradio interface
-with gr.Blocks(title="Transcription") as audio:
     gr.Markdown("# Voxtral Mini Evaluation")
-    gr.Markdown("#### Choose the language of the audio and set an audio file to process it.")
-    gr.Markdown("##### *(Voxtral handles audios up to 30 minutes for transcription)*")
     with gr.Row():
         with gr.Column():
             sel_language = gr.Dropdown(
                 choices=list(dict_languages.keys()),
                 value="English",
                 label="Select the language of the audio file:"
             )
-        with gr.Column():
-            sel_audio = gr.Audio(sources=["upload", "microphone"], type="filepath",
-                                 label="Upload an audio file, record via microphone, or select a demo file:")
-            example = [["mapo_tofu.mp3"]]
-            gr.Examples(
-                examples=example,
-                inputs=sel_audio,
-                outputs=None,
-                fn=None,
-                cache_examples=False,
-                run_on_click=False
-            )
-    with gr.Row():
-        with gr.Column():
             submit_transcript = gr.Button("Extract transcription", variant="primary")
-            text_transcript = gr.Textbox(label="Generated transcription", lines=10)
         with gr.Column():
             sel_translate_language = gr.Dropdown(
                 choices=list(dict_languages.keys()),
                 value="English",
@@ -123,11 +132,13 @@ with gr.Blocks(title="Transcription") as audio:
             )
             submit_translate = gr.Button("Translate audio file", variant="primary")
-            text_translate = gr.Textbox(label="Generated translation", lines=10)
         with gr.Column():
-            submit_chat = gr.Button("Ask audio file", variant="primary")
-            text_chat = gr.Textbox(label="Model answer", lines=10)
 ### Processing
@@ -146,7 +157,7 @@ with gr.Blocks(title="Transcription") as audio:
     )
     # Translation
-    submit_transcript.click(
         disable_buttons,
         outputs=[submit_transcript, submit_translate, submit_chat],
         trigger_mode="once",
@@ -163,4 +174,4 @@ with gr.Blocks(title="Transcription") as audio:
 ### Launch the app
 if __name__ == "__main__":
-    audio.launch()

 import torch
 from transformers import AutoProcessor, VoxtralForConditionalGeneration
 import spaces
+from gradio_modal import Modal
 #### Functions
 #### Gradio interface
+with gr.Blocks(title="Voxtral") as voxtral:
     gr.Markdown("# Voxtral Mini Evaluation")
+    gr.Markdown("Voxtral Mini is an enhancement of Ministral 3B, incorporating state-of-the-art audio input \
+    capabilities while retaining best-in-class text performance. It excels at speech transcription, \
+    translation and audio understanding.")
+    btn = gr.Button("🔎 More on Voxtral", variant="huggingface")
+    with Modal(visible=False, allow_user_close=True) as modal:
+        gr.Markdown("## Key features:")
+        gr.Markdown("Voici comment utiliser l’interface…")
+        # placez ici des composants supplémentaires selon besoin
+    btn.click(lambda: Modal(visible=True), None, modal)
+    gr.Markdown("## Upload an audio file, record via microphone, or select a demo file:")
+    gr.Markdown("### *(Voxtral handles audios up to 30 minutes for transcription)*")
+    with gr.Row():
+        sel_audio = gr.Audio(sources=["upload", "microphone"], type="filepath",
+                             label="Set an audio file to process it:")
+        example = [["mapo_tofu.mp3"]]
+        gr.Examples(
+            examples=example,
+            inputs=sel_audio,
+            outputs=None,
+            fn=None,
+            cache_examples=False,
+            run_on_click=False
+        )
     with gr.Row():
         with gr.Column():
+            gr.Buton("📝 Transcription", variant="huggingface", interactive=False)
             sel_language = gr.Dropdown(
                 choices=list(dict_languages.keys()),
                 value="English",
                 label="Select the language of the audio file:"
             )
             submit_transcript = gr.Button("Extract transcription", variant="primary")
+            text_transcript = gr.Textbox(label="💬 Generated transcription", lines=10)
         with gr.Column():
+            gr.Buton("🔁 Translation", variant="huggingface", interactive=False)
             sel_translate_language = gr.Dropdown(
                 choices=list(dict_languages.keys()),
                 value="English",
             )
             submit_translate = gr.Button("Translate audio file", variant="primary")
+            text_translate = gr.Textbox(label="💬 Generated translation", lines=10)
         with gr.Column():
+            gr.Buton("🤖 Ask audio file", variant="huggingface", interactive=False)
+            question = gr.Textbox(label="Ask audio file", placeholder="Enter your question about audio file")
+            submit_chat = gr.Button("Ask audio file:", variant="primary")
+            text_chat = gr.Textbox(label="💬 Model answer", lines=10)
 ### Processing
     )
     # Translation
+    submit_translate.click(
         disable_buttons,
         outputs=[submit_transcript, submit_translate, submit_chat],
         trigger_mode="once",
 ### Launch the app
 if __name__ == "__main__":
+    voxtral.queue().launch()