Spaces:

AlsuGibadullina
/

Image

Running

App Files Files Community

AlsuGibadullina commited on 4 days ago

Commit

1f2d518

verified ·

1 Parent(s): 7dc4be3

Update app.py

Browse files

Files changed (1) hide show

app.py +114 -3

app.py CHANGED Viewed

@@ -595,7 +595,119 @@ def parse_point_coordinates_text(coordinates_text: str) -> List[List[int]]:
 def build_interface():
     with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo_block:
         gr.Markdown("# AI модели")
         with gr.Tab("Детекция объектов"):
             gr.Markdown("## Детекция объектов")
             with gr.Row():
@@ -828,5 +940,4 @@ def build_interface():
 if __name__ == "__main__":
     interface_block = build_interface()
-    interface_block.launch(share=True)

 def build_interface():
     with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo_block:
         gr.Markdown("# AI модели")
+        with gr.Tab("Классификация аудио"):
+            gr.Markdown("## Классификация аудио")
+            with gr.Row():
+                audio_input_component = gr.Audio(
+                    label="Загрузите аудиофайл",
+                    type="filepath",
+                )
+                audio_model_selector = gr.Dropdown(
+                    choices=["audio_classifier", "emotion_classifier"],
+                    label="Выберите модель",
+                    value="audio_classifier",
+                    info=(
+                        "audio_classifier - общая классификация (курс)"
+                        "emotion_classifier - эмоции в речи "
+                    ),
+                )
+                audio_classify_button = gr.Button("Применить")
+                audio_output_component = gr.Textbox(
+                    label="Результаты классификации",
+                    lines=10,
+                )
+            audio_classify_button.click(
+                fn=classify_audio_file,
+                inputs=[audio_input_component, audio_model_selector],
+                outputs=audio_output_component,
+            )
+        with gr.Tab("Zero-Shot аудио"):
+            gr.Markdown("## Zero-Shot аудио классификатор")
+            with gr.Row():
+                clap_audio_input_component = gr.Audio(
+                    label="Загрузите аудиофайл",
+                    type="filepath",
+                )
+                clap_label_texts_component = gr.Textbox(
+                    label="Кандидатные метки (через запятую)",
+                    placeholder="лай собаки, шум дождя, музыка, разговор",
+                    lines=2,
+                )
+                clap_button = gr.Button("Применить")
+                clap_output_component = gr.Textbox(
+                    label="Результаты zero-shot классификации",
+                    lines=10,
+                )
+            clap_button.click(
+                fn=classify_audio_zero_shot_clap,
+                inputs=[clap_audio_input_component, clap_label_texts_component],
+                outputs=clap_output_component,
+            )
+        with gr.Tab("Распознавание речи"):
+            gr.Markdown("## Распознавание реч")
+            with gr.Row():
+                asr_audio_input_component = gr.Audio(
+                    label="Загрузите аудио с речью",
+                    type="filepath",
+                )
+                asr_model_selector = gr.Dropdown(
+                    choices=["whisper", "wav2vec2"],
+                    label="Выберите модель",
+                    value="whisper",
+                    info=(
+                        "whisper  - distil-whisper/distil-small.en (курс),\n"
+                        "wav2vec2 - openai/whisper-small"
+                    ),
+                )
+                asr_button = gr.Button("Применить")
+                asr_output_component = gr.Textbox(
+                    label="Транскрипция",
+                    lines=5,
+                )
+            asr_button.click(
+                fn=recognize_speech,
+                inputs=[asr_audio_input_component, asr_model_selector],
+                outputs=asr_output_component,
+            )
+        with gr.Tab("Синтез речи"):
+            gr.Markdown("## Text-to-Speech")
+            with gr.Row():
+                tts_text_component = gr.Textbox(
+                    label="Введите текст для синтеза",
+                    placeholder="Введите текст на русском или английском языке...",
+                    lines=3,
+                )
+                tts_model_selector = gr.Dropdown(
+                    choices=["mms", "Google TTS"],
+                    label="Выберите модель",
+                    value="mms",
+                    info=(
+                        "facebook/mms-tts-rus\n"
+                        "Google TTS"
+                    ),
+                )
+                tts_button = gr.Button("Применить")
+                tts_audio_output_component = gr.Audio(
+                    label="Синтезированная речь",
+                    type="filepath",
+                )
+            tts_button.click(
+                fn=synthesize_speech,
+                inputs=[tts_text_component, tts_model_selector],
+                outputs=tts_audio_output_component,
+            )
         with gr.Tab("Детекция объектов"):
             gr.Markdown("## Детекция объектов")
             with gr.Row():
 if __name__ == "__main__":
     interface_block = build_interface()
+    interface_block.launch(share=True)