mi55th commited on
Commit
1973bad
·
verified ·
1 Parent(s): 5756d2b

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +2 -69
app.py CHANGED
@@ -197,75 +197,9 @@ def image_retrieval(images, query):
197
 
198
  # Создаем интерфейс Gradio
199
  with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo:
200
- gr.Markdown("# 🎯 Мультимодальные AI модели")
201
- gr.Markdown("Демонстрация различных задач компьютерного зрения и обработки звука с использованием Hugging Face Transformers")
202
 
203
- with gr.Tab("🎵 Классификация аудио"):
204
- gr.Markdown("## Zero-Shot Audio Classification")
205
- with gr.Row():
206
- with gr.Column():
207
- audio_input = gr.Audio(label="Загрузите аудиофайл", type="filepath")
208
- audio_model_dropdown = gr.Dropdown(
209
- choices=["audio_classifier", "emotion_classifier"],
210
- label="Выберите модель",
211
- value="audio_classifier",
212
- info="audio_classifier - общая классификация, emotion_classifier - эмоции в речи"
213
- )
214
- classify_btn = gr.Button("Классифицировать")
215
- with gr.Column():
216
- audio_output = gr.Textbox(label="Результаты классификации", lines=10)
217
-
218
- classify_btn.click(
219
- fn=audio_classification,
220
- inputs=[audio_input, audio_model_dropdown],
221
- outputs=audio_output
222
- )
223
-
224
- with gr.Tab("🗣️ Распознавание речи"):
225
- gr.Markdown("## Automatic Speech Recognition (ASR)")
226
- with gr.Row():
227
- with gr.Column():
228
- asr_audio_input = gr.Audio(label="Загрузите аудио с речью", type="filepath")
229
- asr_model_dropdown = gr.Dropdown(
230
- choices=["whisper", "wav2vec2"],
231
- label="Выберите модель",
232
- value="whisper",
233
- info="whisper - многоязычная, wav2vec2 - специализированная для русского"
234
- )
235
- transcribe_btn = gr.Button("Транскрибировать")
236
- with gr.Column():
237
- asr_output = gr.Textbox(label="Транскрипция", lines=5)
238
-
239
- transcribe_btn.click(
240
- fn=speech_recognition,
241
- inputs=[asr_audio_input, asr_model_dropdown],
242
- outputs=asr_output
243
- )
244
-
245
- with gr.Tab("🔊 Синтез речи"):
246
- gr.Markdown("## Text-to-Speech (TTS)")
247
- with gr.Row():
248
- with gr.Column():
249
- tts_text_input = gr.Textbox(
250
- label="Введите текст для синтеза",
251
- placeholder="Введите текст на русском языке...",
252
- lines=3
253
- )
254
- tts_model_dropdown = gr.Dropdown(
255
- choices=["silero", "gtts", "mms"],
256
- label="Выберите модель",
257
- value="silero",
258
- info="silero - высокое качество, gtts - Google TTS, mms - Facebook MMS"
259
- )
260
- synthesize_btn = gr.Button("Синтезировать речь")
261
- with gr.Column():
262
- tts_output = gr.Audio(label="Синтезированная речь")
263
-
264
- synthesize_btn.click(
265
- fn=text_to_speech,
266
- inputs=[tts_text_input, tts_model_dropdown],
267
- outputs=tts_output
268
- )
269
 
270
  with gr.Tab("📦 Детекция объектов"):
271
  gr.Markdown("## Object Detection")
@@ -379,7 +313,6 @@ with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo:
379
  gr.Markdown("---")
380
  gr.Markdown("### 📊 Поддерживаемые задачи:")
381
  gr.Markdown("""
382
- - **🎵 Аудио**: Классификация, распознавание речи, синтез речи
383
  - **👁️ Компьютерное зрение**: Детекция объектов, сегментация, описание изображений
384
  - **🤖 Мультимодальные**: Визуальные вопросы, zero-shot классификация, поиск по изображениям
385
  """)
 
197
 
198
  # Создаем интерфейс Gradio
199
  with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo:
200
+ gr.Markdown("# Нестеров Владимир ")
201
+ gr.Markdown("Демонстрация различных задач компьютерного зрения с использованием Hugging Face Transformers")
202
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
203
 
204
  with gr.Tab("📦 Детекция объектов"):
205
  gr.Markdown("## Object Detection")
 
313
  gr.Markdown("---")
314
  gr.Markdown("### 📊 Поддерживаемые задачи:")
315
  gr.Markdown("""
 
316
  - **👁️ Компьютерное зрение**: Детекция объектов, сегментация, описание изображений
317
  - **🤖 Мультимодальные**: Визуальные вопросы, zero-shot классификация, поиск по изображениям
318
  """)