Spaces:

blackeeee
/

whisper_test

Sleeping

App Files Files Community

blackeeee commited on Dec 29, 2025

Commit

f12aa02

verified ·

1 Parent(s): 555bc3f

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -48

app.py CHANGED Viewed

@@ -1,72 +1,44 @@
 import gradio as gr
-import nemo.collections.asr as nemo_asr
-import torch
 import time
-import os
-# --- НАСТРОЙКИ ---
-# Официальная модель GigaAM v3 CTC.
-# Она быстрее, чем RNNT, но тупее по контексту.
-MODEL_NAME = "SaluteAI/GigaAM-v3-CTC"
-print(f"⏳ Начинаю загрузку {MODEL_NAME}... Это может занять время.")
-# Загружаем модель сразу на CPU
 try:
-    # Пытаемся загрузить через стандартный метод NeMo
-    asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(
-        model_name=MODEL_NAME,
-        map_location="cpu"
-    )
-    print("✅ Модель успешно загружена!")
 except Exception as e:
-    # Фолбэк: если вдруг имя сменилось, попробуем загрузить e2e версию
-    print(f"Ошибка загрузки основной модели: {e}")
-    print("Пробую альтернативу (E2E)...")
-    MODEL_NAME = "SaluteAI/GigaAM-v3-e2e-CTC"
-    asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(
-        model_name=MODEL_NAME,
-        map_location="cpu"
-    )
 def transcribe(audio_path):
     if audio_path is None:
-        return "Ошибка: Нет аудио", 0.0
     start_time = time.time()
-    # NeMo требует список путей
-    files = [audio_path]
-    # Инференс
-    # logprobs=False ускоряет процесс
-    try:
-        transcriptions = asr_model.transcribe(
-            paths2audio_files=files,
-            batch_size=1,
-            num_workers=0, # Важно для Space (иначе может крашнуться)
-            verbose=False
-        )
-        text = transcriptions[0]
-    except Exception as e:
-        return f"Ошибка инференса: {e}", 0.0
     elapsed_time = time.time() - start_time
-    # Если это не E2E модель, текст будет капсом без пробелов.
-    # Но GigaAM обычно выдает нормальный текст.
     return text, f"{elapsed_time:.3f} сек"
 # Интерфейс
 iface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(type="filepath", label="Говори (RU)"),
     outputs=[
-        gr.Textbox(label="GigaAM v3 Результат"),
-        gr.Label(label="Время выполнения")
     ],
-    title="🇷🇺 GigaAM v3 CTC (Test)",
-    description=f"Тестируем скорость {MODEL_NAME} на бесплатном CPU."
 )
 iface.launch()

 import gradio as gr
+import onnx_asr
 import time
+# Загружаем модели сразу при старте (чтобы не тупило на первом запросе)
+# Используем E2E версию по дефолту - она ставит знаки препинания.
+print("⏳ Загрузка GigaAM v3 ONNX...")
 try:
+    # "gigaam-v3-e2e-ctc" - это версия с нормализацией и пунктуацией
+    model = onnx_asr.load_model("gigaam-v3-e2e-ctc")
+    print("✅ Модель готова!")
 except Exception as e:
+    print(f"Ошибка загрузки: {e}")
+    model = None
 def transcribe(audio_path):
     if audio_path is None:
+        return "Ошибка: нет аудио", 0.0
+    if model is None:
+        return "Ошибка: модель не загрузилась", 0.0
     start_time = time.time()
+    # Инференс одной строкой. Библиотека сама делает ресемплинг.
+    text = model.recognize(audio_path)
     elapsed_time = time.time() - start_time
     return text, f"{elapsed_time:.3f} сек"
 # Интерфейс
 iface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="filepath", label="Микрофон"),
     outputs=[
+        gr.Textbox(label="Результат (GigaAM v3 ONNX)"),
+        gr.Label(label="Время инференса")
     ],
+    title="🚀 GigaAM v3 (ONNX Int8)",
+    description="Самая быстрая версия GigaAM для CPU. Использует библиотеку onnx-asr."
 )
 iface.launch()