Spaces:

VladRet2026
/

ConvertAudioToJSON

Running

App Files Files

VladGeekPro commited on 27 days ago

Commit

3d44974

1 Parent(s): e446b1b

ChangedWhisperToLargeV3TurboAndAddedTestEndPoint

Browse files

Files changed (3) hide show

Dockerfile +1 -1
app.py +267 -16
requirements.txt +2 -1

Dockerfile CHANGED Viewed

@@ -2,7 +2,7 @@ FROM python:3.11-slim
 ENV PYTHONUNBUFFERED=1 PIP_NO_CACHE_DIR=1 HOME=/home/user \
     PATH=/home/user/.local/bin:$PATH PORT=7860 \
-    WHISPER_MODEL=large-v3 WHISPER_COMPUTE_TYPE=int8
 RUN apt-get update && apt-get install -y --no-install-recommends ffmpeg \
     && rm -rf /var/lib/apt/lists/* \

 ENV PYTHONUNBUFFERED=1 PIP_NO_CACHE_DIR=1 HOME=/home/user \
     PATH=/home/user/.local/bin:$PATH PORT=7860 \
+    WHISPER_MODEL=openai/whisper-large-v3-turbo
 RUN apt-get update && apt-get install -y --no-install-recommends ffmpeg \
     && rm -rf /var/lib/apt/lists/* \

app.py CHANGED Viewed

@@ -33,11 +33,173 @@ HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 _MODEL: Optional[SentenceTransformer] = None
 _WHISPER_MODEL: Optional[Any] = None
 app = Flask(__name__)
 app.config["MAX_CONTENT_LENGTH"] = 20 * 1024 * 1024
 def get_embedding_model() -> SentenceTransformer:
     """Возвращает модель эмбеддингов (ленивая загрузка)."""
@@ -49,19 +211,50 @@ def get_embedding_model() -> SentenceTransformer:
     return _MODEL
-def get_whisper_model() -> Any:
-    """Возвращает модель Whisper (ленивая загрузка)."""
-    global _WHISPER_MODEL
     if _WHISPER_MODEL is None:
-        from faster_whisper import WhisperModel
-        model_name = os.getenv("WHISPER_MODEL", "large-v3")
-        compute_type = os.getenv("WHISPER_COMPUTE_TYPE", "float16" if torch.cuda.is_available() else "int8")
-        _WHISPER_MODEL = WhisperModel(model_name, device=DEVICE, compute_type=compute_type)
     return _WHISPER_MODEL
 class ExpenseTextExtractor:
     """
     Главный экстрактор данных о расходах.
@@ -179,7 +372,7 @@ def polish_notes_text(text: str) -> str:
     return normalized
-def transcribe_audio_text(audio_path: str) -> tuple[str, float]:
     """Транскрибирует аудио в текст. Возвращает (текст, время в секундах)."""
     mock_text = os.getenv("EXPENSE_VOICE_MOCK_TEXT")
     if mock_text:
@@ -187,17 +380,31 @@ def transcribe_audio_text(audio_path: str) -> tuple[str, float]:
     try:
         t0 = time.time()
-        whisper_model = get_whisper_model()
-        segments, _ = whisper_model.transcribe(audio_path, language="ru", vad_filter=True)
-        text = " ".join(segment.text.strip() for segment in segments if segment.text and segment.text.strip())
         elapsed = round(time.time() - t0, 3)
         print(f"[TIMINGS] whisper_transcribe: {elapsed}s")
         if text:
             return text, elapsed
-    except Exception:
-        pass
-    raise RuntimeError("Speech-to-text backend is unavailable. Install faster-whisper or set EXPENSE_VOICE_MOCK_TEXT.")
 def process_voice_request(audio_path: str, mode: str, payload: dict[str, Any]) -> dict[str, Any]:
@@ -208,7 +415,11 @@ def process_voice_request(audio_path: str, mode: str, payload: dict[str, Any]) -
     supplier_names = extract_names(context.get("suppliers"))
     user_names = extract_names(context.get("users"))
-    transcript, whisper_time = transcribe_audio_text(audio_path)
     if mode == "notes":
         notes = polish_notes_text(transcript)
@@ -291,7 +502,8 @@ def index():
         "message": "Voice processing API is running",
         "endpoints": {
             "POST /process-audio": "Process audio file",
-            "GET /health": "Health check"
         }
     })
@@ -302,6 +514,45 @@ def health():
     return jsonify({"status": "ok"})
 @app.post("/process-audio")
 def process_audio():
     """Обработка аудио файла."""

 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 _MODEL: Optional[SentenceTransformer] = None
 _WHISPER_MODEL: Optional[Any] = None
+_WHISPER_PROCESSOR: Optional[Any] = None
 app = Flask(__name__)
 app.config["MAX_CONTENT_LENGTH"] = 20 * 1024 * 1024
+TEST_USERS = [
+    "Я",
+    "Оля",
+    "Олечка",
+    "Влад",
+    "Владислав",
+    "Wallach",
+]
+TEST_SUPPLIERS = [
+    "Яндекс подписка",
+    "Wellness & Spa Thermal",
+    "Volta",
+    "Velmart",
+    "Vatsak",
+    "Vasconi",
+    "Valconi",
+    "Тема",
+    "Temix",
+    "Телемаркет Крикова",
+    "Takume",
+    "Tagaer",
+    "Supraten",
+    "Startur",
+    "Sankos",
+    "Samurai",
+    "Salomer",
+    "Vragob",
+    "Primul Discounter",
+    "Premier Energy",
+    "Пицца 9",
+    "Piața Centrală",
+    "Peon Farm",
+    "Peach Girl",
+    "Pandashop",
+    "Vivația",
+    "Oldcom",
+    "Ocean Fish",
+    "Номер 1",
+    "Nanu Market",
+    "Mozza",
+    "Moldpressa",
+    "Moldova-Presa",
+    "MoldovaGaz",
+    "Modus Vivendi",
+    "Micov",
+    "Metro",
+    "Mersi",
+    "Megapolis",
+    "Medical Market",
+    "Максимум",
+    "Maestro Delice",
+    "Maestro",
+    "Local",
+    "Linella 115",
+    "Linel",
+    "Vats",
+    "Kiss Beauty Salon",
+    "Кебаб",
+    "Кауфленд",
+    "Cat Shop",
+    "Joom",
+    "Ярди Маркет",
+    "Uiti Credit",
+    "U.T. Credit",
+    "iHerb",
+    "Ярмареку",
+    "Хипократис",
+    "Herb",
+    "Граньер",
+    "Global Store",
+    "Giganet",
+    "Franzeluța",
+    "Эфилете",
+    "Fidesco",
+    "Феличи",
+    "Fast Food",
+    "Farmacia Familia",
+    "Eurotelicom",
+    "Энергоком",
+    "Елика",
+    "Дёйнер-Кебаб",
+]
+TEST_PHRASES = [
+    "Вчера оплатил Яндекс подписку 455,90 лей",
+    "Через 3 дня был в Wellness & spa Thermal на 1200,70 лей",
+    "вчера заплатил в вольта 425,40 лей",
+    "Сегодня купил в velmart на 755,50 лей",
+    "Вчера платил в vatsak 185,80 лей",
+    "Сегодня был в Vasconi на 455,30 lei",
+    "Вчера платил в Valconi 325,90 lei",
+    "Сегодня заказал в тему на 895,60 лей",
+    "Вчера купил в temix на 185,50 лей",
+    "Сегодня оплатил в телемаркет Крикова 655,80 лей",
+    "Вчера был в такуме на 425,7 лей",
+    "Сегодня купил в tagaer на 285,40 лей",
+    "Вчера оплатил в Supraten 1200,50 лень",
+    "Сегодня был в стоматологии о фамилии на 455,90 лень",
+    "Я на следующей неделе заказал в стартур билеты на 855,60 лень",
+    "Сегодня оплатил в Sankos 245,70 лей",
+    "Вчера купил в Samurai на 325,40 лей",
+    "Сегодня был в Salomer на 185,50 lei",
+    "Вчера купил vragob na 655,80 lei",
+    "Сегодня купил в primul discounter на 425,03 лей",
+    "Вчера оплатил Premier Energy 985,90 lei",
+    "Сегодня заказали в пицце 9 на 285,60 лей",
+    "На прошлой неделе ходили в piața centrală, купили на 455,7 lei",
+    "Сегодня купил в peon farm на 325,40 лей",
+    "Вчера Wallach купила в Peach Girl на 755,50 лей",
+    "Через 2 дня купил в Pandashop на 895,80 лей",
+    "Pazavchora był vivația i kupil na 185,30 lei",
+    "Сегодня оплатил в oldcom 655,90 лей",
+    "Вчера купил рыбу в Ocean Fish на 280 lei",
+    "Сегодня купил в номер 1 на 420 лей",
+    "вчера воля купила в nanu market на 250 lei",
+    "Сегодня купил в Mozza на 380 lei",
+    "Вчера оплатил moldpressa 90 lei",
+    "Сегодня заплатил в Moldova-Presa 180 lei",
+    "Вчера платил MoldovaGaz 1250 lei",
+    "Сегодня был в modus vivendi, я ставил 420 lei",
+    "Вчера купил в Micov na 150 lei",
+    "Сегодня оплатил в метрах 890,13 лей",
+    "Вчера купил в Мерси на 210 lei",
+    "Сегодня заплатил в Megapolis 680 lei",
+    "Вчера Оля купила лекарство в Medical Market на 340 лей",
+    "Сегодня оплатил в максимум 450 lei",
+    "Вчера купил десерт в maestro delice на 120 lei",
+    "Сегодня оплатил в maestro 750 lei",
+    "вчера оля купила в local на 190 лей",
+    "Сегодня был в Linelo 115 и купил на 280 лей",
+    "Вчера купил продукты в Linel на 420,55 лей",
+    "Сегодня оплатил vats 320 lei",
+    "Вчера Олечка была в Kiss Beauty Salon на 450 lei",
+    "Сегодня купил кебаб в кебаб на 150 лей",
+    "Вчера Оля была в Кауфленд и потратила 890,15 лей",
+    "Сегодня купил в cat shop на 650 lei",
+    "Вчера вечером был выкатан суши на 300 восьятлей",
+    "Оля вчера заказала в Joom на 1200 lei",
+    "Сегодня купили рассаду в Ярди Маркет на 280 лей",
+    "Вчера Влад оплатил в uiti credit 950 lei",
+    "Сегодня оплатил в U.T. Credit очередной платеж 1800 лей",
+    "Вчера заказал в iherb витамина на 420 лей",
+    "На прошлой неделе покупали в Ярмареку на 950,13 лей",
+    "Оля вчера была в Хипократис и оставила 650 lei",
+    "Сегодня я купил витамины в herb на 180 лей",
+    "Вчера купил хлеб в Граньер на 70 лей",
+    "Сегодня ходил в Global Store за техникой на 2100 лей",
+    "Вчера я оплатил интернет в Giganet 450,35 лей",
+    "Сегодня Оля купила хлеб Франзелуца на 80 петлей",
+    "вчера купил рыбу в эфилете на 420 лей",
+    "На прошлой неделе заплатил в Fidesco 1300 lei",
+    "Сегодня Влад был в Феличи и купил сыр на 95 лей",
+    "Вчера вечером купили fast food на 180 lei",
+    "Олечка вчера купила лекарство фармачия Familia на 240 лей",
+    "Я сегодня утром оплатил Eurotelicom 310 lei",
+    "Вчера Владислав оплатил энергоком 560 lei",
+    "Сегодня оплатил в Елика 420 лей",
+    "На следующей неделе в субботу хочу зайти в дёйнер-кебаб",
+]
 def get_embedding_model() -> SentenceTransformer:
     """Возвращает модель эмбеддингов (ленивая загрузка)."""
     return _MODEL
+def get_whisper_pipeline() -> Any:
+    """Возвращает Whisper pipeline (ленивая загрузка)."""
+    global _WHISPER_MODEL, _WHISPER_PROCESSOR
     if _WHISPER_MODEL is None:
+        from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+        model_id = os.getenv("WHISPER_MODEL", "openai/whisper-large-v3-turbo")
+        model = AutoModelForSpeechSeq2Seq.from_pretrained(
+            model_id,
+            torch_dtype=torch.float32,
+            low_cpu_mem_usage=True,
+            use_safetensors=True,
+        )
+        model.to("cpu")
+        _WHISPER_PROCESSOR = AutoProcessor.from_pretrained(model_id)
+        _WHISPER_MODEL = pipeline(
+            "automatic-speech-recognition",
+            model=model,
+            tokenizer=_WHISPER_PROCESSOR.tokenizer,
+            feature_extractor=_WHISPER_PROCESSOR.feature_extractor,
+            torch_dtype=torch.float32,
+            device="cpu",
+        )
     return _WHISPER_MODEL
+def build_whisper_prompt(suppliers: list[str], users: list[str], max_items: int = 25) -> str:
+    """Собирает подсказку для Whisper из поставщиков и пользователей."""
+    clean_suppliers = [item.strip() for item in suppliers if isinstance(item, str) and item.strip()][:max_items]
+    clean_users = [item.strip() for item in users if isinstance(item, str) and item.strip()][:max_items]
+    parts = ["Это русская голосовая запись о расходах."]
+    if clean_suppliers:
+        parts.append("Поставщики: " + ", ".join(clean_suppliers) + ".")
+    if clean_users:
+        parts.append("Пользователи: " + ", ".join(clean_users) + ".")
+    return " ".join(parts)
 class ExpenseTextExtractor:
     """
     Главный экстрактор данных о расходах.
     return normalized
+def transcribe_audio_text(audio_path: str, suppliers: list[str] | None = None, users: list[str] | None = None) -> tuple[str, float]:
     """Транскрибирует аудио в текст. Возвращает (текст, время в секундах)."""
     mock_text = os.getenv("EXPENSE_VOICE_MOCK_TEXT")
     if mock_text:
     try:
         t0 = time.time()
+        pipe = get_whisper_pipeline()
+        generate_kwargs = {
+            "language": "russian",
+            "task": "transcribe",
+        }
+        prompt = build_whisper_prompt(suppliers or [], users or [])
+        if prompt and _WHISPER_PROCESSOR is not None:
+            try:
+                generate_kwargs["prompt_ids"] = _WHISPER_PROCESSOR.get_prompt_ids(prompt, return_tensors="pt")
+                print(f"[TIMINGS] whisper_prompt_enabled: suppliers={len(suppliers or [])}, users={len(users or [])}")
+            except Exception as prompt_error:
+                print(f"[WARN] Whisper prompt disabled: {prompt_error}")
+        result = pipe(audio_path, generate_kwargs=generate_kwargs)
+        text = result.get("text", "").strip()
         elapsed = round(time.time() - t0, 3)
         print(f"[TIMINGS] whisper_transcribe: {elapsed}s")
         if text:
             return text, elapsed
+    except Exception as e:
+        print(f"[ERROR] Whisper transcribe failed: {e}")
+    raise RuntimeError("Speech-to-text backend is unavailable.")
 def process_voice_request(audio_path: str, mode: str, payload: dict[str, Any]) -> dict[str, Any]:
     supplier_names = extract_names(context.get("suppliers"))
     user_names = extract_names(context.get("users"))
+    transcript, whisper_time = transcribe_audio_text(
+        audio_path,
+        suppliers=supplier_names,
+        users=user_names,
+    )
     if mode == "notes":
         notes = polish_notes_text(transcript)
         "message": "Voice processing API is running",
         "endpoints": {
             "POST /process-audio": "Process audio file",
+            "GET /health": "Health check",
+            "GET /test-data": "Run text-only extraction tests"
         }
     })
     return jsonify({"status": "ok"})
+@app.get("/test-data")
+def test_data():
+    """Тестирует извлечение данных из текста без использования Whisper."""
+    debug_supplier = (request.args.get("debug") or "").strip().lower() in {"1", "true", "yes"}
+    extractor = build_default_pipeline(suppliers=TEST_SUPPLIERS, users=TEST_USERS)
+    started = time.time()
+    results: list[dict[str, Any]] = []
+    for phrase in TEST_PHRASES:
+        item_started = time.time()
+        extracted = extractor.extract(
+            phrase,
+            reference_date=date.today().isoformat(),
+            debug_supplier=debug_supplier,
+        )
+        results.append({
+            "text": phrase,
+            "user": extracted.get("user"),
+            "supplier": extracted.get("supplier"),
+            "amount": extracted.get("amount"),
+            "date": extracted.get("date"),
+            "date_iso": extracted.get("date_iso"),
+            "processing_time": round(time.time() - item_started, 3),
+            **({"supplier_debug": extracted.get("supplier_debug")} if debug_supplier and extracted.get("supplier_debug") else {}),
+        })
+    return jsonify({
+        "status": "ok",
+        "mode": "text-only",
+        "reference_date": date.today().isoformat(),
+        "phrases_count": len(TEST_PHRASES),
+        "suppliers_count": len(TEST_SUPPLIERS),
+        "users_count": len(TEST_USERS),
+        "total_processing_time": round(time.time() - started, 3),
+        "results": results,
+    })
 @app.post("/process-audio")
 def process_audio():
     """Обработка аудио файла."""

requirements.txt CHANGED Viewed

@@ -1,6 +1,7 @@
 flask==3.1.0
 gunicorn==23.0.0
-faster-whisper
 pymorphy3
 rapidfuzz
 dateparser

 flask==3.1.0
 gunicorn==23.0.0
+transformers
+accelerate
 pymorphy3
 rapidfuzz
 dateparser