Spaces:

Ane4ka
/

NoteMaker

Sleeping

App Files Files Community

ASureevaA commited on Dec 5, 2025

Commit

529a697

1 Parent(s): 2717a3f

edit

Browse files

Files changed (1) hide show

app.py +8 -54

app.py CHANGED Viewed

@@ -14,30 +14,17 @@ from transformers import (
     AutoTokenizer,
 )
-# ============================
-# 1. Настройки устройства
-# ============================
-# Жёстко работаем на CPU: в Space нет доступа к GPU
 device_string: str = "cpu"
-# ============================
-# 2. OCR (easyocr, английский)
-# ============================
 ocr_reader = easyocr.Reader(
-    ["en"],  # язык OCR: английский
-    gpu=False,  # принудительно без GPU
 )
 def run_ocr(image_object: Image.Image) -> str:
     """
     OCR для печатного английского текста.
-    Используем easyocr, который достаточно устойчив к
-    реальным сканам и фотографиям документа на CPU.
     """
     if image_object is None:
         return ""
@@ -56,11 +43,6 @@ def run_ocr(image_object: Image.Image) -> str:
     recognized_text: str = "\n".join(text_parts).strip()
     return recognized_text
-# ============================
-# 3. Трансформер #1: классификация текста (английский)
-# ============================
 text_classifier_pipeline = pipeline(
     task="text-classification",
     model="distilbert-base-uncased-finetuned-sst-2-english",
@@ -69,12 +51,7 @@ text_classifier_pipeline = pipeline(
 def run_text_classification(input_text: str) -> str:
     """
-    Анализ текста трансформером:
-    используем sentiment-классификатор как пример.
-    Возвращаем строку вида: "POSITIVE (score=0.982)".
-    ВАЖНО: жёстко ограничиваем длину до 512 токенов, чтобы не ловить
-    ошибку DistilBERT по max_position_embeddings.
     """
     cleaned_text: str = input_text.strip()
     if not cleaned_text:
@@ -93,9 +70,6 @@ def run_text_classification(input_text: str) -> str:
     classification_text: str = f"{label_value} (score={score_value:.3f})"
     return classification_text
-# ============================
-# 4. Трансформер #2: суммаризация (английский)
-# ============================
 summary_pipeline = pipeline(
     task="summarization",
@@ -109,7 +83,6 @@ def run_summarization(
 ) -> str:
     """
     Английская суммаризация.
-    Без разбиения на чанки, поэтому очень длинные тексты лучше не подавать.
     """
     cleaned_text: str = input_text.strip()
     if not cleaned_text:
@@ -121,7 +94,6 @@ def run_summarization(
         max(32, word_count + 20),
     )
-    # Для очень короткого текста суммаризация мало смысла
     if word_count < 8:
         return cleaned_text
@@ -136,10 +108,6 @@ def run_summarization(
     return summary_text
-# ============================
-# 5. Трансформер #3: TTS (английский, MMS VITS)
-# ============================
 tts_model: VitsModel = VitsModel.from_pretrained("facebook/mms-tts-eng")
 tts_tokenizer: AutoTokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 tts_model.to(device_string)
@@ -148,9 +116,6 @@ tts_model.to(device_string)
 def run_tts(summary_text: str) -> Optional[str]:
     """
     Озвучка английского текста конспекта через VitsModel (facebook/mms-tts-eng).
-    Если модель внутри упадёт на каком-то странном тексте (RuntimeError),
-    просто вернём None и не будем ронять всё приложение.
     """
     cleaned_text: str = summary_text.strip()
     if not cleaned_text:
@@ -177,7 +142,6 @@ def run_tts(summary_text: str) -> Optional[str]:
         print(f"[WARN] TTS RuntimeError: {runtime_error}")
         return None
-    # Приводим к numpy и ограничиваем амплитуды
     waveform_array = waveform_tensor.squeeze().cpu().numpy().astype("float32")
     waveform_array = numpy_module.clip(waveform_array, -1.0, 1.0)
@@ -195,20 +159,15 @@ def run_tts(summary_text: str) -> Optional[str]:
     return file_path
-# ============================
-# 6. Полный пайплайн
-# ============================
 def full_flow(
     image_object: Image.Image,
     max_summary_tokens: int = 128,
 ) -> Tuple[str, str, str, Optional[str]]:
     """
-    Полный пайплайн:
-    1) OCR (easyocr): изображение -> исходный текст (английский)
-    2) Классификация текста трансформером (sentiment)
-    3) Суммаризация: текст -> конспект
-    4) TTS: конспект -> .wav файл (или None, если TTS не смог)
     """
     recognized_text: str = run_ocr(image_object=image_object)
@@ -224,10 +183,6 @@ def full_flow(
     return recognized_text, classification_text, summary_text, audio_file_path
-# ============================
-# 7. Gradio UI (на русском)
-# ============================
 gradio_interface = gradio_module.Interface(
     fn=full_flow,
     inputs=[
@@ -266,8 +221,7 @@ gradio_interface = gradio_module.Interface(
         "1) easyocr распознаёт печатный английский текст с картинки.\n"
         "2) Трансформер-классификатор (DistilBERT) оценивает тон текста.\n"
         "3) Трансформер-суммаризатор (DistilBART) делает краткий конспект.\n"
-        "4) Трансформер TTS (MMS VITS) озвучивает конспект.\n"
-        "В проекте используются три трансформера с Hugging Face, OCR сделан через easyocr."
     ),
 )

     AutoTokenizer,
 )
 device_string: str = "cpu"
 ocr_reader = easyocr.Reader(
+    ["en"],
+    gpu=False,
 )
 def run_ocr(image_object: Image.Image) -> str:
     """
     OCR для печатного английского текста.
     """
     if image_object is None:
         return ""
     recognized_text: str = "\n".join(text_parts).strip()
     return recognized_text
 text_classifier_pipeline = pipeline(
     task="text-classification",
     model="distilbert-base-uncased-finetuned-sst-2-english",
 def run_text_classification(input_text: str) -> str:
     """
+    Анализ текста трансформером.
     """
     cleaned_text: str = input_text.strip()
     if not cleaned_text:
     classification_text: str = f"{label_value} (score={score_value:.3f})"
     return classification_text
 summary_pipeline = pipeline(
     task="summarization",
 ) -> str:
     """
     Английская суммаризация.
     """
     cleaned_text: str = input_text.strip()
     if not cleaned_text:
         max(32, word_count + 20),
     )
     if word_count < 8:
         return cleaned_text
     return summary_text
 tts_model: VitsModel = VitsModel.from_pretrained("facebook/mms-tts-eng")
 tts_tokenizer: AutoTokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 tts_model.to(device_string)
 def run_tts(summary_text: str) -> Optional[str]:
     """
     Озвучка английского текста конспекта через VitsModel (facebook/mms-tts-eng).
     """
     cleaned_text: str = summary_text.strip()
     if not cleaned_text:
         print(f"[WARN] TTS RuntimeError: {runtime_error}")
         return None
     waveform_array = waveform_tensor.squeeze().cpu().numpy().astype("float32")
     waveform_array = numpy_module.clip(waveform_array, -1.0, 1.0)
     return file_path
 def full_flow(
     image_object: Image.Image,
     max_summary_tokens: int = 128,
 ) -> Tuple[str, str, str, Optional[str]]:
     """
+    1) OCR
+    2) Классификация текста
+    3) Суммаризация
+    4) TTS
     """
     recognized_text: str = run_ocr(image_object=image_object)
     return recognized_text, classification_text, summary_text, audio_file_path
 gradio_interface = gradio_module.Interface(
     fn=full_flow,
     inputs=[
         "1) easyocr распознаёт печатный английский текст с картинки.\n"
         "2) Трансформер-классификатор (DistilBERT) оценивает тон текста.\n"
         "3) Трансформер-суммаризатор (DistilBART) делает краткий конспект.\n"
+        "4) Трансформер TTS (MMS VITS) озвучивает конспект."
     ),
 )