Spaces:

Ane4ka
/

NoteMaker

Sleeping

App Files Files Community

ASureevaA commited on Dec 4, 2025

Commit

8dac34d

1 Parent(s): a88eb1e

edit

Browse files

Files changed (2) hide show

app.py +14 -26
requirements.txt +0 -2

app.py CHANGED Viewed

@@ -1,10 +1,8 @@
 from typing import Tuple, Optional, Any
-import torch
 import numpy as numpy
-import gradio as gr
 from PIL import Image
-from datasets import load_dataset
 from transformers import (
     TrOCRProcessor,
     VisionEncoderDecoderModel,
@@ -23,22 +21,15 @@ summary_pipeline = pipeline(
     model="sshleifer/distilbart-cnn-12-6",
 )
-tts_pipeline = pipeline(
     task="text-to-speech",
-    model="microsoft/speecht5_tts",
 )
-speaker_dataset = load_dataset(
-    path="Matthijs/cmu-arctic-xvectors",
-    split="validation",
-)
-speaker_embedding_tensor: torch.Tensor = torch.tensor(
-    speaker_dataset[7306]["xvector"]
-).unsqueeze(0)
 def run_ocr(image_object: Image.Image) -> str:
     """
-    Распознавание текста с изображения с помощью трансформера OCR.
     Предполагаем, что на картинке простой напечатанный текст.
     """
     if image_object is None:
@@ -65,8 +56,8 @@ def run_summarization(
     max_summary_tokens: int = 128,
 ) -> str:
     """
-    Суммаризация текста.
-    Здесь без разбиения на чанки, поэтому для очень длинных текстов могут быть проблемы.
     """
     cleaned_text: str = input_text.strip()
     if not cleaned_text:
@@ -86,16 +77,13 @@ def run_summarization(
 def run_tts(summary_text: str) -> Optional[Tuple[int, Any]]:
     """
     Озвучка текста конспекта.
-    Возвращает кортеж (частота_дискретизации, аудиоданные) или None, если текста нет.
     """
     cleaned_text: str = summary_text.strip()
     if not cleaned_text:
         return None
-    tts_output = tts_pipeline(
-        cleaned_text,
-        forward_params={"speaker_embeddings": speaker_embedding_tensor},
-    )
     sampling_rate_int: int = int(tts_output["sampling_rate"])
     audio_array = tts_output["audio"]
@@ -122,14 +110,14 @@ def full_flow(
     return recognized_text, summary_text, audio_tuple
-gradio_interface = gr.Interface(
     fn=full_flow,
     inputs=[
-        gr.Image(
             type="pil",
             label="Изображение с напечатанным текстом (английский)",
         ),
-        gr.Slider(
             minimum=32,
             maximum=256,
             value=128,
@@ -138,15 +126,15 @@ gradio_interface = gr.Interface(
         ),
     ],
     outputs=[
-        gr.Textbox(
             label="Распознанный текст (OCR)",
             lines=6,
         ),
-        gr.Textbox(
             label="Конспект (суммаризация)",
             lines=6,
         ),
-        gr.Audio(
             label="Озвучка конспекта (TTS)",
             type="numpy",
         ),

 from typing import Tuple, Optional, Any
 import numpy as numpy
+import gradio as gradio_module
 from PIL import Image
 from transformers import (
     TrOCRProcessor,
     VisionEncoderDecoderModel,
     model="sshleifer/distilbart-cnn-12-6",
 )
+text_to_speech_pipeline = pipeline(
     task="text-to-speech",
+    model="facebook/mms-tts-eng",
 )
 def run_ocr(image_object: Image.Image) -> str:
     """
+    Распознавание текста с изображения.
     Предполагаем, что на картинке простой напечатанный текст.
     """
     if image_object is None:
     max_summary_tokens: int = 128,
 ) -> str:
     """
+    Суммаризация текста до короткого конспекта.
+    Без разбиения на чанки, поэтому огромные тексты лучше не подавать.
     """
     cleaned_text: str = input_text.strip()
     if not cleaned_text:
 def run_tts(summary_text: str) -> Optional[Tuple[int, Any]]:
     """
     Озвучка текста конспекта.
+    Используем модель, которой не нужны внешние speaker embeddings.
     """
     cleaned_text: str = summary_text.strip()
     if not cleaned_text:
         return None
+    tts_output = text_to_speech_pipeline(cleaned_text)
     sampling_rate_int: int = int(tts_output["sampling_rate"])
     audio_array = tts_output["audio"]
     return recognized_text, summary_text, audio_tuple
+gradio_interface = gradio_module.Interface(
     fn=full_flow,
     inputs=[
+        gradio_module.Image(
             type="pil",
             label="Изображение с напечатанным текстом (английский)",
         ),
+        gradio_module.Slider(
             minimum=32,
             maximum=256,
             value=128,
         ),
     ],
     outputs=[
+        gradio_module.Textbox(
             label="Распознанный текст (OCR)",
             lines=6,
         ),
+        gradio_module.Textbox(
             label="Конспект (суммаризация)",
             lines=6,
         ),
+        gradio_module.Audio(
             label="Озвучка конспекта (TTS)",
             type="numpy",
         ),

requirements.txt CHANGED Viewed

@@ -1,8 +1,6 @@
 transformers
 torch
-datasets
 sentencepiece
-soundfile
 gradio
 Pillow
 numpy

 transformers
 torch
 sentencepiece
 gradio
 Pillow
 numpy