Spaces:

Ane4ka
/

NoteMaker

Sleeping

App Files Files Community

ASureevaA commited on Dec 4, 2025

Commit

a88eb1e

1 Parent(s): 170ad3a

add app

Browse files

Files changed (2) hide show

app.py +164 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,164 @@

+from typing import Tuple, Optional, Any
+import torch
+import numpy as numpy
+import gradio as gr
+from PIL import Image
+from datasets import load_dataset
+from transformers import (
+    TrOCRProcessor,
+    VisionEncoderDecoderModel,
+    pipeline,
+)
+ocr_processor: TrOCRProcessor = TrOCRProcessor.from_pretrained(
+    "microsoft/trocr-small-printed"
+)
+ocr_model: VisionEncoderDecoderModel = VisionEncoderDecoderModel.from_pretrained(
+    "microsoft/trocr-small-printed"
+)
+summary_pipeline = pipeline(
+    task="summarization",
+    model="sshleifer/distilbart-cnn-12-6",
+)
+tts_pipeline = pipeline(
+    task="text-to-speech",
+    model="microsoft/speecht5_tts",
+)
+speaker_dataset = load_dataset(
+    path="Matthijs/cmu-arctic-xvectors",
+    split="validation",
+)
+speaker_embedding_tensor: torch.Tensor = torch.tensor(
+    speaker_dataset[7306]["xvector"]
+).unsqueeze(0)
+def run_ocr(image_object: Image.Image) -> str:
+    """
+    Распознавание текста с изображения с помощью трансформера OCR.
+    Предполагаем, что на картинке простой напечатанный текст.
+    """
+    if image_object is None:
+        return ""
+    processor_output = ocr_processor(
+        images=image_object,
+        return_tensors="pt",
+    )
+    pixel_values_tensor = processor_output.pixel_values
+    generated_id_tensor = ocr_model.generate(pixel_values_tensor)
+    decoded_text_list = ocr_processor.batch_decode(
+        generated_id_tensor,
+        skip_special_tokens=True,
+    )
+    recognized_text: str = decoded_text_list[0]
+    return recognized_text.strip()
+def run_summarization(
+    input_text: str,
+    max_summary_tokens: int = 128,
+) -> str:
+    """
+    Суммаризация текста.
+    Здесь без разбиения на чанки, поэтому для очень длинных текстов могут быть проблемы.
+    """
+    cleaned_text: str = input_text.strip()
+    if not cleaned_text:
+        return ""
+    summary_result_list = summary_pipeline(
+        cleaned_text,
+        max_length=max_summary_tokens,
+        min_length=max(16, max_summary_tokens // 3),
+        do_sample=False,
+    )
+    summary_text: str = summary_result_list[0]["summary_text"].strip()
+    return summary_text
+def run_tts(summary_text: str) -> Optional[Tuple[int, Any]]:
+    """
+    Озвучка текста конспекта.
+    Возвращает кортеж (частота_дискретизации, аудиоданные) или None, если текста нет.
+    """
+    cleaned_text: str = summary_text.strip()
+    if not cleaned_text:
+        return None
+    tts_output = tts_pipeline(
+        cleaned_text,
+        forward_params={"speaker_embeddings": speaker_embedding_tensor},
+    )
+    sampling_rate_int: int = int(tts_output["sampling_rate"])
+    audio_array = tts_output["audio"]
+    if not isinstance(audio_array, numpy.ndarray):
+        audio_array = numpy.array(audio_array)
+    return sampling_rate_int, audio_array
+def full_flow(
+    image_object: Image.Image,
+    max_summary_tokens: int = 128,
+) -> Tuple[str, str, Optional[Tuple[int, Any]]]:
+    recognized_text: str = run_ocr(image_object=image_object)
+    summary_text: str = run_summarization(
+        input_text=recognized_text,
+        max_summary_tokens=max_summary_tokens,
+    )
+    audio_tuple = run_tts(summary_text=summary_text)
+    return recognized_text, summary_text, audio_tuple
+gradio_interface = gr.Interface(
+    fn=full_flow,
+    inputs=[
+        gr.Image(
+            type="pil",
+            label="Изображение с напечатанным текстом (английский)",
+        ),
+        gr.Slider(
+            minimum=32,
+            maximum=256,
+            value=128,
+            step=16,
+            label="Максимальная длина конспекта (токены, примерно)",
+        ),
+    ],
+    outputs=[
+        gr.Textbox(
+            label="Распознанный текст (OCR)",
+            lines=6,
+        ),
+        gr.Textbox(
+            label="Конспект (суммаризация)",
+            lines=6,
+        ),
+        gr.Audio(
+            label="Озвучка конспекта (TTS)",
+            type="numpy",
+        ),
+    ],
+    title="Картинка → Конспект → Озвучка (Transformers)",
+    description=(
+        "1) Трансформер OCR распознаёт текст с изображения. "
+        "2) Трансформер суммаризации сокращает текст до конспекта. "
+        "3) Трансформер TTS озвучивает конспект."
+    ),
+)
+if __name__ == "__main__":
+    gradio_interface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+transformers
+torch
+datasets
+sentencepiece
+soundfile
+gradio
+Pillow
+numpy