Spaces:

Ane4ka
/

NoteMaker

Sleeping

ASureevaA commited on Dec 4, 2025

Commit

9eec39f

1 Parent(s): f6e6de6

edit

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,8 +14,12 @@ from transformers import (
 )
-ocr_processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-stage1")
-ocr_model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-stage1")
 ocr_model.to("cpu")
 summary_pipeline = pipeline(
@@ -28,13 +32,30 @@ tts_model = VitsModel.from_pretrained("facebook/mms-tts-rus")
 tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")
 tts_model.to("cpu")
-def run_ocr(image: Image.Image) -> str:
-    if image is None:
         return ""
-    pixel_values = ocr_processor(images=image, return_tensors="pt").pixel_values
-    generated_ids = ocr_model.generate(pixel_values)
-    text = ocr_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    return text.strip()
 def run_summary(text: str) -> str:
     text = text.strip()

 )
+ocr_processor: TrOCRProcessor = TrOCRProcessor.from_pretrained(
+    "raxtemur/trocr-base-ru"
+)
+ocr_model: VisionEncoderDecoderModel = VisionEncoderDecoderModel.from_pretrained(
+    "raxtemur/trocr-base-ru"
+)
 ocr_model.to("cpu")
 summary_pipeline = pipeline(
 tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")
 tts_model.to("cpu")
+def run_ocr(image_object: Image.Image) -> str:
+    """
+    Распознавание текста с изображения.
+    Предполагаем, что на картинке русский/кириллический или латинский печатный текст.
+    """
+    if image_object is None:
         return ""
+    rgb_image_object: Image.Image = image_object.convert("RGB")
+    processor_output = ocr_processor(
+        images=rgb_image_object,
+        return_tensors="pt",
+    )
+    pixel_values_tensor = processor_output.pixel_values.to("cpu")
+    generated_id_tensor = ocr_model.generate(pixel_values_tensor)
+    decoded_text_list = ocr_processor.batch_decode(
+        generated_id_tensor,
+        skip_special_tokens=True,
+    )
+    recognized_text: str = decoded_text_list[0]
+    return recognized_text.strip()
 def run_summary(text: str) -> str:
     text = text.strip()