Spaces:

sterepando
/

MandreOCR

Paused

sterepando commited on Nov 28, 2025

Commit

ea17727

verified ·

1 Parent(s): 1bd2be8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,6 +35,8 @@ app = FastAPI(
 # --- 2. Эндпоинт API ---
 @app.post(
     "/api/ocr",
     summary="Запустить OCR по изображению",
@@ -52,12 +54,22 @@ async def run_ocr(file: UploadFile = File(..., description="Изображени
         contents = await file.read()
         # 2. Конвертация байтов в объект PIL Image
         image = Image.open(io.BytesIO(contents)).convert("RGB")
-        # 3. Запуск пайплайна (САМЫЙ БЫСТРЫЙ ЭТАП)
-        results = ocr_pipeline(image, generate_kwargs={"max_new_tokens": 1024})
-        # 4. Извлечение текста
         if results and isinstance(results, list) and 'generated_text' in results[0]:
             decoded_text = results[0]['generated_text']
             return {"text": decoded_text}

 # --- 2. Эндпоинт API ---
+# ... (остальной код)
 @app.post(
     "/api/ocr",
     summary="Запустить OCR по изображению",
         contents = await file.read()
         # 2. Конвертация байтов в объект PIL Image
+        # Важно: .convert("RGB") гарантирует 3 канала, что часто требуется для VLM.
         image = Image.open(io.BytesIO(contents)).convert("RGB")
+        # --- ИСПРАВЛЕНИЕ: ДОБАВЛЕНИЕ ПРОМПТА И ИЗМЕНЕНИЕ ФОРМАТА ВЫЗОВА ---
+        # Рекомендуемый промпт для OCR с этой моделью
+        # (взято из документации LightOnOCR)
+        ocr_prompt = "Perform Optical Character Recognition (OCR) on the image. Transcribe all the text."
+        # 3. Запуск пайплайна с использованием кортежа (изображение, промпт)
+        results = ocr_pipeline(
+            (image, ocr_prompt),
+            generate_kwargs={"max_new_tokens": 1024}
+        )
+        # 4. Извлечение текста (остается прежним)
         if results and isinstance(results, list) and 'generated_text' in results[0]:
             decoded_text = results[0]['generated_text']
             return {"text": decoded_text}