Spaces:

saiful-ai-dev
/

OCR

Runtime error

App Files Files Community

saiful-ai-dev commited on 5 days ago

Commit

8e0002b

verified ·

1 Parent(s): 7b046a9

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -18

app.py CHANGED Viewed

@@ -1,28 +1,40 @@
 import gradio as gr
-import easyocr
-import numpy as np
-# Multiple languages load করা (Bangla + English + Hindi + আরও চাইলে add করো)
-# প্রথমবার load slow, পরে fast
-reader = easyocr.Reader(['bn', 'en', 'hi', 'ar', 'fr', 'es'], gpu=False)  # gpu=True যদি HF paid GPU থাকে
-def text_extraction(image):
     if image is None:
-        return "দয়া করে একটি ছবি আপলোড করুন।"
-    # readtext-এ detail=0 দিয়ে শুধু text, paragraph=True দিয়ে grouped text (better for books)
-    results = reader.readtext(image, detail=0, paragraph=True, min_size=10, contrast_ths=0.1, adjust_contrast=0.5)
-    # results list of strings (paragraph mode-এ)
-    full_text = "\n\n".join(results)  # paragraph আলাদা করে দেখানো
-    return full_text if full_text.strip() else "ছবিতে কোনো লেখা খুঁজে পাওয়া যায়নি।"
 demo = gr.Interface(
-    fn=text_extraction,
-    inputs=gr.Image(type="numpy"),
     outputs="text",
-    title="Education AI OCR - Any Language",
-    description="যেকোনো ভাষার (Bangla, English, Hindi, Arabic ইত্যাদি) বই/পাতার ছবি আপলোড করুন। Mixed language-ও detect করবে।"
 )
 demo.launch()

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from PIL import Image
+import torch
+# Model load (প্রথমবার slow, cache হয়ে যাবে)
+model_id = "vikhyatk/moondream2"  # অথবা "moondream/moondream3-preview" try করো
+revision = "2025-06-21"  # latest stable চেক করো HF page-এ
+model = AutoModelForCausalLM.from_pretrained(
+    model_id, revision=revision, trust_remote_code=True,
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    device_map="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision, trust_remote_code=True)
+def ocr_image(image, prompt="Extract all text from this image accurately."):
     if image is None:
+        return "দয়া করে ছবি আপলোড করুন।"
+    # Moondream-এ image + text prompt দিয়ে generate
+    enc_image = model.encode_image(image)
+    generated_ids = model.generate(
+        **tokenizer(prompt, return_tensors="pt").to(model.device),
+        image_embeds=enc_image.to(model.device),
+        max_new_tokens=512,
+        do_sample=False
+    )
+    generated_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
+    return generated_text if generated_text else "কোনো টেক্সট পাওয়া যায়নি।"
 demo = gr.Interface(
+    fn=ocr_image,
+    inputs=[gr.Image(type="pil"), gr.Textbox(label="Custom Prompt (optional)", value="Extract all text from this image accurately.")],
     outputs="text",
+    title="Moondream OCR - Any Language Try",
+    description="Moondream দিয়ে ছবি থেকে টেক্সট extract করুন। Prompt customize করতে পারেন (e.g., Bangla text চাইলে 'Extract Bangla text' বলুন)।"
 )
 demo.launch()