captcha

Running

cubuvl commited on Jun 8, 2025

Commit

aa9e906

verified ·

1 Parent(s): 43ecd6d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,33 +1,45 @@
 import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
-name = "chanelcolgate/trocr-base-printed_captcha_ocr"
-model = VisionEncoderDecoderModel.from_pretrained(name)
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-printed")
 def process_image(image):
-    # Chuyển nền trong suốt thành trắng (nếu có alpha channel)
     if image.mode in ("RGBA", "LA"):
         background = Image.new("RGB", image.size, (255, 255, 255))
-        image = Image.alpha_composite(background, image.convert("RGBA"))
-    # Xử lý ảnh
     pixel_values = processor(image, return_tensors="pt").pixel_values
     generated_ids = model.generate(pixel_values)
     generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     return generated_text
-title = "Interactive demo: Captcha OCR"
-description = "Demo tracuumasothue captcha"
 interface = gr.Interface(
     fn=process_image,
     inputs="image",
-    examples=[f"examples/captcha-{i}.png" for i in range(10)],
     outputs="text",
     title=title,
-    description=description
-).launch()

 import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
+import numpy as np
+# Load model và processor
+model_name = "chanelcolgate/trocr-base-printed_captcha_ocr"
+model = VisionEncoderDecoderModel.from_pretrained(model_name)
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-printed")
+# Hàm xử lý ảnh captcha
 def process_image(image):
+    # Chuyển numpy -> PIL nếu cần
+    if isinstance(image, np.ndarray):
+        image = Image.fromarray(image)
+    # Thêm nền trắng nếu ảnh có alpha
     if image.mode in ("RGBA", "LA"):
         background = Image.new("RGB", image.size, (255, 255, 255))
+        background.paste(image, mask=image.split()[-1])
+        image = background
+    else:
+        image = image.convert("RGB")
+    # Encode và predict
     pixel_values = processor(image, return_tensors="pt").pixel_values
     generated_ids = model.generate(pixel_values)
     generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     return generated_text
+# Giao diện Gradio
+title = "Captcha OCR Demo"
+description = "Nhận diện captcha từ mã số thuế (MST) – Model TrOCR"
 interface = gr.Interface(
     fn=process_image,
     inputs="image",
     outputs="text",
+    examples=[f"examples/captcha-{i}.png" for i in range(10)],
     title=title,
+    description=description,
+)
+if __name__ == "__main__":
+    interface.launch()