Spaces:

ivoryxs
/

google_leans

Runtime error

ivoryxs commited on Sep 30, 2025

Commit

f7276e3

verified ·

1 Parent(s): f426c52

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,40 +1,41 @@
-from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 import gradio as gr
 from PIL import Image
-import torch
-# Carregar modelo e tokenizer
-model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-device = "cuda" if torch.cuda.is_available() else "cpu"
-model.to(device)
-# Função para gerar legenda
-def generate_caption(image):
     if image is None:
-        return "Por favor, envie uma imagem."
-    # Pré-processar a imagem
-    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
-    pixel_values = pixel_values.to(device)
-    # Gerar legenda
-    output_ids = model.generate(pixel_values, max_length=32, num_beams=4)
-    caption = tokenizer.decode(output_ids[0], skip_special_tokens=True)
-    return caption
 # Interface Gradio
 interface = gr.Interface(
-    fn=generate_caption,
-    inputs=gr.Image(type="pil", label="Envie uma imagem"),
-    outputs=gr.Textbox(label="Legenda gerada"),
-    title="Image-to-Text com Hugging Face",
-    description="Este app usa o modelo ViT-GPT2 para gerar descrições de imagens. Ideal para produtos, cenas e mais!"
 )
-# Rodar
 if __name__ == "__main__":
     interface.launch()

 import gradio as gr
+from paddleocr import PaddleOCR
 from PIL import Image
+import numpy as np
+# Inicializar PaddleOCR com suporte a português
+ocr = PaddleOCR(use_angle_cls=True, lang='pt', show_log=False)
+def ocr_paddle(image):
     if image is None:
+        return "Por favor, envie uma imagem com texto."
+    # Converter PIL para array numpy (formato esperado pelo PaddleOCR)
+    img = np.array(image)
+    # Realizar OCR
+    result = ocr.ocr(img, cls=True)
+    # Extrair textos detectados
+    textos = []
+    for linha in result:
+        for caixa in linha:
+            texto = caixa[1][0]
+            textos.append(texto)
+    if not textos:
+        return "Nenhum texto foi detectado na imagem."
+    return "\n".join(textos)
 # Interface Gradio
 interface = gr.Interface(
+    fn=ocr_paddle,
+    inputs=gr.Image(type="pil", label="Envie uma imagem com texto"),
+    outputs=gr.Textbox(label="Texto extraído"),
+    title="OCR estilo Google Lens 🧠",
+    description="Extrai texto de imagens, como rótulos, embalagens, documentos e placas. Powered by PaddleOCR."
 )
 if __name__ == "__main__":
     interface.launch()