Spaces:

fcervan
/

leitor-cnh

Sleeping

Fernando Cervan commited on Apr 13, 2025

Commit

66dbe05

1 Parent(s): 5518628

Salvando alterações

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,50 +1,24 @@
-import os
-os.environ["CUDA_VISIBLE_DEVICES"] = ""  # Forçar CPU
-os.environ["TRANSFORMERS_NO_ADVISORY_WARNINGS"] = "1"
-from PIL import Image
-import torch
-from transformers import AutoProcessor, AutoModelForCausalLM
-# Usar o Moondream - um modelo multimodal muito pequeno (~1.6B parâmetros)
-model_id = "vikhyatk/moondream1"
-# Carregar imagem
-imagem = Image.open("cnh-michele-digital.jpeg")
-if imagem.mode != "RGB":
-    imagem = imagem.convert("RGB")
-# Carregar processador e modelo
-processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype=torch.float32,  # Usar float32 para CPU
-    device_map="cpu",
-    trust_remote_code=True
 )
-# Criar o prompt para extrair informações específicas
-prompt = "Extraia os seguintes dados do documento: nome, CPF e data de nascimento."
-# Processar a entrada
-inputs = processor(
-    text=prompt,
-    images=imagem,
-    return_tensors="pt"
-).to("cpu")
-# Gerar a resposta
-with torch.no_grad():
-    output = model.generate(
-        **inputs,
-        max_new_tokens=256,
-        do_sample=False
-    )
-# Decodificar a saída
-resultado = processor.decode(output[0], skip_special_tokens=True)
-# A saída incluirá o prompt, então vamos exibir apenas a resposta
-print("Dados extraídos:")
-print("="*40)
-print(resultado[len(prompt):].strip())

+from transformers import (
+    PaliGemmaProcessor,
+    PaliGemmaForConditionalGeneration,
 )
+from transformers.image_utils import load_image
+import torch
+model_id = "google/paligemma2-3b-mix-224"
+url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
+image = load_image(url)
+model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
+processor = PaliGemmaProcessor.from_pretrained(model_id)
+prompt = "describe en"
+model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
+input_len = model_inputs["input_ids"].shape[-1]
+with torch.inference_mode():
+    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
+    generation = generation[0][input_len:]
+    decoded = processor.decode(generation, skip_special_tokens=True)
+    print(decoded)

imagem_base64.txt ADDED Viewed

The diff for this file is too large to render. See raw diff