Spaces:

selamw
/

BirdWatcher

Runtime error

selamw commited on Oct 23, 2024

Commit

dc929f0

verified ·

1 Parent(s): 2f9ca75

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -53,11 +53,22 @@ def infer_fin_pali(image, question):
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
-    model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch_dtype, trust_remote_code=True, quantization_config=bnb_config,token=access_token).to(device)
-    processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True, token=access_token)
 ###
-    inputs = processor(images=image, text=question, return_tensors="pt").to(device)
     predictions = model.generate(**inputs, max_new_tokens=512)
     decoded_output = processor.decode(predictions[0], skip_special_tokens=True)[len(question):].lstrip("\n")

     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+    # model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch_dtype, trust_remote_code=True, quantization_config=bnb_config,token=access_token).to(device)
+    # processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True, token=access_token)
 ###
+    model = AutoModelForCausalLM.from_pretrained("microsoft/Florence-2-large", torch_dtype=torch_dtype, trust_remote_code=True).to(device)
+    processor = AutoProcessor.from_pretrained("microsoft/Florence-2-large", trust_remote_code=True)
+    prompt = "<OD>"
+    url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
+    image = Image.open(requests.get(url, stream=True).raw)
+    inputs = processor(text=prompt, images=image, return_tensors="pt").to(device, torch_dtype)
+######
+    # inputs = processor(images=image, text=question, return_tensors="pt").to(device)
     predictions = model.generate(**inputs, max_new_tokens=512)
     decoded_output = processor.decode(predictions[0], skip_special_tokens=True)[len(question):].lstrip("\n")