Spaces:

Sereinia
/

cogvlm-crowd-count

Runtime error

App Files Files Community

Sereinia commited on Oct 12, 2025

Commit

746e79c

verified ·

1 Parent(s): 8d02bd7

Create app.py

Browse files

Files changed (1) hide show

app.py +41 -0

app.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import torch
+from PIL import Image
+import gradio as gr
+from transformers import AutoModelForCausalLM, LlamaTokenizer
+MODEL_ID = "zai-org/cogvlm-grounding-generalist-hf"
+tokenizer = LlamaTokenizer.from_pretrained("lmsys/vicuna-7b-v1.5")
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.bfloat16,
+    low_cpu_mem_usage=True,
+    trust_remote_code=True
+).to("cuda").eval()
+def describe_and_count(image):
+    query = "Count the number of people visible in this image and provide coordinates [[x0,y0,x1,y1]] for each detected person."
+    inputs = model.build_conversation_input_ids(tokenizer, query=query, images=[image])
+    inputs = {
+        "input_ids": inputs["input_ids"].unsqueeze(0).to("cuda"),
+        "token_type_ids": inputs["token_type_ids"].unsqueeze(0).to("cuda"),
+        "attention_mask": inputs["attention_mask"].unsqueeze(0).to("cuda"),
+        "images": [[inputs["images"][0].to("cuda").to(torch.bfloat16)]],
+    }
+    gen_kwargs = {"max_length": 2048, "do_sample": False}
+    with torch.no_grad():
+        outputs = model.generate(**inputs, **gen_kwargs)
+        outputs = outputs[:, inputs["input_ids"].shape[1]:]
+        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return response
+demo = gr.Interface(
+    fn=describe_and_count,
+    inputs=gr.Image(type="pil"),
+    outputs="text",
+    title="CogVLM-Grounding for Crowd Counting",
+    description="Upload an image to estimate and localize people using CogVLM-Grounding-Generalist."
+)
+demo.launch()