Spaces:

airzy1
/

cheapsake

Sleeping

App Files Files Community

airzy1 commited on 11 days ago

Commit

489e707

verified ·

1 Parent(s): 31b1ba6

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -22

app.py CHANGED Viewed

@@ -2,18 +2,23 @@ import os
 import json
 import re
-# Use persistent storage on Spaces instead of /tmp
 os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
 os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True,max_split_size_mb:128"
-os.environ["HF_HOME"] = "/data/.huggingface"
-os.environ["HF_HUB_CACHE"] = "/data/.huggingface/hub"
-os.environ["TRANSFORMERS_CACHE"] = "/data/.huggingface/transformers"
 import spaces
 import torch
 import gradio as gr
 from PIL import Image
 from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 MODEL_ID = "Qwen/Qwen2.5-VL-3B-Instruct"
@@ -31,6 +36,8 @@ def load_model():
     processor = AutoProcessor.from_pretrained(
         MODEL_ID,
         token=HF_TOKEN if HF_TOKEN else None,
     )
     print("loading model:", MODEL_ID)
@@ -91,7 +98,7 @@ Rules:
 """
-@spaces.GPU(size="large", duration=160)
 def analyze_pantry(image: Image.Image):
     if image is None:
         return {"error": "Please upload a pantry image."}
@@ -101,12 +108,7 @@ def analyze_pantry(image: Image.Image):
     messages = [
         {
             "role": "system",
-            "content": [
-                {
-                    "type": "text",
-                    "text": "You extract pantry items from photos and respond with JSON only."
-                }
-            ],
         },
         {
             "role": "user",
@@ -117,18 +119,22 @@ def analyze_pantry(image: Image.Image):
         },
     ]
-    inputs = processor.apply_chat_template(
         messages,
         add_generation_prompt=True,
-        tokenize=True,
-        return_dict=True,
         return_tensors="pt",
     )
-    inputs = {
-        k: v.to(model.device) if hasattr(v, "to") else v
-        for k, v in inputs.items()
-    }
     with torch.inference_mode():
         output_ids = model.generate(
@@ -137,11 +143,11 @@ def analyze_pantry(image: Image.Image):
             do_sample=False,
         )
-    prompt_len = inputs["input_ids"].shape[-1]
-    generated_text = processor.decode(
-        output_ids[0][prompt_len:],
         skip_special_tokens=True,
-    ).strip()
     print("generated_text:", generated_text)

 import json
 import re
 os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
 os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True,max_split_size_mb:128"
+# Writable cache path for Spaces WITHOUT persistent storage
+os.environ["HF_HOME"] = "/tmp/hf"
+os.environ["HF_HUB_CACHE"] = "/tmp/hf/hub"
+os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf/transformers"
+os.makedirs("/tmp/hf/hub", exist_ok=True)
+os.makedirs("/tmp/hf/transformers", exist_ok=True)
 import spaces
 import torch
 import gradio as gr
 from PIL import Image
 from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
+from qwen_vl_utils import process_vision_info
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 MODEL_ID = "Qwen/Qwen2.5-VL-3B-Instruct"
     processor = AutoProcessor.from_pretrained(
         MODEL_ID,
         token=HF_TOKEN if HF_TOKEN else None,
+        min_pixels=256 * 28 * 28,
+        max_pixels=1280 * 28 * 28,
     )
     print("loading model:", MODEL_ID)
 """
+@spaces.GPU(size="xlarge", duration=160)
 def analyze_pantry(image: Image.Image):
     if image is None:
         return {"error": "Please upload a pantry image."}
     messages = [
         {
             "role": "system",
+            "content": [{"type": "text", "text": "You extract pantry items from photos and respond with JSON only."}],
         },
         {
             "role": "user",
         },
     ]
+    text = processor.apply_chat_template(
         messages,
+        tokenize=False,
         add_generation_prompt=True,
+    )
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=[text],
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
         return_tensors="pt",
     )
+    inputs = {k: v.to(model.device) if hasattr(v, "to") else v for k, v in inputs.items()}
     with torch.inference_mode():
         output_ids = model.generate(
             do_sample=False,
         )
+    generated_text = processor.batch_decode(
+        [output_ids[0][inputs["input_ids"].shape[-1]:]],
         skip_special_tokens=True,
+        clean_up_tokenization_spaces=False,
+    )[0].strip()
     print("generated_text:", generated_text)