Spaces:

chipling
/

g-clip-inference

Running

App Files Files Community

chipling commited on Dec 22, 2025

Commit

38dda6c

verified ·

1 Parent(s): fbf7697

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -7

app.py CHANGED Viewed

@@ -6,21 +6,33 @@ import io
 app = FastAPI()
 model_id = "google/siglip2-so400m-patch14-384"
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Optimized loading based on Feb 2025 Docs
 model = AutoModel.from_pretrained(
     model_id,
-    torch_dtype=torch.float32,
     low_cpu_mem_usage=True,
-    attn_implementation="sdpa" # Scaled Dot Product Attention for speed
 ).to(device).eval()
 processor = AutoProcessor.from_pretrained(model_id)
 @app.post("/embed-text")
 def embed_text(text: str):
-    # Docs specify max_length=64 for the Gemma-based tokenizer in SigLIP 2
     inputs = processor(
         text=[text],
         padding="max_length",
@@ -28,17 +40,19 @@ def embed_text(text: str):
         return_tensors="pt"
     ).to(device)
-    with torch.inference_mode():
         outputs = model.get_text_features(**inputs)
     return {"vector": outputs[0].cpu().tolist()}
 @app.post("/embed-image")
 def embed_image(file: UploadFile = File(...)):
-    image = Image.open(io.BytesIO(file.file.read())).convert("RGB")
-    # NaFlex logic is handled automatically by the processor
     inputs = processor(images=image, return_tensors="pt").to(device)
     with torch.inference_mode():
         outputs = model.get_image_features(**inputs)
     return {"vector": outputs[0].cpu().tolist()}

 app = FastAPI()
 model_id = "google/siglip2-so400m-patch14-384"
+# Check for GPU, but default to optimized CPU path
 device = "cuda" if torch.cuda.is_available() else "cpu"
+dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
+# 1. Load with memory-efficient settings
 model = AutoModel.from_pretrained(
     model_id,
+    torch_dtype=dtype,
     low_cpu_mem_usage=True,
+    attn_implementation="sdpa" # Use Scaled Dot Product Attention
 ).to(device).eval()
+# 2. COMPILE THE MODEL (The huge speed boost)
+# This takes 1 min to start up but makes every search 30% faster
+try:
+    model = torch.compile(model)
+except Exception:
+    print("Torch compile not supported on this environment, skipping...")
 processor = AutoProcessor.from_pretrained(model_id)
+# 3. USE 'def' (Not 'async def') for CPU-heavy tasks
+# This allows FastAPI to run searches in parallel on different CPU cores
 @app.post("/embed-text")
 def embed_text(text: str):
+    # GEMMA FIX: max_length=64 is required for SigLIP 2
     inputs = processor(
         text=[text],
         padding="max_length",
         return_tensors="pt"
     ).to(device)
+    with torch.inference_mode(): # Faster than no_grad()
         outputs = model.get_text_features(**inputs)
     return {"vector": outputs[0].cpu().tolist()}
 @app.post("/embed-image")
 def embed_image(file: UploadFile = File(...)):
+    # Optimized image reading
+    image = Image.open(file.file).convert("RGB")
     inputs = processor(images=image, return_tensors="pt").to(device)
     with torch.inference_mode():
         outputs = model.get_image_features(**inputs)
     return {"vector": outputs[0].cpu().tolist()}