Spaces:

chipling
/

g-clip-inference

Running

chipling commited on Dec 22, 2025

Commit

1ef70b2

verified ·

1 Parent(s): 35daee1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,29 +1,42 @@
 from fastapi import FastAPI, UploadFile, File
 from pydantic import BaseModel
-from sentence_transformers import SentenceTransformer
 from PIL import Image
 import io
 app = FastAPI()
-# Load model into memory (do this globally so it only happens once)
-model = SentenceTransformer('google/siglip-so400m-patch14-384')
 class TextRequest(BaseModel):
     text: str
 @app.post("/embed-text")
 async def embed_text(request: TextRequest):
-    # Convert text to vector
-    vector = model.encode(request.text).tolist()
-    return {"vector": vector}
 @app.post("/embed-image")
 async def embed_image(file: UploadFile = File(...)):
-    # Read uploaded image
     image_data = await file.read()
-    image = Image.open(io.BytesIO(image_data))
-    # Convert image to vector
-    vector = model.encode(image).tolist()
-    return {"vector": vector}

 from fastapi import FastAPI, UploadFile, File
 from pydantic import BaseModel
+from transformers import AutoProcessor, AutoModel
 from PIL import Image
+import torch
 import io
 app = FastAPI()
+# Load SigLIP 2
+model_id = "google/siglip2-so400m-patch14-384"
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Load Model and Processor
+model = AutoModel.from_pretrained(model_id).to(device).eval()
+processor = AutoProcessor.from_pretrained(model_id)
 class TextRequest(BaseModel):
     text: str
 @app.post("/embed-text")
 async def embed_text(request: TextRequest):
+    inputs = processor(text=[request.text], padding="max_length", return_tensors="pt").to(device)
+    with torch.no_grad():
+        # Get the text embeddings
+        text_outputs = model.get_text_features(**inputs)
+    vector = text_outputs[0].cpu().tolist()
+    return {"vector": vector, "dim": len(vector)}
 @app.post("/embed-image")
 async def embed_image(file: UploadFile = File(...)):
     image_data = await file.read()
+    image = Image.open(io.BytesIO(image_data)).convert("RGB")
+    inputs = processor(images=image, return_tensors="pt").to(device)
+    with torch.no_grad():
+        # Get the image embeddings
+        image_outputs = model.get_image_features(**inputs)
+    vector = image_outputs[0].cpu().tolist()
+    return {"vector": vector, "dim": len(vector)}