clip-img-encoder

+from typing import Dict, List
+import torch, base64, io
+from PIL import Image
+import open_clip
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model, _, preprocess = open_clip.create_model_and_transforms(
+    'ViT-B-32', pretrained='laion2b_s34b_b79K', device=device
+)
+def _embed_image(img_b64: str) -> List[float]:
+    img = Image.open(io.BytesIO(base64.b64decode(img_b64))).convert("RGB")
+    tensor = preprocess(img).unsqueeze(0).to(device)
+    with torch.no_grad():
+        emb = model.encode_image(tensor)
+    return emb.squeeze().cpu().tolist()
+def _embed_text(text: str) -> List[float]:
+    tok = open_clip.tokenize([text]).to(device)
+    with torch.no_grad():
+        emb = model.encode_text(tok)
+    return emb.squeeze().cpu().tolist()
+# === HF endpoint entrypoint ===
+def preprocess(payload: Dict):
+    return payload
+def inference(payload: Dict):
+    if isinstance(payload, str) and payload.startswith("data:image"):
+        b64 = payload.split(",")[-1]
+        return {"vector": _embed_image(b64)}
+    elif isinstance(payload, str):
+        return {"vector": _embed_text(payload)}
+    else:
+        raise ValueError("Unsupported input")
+def postprocess(output):  # HF expects this even se passas direto
+    return output