Spaces:

SaniaE
/

Image_Captioning_Ensemble_API

Sleeping

App Files Files Community

SaniaE commited on 4 days ago

Commit

ace7c16

verified ·

1 Parent(s): cf0f372

added timing checks

Browse files

Files changed (1) hide show

app.py +43 -10

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import io
 import asyncio
 import random
 import numpy as np
@@ -8,7 +9,8 @@ import torch.nn.functional as F
 import matplotlib.pyplot as plt
 from PIL import Image, ImageFilter
 from fastapi import FastAPI, UploadFile, File, Query
-from fastapi.responses import StreamingResponse
 from huggingface_hub import snapshot_download, login
 from transformers import (
@@ -19,12 +21,21 @@ from transformers import (
 app = FastAPI(title="XAI Auditor Ensemble with CLIP Jury")
 # --- Configuration & Paths ---
 REPO_ID = "SaniaE/Image_Captioning_Ensemble"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 MODELS = {}
-# Metadata for loading
 MODEL_CONFIGS = {
     "blip": {
         "subfolder": "blip",
@@ -103,19 +114,30 @@ async def generate_captions(
     top_k: int = Query(50),
     top_p: float = Query(0.9)
 ):
-    """Generates 5 diverse captions using the model ensemble."""
     image = Image.open(file.file).convert("RGB")
     architectures = ["blip", "vit"]
     selection = random.choices(architectures, k=5)
     tasks = [asyncio.to_thread(_generate_sync, m, image, temp, top_k, top_p) for m in selection]
     captions = await asyncio.gather(*tasks)
-    return {"captions": captions, "metadata": {"models_used": selection, "temp": temp}}
 @app.post("/saliency")
 async def get_vision_saliency(file: UploadFile = File(...)):
-    """Objective Saliency: Shows what the Vision Encoder focuses on (Self-Attention)."""
     image_bytes = await file.read()
     orig_img = Image.open(io.BytesIO(image_bytes)).convert("RGB")
@@ -124,8 +146,7 @@ async def get_vision_saliency(file: UploadFile = File(...)):
     with torch.no_grad():
         outputs = blip["model"].vision_model(inputs.pixel_values, output_attentions=True)
-        attentions = outputs.attentions[-1] # Last layer
-        # Average heads, look at CLS token attention to patches
         mask_1d = attentions[0, :, 0, 1:].mean(dim=0)
         grid_size = int(np.sqrt(mask_1d.shape[-1]))
         mask = mask_1d.view(grid_size, grid_size).cpu().numpy()
@@ -141,11 +162,19 @@ async def get_vision_saliency(file: UploadFile = File(...)):
     buf = io.BytesIO()
     blended.save(buf, format="PNG")
     buf.seek(0)
-    return StreamingResponse(buf, media_type="image/png")
 @app.post("/audit")
 async def internal_debate_audit(file: UploadFile = File(...), user_prompt: str = Query(...)):
-    """The CLIP-Powered Jury: Compares User Intent vs. Model Perception."""
     image_bytes = await file.read()
     image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
@@ -172,8 +201,12 @@ async def internal_debate_audit(file: UploadFile = File(...), user_prompt: str =
     else:
         verdict = "Model Bias Detected."
     return {
         "perspectives": {"user": user_prompt, "ai": blip_caption},
         "audit_scores": {"intent_grounding": round(u_score, 4), "ai_grounding": round(m_score, 4)},
-        "verdict": verdict
     }

 import os
 import io
+import time
 import asyncio
 import random
 import numpy as np
 import matplotlib.pyplot as plt
 from PIL import Image, ImageFilter
 from fastapi import FastAPI, UploadFile, File, Query
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import StreamingResponse, Response
 from huggingface_hub import snapshot_download, login
 from transformers import (
 app = FastAPI(title="XAI Auditor Ensemble with CLIP Jury")
+# Enable smooth frontend cross-origin header interceptions for performance metrics
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+    expose_headers=["X-Processing-Time", "X-Audit-Time", "X-Grounding-Verdict"]
+)
 # --- Configuration & Paths ---
 REPO_ID = "SaniaE/Image_Captioning_Ensemble"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 MODELS = {}
 MODEL_CONFIGS = {
     "blip": {
         "subfolder": "blip",
     top_k: int = Query(50),
     top_p: float = Query(0.9)
 ):
+    start_time = time.perf_counter()
     image = Image.open(file.file).convert("RGB")
     architectures = ["blip", "vit"]
     selection = random.choices(architectures, k=5)
+    # Offload generative sampling loop to a worker thread pool
     tasks = [asyncio.to_thread(_generate_sync, m, image, temp, top_k, top_p) for m in selection]
     captions = await asyncio.gather(*tasks)
+    elapsed_time = time.perf_counter() - start_time
+    print(f"[BENCHMARK] /generate ensemble turnaround: {elapsed_time:.4f}s")
+    return {
+        "captions": captions,
+        "metadata": {
+            "models_used": selection,
+            "temp": temp,
+            "processing_time_sec": round(elapsed_time, 4)
+        }
+    }
 @app.post("/saliency")
 async def get_vision_saliency(file: UploadFile = File(...)):
+    start_time = time.perf_counter()
     image_bytes = await file.read()
     orig_img = Image.open(io.BytesIO(image_bytes)).convert("RGB")
     with torch.no_grad():
         outputs = blip["model"].vision_model(inputs.pixel_values, output_attentions=True)
+        attentions = outputs.attentions[-1]
         mask_1d = attentions[0, :, 0, 1:].mean(dim=0)
         grid_size = int(np.sqrt(mask_1d.shape[-1]))
         mask = mask_1d.view(grid_size, grid_size).cpu().numpy()
     buf = io.BytesIO()
     blended.save(buf, format="PNG")
     buf.seek(0)
+    elapsed_time = time.perf_counter() - start_time
+    print(f"[BENCHMARK] /saliency last-layer map turnaround: {elapsed_time:.4f}s")
+    return StreamingResponse(
+        buf,
+        media_type="image/png",
+        headers={"X-Processing-Time": f"{elapsed_time:.4f}"}
+    )
 @app.post("/audit")
 async def internal_debate_audit(file: UploadFile = File(...), user_prompt: str = Query(...)):
+    start_time = time.perf_counter()
     image_bytes = await file.read()
     image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
     else:
         verdict = "Model Bias Detected."
+    elapsed_time = time.perf_counter() - start_time
+    print(f"[BENCHMARK] /audit multimodal jury turnaround: {elapsed_time:.4f}s | Verdict: {verdict}")
     return {
         "perspectives": {"user": user_prompt, "ai": blip_caption},
         "audit_scores": {"intent_grounding": round(u_score, 4), "ai_grounding": round(m_score, 4)},
+        "verdict": verdict,
+        "metadata": {"processing_time_sec": round(elapsed_time, 4)}
     }