Spaces:

BiasLab2025
/

perception

Sleeping

App Files Files Community

Zhen Ye commited on 9 days ago

Commit

55e372a

1 Parent(s): 58bb3a4

GPT reasoning: add in-memory frame encoding, image_b64 support, use gpt-4o-mini for relevance

Browse files

Files changed (2) hide show

utils/gpt_reasoning.py +31 -10
utils/relevance.py +1 -1

utils/gpt_reasoning.py CHANGED Viewed

@@ -15,6 +15,15 @@ def encode_image(image_path: str) -> str:
         return base64.b64encode(image_file.read()).decode('utf-8')
 _DOMAIN_ROLES = {
     "NAVAL": "Naval Intelligence Officer and Maritime Threat Analyst",
     "GROUND": "Ground Surveillance Intelligence Officer",
@@ -110,21 +119,26 @@ def _build_domain_system_prompt(domain: str, mission_spec=None) -> str:
 def estimate_threat_gpt(
-    image_path: str,
-    detections: List[Dict[str, Any]],
     mission_spec=None,  # Optional[MissionSpecification]
 ) -> Dict[str, Any]:
     """
     Perform Threat Assessment on detected objects using GPT-4o.
     Args:
-        image_path: Path to the image file.
         detections: List of detection dicts (bbox, label, etc.).
         mission_spec: Optional MissionSpecification for domain-aware assessment.
     Returns:
         Dict mapping object ID (e.g., T01) to threat assessment dict.
     """
     api_key = os.environ.get("OPENAI_API_KEY")
     if not api_key:
         logger.warning("OPENAI_API_KEY not set. Skipping GPT threat assessment.")
@@ -143,11 +157,17 @@ def estimate_threat_gpt(
     if not det_text:
         return {}
-    # 2. Encode image
-    try:
-        base64_image = encode_image(image_path)
-    except Exception as e:
-        logger.error(f"Failed to encode image for GPT: {e}")
         return {}
     # 3. Domain-aware prompt selection (INV-7)
@@ -184,7 +204,8 @@ def estimate_threat_gpt(
                     {
                         "type": "image_url",
                         "image_url": {
-                            "url": f"data:image/jpeg;base64,{base64_image}"
                         }
                     }
                 ]
@@ -207,7 +228,7 @@ def estimate_threat_gpt(
             headers=headers,
             method="POST"
         )
-        with urllib.request.urlopen(req) as response:
             resp_data = json.loads(response.read().decode('utf-8'))
         content = resp_data['choices'][0]['message'].get('content')

         return base64.b64encode(image_file.read()).decode('utf-8')
+def encode_frame_to_b64(frame) -> str:
+    """Encode an OpenCV BGR frame to a base64 JPEG string in memory (no disk I/O)."""
+    import cv2
+    success, buf = cv2.imencode('.jpg', frame)
+    if not success:
+        raise ValueError("Failed to encode frame to JPEG")
+    return base64.b64encode(buf.tobytes()).decode('utf-8')
 _DOMAIN_ROLES = {
     "NAVAL": "Naval Intelligence Officer and Maritime Threat Analyst",
     "GROUND": "Ground Surveillance Intelligence Officer",
 def estimate_threat_gpt(
+    image_path: Optional[str] = None,
+    detections: Optional[List[Dict[str, Any]]] = None,
     mission_spec=None,  # Optional[MissionSpecification]
+    image_b64: Optional[str] = None,
 ) -> Dict[str, Any]:
     """
     Perform Threat Assessment on detected objects using GPT-4o.
     Args:
+        image_path: Path to the image file (mutually exclusive with image_b64).
         detections: List of detection dicts (bbox, label, etc.).
         mission_spec: Optional MissionSpecification for domain-aware assessment.
+        image_b64: Pre-encoded base64 JPEG string (avoids disk round-trip).
     Returns:
         Dict mapping object ID (e.g., T01) to threat assessment dict.
     """
+    if detections is None:
+        detections = []
     api_key = os.environ.get("OPENAI_API_KEY")
     if not api_key:
         logger.warning("OPENAI_API_KEY not set. Skipping GPT threat assessment.")
     if not det_text:
         return {}
+    # 2. Encode image (prefer pre-encoded b64 to avoid disk I/O)
+    if image_b64:
+        base64_image = image_b64
+    elif image_path:
+        try:
+            base64_image = encode_image(image_path)
+        except Exception as e:
+            logger.error(f"Failed to encode image for GPT: {e}")
+            return {}
+    else:
+        logger.error("estimate_threat_gpt: no image_path or image_b64 provided")
         return {}
     # 3. Domain-aware prompt selection (INV-7)
                     {
                         "type": "image_url",
                         "image_url": {
+                            "url": f"data:image/jpeg;base64,{base64_image}",
+                            "detail": "low"
                         }
                     }
                 ]
             headers=headers,
             method="POST"
         )
+        with urllib.request.urlopen(req, timeout=30) as response:
             resp_data = json.loads(response.read().decode('utf-8'))
         content = resp_data['choices'][0]['message'].get('content')

utils/relevance.py CHANGED Viewed

@@ -108,7 +108,7 @@ def evaluate_relevance_llm(
     )
     payload = {
-        "model": "gpt-4o",
         "temperature": 0.0,
         "max_tokens": 200,
         "response_format": {"type": "json_object"},

     )
     payload = {
+        "model": "gpt-4o-mini",
         "temperature": 0.0,
         "max_tokens": 200,
         "response_format": {"type": "json_object"},