Video-Analysis-Tool

Sleeping

App Files Files Community

CB commited on Sep 11, 2025

Commit

d5c14ed

verified ·

1 Parent(s): 03539b5

Update streamlit_app.py

Browse files

Files changed (1) hide show

streamlit_app.py +50 -61

streamlit_app.py CHANGED Viewed

@@ -13,7 +13,7 @@ from dotenv import load_dotenv
 load_dotenv()
-# Optional SDK import; we try to use it when available.
 HAS_GENAI = False
 genai = None
 upload_file = None
@@ -126,7 +126,6 @@ def download_video_ytdlp(url: str, save_dir: str, video_password: str = None) ->
 def file_name_or_id(file_obj):
     if not file_obj:
         return None
-    # simple handling for dict or object - return a plausible id/name string
     if isinstance(file_obj, dict):
         for key in ("name", "id", "fileId", "file_id", "uri", "url"):
             val = file_obj.get(key)
@@ -195,12 +194,9 @@ settings = st.sidebar.expander("Settings", expanded=False)
 env_key = os.getenv("GOOGLE_API_KEY", "")
 API_KEY_INPUT = settings.text_input("Google API Key (one-time)", value="", type="password")
-# Default model changed to text-bison@001 (broadly available). Replace if you have another.
 model_input = settings.text_input("Model (short name)", "text-bison@001")
 model_id = model_input.strip() or "text-bison@001"
-# model_arg used with SDK; keep as short name like "text-bison@001"
 model_arg = model_id
-model_for_url_default = model_arg
 default_prompt = (
     "You are an Indoor Human Behavior Analyzer. Watch the video and produce a detailed, evidence‑based behavioral report focused on human actions, "
@@ -279,20 +275,7 @@ def get_runtime_api_key():
         return key
     return os.getenv("GOOGLE_API_KEY", "").strip() or None
-# ---- Simplified SDK-first + HTTP-fallback layer ----
-def _normalize_model_for_http(model: str) -> str:
-    """
-    Return a short model name appropriate for the HTTP path,
-    e.g. "text-bison@001" (no "models/" prefix).
-    """
-    if not model:
-        return "text-bison@001"
-    m = model.strip()
-    # If user mistakenly provided "models/..." strip the prefix for HTTP path
-    if m.startswith("models/"):
-        return m.split("/", 1)[1]
-    return m
 def _messages_to_prompt(messages):
     if not messages:
         return ""
@@ -303,34 +286,23 @@ def _messages_to_prompt(messages):
         parts.append(f"{role.upper()}:\n{content.strip()}\n")
     return "\n".join(parts)
-def _http_generate(api_key: str, model: str, prompt: str, max_tokens: int):
-    host = "https://generativelanguage.googleapis.com"
-    norm = _normalize_model_for_http(model)
-    candidates = [
-        f"{host}/v1/models/{norm}:generate",
-        f"{host}/v1beta3/models/{norm}:generate",
-        f"{host}/v1beta2/models/{norm}:generate",
-    ]
-    payload = {"prompt": {"text": prompt}, "maxOutputTokens": int(max_tokens or 512)}
     headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
-    last_exc = None
-    for url in candidates:
-        try:
-            r = requests.post(url, json=payload, headers=headers, timeout=20)
-            if r.status_code == 200:
-                try:
-                    return r.json()
-                except Exception:
-                    return {"text": r.text}
-            last_exc = RuntimeError(f"HTTP {r.status_code}: {r.text}")
-        except Exception as e:
-            last_exc = e
-    raise RuntimeError(f"HTTP generate failed: {last_exc}; tried: {candidates}")
 def responses_generate(model, messages, files, max_output_tokens, api_key):
     if not api_key:
         raise RuntimeError("No API key for responses_generate")
-    # Try SDK responses.generate when available and working
     if HAS_GENAI and genai is not None:
         try:
             genai.configure(api_key=api_key)
@@ -342,9 +314,9 @@ def responses_generate(model, messages, files, max_output_tokens, api_key):
                 return responses_obj.generate(**sdk_kwargs)
         except Exception:
             pass
-    # HTTP fallback
     prompt = _messages_to_prompt(messages)
-    return _http_generate(api_key, model, prompt, max_output_tokens)
 def call_responses_once(model_used, system_msg, user_msg, fname, max_tokens):
     messages = [system_msg, user_msg]
@@ -361,35 +333,53 @@ def call_responses_once(model_used, system_msg, user_msg, fname, max_tokens):
 def extract_text_from_response(response):
     if response is None:
         return None
     if isinstance(response, dict):
-        if "candidates" in response and isinstance(response["candidates"], list) and response["candidates"]:
-            cand = response["candidates"][0]
-            if isinstance(cand, dict):
-                return cand.get("content") or cand.get("text") or response.get("text")
         if "output" in response and isinstance(response["output"], list):
             pieces = []
             for item in response["output"]:
                 if isinstance(item, dict):
-                    c = item.get("content") or item.get("text")
-                    if isinstance(c, str):
-                        pieces.append(c)
             if pieces:
                 return "\n\n".join(pieces)
-        if "text" in response and isinstance(response["text"], str):
-            return response["text"]
         if "outputText" in response and isinstance(response["outputText"], str):
             return response["outputText"]
-        for k in ("result", "generated_text", "description"):
-            if k in response and isinstance(response[k], str):
-                return response[k]
-        return None
     try:
         outputs = getattr(response, "output", None) or getattr(response, "candidates", None)
         if outputs:
             pieces = []
             for item in outputs:
-                txt = getattr(item, "content", None) or getattr(item, "text", None)
-                if txt:
                     pieces.append(txt)
             if pieces:
                 return "\n\n".join(pieces)
@@ -400,8 +390,7 @@ def extract_text_from_response(response):
         pass
     return None
-# ---- end compatibility layer ----
 if (st.session_state.get("busy") is False) and ('generate_now' in locals() and generate_now):
     if not st.session_state.get("videos"):
         st.error("No video loaded. Use 'Load Video' in the sidebar.")

 load_dotenv()
+# Try SDK import
 HAS_GENAI = False
 genai = None
 upload_file = None
 def file_name_or_id(file_obj):
     if not file_obj:
         return None
     if isinstance(file_obj, dict):
         for key in ("name", "id", "fileId", "file_id", "uri", "url"):
             val = file_obj.get(key)
 env_key = os.getenv("GOOGLE_API_KEY", "")
 API_KEY_INPUT = settings.text_input("Google API Key (one-time)", value="", type="password")
 model_input = settings.text_input("Model (short name)", "text-bison@001")
 model_id = model_input.strip() or "text-bison@001"
 model_arg = model_id
 default_prompt = (
     "You are an Indoor Human Behavior Analyzer. Watch the video and produce a detailed, evidence‑based behavioral report focused on human actions, "
         return key
     return os.getenv("GOOGLE_API_KEY", "").strip() or None
+# --- Compatibility layer: SDK-first, HTTP fallback using /v1/responses ---
 def _messages_to_prompt(messages):
     if not messages:
         return ""
         parts.append(f"{role.upper()}:\n{content.strip()}\n")
     return "\n".join(parts)
+def _http_generate_responses(api_key: str, model: str, prompt: str, max_tokens: int):
+    url = "https://generativelanguage.googleapis.com/v1/responses"
     headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
+    payload = {
+        "model": model or "text-bison@001",
+        "input": prompt,
+        "maxOutputTokens": int(max_tokens or 512),
+    }
+    r = requests.post(url, json=payload, headers=headers, timeout=30)
+    if r.status_code != 200:
+        raise RuntimeError(f"HTTP {r.status_code}: {r.text}")
+    return r.json()
 def responses_generate(model, messages, files, max_output_tokens, api_key):
     if not api_key:
         raise RuntimeError("No API key for responses_generate")
+    # SDK path
     if HAS_GENAI and genai is not None:
         try:
             genai.configure(api_key=api_key)
                 return responses_obj.generate(**sdk_kwargs)
         except Exception:
             pass
+    # HTTP fallback (Responses API)
     prompt = _messages_to_prompt(messages)
+    return _http_generate_responses(api_key, model, prompt, max_output_tokens)
 def call_responses_once(model_used, system_msg, user_msg, fname, max_tokens):
     messages = [system_msg, user_msg]
 def extract_text_from_response(response):
     if response is None:
         return None
+    # dict-style
     if isinstance(response, dict):
+        # Responses v1: look for "output" or "candidates" or "outputText"
         if "output" in response and isinstance(response["output"], list):
             pieces = []
             for item in response["output"]:
                 if isinstance(item, dict):
+                    # new Responses API nested content sometimes in "content" list with dicts
+                    if "content" in item and isinstance(item["content"], list):
+                        for c in item["content"]:
+                            if isinstance(c, dict) and "text" in c:
+                                pieces.append(c["text"])
+                    else:
+                        c = item.get("content") or item.get("text")
+                        if isinstance(c, str):
+                            pieces.append(c)
             if pieces:
                 return "\n\n".join(pieces)
+        # older style candidates
+        if "candidates" in response and isinstance(response["candidates"], list) and response["candidates"]:
+            cand = response["candidates"][0]
+            if isinstance(cand, dict):
+                return cand.get("content") or cand.get("text") or response.get("text")
         if "outputText" in response and isinstance(response["outputText"], str):
             return response["outputText"]
+        if "text" in response and isinstance(response["text"], str):
+            return response["text"]
+        # fallback: stringified body
+        return json.dumps(response)[:16000]
+    # object-style (SDK)
     try:
         outputs = getattr(response, "output", None) or getattr(response, "candidates", None)
         if outputs:
             pieces = []
             for item in outputs:
+                txt = None
+                if hasattr(item, "content"):
+                    txt = getattr(item, "content")
+                    if isinstance(txt, list):
+                        # SDK content lists may contain dicts with 'text'
+                        for c in txt:
+                            if isinstance(c, dict) and "text" in c:
+                                pieces.append(c["text"])
+                    elif isinstance(txt, str):
+                        pieces.append(txt)
+                txt = txt or getattr(item, "text", None)
+                if isinstance(txt, str):
                     pieces.append(txt)
             if pieces:
                 return "\n\n".join(pieces)
         pass
     return None
+# ---- Main generation flow ----
 if (st.session_state.get("busy") is False) and ('generate_now' in locals() and generate_now):
     if not st.session_state.get("videos"):
         st.error("No video loaded. Use 'Load Video' in the sidebar.")