Spaces:

MrA7A1
/

AiCoderClean

Sleeping

App Files Files Community

MrA7A1 commited on Mar 22

Commit

88b7e97

verified ·

1 Parent(s): 9a8a7a4

KAPO rollout fix: HF chat completion fallback

Browse files

Files changed (1) hide show

brain_server/api/main.py +22 -1

brain_server/api/main.py CHANGED Viewed

@@ -283,7 +283,11 @@ def _load_embed_model() -> None:
     if EMBED_MODEL is not None:
         return
-    from sentence_transformers import SentenceTransformer
     model_name = os.getenv("EMBED_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
     EMBED_MODEL = SentenceTransformer(model_name)
@@ -1677,6 +1681,19 @@ def _generate_response(user_input: str, history: list[dict[str, str]], context_b
                 max_tokens = 80 if language == "ar" else 96
                 model_repo = str(os.getenv("MODEL_REPO", DEFAULT_MODEL_REPO) or DEFAULT_MODEL_REPO).strip()
                 client = InferenceClient(model=model_repo, api_key=(str(os.getenv("HF_TOKEN", "") or "").strip() or None))
                 generated = client.text_generation(
                     prompt,
                     max_new_tokens=max_tokens,
@@ -1717,6 +1734,8 @@ def _store_chat_trace(request_id: str, payload: dict[str, Any]) -> None:
     executor_url = os.getenv("EXECUTOR_URL", "").strip().rstrip("/")
     if not _executor_roundtrip_allowed("BRAIN_REMOTE_TRACE_STORE_ENABLED", default=True):
         return
     try:
         requests.post(
             f"{executor_url}/memory/store",
@@ -1729,6 +1748,8 @@ def _store_chat_trace(request_id: str, payload: dict[str, Any]) -> None:
         )
     except requests.exceptions.ReadTimeout:
         logger.info("Chat trace store timed out; continuing")
     except Exception:
         logger.warning("Failed to store chat trace on executor", exc_info=True)

     if EMBED_MODEL is not None:
         return
+    try:
+        from sentence_transformers import SentenceTransformer
+    except ModuleNotFoundError:
+        logger.info("Skipping embedding model load because sentence_transformers is unavailable")
+        return
     model_name = os.getenv("EMBED_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
     EMBED_MODEL = SentenceTransformer(model_name)
                 max_tokens = 80 if language == "ar" else 96
                 model_repo = str(os.getenv("MODEL_REPO", DEFAULT_MODEL_REPO) or DEFAULT_MODEL_REPO).strip()
                 client = InferenceClient(model=model_repo, api_key=(str(os.getenv("HF_TOKEN", "") or "").strip() or None))
+                try:
+                    chat_result = client.chat_completion(
+                        messages=[{"role": "user", "content": prompt}],
+                        max_tokens=max_tokens,
+                    )
+                    choices = getattr(chat_result, "choices", None) or []
+                    if choices:
+                        message = getattr(choices[0], "message", None)
+                        generated_text = str(getattr(message, "content", "") or "").strip()
+                        if generated_text:
+                            return generated_text
+                except Exception:
+                    pass
                 generated = client.text_generation(
                     prompt,
                     max_new_tokens=max_tokens,
     executor_url = os.getenv("EXECUTOR_URL", "").strip().rstrip("/")
     if not _executor_roundtrip_allowed("BRAIN_REMOTE_TRACE_STORE_ENABLED", default=True):
         return
+    if not executor_url:
+        return
     try:
         requests.post(
             f"{executor_url}/memory/store",
         )
     except requests.exceptions.ReadTimeout:
         logger.info("Chat trace store timed out; continuing")
+    except requests.exceptions.ConnectionError:
+        logger.info("Chat trace store skipped because executor is unreachable")
     except Exception:
         logger.warning("Failed to store chat trace on executor", exc_info=True)