Spaces:

MrA7A1
/

AiCoderClean

Sleeping

MrA7A1 commited on Mar 22

Commit

9a8a7a4

verified ·

1 Parent(s): 3b68212

KAPO rollout fix: HF generation fallback

Files changed (1) hide show

brain_server/api/main.py CHANGED Viewed

@@ -296,16 +296,16 @@ def _load_default_model() -> None:
     filename = str(os.getenv("MODEL_FILE", "") or "").strip()
     provider = str(os.getenv("BRAIN_PROVIDER", "") or os.getenv("BRAIN_TEMPLATE", "") or "").strip().lower()
     if _hf_transformers_runtime_enabled():
-        ensure_model_loaded(repo_id, filename, hf_token=os.getenv("HF_TOKEN"))
         return
     if not filename and ("huggingface" in provider or "hf-space" in provider):
-        ensure_model_loaded(repo_id, filename, hf_token=os.getenv("HF_TOKEN"))
-        return
-    if not filename and (_feature_enabled("KAPO_HF_INFERENCE_API", default=False) or "huggingface" in provider or "hf-space" in provider):
         MODEL = None
         MODEL_ERROR = None
         MODEL_META = {"repo_id": repo_id, "filename": "", "path": None}
-        logger.info("Skipping local model load; using Hugging Face inference API for %s", repo_id)
         return
     ensure_model_loaded(repo_id, filename or DEFAULT_MODEL_FILE, hf_token=os.getenv("HF_TOKEN"))
@@ -1669,7 +1669,8 @@ def _generate_response(user_input: str, history: list[dict[str, str]], context_b
     if fast_reply:
         return fast_reply
     if MODEL is None:
-        if _feature_enabled("KAPO_HF_INFERENCE_API", default=False):
             try:
                 from huggingface_hub import InferenceClient
                 prompt = _build_chat_prompt(user_input, history, context_block)

     filename = str(os.getenv("MODEL_FILE", "") or "").strip()
     provider = str(os.getenv("BRAIN_PROVIDER", "") or os.getenv("BRAIN_TEMPLATE", "") or "").strip().lower()
     if _hf_transformers_runtime_enabled():
+        MODEL = None
+        MODEL_ERROR = None
+        MODEL_META = {"repo_id": repo_id, "filename": "", "path": None}
+        logger.info("Skipping local model load; HF transformers runtime is enabled for %s", repo_id)
         return
     if not filename and ("huggingface" in provider or "hf-space" in provider):
         MODEL = None
         MODEL_ERROR = None
         MODEL_META = {"repo_id": repo_id, "filename": "", "path": None}
+        logger.info("Skipping local model load; using Hugging Face remote generation fallback for %s", repo_id)
         return
     ensure_model_loaded(repo_id, filename or DEFAULT_MODEL_FILE, hf_token=os.getenv("HF_TOKEN"))
     if fast_reply:
         return fast_reply
     if MODEL is None:
+        provider = str(os.getenv("BRAIN_PROVIDER", "") or os.getenv("BRAIN_TEMPLATE", "") or "").strip().lower()
+        if _feature_enabled("KAPO_HF_INFERENCE_API", default=False) or "huggingface" in provider or "hf-space" in provider or _hf_transformers_runtime_enabled():
             try:
                 from huggingface_hub import InferenceClient
                 prompt = _build_chat_prompt(user_input, history, context_block)