Spaces:

RayMelius
/

soci2

Running

RayMelius Claude Sonnet 4.6 commited on 16 days ago

Commit

7aa1d5f

1 Parent(s): 3e092a2

Fix HF LLM: use free SmolLM3 as default, strip thinking tokens

The Qwen/7B model was causing 402 (credit balance depleted) because it
auto-routes to a paid third-party provider via the HF router.
SmolLM3-3B with :hf-inference runs on HF's own CPU cluster for free.

- Default model: HuggingFaceTB/SmolLM3-3B:hf-inference (no credits needed)
- Prepend /no_think to system prompts to disable SmolLM3 reasoning mode
- Strip <think>...</think> blocks from all HF responses as a safety net
- Add HW_WR_TOKEN to recognized env var names (Space write token)
- HW_WR_TOKEN / hf_soci_token now take priority over HF_TOKEN so a
personal token with credits overrides the Space's limited auto-token
- create_llm_client: detect HW_WR_TOKEN for HF auto-selection
- _choose_provider: detect HW_WR_TOKEN to offer HF in the menu
- Tested: complete() and complete_json() both work correctly with SmolLM3

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (2) hide show

src/soci/api/server.py +1 -0
src/soci/engine/llm.py +23 -6

src/soci/api/server.py CHANGED Viewed

@@ -260,6 +260,7 @@ def _choose_provider() -> str:
         os.environ.get("HF_TOKEN")
         or os.environ.get("hf_soci_token")
         or os.environ.get("soci_token")
     )
     options = []

         os.environ.get("HF_TOKEN")
         or os.environ.get("hf_soci_token")
         or os.environ.get("soci_token")
+        or os.environ.get("HW_WR_TOKEN")
     )
     options = []

src/soci/engine/llm.py CHANGED Viewed

@@ -824,10 +824,19 @@ class HFInferenceClient:
     def __init__(
         self,
         api_key: Optional[str] = None,
-        default_model: str = MODEL_HF_QWEN,
         max_retries: int = 3,
     ) -> None:
-        self.api_key = api_key or os.environ.get("HF_TOKEN", "") or os.environ.get("hf_soci_token", "") or os.environ.get("soci_token", "")
         if not self.api_key:
             logger.warning(
                 "Neither HF_TOKEN nor soci_token is set — HF Inference will not make LLM calls. "
@@ -886,10 +895,13 @@ class HFInferenceClient:
             return ""
         model = self._map_model(model or self.default_model)
         payload = {
             "model": model,
             "messages": [
-                {"role": "system", "content": system},
                 {"role": "user", "content": user_message},
             ],
             "temperature": temperature,
@@ -904,7 +916,11 @@ class HFInferenceClient:
                 usage = data.get("usage", {})
                 self.usage.record(model, usage.get("prompt_tokens", 0), usage.get("completion_tokens", 0))
                 self._last_error = ""  # clear on success
-                return data["choices"][0]["message"]["content"]
             except httpx.HTTPStatusError as e:
                 status = e.response.status_code
                 body = e.response.text[:300]
@@ -1015,7 +1031,8 @@ def create_llm_client(
             provider = PROVIDER_GROQ
         elif os.environ.get("GEMINI_API_KEY"):
             provider = PROVIDER_GEMINI
-        elif os.environ.get("HF_TOKEN") or os.environ.get("hf_soci_token") or os.environ.get("soci_token"):
             provider = PROVIDER_HF
         else:
             provider = PROVIDER_OLLAMA
@@ -1030,7 +1047,7 @@ def create_llm_client(
         default_model = model or os.environ.get("GEMINI_MODEL", MODEL_GEMINI_FLASH)
         return GeminiClient(default_model=default_model)
     elif provider == PROVIDER_HF:
-        default_model = model or os.environ.get("HF_MODEL", MODEL_HF_QWEN)
         return HFInferenceClient(default_model=default_model)
     elif provider == PROVIDER_OLLAMA:
         default_model = model or os.environ.get("OLLAMA_MODEL", MODEL_LLAMA)

     def __init__(
         self,
         api_key: Optional[str] = None,
+        default_model: str = MODEL_HF_SMOL,
         max_retries: int = 3,
     ) -> None:
+        # Priority: explicit arg → named secrets (personal token) → Space auto-injected HF_TOKEN
+        # HF_TOKEN is auto-injected in HF Spaces but only has basic inference (no credits for routed models).
+        # A personal token stored as hf_soci_token / soci_token / HW_WR_TOKEN takes precedence.
+        self.api_key = (
+            api_key
+            or os.environ.get("hf_soci_token", "")
+            or os.environ.get("soci_token", "")
+            or os.environ.get("HW_WR_TOKEN", "")
+            or os.environ.get("HF_TOKEN", "")
+        )
         if not self.api_key:
             logger.warning(
                 "Neither HF_TOKEN nor soci_token is set — HF Inference will not make LLM calls. "
             return ""
         model = self._map_model(model or self.default_model)
+        # /no_think disables chain-of-thought on SmolLM3 and similar thinking models;
+        # harmless for other models since it's prepended before the system prompt.
+        system_with_flag = "/no_think\n" + system
         payload = {
             "model": model,
             "messages": [
+                {"role": "system", "content": system_with_flag},
                 {"role": "user", "content": user_message},
             ],
             "temperature": temperature,
                 usage = data.get("usage", {})
                 self.usage.record(model, usage.get("prompt_tokens", 0), usage.get("completion_tokens", 0))
                 self._last_error = ""  # clear on success
+                text = data["choices"][0]["message"]["content"] or ""
+                # Strip any <think>...</think> blocks that thinking models may emit
+                import re as _re
+                text = _re.sub(r"<think>.*?</think>", "", text, flags=_re.DOTALL).strip()
+                return text
             except httpx.HTTPStatusError as e:
                 status = e.response.status_code
                 body = e.response.text[:300]
             provider = PROVIDER_GROQ
         elif os.environ.get("GEMINI_API_KEY"):
             provider = PROVIDER_GEMINI
+        elif (os.environ.get("HF_TOKEN") or os.environ.get("hf_soci_token")
+              or os.environ.get("soci_token") or os.environ.get("HW_WR_TOKEN")):
             provider = PROVIDER_HF
         else:
             provider = PROVIDER_OLLAMA
         default_model = model or os.environ.get("GEMINI_MODEL", MODEL_GEMINI_FLASH)
         return GeminiClient(default_model=default_model)
     elif provider == PROVIDER_HF:
+        default_model = model or os.environ.get("HF_MODEL", MODEL_HF_SMOL)
         return HFInferenceClient(default_model=default_model)
     elif provider == PROVIDER_OLLAMA:
         default_model = model or os.environ.get("OLLAMA_MODEL", MODEL_LLAMA)