Spaces:

smolagents
/

ml-intern

Running on CPU Upgrade

App Files Files Community

fix(bedrock): force tool cachePoint via cache_control_injection_points

#24

by GuillaumeSalouHF HF Staff - opened Apr 27

base: refs/heads/main

←

from: refs/pr/24

Discussion Files changed

+39

-11

Files changed (4) hide show

agent/core/llm_params.py +24 -10
agent/core/session.py +12 -0
agent/core/session_uploader.py +2 -0
backend/session_manager.py +1 -1

agent/core/llm_params.py CHANGED Viewed

@@ -5,7 +5,12 @@ can import it without pulling in the whole agent loop / tool router and
 creating circular imports.
 """
-import os
 def _patch_litellm_effort_validation() -> None:
@@ -129,7 +134,8 @@ def _resolve_llm_params(
       1. INFERENCE_TOKEN env — shared key on the hosted Space (inference is
          free for users, billed to the Space owner via ``X-HF-Bill-To``).
       2. session.hf_token — the user's own token (CLI / OAuth / cache file).
-      3. HF_TOKEN env — belt-and-suspenders fallback for CLI users.
     """
     if model_name.startswith("anthropic/"):
         params: dict = {"model": model_name}
@@ -160,7 +166,20 @@ def _resolve_llm_params(
         # (``AWS_ACCESS_KEY_ID`` / ``AWS_SECRET_ACCESS_KEY`` / ``AWS_REGION``).
         # The Anthropic thinking/effort shape is not forwarded through Converse
         # the same way, so we leave it off for now.
-        return {"model": model_name}
     if model_name.startswith("openai/"):
         params = {"model": model_name}
@@ -175,18 +194,13 @@ def _resolve_llm_params(
         return params
     hf_model = model_name.removeprefix("huggingface/")
-    api_key = (
-        os.environ.get("INFERENCE_TOKEN")
-        or session_hf_token
-        or os.environ.get("HF_TOKEN")
-    )
     params = {
         "model": f"openai/{hf_model}",
         "api_base": "https://router.huggingface.co/v1",
         "api_key": api_key,
     }
-    if os.environ.get("INFERENCE_TOKEN"):
-        bill_to = os.environ.get("HF_BILL_TO", "smolagents")
         params["extra_headers"] = {"X-HF-Bill-To": bill_to}
     if reasoning_effort:
         hf_level = "low" if reasoning_effort == "minimal" else reasoning_effort

 creating circular imports.
 """
+from agent.core.hf_tokens import get_hf_bill_to, resolve_hf_router_token
+def _resolve_hf_router_token(session_hf_token: str | None = None) -> str | None:
+    """Backward-compatible private wrapper used by tests and older imports."""
+    return resolve_hf_router_token(session_hf_token)
 def _patch_litellm_effort_validation() -> None:
       1. INFERENCE_TOKEN env — shared key on the hosted Space (inference is
          free for users, billed to the Space owner via ``X-HF-Bill-To``).
       2. session.hf_token — the user's own token (CLI / OAuth / cache file).
+      3. huggingface_hub cache — ``HF_TOKEN`` / ``HUGGING_FACE_HUB_TOKEN`` /
+         local ``hf auth login`` cache.
     """
     if model_name.startswith("anthropic/"):
         params: dict = {"model": model_name}
         # (``AWS_ACCESS_KEY_ID`` / ``AWS_SECRET_ACCESS_KEY`` / ``AWS_REGION``).
         # The Anthropic thinking/effort shape is not forwarded through Converse
         # the same way, so we leave it off for now.
+        params: dict = {"model": model_name}
+        # ``cache_control_injection_points`` instructs the Converse adapter to
+        # append a cachePoint at the end of the tool list. Per-tool
+        # ``cache_control`` blocks (set by prompt_caching.py for the Anthropic
+        # native path) are otherwise silently dropped by Converse, leaving the
+        # ~16k tokens of tool defs uncached on every Bedrock turn.
+        # Only enabled for Anthropic-on-Bedrock models since other Bedrock
+        # providers (Titan, Llama, Mistral...) don't support cachePoint and
+        # Bedrock returns an error if it's set on an unsupported model.
+        # System-prompt caching still works via cache_control on system content
+        # blocks (Converse reads those for any provider).
+        if "anthropic" in model_name:
+            params["cache_control_injection_points"] = [{"location": "tool_config"}]
+        return params
     if model_name.startswith("openai/"):
         params = {"model": model_name}
         return params
     hf_model = model_name.removeprefix("huggingface/")
+    api_key = _resolve_hf_router_token(session_hf_token)
     params = {
         "model": f"openai/{hf_model}",
         "api_base": "https://router.huggingface.co/v1",
         "api_key": api_key,
     }
+    if bill_to := get_hf_bill_to():
         params["extra_headers"] = {"X-HF-Bill-To": bill_to}
     if reasoning_effort:
         hf_level = "low" if reasoning_effort == "minimal" else reasoning_effort

agent/core/session.py CHANGED Viewed

@@ -79,8 +79,10 @@ class Session:
         hf_token: str | None = None,
         local_mode: bool = False,
         stream: bool = True,
     ):
         self.hf_token: Optional[str] = hf_token
         self.tool_router = tool_router
         self.stream = stream
         tool_specs = tool_router.get_tool_specs_for_llm() if tool_router else []
@@ -199,11 +201,21 @@ class Session:
                 tools = self.tool_router.get_tool_specs_for_llm() or []
             except Exception:
                 tools = []
         return {
             "session_id": self.session_id,
             "session_start_time": self.session_start_time,
             "session_end_time": datetime.now().isoformat(),
             "model_name": self.config.model_name,
             "messages": [msg.model_dump() for msg in self.context_manager.items],
             "events": self.logged_events,
             "tools": tools,

         hf_token: str | None = None,
         local_mode: bool = False,
         stream: bool = True,
+        user_id: str | None = None,
     ):
         self.hf_token: Optional[str] = hf_token
+        self.user_id: Optional[str] = user_id
         self.tool_router = tool_router
         self.stream = stream
         tool_specs = tool_router.get_tool_specs_for_llm() if tool_router else []
                 tools = self.tool_router.get_tool_specs_for_llm() or []
             except Exception:
                 tools = []
+        # Sum per-call cost from llm_call events so analyzers don't have to
+        # walk the events array themselves. Each `llm_call` event already
+        # carries cost_usd from `agent.core.telemetry.record_llm_call`.
+        total_cost_usd = sum(
+            float((e.get("data") or {}).get("cost_usd") or 0.0)
+            for e in self.logged_events
+            if e.get("event_type") == "llm_call"
+        )
         return {
             "session_id": self.session_id,
+            "user_id": self.user_id,
             "session_start_time": self.session_start_time,
             "session_end_time": datetime.now().isoformat(),
             "model_name": self.config.model_name,
+            "total_cost_usd": total_cost_usd,
             "messages": [msg.model_dump() for msg in self.context_manager.items],
             "events": self.logged_events,
             "tools": tools,

agent/core/session_uploader.py CHANGED Viewed

@@ -90,9 +90,11 @@ def upload_session_as_file(
         # across sessions with different tool rosters.
         session_row = {
             "session_id": data["session_id"],
             "session_start_time": data["session_start_time"],
             "session_end_time": data["session_end_time"],
             "model_name": data["model_name"],
             "messages": json.dumps(scrubbed_messages),
             "events": json.dumps(scrubbed_events),
             "tools": json.dumps(scrubbed_tools),

         # across sessions with different tool rosters.
         session_row = {
             "session_id": data["session_id"],
+            "user_id": data.get("user_id"),
             "session_start_time": data["session_start_time"],
             "session_end_time": data["session_end_time"],
             "model_name": data["model_name"],
+            "total_cost_usd": data.get("total_cost_usd"),
             "messages": json.dumps(scrubbed_messages),
             "events": json.dumps(scrubbed_events),
             "tools": json.dumps(scrubbed_tools),

backend/session_manager.py CHANGED Viewed

@@ -192,7 +192,7 @@ class SessionManager:
                 session_config.model_name = model
             session = Session(
                 event_queue, config=session_config, tool_router=tool_router,
-                hf_token=hf_token,
             )
             t1 = _time.monotonic()
             logger.info(f"Session initialized in {t1 - t0:.2f}s")

                 session_config.model_name = model
             session = Session(
                 event_queue, config=session_config, tool_router=tool_router,
+                hf_token=hf_token, user_id=user_id,
             )
             t1 = _time.monotonic()
             logger.info(f"Session initialized in {t1 - t0:.2f}s")