Spaces:

reasoning-degeneration-dev
/

agg-trace-visualizer

Running

App Files Files Community

Zayne Rea Sprague commited on 9 days ago

Commit

7023780

1 Parent(s): b630916

vis updates for harbor

Browse files

Files changed (4) hide show

backend/api/harbor_datasets.py +84 -4
frontend/src/harbor/components/ChatBubble.tsx +16 -0
frontend/src/harbor/types.ts +1 -0
frontend/tsconfig.app.tsbuildinfo +1 -1

backend/api/harbor_datasets.py CHANGED Viewed

@@ -14,7 +14,7 @@ def _make_id(repo: str, split: str) -> str:
 def _parse_trajectory(traj_json: str) -> dict:
-    """Parse ATIF-v1.2 trajectory JSON into structured steps."""
     if not traj_json:
         return {"steps": [], "agent_info": {}, "final_metrics": {}}
@@ -35,11 +35,13 @@ def _parse_trajectory(traj_json: str) -> dict:
             parsed["reasoning"] = step.get("reasoning_content", "")
             parsed["tool_calls"] = []
             for tc in step.get("tool_calls", []):
                 tool_call = {
                     "function": tc.get("function_name", ""),
-                    "arguments": tc.get("arguments", {}),
                 }
-                cmd = tc.get("arguments", {}).get("command", "")
                 if cmd:
                     tool_call["command"] = cmd
                 parsed["tool_calls"].append(tool_call)
@@ -144,6 +146,82 @@ def _parse_trajectory_raw(traj_raw: str) -> list[dict]:
     return steps
 def _build_instance_summary(row: dict) -> dict:
     """Build a summary for one instance row."""
     return {
@@ -240,8 +318,10 @@ def get_instance(ds_id, instance_id):
     # Parse ATIF trajectory
     atif = _parse_trajectory(row.get("trajectory", ""))
-    # Parse raw trajectory (OpenAI messages)
     raw_steps = _parse_trajectory_raw(row.get("trajectory_raw", ""))
     return jsonify({
         "instance_id": instance_id,

 def _parse_trajectory(traj_json: str) -> dict:
+    """Parse ATIF trajectory JSON into structured steps (v1.2 and v1.5)."""
     if not traj_json:
         return {"steps": [], "agent_info": {}, "final_metrics": {}}
             parsed["reasoning"] = step.get("reasoning_content", "")
             parsed["tool_calls"] = []
             for tc in step.get("tool_calls", []):
+                args = tc.get("arguments", {})
                 tool_call = {
                     "function": tc.get("function_name", ""),
+                    "arguments": args,
                 }
+                # v1.2 uses "command", v1.5 uses "cmd"
+                cmd = args.get("command", "") or args.get("cmd", "")
                 if cmd:
                     tool_call["command"] = cmd
                 parsed["tool_calls"].append(tool_call)
     return steps
+def _parse_agent_output_jsonl(agent_output: str) -> list[dict]:
+    """Parse Codex-style JSONL agent_output into chat-style steps.
+    Codex emits newline-delimited JSON with item.completed events containing
+    reasoning, agent_message, and command_execution items.  Falls back
+    gracefully if the format is unrecognised.
+    """
+    if not agent_output:
+        return []
+    steps: list[dict] = []
+    idx = 0
+    for line in agent_output.strip().split("\n"):
+        try:
+            event = json.loads(line)
+        except (json.JSONDecodeError, TypeError):
+            continue
+        if event.get("type") != "item.completed":
+            continue
+        item = event.get("item", {})
+        item_type = item.get("type", "")
+        if item_type == "reasoning":
+            steps.append({
+                "index": idx,
+                "role": "assistant",
+                "content": item.get("text", ""),
+                "_reasoning": True,
+            })
+            idx += 1
+        elif item_type == "agent_message":
+            steps.append({
+                "index": idx,
+                "role": "assistant",
+                "content": item.get("text", ""),
+            })
+            idx += 1
+        elif item_type == "command_execution":
+            cmd = item.get("command", "")
+            call_id = item.get("call_id", item.get("id", ""))
+            # Assistant step with tool call
+            steps.append({
+                "index": idx,
+                "role": "assistant",
+                "content": "",
+                "tool_calls": [{
+                    "id": call_id,
+                    "function": "exec_command",
+                    "arguments_raw": json.dumps({"command": cmd}),
+                    "arguments": {"command": cmd},
+                    "command": cmd,
+                }],
+            })
+            idx += 1
+            # Tool response step
+            output = item.get("output", "")
+            exit_code = item.get("exit_code")
+            response_text = output
+            if exit_code is not None:
+                response_text = f"[exit code: {exit_code}]\n{output}" if output else f"[exit code: {exit_code}]"
+            steps.append({
+                "index": idx,
+                "role": "tool",
+                "content": response_text,
+                "tool_call_id": call_id,
+            })
+            idx += 1
+    return steps
 def _build_instance_summary(row: dict) -> dict:
     """Build a summary for one instance row."""
     return {
     # Parse ATIF trajectory
     atif = _parse_trajectory(row.get("trajectory", ""))
+    # Parse raw trajectory (OpenAI messages), fall back to agent_output JSONL
     raw_steps = _parse_trajectory_raw(row.get("trajectory_raw", ""))
+    if not raw_steps and row.get("agent_output"):
+        raw_steps = _parse_agent_output_jsonl(row["agent_output"])
     return jsonify({
         "instance_id": instance_id,

frontend/src/harbor/components/ChatBubble.tsx CHANGED Viewed

@@ -39,6 +39,22 @@ export function RawBubble({ step, toolResponses }: RawBubbleProps) {
     );
   }
   if (step.role === "assistant") {
     return (
       <div className="flex justify-end mb-3">

     );
   }
+  if (step.role === "assistant" && step._reasoning) {
+    return (
+      <div className="flex justify-end mb-3">
+        <div className="max-w-[85%] rounded-lg px-4 py-3 bg-violet-900/20 border border-violet-800/30">
+          <div className="text-xs font-medium text-violet-400 mb-1">Reasoning</div>
+          <ContentBlock
+            content={step.content}
+            expanded={expanded}
+            onToggle={() => setExpanded(!expanded)}
+            maxPreview={300}
+          />
+        </div>
+      </div>
+    );
+  }
   if (step.role === "assistant") {
     return (
       <div className="flex justify-end mb-3">

frontend/src/harbor/types.ts CHANGED Viewed

@@ -50,6 +50,7 @@ export interface RawStep {
   content: string;
   tool_calls?: RawToolCall[];
   tool_call_id?: string;
 }
 export interface RawToolCall {

   content: string;
   tool_calls?: RawToolCall[];
   tool_call_id?: string;
+  _reasoning?: boolean;
 }
 export interface RawToolCall {

frontend/tsconfig.app.tsbuildinfo CHANGED Viewed

@@ -1 +1 @@

- {"root":["./src/app.tsx","./src/main.tsx","./src/vite-env.d.ts","./src/arena/arenaapp.tsx","./src/arena/api.ts","./src/arena/store.ts","./src/arena/types.ts","./src/arena/components/episodebar.tsx","./src/arena/components/episodenav.tsx","./src/arena/components/sidebar.tsx","./src/arena/components/transcriptpanel.tsx","./src/arena/utils/tracehighlight.ts","./src/harbor/harborapp.tsx","./src/harbor/api.ts","./src/harbor/store.ts","./src/harbor/types.ts","./src/harbor/components/chatbubble.tsx","./src/harbor/components/infobar.tsx","./src/harbor/components/instancelist.tsx","./src/harbor/components/instancenav.tsx","./src/harbor/components/metricssummary.tsx","./src/harbor/components/sidebar.tsx","./src/harbor/components/stepdetail.tsx","./src/harbor/components/trajectoryview.tsx","./src/model/modelapp.tsx","./src/model/api.ts","./src/model/store.ts","./src/model/types.ts","./src/model/components/infobar.tsx","./src/model/components/questionnav.tsx","./src/model/components/sidebar.tsx","./src/model/components/tracepanel.tsx","./src/model/utils/promptparser.ts","./src/model/utils/tracehighlight.ts","./src/rlm/rlmapp.tsx","./src/rlm/api.ts","./src/rlm/store.ts","./src/rlm/types.ts","./src/rlm/components/breadcrumb.tsx","./src/rlm/components/datasetselector.tsx","./src/rlm/components/gepaiterlevel.tsx","./src/rlm/components/overviewlevel.tsx","./src/rlm/components/panel.tsx","./src/rlm/components/rlmdetaillevel.tsx","./src/rlm/components/sidebar.tsx"],"version":"5.9.3"}

+ {"root":["./src/app.tsx","./src/main.tsx","./src/vite-env.d.ts","./src/arena/arenaapp.tsx","./src/arena/api.ts","./src/arena/store.ts","./src/arena/types.ts","./src/arena/components/episodebar.tsx","./src/arena/components/episodenav.tsx","./src/arena/components/sidebar.tsx","./src/arena/components/transcriptpanel.tsx","./src/arena/utils/tracehighlight.ts","./src/harbor/harborapp.tsx","./src/harbor/api.ts","./src/harbor/store.ts","./src/harbor/types.ts","./src/harbor/components/chatbubble.tsx","./src/harbor/components/infobar.tsx","./src/harbor/components/instancelist.tsx","./src/harbor/components/instancenav.tsx","./src/harbor/components/metricssummary.tsx","./src/harbor/components/sidebar.tsx","./src/harbor/components/stepdetail.tsx","./src/harbor/components/trajectoryview.tsx","./src/model/modelapp.tsx","./src/model/api.ts","./src/model/store.ts","./src/model/types.ts","./src/model/components/infobar.tsx","./src/model/components/questionnav.tsx","./src/model/components/sidebar.tsx","./src/model/components/tracepanel.tsx","./src/model/utils/promptparser.ts","./src/model/utils/tracehighlight.ts","./src/rlm/rlmapp.tsx","./src/rlm/api.ts","./src/rlm/store.ts","./src/rlm/types.ts","./src/rlm/components/breadcrumb.tsx","./src/rlm/components/datasetselector.tsx","./src/rlm/components/gepaiterlevel.tsx","./src/rlm/components/overviewlevel.tsx","./src/rlm/components/panel.tsx","./src/rlm/components/rlmdetaillevel.tsx","./src/rlm/components/sidebar.tsx","./src/rlm-eval/rlmevalapp.tsx","./src/rlm-eval/api.ts","./src/rlm-eval/store.ts","./src/rlm-eval/types.ts","./src/rlm-eval/components/breadcrumb.tsx","./src/rlm-eval/components/datasetselector.tsx","./src/rlm-eval/components/exampledetaillevel.tsx","./src/rlm-eval/components/iterationdetail.tsx","./src/rlm-eval/components/overviewlevel.tsx","./src/rlm-eval/components/panel.tsx","./src/rlm-eval/components/sidebar.tsx"],"version":"5.9.3"}