Spaces:

JetBrains-Research
/

SWE-bench-Costs-Calculator

Sleeping

IgorSlinko commited on 3 days ago

Commit

33c5576

1 Parent(s): 8a1286e

Fix routing charts: stack models within each category (v0.3.22)

- X-axis: token/cost types (Uncached Input, Cache Read, etc.)
- Within each category, models are stacked (Base on bottom, others on top)

Files changed (1) hide show

app.py +49 -33

app.py CHANGED Viewed

@@ -1165,6 +1165,7 @@ def select_first_row(df: pd.DataFrame):
 def create_routed_token_chart(base_tokens: dict, additional_models: list):
     """
     Create stacked bar chart for tokens by type, comparing base vs additional models.
     Args:
         base_tokens: dict with uncached_input, cache_read, cache_creation, completion
@@ -1172,30 +1173,37 @@ def create_routed_token_chart(base_tokens: dict, additional_models: list):
     """
     import plotly.graph_objects as go
-    token_types = ["uncached_input", "cache_read", "cache_creation", "completion"]
-    token_labels = ["Uncached Input", "Cache Read", "Cache Creation", "Completion"]
-    colors = ["#EF553B", "#19D3F3", "#FFA15A", "#AB63FA"]
-    model_names = ["Base Model"] + [m[0] or f"Model {i+1}" for i, m in enumerate(additional_models)]
-    all_tokens = [base_tokens] + [m[1] for m in additional_models]
     fig = go.Figure()
-    for token_type, label, color in zip(token_types, token_labels, colors):
-        values = [t.get(token_type, 0) / 1e6 for t in all_tokens]
         fig.add_trace(go.Bar(
-            name=label,
-            x=model_names,
             y=values,
             marker_color=color,
-            hovertemplate="%{x}<br>" + label + ": %{y:.3f}M<extra></extra>",
         ))
-    model_totals = []
-    for name, tokens in zip(model_names, all_tokens):
-        total = sum(tokens.get(k, 0) for k in token_types)
-        model_totals.append((name, total))
     grand_total = sum(t for _, t in model_totals)
     annotation_lines = [f"<b>Total: {grand_total/1e6:.2f}M</b>"]
     for name, total in model_totals:
@@ -1223,6 +1231,7 @@ def create_routed_token_chart(base_tokens: dict, additional_models: list):
 def create_routed_cost_chart(base_costs: dict, additional_models: list):
     """
     Create stacked bar chart for costs by type, comparing base vs additional models.
     Args:
         base_costs: dict with uncached_input, cache_read, cache_creation, completion
@@ -1230,30 +1239,37 @@ def create_routed_cost_chart(base_costs: dict, additional_models: list):
     """
     import plotly.graph_objects as go
-    cost_types = ["uncached_input", "cache_read", "cache_creation", "completion"]
-    cost_labels = ["Uncached Input", "Cache Read", "Cache Creation", "Completion"]
-    colors = ["#EF553B", "#19D3F3", "#FFA15A", "#AB63FA"]
-    model_names = ["Base Model"] + [m[0] or f"Model {i+1}" for i, m in enumerate(additional_models)]
-    all_costs = [base_costs] + [m[1] for m in additional_models]
     fig = go.Figure()
-    for cost_type, label, color in zip(cost_types, cost_labels, colors):
-        values = [c.get(cost_type, 0) for c in all_costs]
         fig.add_trace(go.Bar(
-            name=label,
-            x=model_names,
             y=values,
             marker_color=color,
-            hovertemplate="%{x}<br>" + label + ": $%{y:.2f}<extra></extra>",
         ))
-    model_totals = []
-    for name, costs in zip(model_names, all_costs):
-        total = sum(costs.get(k, 0) for k in cost_types)
-        model_totals.append((name, total))
     grand_total = sum(t for _, t in model_totals)
     annotation_lines = [f"<b>Total: ${grand_total:.2f}</b>"]
     for name, total in model_totals:
@@ -1306,7 +1322,7 @@ def build_app():
         """)
         trajectories_state = gr.State(None)
-        gr.Markdown("# 🧮 SWE-bench Bash-Only Leaderboard `v0.3.21`")
         gr.Markdown("## 🎯 Select a base model for cost analysis (click a row)")
         with gr.Row():

 def create_routed_token_chart(base_tokens: dict, additional_models: list):
     """
     Create stacked bar chart for tokens by type, comparing base vs additional models.
+    X-axis: token types, bars stacked by model.
     Args:
         base_tokens: dict with uncached_input, cache_read, cache_creation, completion
     """
     import plotly.graph_objects as go
+    categories = ["Uncached Input", "Cache Read", "Cache Creation", "Completion"]
+    token_keys = ["uncached_input", "cache_read", "cache_creation", "completion"]
+    colors = ["#636EFA", "#EF553B", "#00CC96", "#AB63FA", "#FFA15A"]
     fig = go.Figure()
+    base_total = sum(base_tokens.get(k, 0) for k in token_keys)
+    base_values = [base_tokens.get(k, 0) / 1e6 for k in token_keys]
+    fig.add_trace(go.Bar(
+        name="Base Model",
+        x=categories,
+        y=base_values,
+        marker_color=colors[0],
+        hovertemplate="%{x}<br>Base Model: %{y:.3f}M<extra></extra>",
+    ))
+    model_totals = [("Base Model", base_total)]
+    for i, (model_name, tokens) in enumerate(additional_models):
+        model_total = sum(tokens.get(k, 0) for k in token_keys)
+        model_totals.append((model_name or f"Model {i+1}", model_total))
+        values = [tokens.get(k, 0) / 1e6 for k in token_keys]
+        color = colors[(i + 1) % len(colors)]
         fig.add_trace(go.Bar(
+            name=model_name or f"Model {i+1}",
+            x=categories,
             y=values,
             marker_color=color,
+            hovertemplate="%{x}<br>" + (model_name or f"Model {i+1}") + ": %{y:.3f}M<extra></extra>",
         ))
     grand_total = sum(t for _, t in model_totals)
     annotation_lines = [f"<b>Total: {grand_total/1e6:.2f}M</b>"]
     for name, total in model_totals:
 def create_routed_cost_chart(base_costs: dict, additional_models: list):
     """
     Create stacked bar chart for costs by type, comparing base vs additional models.
+    X-axis: cost types, bars stacked by model.
     Args:
         base_costs: dict with uncached_input, cache_read, cache_creation, completion
     """
     import plotly.graph_objects as go
+    categories = ["Uncached Input", "Cache Read", "Cache Creation", "Completion"]
+    cost_keys = ["uncached_input", "cache_read", "cache_creation", "completion"]
+    colors = ["#636EFA", "#EF553B", "#00CC96", "#AB63FA", "#FFA15A"]
     fig = go.Figure()
+    base_total = sum(base_costs.get(k, 0) for k in cost_keys)
+    base_values = [base_costs.get(k, 0) for k in cost_keys]
+    fig.add_trace(go.Bar(
+        name="Base Model",
+        x=categories,
+        y=base_values,
+        marker_color=colors[0],
+        hovertemplate="%{x}<br>Base Model: $%{y:.2f}<extra></extra>",
+    ))
+    model_totals = [("Base Model", base_total)]
+    for i, (model_name, costs) in enumerate(additional_models):
+        model_total = sum(costs.get(k, 0) for k in cost_keys)
+        model_totals.append((model_name or f"Model {i+1}", model_total))
+        values = [costs.get(k, 0) for k in cost_keys]
+        color = colors[(i + 1) % len(colors)]
         fig.add_trace(go.Bar(
+            name=model_name or f"Model {i+1}",
+            x=categories,
             y=values,
             marker_color=color,
+            hovertemplate="%{x}<br>" + (model_name or f"Model {i+1}") + ": $%{y:.2f}<extra></extra>",
         ))
     grand_total = sum(t for _, t in model_totals)
     annotation_lines = [f"<b>Total: ${grand_total:.2f}</b>"]
     for name, total in model_totals:
         """)
         trajectories_state = gr.State(None)
+        gr.Markdown("# 🧮 SWE-bench Bash-Only Leaderboard `v0.3.22`")
         gr.Markdown("## 🎯 Select a base model for cost analysis (click a row)")
         with gr.Row():