Spaces:

JetBrains-Research
/

SWE-bench-Costs-Calculator

Running

IgorSlinko commited on 2 days ago

Commit

f734731

1 Parent(s): b8e0bce

Fix routing charts: remove uncached_input, add Use Cache support (v0.3.43)

- Apply same uncached formula to routing charts (uncached_input = 0 with cache)
- Recalculate routing charts when Use Cache or Tokenizer Overhead changes

Files changed (1) hide show

app.py +55 -5

app.py CHANGED Viewed

@@ -1839,7 +1839,7 @@ def build_app():
         """)
         trajectories_state = gr.State(None)
-        gr.Markdown("# 🧮 SWE-bench analytics tool `v0.3.42`")
         gr.Markdown("### *Calculate cost savings with different routing strategies.*")
         gr.Markdown("## 🎯 Select a base model for cost analysis (click a row)")
@@ -2638,8 +2638,32 @@ def build_app():
             result_lines.append(f'| **Savings** | <span style="color: {savings_color}; font-weight: bold;">${savings:.2f} · {savings_pct:.1f}%</span> |')
             result_text = "\n".join(result_lines)
-            additional_token_models = [(rc["name"], rc["tokens"]) for rc in routing_costs_list]
-            additional_cost_models = [(rc["name"], rc["costs"]) for rc in routing_costs_list]
             if df_calc is not None and not df_calc.empty:
                 df_temp = df_for_cost.copy()
@@ -2651,12 +2675,12 @@ def build_app():
                     "completion": df_for_cost["completion_tokens"].sum(),
                 }
             else:
-                original_tokens_from_df = total_original_tokens
             original_costs = tokens_to_costs(original_tokens_from_df, base_prices)
             base_model_name = detected_model_val or "Base"
-            tokens_chart = create_routed_token_chart(original_tokens_from_df, total_base_tokens, additional_token_models, base_model_name)
             cost_chart = create_routed_cost_chart(original_costs, base_costs, additional_cost_models, base_model_name)
             yield (
@@ -3013,6 +3037,24 @@ def build_app():
         single_traj_inputs = [trajectories_state, single_traj_dropdown, price_input, price_cache_read, price_cache_creation, price_completion, thinking_overhead, use_cache]
         single_traj_outputs = [single_traj_plot, single_traj_cost_plot]
         thinking_overhead.change(
             fn=on_calc_options_change,
             inputs=calc_options_inputs,
@@ -3021,6 +3063,10 @@ def build_app():
             fn=on_single_traj_select,
             inputs=single_traj_inputs,
             outputs=single_traj_outputs,
         )
         use_cache.change(
@@ -3031,6 +3077,10 @@ def build_app():
             fn=on_single_traj_select,
             inputs=single_traj_inputs,
             outputs=single_traj_outputs,
         )
     return app

         """)
         trajectories_state = gr.State(None)
+        gr.Markdown("# 🧮 SWE-bench analytics tool `v0.3.43`")
         gr.Markdown("### *Calculate cost savings with different routing strategies.*")
         gr.Markdown("## 🎯 Select a base model for cost analysis (click a row)")
             result_lines.append(f'| **Savings** | <span style="color: {savings_color}; font-weight: bold;">${savings:.2f} · {savings_pct:.1f}%</span> |')
             result_text = "\n".join(result_lines)
+            def apply_display_formula(tokens: dict) -> dict:
+                prompt = tokens["cache_read"] + tokens["uncached_input"]
+                if with_cache:
+                    uncached_display = max(0, prompt - tokens["cache_read"] - tokens["cache_creation"])
+                    return {
+                        "uncached_input": uncached_display,
+                        "cache_read": tokens["cache_read"],
+                        "cache_creation": tokens["cache_creation"],
+                        "completion": tokens["completion"],
+                    }
+                else:
+                    return {
+                        "uncached_input": prompt,
+                        "cache_read": 0,
+                        "cache_creation": 0,
+                        "completion": tokens["completion"],
+                    }
+            total_base_tokens_display = apply_display_formula(total_base_tokens)
+            base_costs = tokens_to_costs(total_base_tokens_display, base_prices)
+            additional_token_models = [(rc["name"], apply_display_formula(rc["tokens"])) for rc in routing_costs_list]
+            additional_cost_models = []
+            for i, rc in enumerate(routing_costs_list):
+                model_prices = routing_models[i]["prices"]
+                additional_cost_models.append((rc["name"], tokens_to_costs(apply_display_formula(rc["tokens"]), model_prices)))
             if df_calc is not None and not df_calc.empty:
                 df_temp = df_for_cost.copy()
                     "completion": df_for_cost["completion_tokens"].sum(),
                 }
             else:
+                original_tokens_from_df = apply_display_formula(total_original_tokens)
             original_costs = tokens_to_costs(original_tokens_from_df, base_prices)
             base_model_name = detected_model_val or "Base"
+            tokens_chart = create_routed_token_chart(original_tokens_from_df, total_base_tokens_display, additional_token_models, base_model_name)
             cost_chart = create_routed_cost_chart(original_costs, base_costs, additional_cost_models, base_model_name)
             yield (
         single_traj_inputs = [trajectories_state, single_traj_dropdown, price_input, price_cache_read, price_cache_creation, price_completion, thinking_overhead, use_cache]
         single_traj_outputs = [single_traj_plot, single_traj_cost_plot]
+        routing_inputs = [
+            trajectories_state,
+            price_input, price_cache_read, price_cache_creation, price_completion,
+            routing_model_1, routing_price_1_input, routing_price_1_cache_read, routing_price_1_cache_creation, routing_price_1_completion,
+            routing_model_2, routing_price_2_input, routing_price_2_cache_read, routing_price_2_cache_creation, routing_price_2_completion,
+            routing_model_3, routing_price_3_input, routing_price_3_cache_read, routing_price_3_cache_creation, routing_price_3_completion,
+            selected_strategy,
+            weight_base, weight_model_1, weight_model_2, weight_model_3,
+            k_model_1, k_model_2, k_model_3,
+            slice_model_1, slice_model_2, slice_model_3,
+            grep_model_1, grep_model_2, grep_model_3,
+            resolved_model, unresolved_model,
+            part_mode, start_1, end_1, start_2, end_2, start_3, end_3,
+            thinking_overhead, use_cache,
+            detected_model,
+        ]
+        routing_outputs = [routing_result, routing_plots_row, routing_tokens_plot, routing_cost_plot]
         thinking_overhead.change(
             fn=on_calc_options_change,
             inputs=calc_options_inputs,
             fn=on_single_traj_select,
             inputs=single_traj_inputs,
             outputs=single_traj_outputs,
+        ).then(
+            fn=run_routing,
+            inputs=routing_inputs,
+            outputs=routing_outputs,
         )
         use_cache.change(
             fn=on_single_traj_select,
             inputs=single_traj_inputs,
             outputs=single_traj_outputs,
+        ).then(
+            fn=run_routing,
+            inputs=routing_inputs,
+            outputs=routing_outputs,
         )
     return app