Spaces:

evalstate
/

hf-papers

Sleeping

App Files Files Community

evalstate HF Staff commited on Feb 10

Commit

9f3a06b

verified ·

1 Parent(s): d9c13fd

add clean tool-description evaluation charts and summary

Browse files

Files changed (29) hide show

.gitattributes +1 -0
docs/tool_description_eval/clean_release_20260209/SUMMARY.md +19 -0
docs/tool_description_eval/clean_release_20260209/bar_avg_calls_by_model.png +0 -0
docs/tool_description_eval/clean_release_20260209/bar_avg_exchange_chars_by_model.png +0 -0
docs/tool_description_eval/clean_release_20260209/bar_avg_score_by_model.png +0 -0
docs/tool_description_eval/clean_release_20260209/bar_first_call_ok_by_model.png +0 -0
docs/tool_description_eval/clean_release_20260209/heat_avg_calls.png +0 -0
docs/tool_description_eval/clean_release_20260209/heat_avg_exchange_chars.png +0 -0
docs/tool_description_eval/clean_release_20260209/heat_avg_score.png +0 -0
docs/tool_description_eval/clean_release_20260209/heat_first_call_ok.png +0 -0
docs/tool_description_eval/clean_release_20260209/model_compare_answer_norm.png +0 -0
docs/tool_description_eval/clean_release_20260209/model_compare_answer_pass.png +0 -0
docs/tool_description_eval/clean_release_20260209/model_compare_avg_delegation_chars.png +0 -0
docs/tool_description_eval/clean_release_20260209/model_compare_avg_exchange_chars.png +0 -0
docs/tool_description_eval/clean_release_20260209/model_compare_avg_tool_calls.png +0 -0
docs/tool_description_eval/clean_release_20260209/model_compare_pareto_answer_vs_exchange.png +3 -0
docs/tool_description_eval/clean_release_20260209/overall_variant_pareto_chart.png +0 -0
docs/tool_description_eval/clean_release_20260209/overall_variant_summary_chart.png +0 -0
docs/tool_description_eval/clean_release_20260209/scatter_calls_vs_first_ok.png +0 -0
docs/tool_description_eval/clean_release_20260209/scatter_exchange_vs_first_ok.png +0 -0
docs/tool_description_eval/clean_release_20260209/tool_description_ab_summary.filtered.csv +19 -0
docs/tool_description_eval/clean_release_20260209/tool_description_ab_summary.filtered.json +308 -0
docs/tool_description_eval/clean_release_20260209/tool_description_answer_summary.filtered.csv +19 -0
docs/tool_description_eval/clean_release_20260209/tool_description_answer_summary.filtered.json +146 -0
docs/tool_description_eval/clean_release_20260209/tool_description_dashboard.csv +19 -0
docs/tool_description_eval/clean_release_20260209/tool_description_dashboard.json +344 -0
docs/tool_description_eval/clean_release_20260209/tool_description_dashboard.md +35 -0
docs/tool_description_eval/clean_release_20260209/tool_description_interpretation.md +28 -0
docs/tool_description_eval/clean_release_20260209/tool_description_model_comparison.md +21 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+docs/tool_description_eval/clean_release_20260209/model_compare_pareto_answer_vs_exchange.png filter=lfs diff=lfs merge=lfs -text

docs/tool_description_eval/clean_release_20260209/SUMMARY.md ADDED Viewed

	@@ -0,0 +1,19 @@

+# Clean Description-Test Summary (release view)
+Filtered to variants: **minimal, structured, verbose_noisy** and models excluding **grok-4-fast**.
+## Variant ranking (cross-model means)
+| Rank | Variant | Mean composite | Mean answer | Mean pass | Mean exchange chars | Mean tool calls |
+|---:|---|---:|---:|---:|---:|---:|
+| 1 | structured | 0.8577 | 0.8667 | 0.8542 | 1126.4 | 0.958 |
+| 2 | minimal | 0.8499 | 0.8646 | 0.8125 | 1399.1 | 1.125 |
+| 3 | verbose_noisy | 0.8440 | 0.8500 | 0.8125 | 1128.7 | 0.958 |
+**Recommended deployed default:** `structured` (best mean composite).
+## Key charts
+- `overall_variant_summary_chart.png` (single-glance summary)
+- `overall_variant_pareto_chart.png` (quality vs chattiness)
+- `model_compare_answer_norm.png` and `model_compare_avg_exchange_chars.png` (per-model comparisons)

docs/tool_description_eval/clean_release_20260209/bar_avg_calls_by_model.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/bar_avg_exchange_chars_by_model.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/bar_avg_score_by_model.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/bar_first_call_ok_by_model.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/heat_avg_calls.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/heat_avg_exchange_chars.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/heat_avg_score.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/heat_first_call_ok.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/model_compare_answer_norm.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/model_compare_answer_pass.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/model_compare_avg_delegation_chars.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/model_compare_avg_exchange_chars.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/model_compare_avg_tool_calls.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/model_compare_pareto_answer_vs_exchange.png ADDED Viewed

Git LFS Details

SHA256: 248fd3641c449fa429bc5d41a79fe4f4fe99f86cb0955df9d4d0cac2c2752a87
Pointer size: 131 Bytes
Size of remote file: 110 kB

docs/tool_description_eval/clean_release_20260209/overall_variant_pareto_chart.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/overall_variant_summary_chart.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/scatter_calls_vs_first_ok.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/scatter_exchange_vs_first_ok.png ADDED Viewed

docs/tool_description_eval/clean_release_20260209/tool_description_ab_summary.filtered.csv ADDED Viewed

	@@ -0,0 +1,19 @@

+variant,model,actual_model,n_cases,success_rate,tool_use_rate,avg_tool_calls,avg_endpoint_calls,avg_tool_request_chars,avg_tool_response_chars,avg_tool_exchange_chars,total_tool_exchange_chars,avg_delegation_chars,first_call_ok_rate,avg_score_total
+minimal,glm,zai-org/GLM-4.7,8,1.0,1.0,1.875,0.0,196.8,1997.0,2193.8,17550,91.88,,
+minimal,gpt-5-mini,gpt-5-mini,8,1.0,0.75,0.875,0.0,246.8,2041.9,2288.6,18309,277.67,,
+minimal,haiku,claude-haiku-4-5,8,1.0,0.875,1.25,0.0,100.6,1004.2,1104.9,8839,66.43,,
+minimal,kimi,moonshotai/Kimi-K2-Instruct-0905,8,1.0,1.0,1.0,0.0,99.5,316.8,416.2,3330,84.25,,
+minimal,kimi25,moonshotai/Kimi-K2.5,8,1.0,0.875,1.0,0.0,129.0,1545.4,1674.4,13395,113.14,,
+minimal,minimax,MiniMaxAI/MiniMax-M2.1,8,1.0,0.75,0.75,0.0,123.5,593.5,717.0,5736,149.0,,
+structured,glm,zai-org/GLM-4.7,8,1.0,0.75,1.125,0.0,160.5,805.2,965.8,7726,151.17,,
+structured,gpt-5-mini,gpt-5-mini,8,1.0,0.875,1.0,0.0,329.1,1822.8,2151.9,17215,314.43,,
+structured,haiku,claude-haiku-4-5,8,1.0,0.75,0.875,0.0,69.5,717.2,786.8,6294,68.5,,
+structured,kimi,moonshotai/Kimi-K2-Instruct-0905,8,1.0,1.0,1.125,0.0,96.5,500.0,596.5,4772,75.38,,
+structured,kimi25,moonshotai/Kimi-K2.5,8,1.0,0.875,1.0,0.0,112.1,1348.1,1460.2,11682,100.71,,
+structured,minimax,MiniMaxAI/MiniMax-M2.1,8,1.0,0.625,0.625,0.0,187.2,610.0,797.2,6378,280.0,,
+verbose_noisy,glm,zai-org/GLM-4.7,8,1.0,0.875,1.0,0.0,189.1,1115.0,1304.1,10433,168.29,,
+verbose_noisy,gpt-5-mini,gpt-5-mini,8,1.0,0.625,0.75,0.0,282.6,844.6,1127.2,9018,343.8,,
+verbose_noisy,haiku,claude-haiku-4-5,8,1.0,0.875,1.0,0.0,124.8,1119.9,1244.6,9957,118.86,,
+verbose_noisy,kimi,moonshotai/Kimi-K2-Instruct-0905,8,1.0,1.0,1.0,0.0,99.5,507.0,606.5,4852,84.5,,
+verbose_noisy,kimi25,moonshotai/Kimi-K2.5,8,1.0,0.875,1.25,0.0,213.8,1673.6,1887.4,15099,159.71,,
+verbose_noisy,minimax,MiniMaxAI/MiniMax-M2.1,8,1.0,0.75,0.75,0.0,121.9,480.4,602.2,4818,145.5,,

docs/tool_description_eval/clean_release_20260209/tool_description_ab_summary.filtered.json ADDED Viewed

	@@ -0,0 +1,308 @@

+[
+  {
+    "variant": "minimal",
+    "model": "glm",
+    "actual_model": "zai-org/GLM-4.7",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 1.0,
+    "avg_tool_calls": 1.875,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 196.8,
+    "avg_tool_response_chars": 1997.0,
+    "avg_tool_exchange_chars": 2193.8,
+    "total_tool_exchange_chars": 17550,
+    "avg_delegation_chars": 91.88,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "minimal",
+    "model": "gpt-5-mini",
+    "actual_model": "gpt-5-mini",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.75,
+    "avg_tool_calls": 0.875,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 246.8,
+    "avg_tool_response_chars": 2041.9,
+    "avg_tool_exchange_chars": 2288.6,
+    "total_tool_exchange_chars": 18309,
+    "avg_delegation_chars": 277.67,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "minimal",
+    "model": "haiku",
+    "actual_model": "claude-haiku-4-5",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.25,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 100.6,
+    "avg_tool_response_chars": 1004.2,
+    "avg_tool_exchange_chars": 1104.9,
+    "total_tool_exchange_chars": 8839,
+    "avg_delegation_chars": 66.43,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "minimal",
+    "model": "kimi",
+    "actual_model": "moonshotai/Kimi-K2-Instruct-0905",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 1.0,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 99.5,
+    "avg_tool_response_chars": 316.8,
+    "avg_tool_exchange_chars": 416.2,
+    "total_tool_exchange_chars": 3330,
+    "avg_delegation_chars": 84.25,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "minimal",
+    "model": "kimi25",
+    "actual_model": "moonshotai/Kimi-K2.5",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 129.0,
+    "avg_tool_response_chars": 1545.4,
+    "avg_tool_exchange_chars": 1674.4,
+    "total_tool_exchange_chars": 13395,
+    "avg_delegation_chars": 113.14,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "minimal",
+    "model": "minimax",
+    "actual_model": "MiniMaxAI/MiniMax-M2.1",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.75,
+    "avg_tool_calls": 0.75,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 123.5,
+    "avg_tool_response_chars": 593.5,
+    "avg_tool_exchange_chars": 717.0,
+    "total_tool_exchange_chars": 5736,
+    "avg_delegation_chars": 149.0,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "structured",
+    "model": "glm",
+    "actual_model": "zai-org/GLM-4.7",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.75,
+    "avg_tool_calls": 1.125,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 160.5,
+    "avg_tool_response_chars": 805.2,
+    "avg_tool_exchange_chars": 965.8,
+    "total_tool_exchange_chars": 7726,
+    "avg_delegation_chars": 151.17,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "structured",
+    "model": "gpt-5-mini",
+    "actual_model": "gpt-5-mini",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 329.1,
+    "avg_tool_response_chars": 1822.8,
+    "avg_tool_exchange_chars": 2151.9,
+    "total_tool_exchange_chars": 17215,
+    "avg_delegation_chars": 314.43,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "structured",
+    "model": "haiku",
+    "actual_model": "claude-haiku-4-5",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.75,
+    "avg_tool_calls": 0.875,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 69.5,
+    "avg_tool_response_chars": 717.2,
+    "avg_tool_exchange_chars": 786.8,
+    "total_tool_exchange_chars": 6294,
+    "avg_delegation_chars": 68.5,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "structured",
+    "model": "kimi",
+    "actual_model": "moonshotai/Kimi-K2-Instruct-0905",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 1.0,
+    "avg_tool_calls": 1.125,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 96.5,
+    "avg_tool_response_chars": 500.0,
+    "avg_tool_exchange_chars": 596.5,
+    "total_tool_exchange_chars": 4772,
+    "avg_delegation_chars": 75.38,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "structured",
+    "model": "kimi25",
+    "actual_model": "moonshotai/Kimi-K2.5",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 112.1,
+    "avg_tool_response_chars": 1348.1,
+    "avg_tool_exchange_chars": 1460.2,
+    "total_tool_exchange_chars": 11682,
+    "avg_delegation_chars": 100.71,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "structured",
+    "model": "minimax",
+    "actual_model": "MiniMaxAI/MiniMax-M2.1",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.625,
+    "avg_tool_calls": 0.625,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 187.2,
+    "avg_tool_response_chars": 610.0,
+    "avg_tool_exchange_chars": 797.2,
+    "total_tool_exchange_chars": 6378,
+    "avg_delegation_chars": 280.0,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "glm",
+    "actual_model": "zai-org/GLM-4.7",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 189.1,
+    "avg_tool_response_chars": 1115.0,
+    "avg_tool_exchange_chars": 1304.1,
+    "total_tool_exchange_chars": 10433,
+    "avg_delegation_chars": 168.29,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "gpt-5-mini",
+    "actual_model": "gpt-5-mini",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.625,
+    "avg_tool_calls": 0.75,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 282.6,
+    "avg_tool_response_chars": 844.6,
+    "avg_tool_exchange_chars": 1127.2,
+    "total_tool_exchange_chars": 9018,
+    "avg_delegation_chars": 343.8,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "haiku",
+    "actual_model": "claude-haiku-4-5",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 124.8,
+    "avg_tool_response_chars": 1119.9,
+    "avg_tool_exchange_chars": 1244.6,
+    "total_tool_exchange_chars": 9957,
+    "avg_delegation_chars": 118.86,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "kimi",
+    "actual_model": "moonshotai/Kimi-K2-Instruct-0905",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 1.0,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 99.5,
+    "avg_tool_response_chars": 507.0,
+    "avg_tool_exchange_chars": 606.5,
+    "total_tool_exchange_chars": 4852,
+    "avg_delegation_chars": 84.5,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "kimi25",
+    "actual_model": "moonshotai/Kimi-K2.5",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.875,
+    "avg_tool_calls": 1.25,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 213.8,
+    "avg_tool_response_chars": 1673.6,
+    "avg_tool_exchange_chars": 1887.4,
+    "total_tool_exchange_chars": 15099,
+    "avg_delegation_chars": 159.71,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "minimax",
+    "actual_model": "MiniMaxAI/MiniMax-M2.1",
+    "n_cases": 8,
+    "success_rate": 1.0,
+    "tool_use_rate": 0.75,
+    "avg_tool_calls": 0.75,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_request_chars": 121.9,
+    "avg_tool_response_chars": 480.4,
+    "avg_tool_exchange_chars": 602.2,
+    "total_tool_exchange_chars": 4818,
+    "avg_delegation_chars": 145.5,
+    "first_call_ok_rate": null,
+    "avg_score_total": null
+  }
+]

docs/tool_description_eval/clean_release_20260209/tool_description_answer_summary.filtered.csv ADDED Viewed

	@@ -0,0 +1,19 @@

+variant,model,n_cases,answer_pass_rate,avg_answer_score,normalized_answer_score
+minimal,kimi25,8,1.0,9.5,0.95
+structured,minimax,8,1.0,9.25,0.925
+minimal,glm,8,0.875,9.125,0.9125
+minimal,gpt-5-mini,8,0.875,9.125,0.9125
+minimal,haiku,8,0.875,9.125,0.9125
+structured,gpt-5-mini,8,0.875,9.125,0.9125
+structured,kimi25,8,0.875,9.125,0.9125
+verbose_noisy,gpt-5-mini,8,0.875,9.125,0.9125
+verbose_noisy,kimi25,8,0.875,9.125,0.9125
+verbose_noisy,haiku,8,0.875,8.875,0.8875
+verbose_noisy,minimax,8,0.875,8.625,0.8625
+structured,glm,8,0.875,8.5,0.85
+minimal,minimax,8,0.75,8.375,0.8375
+structured,kimi,8,0.75,8.125,0.8125
+structured,haiku,8,0.75,7.875,0.7875
+verbose_noisy,glm,8,0.75,7.875,0.7875
+verbose_noisy,kimi,8,0.625,7.375,0.7375
+minimal,kimi,8,0.5,6.625,0.6625

docs/tool_description_eval/clean_release_20260209/tool_description_answer_summary.filtered.json ADDED Viewed

	@@ -0,0 +1,146 @@

+[
+  {
+    "variant": "minimal",
+    "model": "kimi25",
+    "n_cases": 8,
+    "answer_pass_rate": 1.0,
+    "avg_answer_score": 9.5,
+    "normalized_answer_score": 0.95
+  },
+  {
+    "variant": "structured",
+    "model": "minimax",
+    "n_cases": 8,
+    "answer_pass_rate": 1.0,
+    "avg_answer_score": 9.25,
+    "normalized_answer_score": 0.925
+  },
+  {
+    "variant": "minimal",
+    "model": "glm",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "minimal",
+    "model": "gpt-5-mini",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "minimal",
+    "model": "haiku",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "structured",
+    "model": "gpt-5-mini",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "structured",
+    "model": "kimi25",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "gpt-5-mini",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "kimi25",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 9.125,
+    "normalized_answer_score": 0.9125
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "haiku",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 8.875,
+    "normalized_answer_score": 0.8875
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "minimax",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 8.625,
+    "normalized_answer_score": 0.8625
+  },
+  {
+    "variant": "structured",
+    "model": "glm",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "avg_answer_score": 8.5,
+    "normalized_answer_score": 0.85
+  },
+  {
+    "variant": "minimal",
+    "model": "minimax",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "avg_answer_score": 8.375,
+    "normalized_answer_score": 0.8375
+  },
+  {
+    "variant": "structured",
+    "model": "kimi",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "avg_answer_score": 8.125,
+    "normalized_answer_score": 0.8125
+  },
+  {
+    "variant": "structured",
+    "model": "haiku",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "avg_answer_score": 7.875,
+    "normalized_answer_score": 0.7875
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "glm",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "avg_answer_score": 7.875,
+    "normalized_answer_score": 0.7875
+  },
+  {
+    "variant": "verbose_noisy",
+    "model": "kimi",
+    "n_cases": 8,
+    "answer_pass_rate": 0.625,
+    "avg_answer_score": 7.375,
+    "normalized_answer_score": 0.7375
+  },
+  {
+    "variant": "minimal",
+    "model": "kimi",
+    "n_cases": 8,
+    "answer_pass_rate": 0.5,
+    "avg_answer_score": 6.625,
+    "normalized_answer_score": 0.6625
+  }
+]

docs/tool_description_eval/clean_release_20260209/tool_description_dashboard.csv ADDED Viewed

	@@ -0,0 +1,19 @@

+model,variant,actual_model,n_cases,answer_pass_rate,normalized_answer_score,first_call_ok_rate,avg_score_total,avg_tool_calls,avg_endpoint_calls,avg_tool_exchange_chars,avg_delegation_chars,avg_total_tokens,avg_input_tokens,avg_output_tokens,avg_tool_calls_reported,composite
+minimax,structured,MiniMaxAI/MiniMax-M2.1,8,1.0,0.925,,,0.625,0.0,797.2,280.0,1259.75,739.875,519.875,0.625,0.9124970675498518
+kimi25,minimal,moonshotai/Kimi-K2.5,8,1.0,0.95,,,1.0,0.0,1674.4,113.14,1276.25,819.375,456.875,1.0,0.9098262016061369
+haiku,minimal,claude-haiku-4-5,8,0.875,0.9125,,,1.25,0.0,1104.9,66.43,2977.75,2426.25,551.5,1.25,0.893802846893479
+gpt-5-mini,verbose_noisy,gpt-5-mini,8,0.875,0.9125,,,0.75,0.0,1127.2,343.8,1859.5,703.625,1155.875,0.75,0.8932066849458153
+kimi25,structured,moonshotai/Kimi-K2.5,8,0.875,0.9125,,,1.0,0.0,1460.2,100.71,1409.875,893.125,516.75,1.0,0.8847939692269589
+kimi25,verbose_noisy,moonshotai/Kimi-K2.5,8,0.875,0.9125,,,1.25,0.0,1887.4,159.71,1440.625,926.375,514.25,1.25,0.8751926706739843
+haiku,verbose_noisy,claude-haiku-4-5,8,0.875,0.8875,,,1.0,0.0,1244.6,118.86,2681.5,2122.375,559.125,1.0,0.8701383595426448
+gpt-5-mini,structured,gpt-5-mini,8,0.875,0.9125,,,1.0,0.0,2151.9,314.43,2052.625,1083.625,969.0,1.0,0.8698229841021267
+glm,minimal,zai-org/GLM-4.7,8,0.875,0.9125,,,1.875,0.0,2193.8,91.88,2309.125,1546.625,762.5,1.875,0.8690085907309072
+minimax,verbose_noisy,MiniMaxAI/MiniMax-M2.1,8,0.875,0.8625,,,0.75,0.0,602.2,145.5,1192.5,712.125,480.375,0.75,0.8685013030595123
+gpt-5-mini,minimal,gpt-5-mini,8,0.875,0.9125,,,0.875,0.0,2288.6,277.67,1987.0,1063.5,923.5,0.875,0.8672005597782839
+glm,structured,zai-org/GLM-4.7,8,0.875,0.85,,,1.125,0.0,965.8,151.17,1324.375,824.625,499.75,1.125,0.8476221127091086
+minimax,minimal,MiniMaxAI/MiniMax-M2.1,8,0.75,0.8375,,,0.75,0.0,717.0,149.0,1208.875,748.0,460.875,0.75,0.8449169144656289
+kimi,structured,moonshotai/Kimi-K2-Instruct-0905,8,0.75,0.8125,,,1.125,0.0,596.5,75.38,778.0,558.375,219.625,1.125,0.8286831055123738
+haiku,structured,claude-haiku-4-5,8,0.75,0.7875,,,0.875,0.0,786.8,68.5,2249.0,1818.75,430.25,0.875,0.8028070781779222
+glm,verbose_noisy,zai-org/GLM-4.7,8,0.75,0.7875,,,1.0,0.0,1304.1,168.29,1378.0,876.125,501.875,1.0,0.7886269253343062
+kimi,verbose_noisy,moonshotai/Kimi-K2-Instruct-0905,8,0.625,0.7375,,,1.0,0.0,606.5,84.5,658.875,475.125,183.75,1.0,0.7683643984660663
+kimi,minimal,moonshotai/Kimi-K2-Instruct-0905,8,0.5,0.6625,,,1.0,0.0,416.2,84.25,631.0,462.625,168.375,1.0,0.7146312913112515

docs/tool_description_eval/clean_release_20260209/tool_description_dashboard.json ADDED Viewed

	@@ -0,0 +1,344 @@

+[
+  {
+    "model": "minimax",
+    "variant": "structured",
+    "actual_model": "MiniMaxAI/MiniMax-M2.1",
+    "n_cases": 8,
+    "answer_pass_rate": 1.0,
+    "normalized_answer_score": 0.925,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 0.625,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 797.2,
+    "avg_delegation_chars": 280.0,
+    "avg_total_tokens": 1259.75,
+    "avg_input_tokens": 739.875,
+    "avg_output_tokens": 519.875,
+    "avg_tool_calls_reported": 0.625,
+    "composite": 0.9124970675498518
+  },
+  {
+    "model": "kimi25",
+    "variant": "minimal",
+    "actual_model": "moonshotai/Kimi-K2.5",
+    "n_cases": 8,
+    "answer_pass_rate": 1.0,
+    "normalized_answer_score": 0.95,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1674.4,
+    "avg_delegation_chars": 113.14,
+    "avg_total_tokens": 1276.25,
+    "avg_input_tokens": 819.375,
+    "avg_output_tokens": 456.875,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.9098262016061369
+  },
+  {
+    "model": "haiku",
+    "variant": "minimal",
+    "actual_model": "claude-haiku-4-5",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.25,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1104.9,
+    "avg_delegation_chars": 66.43,
+    "avg_total_tokens": 2977.75,
+    "avg_input_tokens": 2426.25,
+    "avg_output_tokens": 551.5,
+    "avg_tool_calls_reported": 1.25,
+    "composite": 0.893802846893479
+  },
+  {
+    "model": "gpt-5-mini",
+    "variant": "verbose_noisy",
+    "actual_model": "gpt-5-mini",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 0.75,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1127.2,
+    "avg_delegation_chars": 343.8,
+    "avg_total_tokens": 1859.5,
+    "avg_input_tokens": 703.625,
+    "avg_output_tokens": 1155.875,
+    "avg_tool_calls_reported": 0.75,
+    "composite": 0.8932066849458153
+  },
+  {
+    "model": "kimi25",
+    "variant": "structured",
+    "actual_model": "moonshotai/Kimi-K2.5",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1460.2,
+    "avg_delegation_chars": 100.71,
+    "avg_total_tokens": 1409.875,
+    "avg_input_tokens": 893.125,
+    "avg_output_tokens": 516.75,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.8847939692269589
+  },
+  {
+    "model": "kimi25",
+    "variant": "verbose_noisy",
+    "actual_model": "moonshotai/Kimi-K2.5",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.25,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1887.4,
+    "avg_delegation_chars": 159.71,
+    "avg_total_tokens": 1440.625,
+    "avg_input_tokens": 926.375,
+    "avg_output_tokens": 514.25,
+    "avg_tool_calls_reported": 1.25,
+    "composite": 0.8751926706739843
+  },
+  {
+    "model": "haiku",
+    "variant": "verbose_noisy",
+    "actual_model": "claude-haiku-4-5",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.8875,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1244.6,
+    "avg_delegation_chars": 118.86,
+    "avg_total_tokens": 2681.5,
+    "avg_input_tokens": 2122.375,
+    "avg_output_tokens": 559.125,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.8701383595426448
+  },
+  {
+    "model": "gpt-5-mini",
+    "variant": "structured",
+    "actual_model": "gpt-5-mini",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 2151.9,
+    "avg_delegation_chars": 314.43,
+    "avg_total_tokens": 2052.625,
+    "avg_input_tokens": 1083.625,
+    "avg_output_tokens": 969.0,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.8698229841021267
+  },
+  {
+    "model": "glm",
+    "variant": "minimal",
+    "actual_model": "zai-org/GLM-4.7",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.875,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 2193.8,
+    "avg_delegation_chars": 91.88,
+    "avg_total_tokens": 2309.125,
+    "avg_input_tokens": 1546.625,
+    "avg_output_tokens": 762.5,
+    "avg_tool_calls_reported": 1.875,
+    "composite": 0.8690085907309072
+  },
+  {
+    "model": "minimax",
+    "variant": "verbose_noisy",
+    "actual_model": "MiniMaxAI/MiniMax-M2.1",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.8625,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 0.75,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 602.2,
+    "avg_delegation_chars": 145.5,
+    "avg_total_tokens": 1192.5,
+    "avg_input_tokens": 712.125,
+    "avg_output_tokens": 480.375,
+    "avg_tool_calls_reported": 0.75,
+    "composite": 0.8685013030595123
+  },
+  {
+    "model": "gpt-5-mini",
+    "variant": "minimal",
+    "actual_model": "gpt-5-mini",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.9125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 0.875,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 2288.6,
+    "avg_delegation_chars": 277.67,
+    "avg_total_tokens": 1987.0,
+    "avg_input_tokens": 1063.5,
+    "avg_output_tokens": 923.5,
+    "avg_tool_calls_reported": 0.875,
+    "composite": 0.8672005597782839
+  },
+  {
+    "model": "glm",
+    "variant": "structured",
+    "actual_model": "zai-org/GLM-4.7",
+    "n_cases": 8,
+    "answer_pass_rate": 0.875,
+    "normalized_answer_score": 0.85,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.125,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 965.8,
+    "avg_delegation_chars": 151.17,
+    "avg_total_tokens": 1324.375,
+    "avg_input_tokens": 824.625,
+    "avg_output_tokens": 499.75,
+    "avg_tool_calls_reported": 1.125,
+    "composite": 0.8476221127091086
+  },
+  {
+    "model": "minimax",
+    "variant": "minimal",
+    "actual_model": "MiniMaxAI/MiniMax-M2.1",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "normalized_answer_score": 0.8375,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 0.75,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 717.0,
+    "avg_delegation_chars": 149.0,
+    "avg_total_tokens": 1208.875,
+    "avg_input_tokens": 748.0,
+    "avg_output_tokens": 460.875,
+    "avg_tool_calls_reported": 0.75,
+    "composite": 0.8449169144656289
+  },
+  {
+    "model": "kimi",
+    "variant": "structured",
+    "actual_model": "moonshotai/Kimi-K2-Instruct-0905",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "normalized_answer_score": 0.8125,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.125,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 596.5,
+    "avg_delegation_chars": 75.38,
+    "avg_total_tokens": 778.0,
+    "avg_input_tokens": 558.375,
+    "avg_output_tokens": 219.625,
+    "avg_tool_calls_reported": 1.125,
+    "composite": 0.8286831055123738
+  },
+  {
+    "model": "haiku",
+    "variant": "structured",
+    "actual_model": "claude-haiku-4-5",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "normalized_answer_score": 0.7875,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 0.875,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 786.8,
+    "avg_delegation_chars": 68.5,
+    "avg_total_tokens": 2249.0,
+    "avg_input_tokens": 1818.75,
+    "avg_output_tokens": 430.25,
+    "avg_tool_calls_reported": 0.875,
+    "composite": 0.8028070781779222
+  },
+  {
+    "model": "glm",
+    "variant": "verbose_noisy",
+    "actual_model": "zai-org/GLM-4.7",
+    "n_cases": 8,
+    "answer_pass_rate": 0.75,
+    "normalized_answer_score": 0.7875,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 1304.1,
+    "avg_delegation_chars": 168.29,
+    "avg_total_tokens": 1378.0,
+    "avg_input_tokens": 876.125,
+    "avg_output_tokens": 501.875,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.7886269253343062
+  },
+  {
+    "model": "kimi",
+    "variant": "verbose_noisy",
+    "actual_model": "moonshotai/Kimi-K2-Instruct-0905",
+    "n_cases": 8,
+    "answer_pass_rate": 0.625,
+    "normalized_answer_score": 0.7375,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 606.5,
+    "avg_delegation_chars": 84.5,
+    "avg_total_tokens": 658.875,
+    "avg_input_tokens": 475.125,
+    "avg_output_tokens": 183.75,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.7683643984660663
+  },
+  {
+    "model": "kimi",
+    "variant": "minimal",
+    "actual_model": "moonshotai/Kimi-K2-Instruct-0905",
+    "n_cases": 8,
+    "answer_pass_rate": 0.5,
+    "normalized_answer_score": 0.6625,
+    "first_call_ok_rate": null,
+    "avg_score_total": null,
+    "avg_tool_calls": 1.0,
+    "avg_endpoint_calls": 0.0,
+    "avg_tool_exchange_chars": 416.2,
+    "avg_delegation_chars": 84.25,
+    "avg_total_tokens": 631.0,
+    "avg_input_tokens": 462.625,
+    "avg_output_tokens": 168.375,
+    "avg_tool_calls_reported": 1.0,
+    "composite": 0.7146312913112515
+  }
+]

docs/tool_description_eval/clean_release_20260209/tool_description_dashboard.md ADDED Viewed

	@@ -0,0 +1,35 @@

+# Tool Description Combined Dashboard
+> Combines trajectory metrics, oracle-answer metrics, and token usage from raw results.
+| Rank | Model | Variant | Answer norm | Answer pass | First OK | Avg score | Avg calls | Avg exchange chars | Avg tokens | Composite |
+|---:|---|---|---:|---:|---:|---:|---:|---:|---:|---:|
+| 1 | minimax | structured | 0.9250 | 1.0000 | n/a | n/a | 0.625 | 797.2 | 1259.8 | 0.9125 |
+| 2 | kimi25 | minimal | 0.9500 | 1.0000 | n/a | n/a | 1.000 | 1674.4 | 1276.2 | 0.9098 |
+| 3 | haiku | minimal | 0.9125 | 0.8750 | n/a | n/a | 1.250 | 1104.9 | 2977.8 | 0.8938 |
+| 4 | gpt-5-mini | verbose_noisy | 0.9125 | 0.8750 | n/a | n/a | 0.750 | 1127.2 | 1859.5 | 0.8932 |
+| 5 | kimi25 | structured | 0.9125 | 0.8750 | n/a | n/a | 1.000 | 1460.2 | 1409.9 | 0.8848 |
+| 6 | kimi25 | verbose_noisy | 0.9125 | 0.8750 | n/a | n/a | 1.250 | 1887.4 | 1440.6 | 0.8752 |
+| 7 | haiku | verbose_noisy | 0.8875 | 0.8750 | n/a | n/a | 1.000 | 1244.6 | 2681.5 | 0.8701 |
+| 8 | gpt-5-mini | structured | 0.9125 | 0.8750 | n/a | n/a | 1.000 | 2151.9 | 2052.6 | 0.8698 |
+| 9 | glm | minimal | 0.9125 | 0.8750 | n/a | n/a | 1.875 | 2193.8 | 2309.1 | 0.8690 |
+| 10 | minimax | verbose_noisy | 0.8625 | 0.8750 | n/a | n/a | 0.750 | 602.2 | 1192.5 | 0.8685 |
+| 11 | gpt-5-mini | minimal | 0.9125 | 0.8750 | n/a | n/a | 0.875 | 2288.6 | 1987.0 | 0.8672 |
+| 12 | glm | structured | 0.8500 | 0.8750 | n/a | n/a | 1.125 | 965.8 | 1324.4 | 0.8476 |
+| 13 | minimax | minimal | 0.8375 | 0.7500 | n/a | n/a | 0.750 | 717.0 | 1208.9 | 0.8449 |
+| 14 | kimi | structured | 0.8125 | 0.7500 | n/a | n/a | 1.125 | 596.5 | 778.0 | 0.8287 |
+| 15 | haiku | structured | 0.7875 | 0.7500 | n/a | n/a | 0.875 | 786.8 | 2249.0 | 0.8028 |
+| 16 | glm | verbose_noisy | 0.7875 | 0.7500 | n/a | n/a | 1.000 | 1304.1 | 1378.0 | 0.7886 |
+| 17 | kimi | verbose_noisy | 0.7375 | 0.6250 | n/a | n/a | 1.000 | 606.5 | 658.9 | 0.7684 |
+| 18 | kimi | minimal | 0.6625 | 0.5000 | n/a | n/a | 1.000 | 416.2 | 631.0 | 0.7146 |
+## Per-model winner (composite)
+| Model | Winner variant | Composite | Answer norm | First OK | Exchange chars | Avg tokens |
+|---|---|---:|---:|---:|---:|---:|
+| glm | minimal | 0.8690 | 0.9125 | n/a | 2193.8 | 2309.1 |
+| gpt-5-mini | verbose_noisy | 0.8932 | 0.9125 | n/a | 1127.2 | 1859.5 |
+| haiku | minimal | 0.8938 | 0.9125 | n/a | 1104.9 | 2977.8 |
+| kimi | structured | 0.8287 | 0.8125 | n/a | 596.5 | 778.0 |
+| kimi25 | minimal | 0.9098 | 0.9500 | n/a | 1674.4 | 1276.2 |
+| minimax | structured | 0.9125 | 0.9250 | n/a | 797.2 | 1259.8 |

docs/tool_description_eval/clean_release_20260209/tool_description_interpretation.md ADDED Viewed

	@@ -0,0 +1,28 @@

+# Tool Description Interpretation
+## Global means by variant
+| Variant | First-call OK | Avg score | Avg endpoint calls | Avg exchange chars |
+|---|---:|---:|---:|---:|
+| minimal | n/a | n/a | 0.0000 | 1399 |
+| structured | n/a | n/a | 0.0000 | 1126 |
+| verbose_noisy | n/a | n/a | 0.0000 | 1129 |
+## Structured vs Minimal (per model deltas)
+Δ defined as `structured - minimal`.
+| Model | Δ First-call OK | Δ Avg score | Δ Calls |
+|---|---:|---:|---:|
+| glm | n/a | n/a | +0.0000 |
+| gpt-5-mini | n/a | n/a | +0.0000 |
+| haiku | n/a | n/a | +0.0000 |
+| kimi | n/a | n/a | +0.0000 |
+| kimi25 | n/a | n/a | +0.0000 |
+| minimax | n/a | n/a | +0.0000 |
+Interpretation tip:
+- Positive Δ first-call/score is better for structured.
+- Negative Δ calls is better for structured (fewer calls).
+Models covered: glm, gpt-5-mini, haiku, kimi, kimi25, minimax

docs/tool_description_eval/clean_release_20260209/tool_description_model_comparison.md ADDED Viewed

	@@ -0,0 +1,21 @@

+# Indirect Run: Model vs Model Comparison
+| Model | Mean normalized answer | Mean answer pass | Mean tool calls | Mean exchange chars | Mean delegation chars |
+|---|---:|---:|---:|---:|---:|
+| kimi25 | 0.9250 | 0.9167 | 1.083 | 1674.0 | 124.5 |
+| gpt-5-mini | 0.9125 | 0.8750 | 0.875 | 1855.9 | 312.0 |
+| minimax | 0.8750 | 0.8750 | 0.708 | 705.5 | 191.5 |
+| haiku | 0.8625 | 0.8333 | 1.042 | 1045.4 | 84.6 |
+| glm | 0.8500 | 0.8333 | 1.333 | 1487.9 | 137.1 |
+| kimi | 0.7375 | 0.6250 | 1.042 | 539.7 | 81.4 |
+## Per-model best variant (answer-first, efficiency tie-break)
+| Model | Winner variant | Answer norm | Answer pass | Tool calls | Exchange chars | Delegation chars |
+|---|---|---:|---:|---:|---:|---:|
+| glm | minimal | 0.9125 | 0.8750 | 1.875 | 2193.8 | 91.9 |
+| gpt-5-mini | verbose_noisy | 0.9125 | 0.8750 | 0.750 | 1127.2 | 343.8 |
+| haiku | minimal | 0.9125 | 0.8750 | 1.250 | 1104.9 | 66.4 |
+| kimi | structured | 0.8125 | 0.7500 | 1.125 | 596.5 | 75.4 |
+| kimi25 | minimal | 0.9500 | 1.0000 | 1.000 | 1674.4 | 113.1 |
+| minimax | structured | 0.9250 | 1.0000 | 0.625 | 797.2 | 280.0 |