CUA_benchmark_local_small_models / reports /Final_7_Model_Comparison.md
Manojb's picture
Upload folder using huggingface_hub
221ca5c verified

Final 7-Model Comparison β€” Agent Task Performance on Mac Mini M4 16GB

Date: 2026-04-07 | Hardware: Mac Mini M4 16GB (Dyson)


Results At a Glance

Model               Size    Speed    Agent    Fit     Verdict
                    (GB)    (tok/s)  Score    16GB?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Qwopus3.5-27B Q3    11.0     OOM     N/A      ❌      Too big β€” needs 24GB+
Qwen3.5-9B Q4       5.6      10     4.5/6     βœ…      Most reliable agent
Gemma4 E4B 4bit     5.0      35     4.5/6     βœ…      Fastest viable agent
Bonsai-8B 1bit      1.15     49     1.0/6     βœ…      Single-turn only
LFM2.5-Nova 1.2B    0.70    118     0.0/6     βœ…      Context too small (4K)
FunctionGemma 270M   0.28    197     0.0/6     βœ…      Repeats infinitely
Qwopus3.5-27B Q3    11.0     OOM     N/A      ❌      OOM at any context

Detailed Comparison

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”
β”‚ Model               β”‚Params  β”‚Disk    β”‚Memory β”‚Gen    β”‚Agent   β”‚Multi  β”‚Proxy β”‚
β”‚                     β”‚(active)β”‚(GB)    β”‚(GB)   β”‚tok/s  β”‚Score   β”‚-step? β”‚Need? β”‚
β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€
β”‚ Qwopus3.5-27B v3 Q3 β”‚ 27B    β”‚ 11.0   β”‚ 14+   β”‚ OOM   β”‚  N/A   β”‚  ?    β”‚  No  β”‚
β”‚ Qwen3.5-9B Q4_K_XL  β”‚ 9B     β”‚  5.6   β”‚  6.5  β”‚  10   β”‚ 4.5/6  β”‚  βœ…   β”‚  No  β”‚
β”‚ Gemma4 E4B 4bit     β”‚ 4B MoE β”‚  5.0   β”‚  5.4  β”‚  35   β”‚ 4.5/6  β”‚  βœ…   β”‚  Yes β”‚
β”‚ Bonsai-8B Q1_0      β”‚ 8B     β”‚  1.15  β”‚  1.5  β”‚  49   β”‚ 1.0/6  β”‚  ❌   β”‚  No  β”‚
β”‚ LFM2.5-Nova 1.2B Q4 β”‚ 1.2B   β”‚  0.70  β”‚  0.8  β”‚ 118   β”‚ 0.0/6  β”‚  ❌   β”‚  No  β”‚
β”‚ FunctionGemma 270M  β”‚ 270M   β”‚  0.28  β”‚  0.3  β”‚ 197   β”‚ 0.0/6  β”‚  ❌   β”‚  No  β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”˜

Speed vs Capability Cliff

Agent Score (6 = perfect)

 5 β”‚          β˜… Qwen (10 tok/s)    β˜… Gemma4 (35 tok/s)
   β”‚
 4 β”‚
   β”‚
 3 β”‚
   β”‚
 2 β”‚
   β”‚
 1 β”‚                                    β˜… Bonsai (49 tok/s)
   β”‚
 0 β”‚  βœ• Qwopus                              β˜… LFM2.5    β˜… FuncGemma
   β”‚  (OOM)                                (118 tok/s)   (197 tok/s)
   └──┬──────────┬──────────┬──────────┬──────────┬──────────┬───
     0         10         35         50        118        197
                        Generation Speed (tok/s)

  β˜… = tested   βœ• = OOM

  THE CLIFF: There is a hard capability cliff between 4B active params
  and below. Models under 4B active params cannot do multi-step agent
  tasks regardless of how fast they are.

Task Breakdown (6 tests)

β”Œβ”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚  # β”‚ Task            β”‚Diffβ”‚ Qwen 9B  β”‚Gemma4 E4Bβ”‚Bonsai 8B β”‚ LFM 1.2B β”‚FuncG 270Mβ”‚
β”œβ”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚  1 β”‚ Wikipedia info   β”‚ E  β”‚  ⚠️ 1T   β”‚  βœ… 4T   β”‚  ⚠️ 1T   β”‚  ❌ OOC  β”‚  ❌ Loop  β”‚
β”‚  2 β”‚ DDG search       β”‚ M  β”‚  ⚠️ 6T   β”‚  βœ… 6T   β”‚  ❌ 16T  β”‚  ❌ OOC  β”‚  ❌ Loop  β”‚
β”‚  3 β”‚ HN top story     β”‚ E  β”‚  βœ… 2T   β”‚  βœ… 2T   β”‚  ⚠️ 1T   β”‚  ❌ 0T   β”‚  ❌ Loop  β”‚
β”‚  4 β”‚ Cat vision (FP)  β”‚ M  β”‚  βœ… 2T   β”‚  βœ… 3T   β”‚  ❌ 1T   β”‚  ❌ 0T   β”‚  ❌ Loop  β”‚
β”‚  5 β”‚ Form filling     β”‚ M  β”‚  βœ… 6T   β”‚  ❌ 1T   β”‚  ❌ 1T   β”‚  ❌ 0T   β”‚  ❌ Loop  β”‚
β”‚  6 β”‚ reCAPTCHA        β”‚ H  β”‚  ⚠️ 6T   β”‚  ⚠️ 13T  β”‚  ❌ 1T   β”‚  ❌ 0T   β”‚  ❌ Loop  β”‚
β”œβ”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚    β”‚ Score           β”‚    β”‚ 4.5/6    β”‚ 4.5/6    β”‚ 1.0/6    β”‚ 0.0/6    β”‚ 0.0/6    β”‚
β”‚    β”‚ Total time      β”‚    β”‚ 834s     β”‚ 340s     β”‚ 103s     β”‚ ~5s      β”‚ ~5s      β”‚
β”‚    β”‚ Total tools     β”‚    β”‚ 23       β”‚ 29       β”‚ 21       β”‚ 0        β”‚ 0        β”‚
β””β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

T = tool calls | E = Easy | M = Medium | H = Hard
OOC = Out of Context | Loop = infinite repetition

Why Small Models Fail at Agent Tasks

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                    THE AGENT CAPABILITY LADDER                       β”‚
β”‚                                                                     β”‚
β”‚  Level 1: FORMAT A TOOL CALL                                        β”‚
β”‚  └─ Can generate {"name": "func", "arguments": {...}}              β”‚
β”‚  └─ ALL models pass this (even 270M at 197 tok/s)                  β”‚
β”‚  └─ This is what BFCL benchmarks measure                           β”‚
β”‚                                                                     β”‚
β”‚  Level 2: UNDERSTAND TOOL RESULTS                                   β”‚
β”‚  └─ Read tool output and decide next action                        β”‚
β”‚  └─ Requires: context understanding, error handling                β”‚
β”‚  └─ Bonsai-8B fails here (makes 1 call then stops)                β”‚
β”‚                                                                     β”‚
β”‚  Level 3: CHAIN MULTIPLE TOOLS                                      β”‚
β”‚  └─ Navigate β†’ type β†’ click β†’ extract β†’ report                    β”‚
β”‚  └─ Requires: planning, sequential reasoning, 5K+ context         β”‚
β”‚  └─ Minimum ~4B active params (Gemma4 E4B)                        β”‚
β”‚                                                                     β”‚
β”‚  Level 4: HANDLE ERRORS AND ADAPT                                   β”‚
β”‚  └─ Tool fails β†’ try different approach β†’ recover                  β”‚
β”‚  └─ Requires: robust reasoning, error patterns                     β”‚
β”‚  └─ Qwen 9B reliable, Gemma4 E4B partial                          β”‚
β”‚                                                                     β”‚
β”‚  Level 5: COMPLEX MULTI-FIELD INTERACTION                           β”‚
β”‚  └─ Fill forms, interact with dynamic UIs                          β”‚
β”‚  └─ Requires: deep context, field mapping, DOM understanding       β”‚
β”‚  └─ Only Qwen 9B succeeds (form filling)                          β”‚
β”‚  └─ Likely needs 27B+ for consistent success                       β”‚
β”‚                                                                     β”‚
β”‚  BFCL = Level 1 only. Our tests = Levels 1-5.                     β”‚
β”‚  That's why Bonsai scores 73% on BFCL but 1/6 on our tests.       β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Memory Map on 16GB

Available: 16 GB

Qwopus 27B Q3:
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 14+ GB β†’ ❌ OOM
  β–“β–“β–“β–“ OS (3GB)

Qwen 9B + Falcon:
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 6.5 GB model
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 1.5 GB Falcon
  β–ˆβ–ˆ 0.8 GB GUA+Browser
  β–“β–“β–“β–“ OS (3GB)
  β–‘β–‘β–‘β–‘β–‘ 4.2 GB free βœ…

Gemma4 E4B + Falcon:
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 5.4 GB model
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 1.5 GB Falcon
  β–ˆβ–ˆ 0.8 GB GUA+Browser+Proxy
  β–“β–“β–“β–“ OS (3GB)
  β–‘β–‘β–‘β–‘β–‘β–‘β–‘ 5.2 GB free βœ… (most headroom)

Bonsai 8B + Qwen 9B (dual!):
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 1.5 GB Bonsai
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 6.5 GB Qwen
  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ 1.5 GB Falcon
  β–ˆβ–ˆ 0.8 GB GUA+Browser
  β–“β–“β–“β–“ OS (3GB)
  β–‘β–‘ 2.7 GB free βœ… (tight but fits!)

Final Verdict

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                                                    β”‚
β”‚  πŸ† BEST OVERALL: Gemma4 E4B (with proxy fixes)                  β”‚
β”‚     β€’ 4.5/6 score, 35 tok/s, 5.4 GB                              β”‚
β”‚     β€’ Best speed-to-capability ratio                               β”‚
β”‚     β€’ Wins DDG search, Wikipedia, HN, vision tasks                β”‚
β”‚     β€’ Needs proxy (7 fixes) but works reliably                    β”‚
β”‚                                                                    β”‚
β”‚  πŸ₯ˆ MOST RELIABLE: Qwen3.5-9B                                    β”‚
β”‚     β€’ 4.5/6 score, 10 tok/s, 6.5 GB                              β”‚
β”‚     β€’ ONLY model that fills forms successfully                    β”‚
β”‚     β€’ No proxy needed, native tool calling                         β”‚
β”‚     β€’ Slower but handles edge cases better                        β”‚
β”‚                                                                    β”‚
β”‚  πŸ₯‰ HONORABLE: Bonsai-8B                                          β”‚
β”‚     β€’ 1.0/6 but only 1.15 GB β€” fits alongside any other model    β”‚
β”‚     β€’ Could serve as fast first-call router                       β”‚
β”‚                                                                    β”‚
β”‚  ❌ DON'T USE FOR AGENTS:                                         β”‚
β”‚     β€’ LFM2.5-Nova (4K context too small)                          β”‚
β”‚     β€’ FunctionGemma (loops infinitely)                             β”‚
β”‚     β€’ Qwopus-27B (doesn't fit 16GB)                               β”‚
β”‚                                                                    β”‚
β”‚  MINIMUM FOR MULTI-STEP AGENTS: ~4B active parameters             β”‚
β”‚  BFCL SCORE β‰  AGENT CAPABILITY                                    β”‚
β”‚                                                                    β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

7 models tested on identical GUA_Blazor agent loop with Falcon Perception v2. All tests: navigate, search, extract, vision detect, form fill, captcha solve. Mac Mini M4 16GB, April 2026.