================================================================================
COUNSELOR MODEL BENCHMARK REPORT
================================================================================

PERFORMANCE COMPARISON:
----------------------------------------

LENGTH_SCORE:
  Base Model:      0.876 (±0.138)
  Fine-tuned Model: 0.956 (±0.135)
  Improvement:      +9.2%

QUESTION_SCORE:
  Base Model:      0.670 (±0.470)
  Fine-tuned Model: 0.900 (±0.300)
  Improvement:      +34.3%

========================================
OVERALL PERFORMANCE:
  Base Model:       0.773
  Fine-tuned Model: 0.928
  Overall Improvement: +20.1%
========================================