================================================================================
COUNSELOR MODEL BENCHMARK REPORT
================================================================================

PERFORMANCE COMPARISON:
----------------------------------------

LENGTH_SCORE:
  Base Model:      0.807 (±0.154)
  Fine-tuned Model: 0.808 (±0.202)
  Improvement:      +0.1%

QUESTION_SCORE:
  Base Model:      0.670 (±0.470)
  Fine-tuned Model: 0.910 (±0.286)
  Improvement:      +35.8%

SUPPORT_SCORE:
  Base Model:      0.236 (±0.186)
  Fine-tuned Model: 0.082 (±0.120)
  Improvement:      -65.3%

EMPATHY_SCORE:
  Base Model:      0.267 (±0.099)
  Fine-tuned Model: 0.141 (±0.100)
  Improvement:      -47.2%

========================================
OVERALL PERFORMANCE:
  Base Model:       0.495
  Fine-tuned Model: 0.485
  Overall Improvement: -2.0%
========================================