Training results

Live backend: real Freeciv Web on H100
Model: Qwen/Qwen3.5-0.8B + Unsloth LoRA + TRL GRPO
Run: 10 steps, 32 live states, batch size 8
Train runtime: None

Observed reward improvement: 0.125 → 1.000
Best visible point: step 10 reward 1.000