01 base vs finetuned scores
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
这份汇报面向设计专家评审,重点不是展示训练日志,而是讲清楚:为什么需要模型、模型学到了什么、哪些结果能支持设计决策、哪些风险需要在机载部署前继续验证。
飞机厕所内不能依赖摄像头,毫米波雷达提供隐私友好的时空轨迹,但原始序列难以直接变成可用的客舱状态。
LLM 不替代雷达信号处理,而是读取结构化窗口和中间表征,输出严格 JSON:当前行为、下一行为、阶段、剩余时间、序列,以及 QA 状态。
同一验证集上比较 base Qwen3.5-9B 与微调后模型,指标覆盖 schema 合规、行为识别、流程理解、时间估计和 QA 推理。
微调显著提升结构化输出和 QA 可用性,但时间误差、少数类行为和异常提示仍应进入下一轮系统设计验证。
输入雷达时序窗口和中间层表征,输出 current_behavior、next_possible_behavior、stage_index、remaining time、sequence_so_far 等字段。
作为独立维度评估 occupied、time_to_free_minutes、used_areas、is_abnormal,避免只看结构化任务而忽略最终用户问题。
分类用 accuracy/F1,schema 用 JSON parse 和 required field complete,时间用 MAE,序列用 exact/prefix/last-label match。
Base 为 48.1%。
Base 为 0.0%,说明微调主要解决 schema 对齐。
Base 为 45.4%。
该误差直接影响预计空出时间体验。
| 评估项 | Base | Fine-tuned | 变化 | 设计含义 |
|---|---|---|---|---|
| 结构化 schema 完整率 | 0.0% | 95.1% | 95.1% | 决定输出能否进入机载系统状态总线。 |
| 当前行为准确率 | 48.1% | 67.0% | 18.9% | 核心状态识别能力,从 radar 表征映射到行为标签。 |
| 当前行为 Macro-F1 | 11.1% | 49.1% | 38.0% | 衡量少数类是否被覆盖,适合设计评审关注长尾行为。 |
| 下一行为准确率 | 39.2% | 65.0% | 25.8% | 影响短期流程预测和预计空出时间。 |
| 阶段 index 准确率 | 0.0% | 65.5% | 65.5% | 反映模型是否理解完整厕所使用流程位置。 |
| QA 异常 F1 | 45.4% | 89.5% | 44.1% | 用于乘务关注提示,需单独评估。 |
| QA 区域 F1 | 70.5% | 100.0% | 29.5% | 用于理解马桶、洗手池、门、垃圾桶等区域使用状态。 |
下表展示 F1 改善最大的行为类别。设计评审时应同时看 support,避免把少量样本上的提升误判为稳定能力。
| 行为 | 验证样本数 | Base F1 | Fine-tuned F1 | 提升 |
|---|---|---|---|---|
| 离开 | 129 | 0.0% | 77.6% | 77.6% |
| 进入 | 147 | 4.0% | 77.5% | 73.5% |
| 坐下 | 114 | 0.0% | 65.5% | 65.5% |
| 马桶垫纸 | 156 | 10.9% | 70.3% | 59.3% |
| 洗手 | 204 | 5.7% | 60.2% | 54.5% |
| 卷筒厕纸 | 129 | 2.9% | 52.7% | 49.8% |
| 垃圾桶 | 93 | 0.0% | 45.5% | 45.5% |
| 起身 | 108 | 7.8% | 49.8% | 42.1% |
所有图表都在 assets/charts/ 下以 SVG 保存,可缩放、可放进设计文档;SVG 内包含 metadata,HTML 下方可查看。
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
Open the SVG file in a text editor or use the HTML metadata explorer to inspect embedded <metadata> and per-element data-meta.
选择图表或数据对象,查看生成依据、源文件路径和图表内嵌 metadata。此功能完全离线,不依赖外网。
厕所侧完成雷达预处理和特征抽取,客舱边缘计算单元加载量化 LLM/LoRA,减少原始数据移动。
对外只输出 occupied、estimated free time、used areas、abnormal flag 和行为阶段,不输出身份或可逆人体点云。
JSON 校验失败、置信不足或异常连续触发时回退规则模型,并只给出“需关注”级提示。
整个 mwave_design_review_package 目录可直接复制到其他电脑。HTML、PDF、SVG 和 CSV/JSONL 都使用相对路径或独立文件。