enhanced-replica-model-pack / docs /model_inventory.md
LUCIFerace's picture
Add files using upload-large-folder tool
7186231 verified

# System Inventory

这份清单的用途

这个文件不再只罗列“模型目录里有什么大文件”,而是回答一个更重要的问题:当前仓库里哪些资产属于正式最终系统,哪些属于研究留档,哪些只是补充参考。

一类资产:正式模型资产

资产 路径 交付定位 说明
BERT 最终权重 models/bert-final/ 正式模型资产 微调得到的最终监督分类器
RoBERTa 最终权重 models/roberta-final/ 正式模型资产 微调得到的最终监督分类器
Qwen general adapter models/qwen-adapters/general/ 正式模型资产 通用文本 LoRA 分支
Qwen short adapter models/qwen-adapters/short/ 正式模型资产 76-180 字短文本 LoRA 分支
Qwen ultra-short adapter models/qwen-adapters/ultra-short/ 正式模型资产 0-75 字极短文本 LoRA 分支
Qwen shared tokenizer models/qwen-adapters/shared-tokenizer/ 正式模型资产 给 3 个 adapter 共用的一套 tokenizer

边界说明:

  • Qwen 基础模型权重不在仓库内。
  • Qwen adapter 需要外部 Qwen2.5-7B-Instruct 才能运行。

二类资产:detector 分支资产

FastDetectGPTBinoculars 也是正式最终系统的一部分,但它们的交付形式不是“一个单独的 checkpoint 目录”,而是算法脚本、配置语义和结果留档。

分支 资产位置 说明
FastDetectGPT scripts/inference/run_zero_shot_detectors.py + results/ + results/experiment-summaries/ 基于 Qwen2.5-3BQwen2.5-3B-Instruct 的零样本打分
Binoculars scripts/inference/run_zero_shot_detectors.py + results/ + results/experiment-summaries/ 与 FastDetectGPT 使用同一对 3B 模型,但打分公式不同

边界说明:

  • detector 分支没有额外训练权重目录。
  • detector 的正式存在方式是算法说明、分数文件和最终 ensemble 中的系数。

三类资产:正式结果资产

results/ 是本仓库新增的正式结果区。它承接的是“最后结论”,不是训练过程快照。

资产 路径 作用
DS13 正式系统结果 results/final-system/ds13/ 最终 7-voter ensemble 的正式结果
DS13 上游 voter 结果 results/final-system/upstream-voters/ds13/ 追溯最终 ensemble 的原始 voter 输出
DS01 参考 bundle results/final-system/ds01-reference/ 解释 fallback 训练语境
DS06 跨域结果 results/cross-domain/ds06/ 跨域 bucket ensemble 结论
DS07 跨域结果 results/cross-domain/ds07/ 跨域 bucket ensemble 结论
机器可读摘要 results/experiment-summaries/ 单模、detector、最终系统的摘要表

四类资产:训练与实验留档

reports/ 继续保留训练产物,用来支持溯源、复盘和核对,不直接承担“正式结果总入口”职责。

资产 路径 说明
BERT baseline 留档 reports/bert-baseline/ metrics、train/dev/test 预测、配置、日志
RoBERTa baseline 留档 reports/roberta-baseline/ metrics、train/dev/test 预测、配置、日志
Qwen adapter 留档 reports/qwen-adapters/ 各 adapter 的 metrics 和训练日志

五类资产:源码与配置

资产 路径 说明
共享模块 src/enhanced_replica/ 数据处理、评估、模型工具、规则与 voter registry
任务脚本 scripts/ 训练、评估、推理、跨域实验、集成脚本
配置快照 configs/ 训练参数、推理参数、正式 ensemble 配置
环境依赖 requirements.txt 当前仓库主依赖收口

六类资产:文档与归档

资产 路径 说明
主文档 docs/ 最终系统、跨域结果、研究总结、数据说明等正式文档
旧文档归档 docs/archive/ 旧版本地打包说明、审阅记录、原始 handoff 文档

如何判断“正式资产”还是“研究留档”

最简单的判断方式:

  • 想看最终系统:先看 results/models/configs/ensemble_config.jsondocs/final_ensemble.md
  • 想看训练和实验过程:看 reports/scripts/train_eval/
  • 想看旧版本本地交接说明:看 docs/archive/

最容易被误读的一点

src/enhanced_replica/voter_registry.py 里的 default_weight_championbucket_weights,属于探索期硬投票研究路线,不是最终正式系统权重。正式最终权重只看:

  • results/final-system/ds13/ensemble_meta.json
  • configs/ensemble_config.json