ycchen's picture
add opd-32b-v33-s150-gptq-w4a16 + dflash phaseL int4mlp-gptq draft
39037e6 verified
|
Raw
History Blame Contribute Delete
9.19 kB
---
license: other
tags:
- proof-pilot
- olmo3
- dflash
- speculative-decoding
- on-policy-distillation
- gptq
- quantization
---
# proof-pilot deploy bundle (private)
內部部署用模型打包。所有子資料夾都是 `Olmo3SinkForCausalLM`(olmo3_sink,DeepSeek-V4-Flash transplant tokenizer,vocab 129280)家族,共用 tokenizer。
| 子資料夾 | 模型 | 說明 |
|---|---|---|
| `soft-distill-7b-deploy/` | stage1-v2-7b soft-distill v2 (deploy) | off-policy soft distillation 完成版(bf16),含 tokenizer + chat template |
| `soft-distill-32b-deploy/` | stage1-v2-32b soft-distill v2 (deploy) | 32B off-policy soft distillation(bf16, rope-legacy deploy config),含 tokenizer + chat template |
| `opd-32b-deploy/` | **32B agentic OPD v2 — v33 / job 135076 / step_200** | **on-policy distillation**(teacher = DeepSeek-V4-Flash),student lineage = stage1-v2-32b-softdistill-v2test(GQA-8, YaRN)。bf16 deploy(rope-legacy config + hybrid-SWA)+ tokenizer + chat template。**目前部署主檔**。IMO-ProofBench v2 agentic-loop(prove→verify→refine→select)量到 **4.48/7**(grader = flash,僅供內部相對比較)。版本來龍去脈見下方「OPD 32B 版本說明」。 |
| `opd-32b-v33-s150/` | **32B agentic OPD v2 — v33 / job 135076 / step_150** | 與 `opd-32b-deploy`(step_200)**同一條健康 run** 的較早 checkpoint,可做 s150 vs s200 比較。同 deploy 格式(bf16 / rope-legacy / hybrid-SWA)+ tokenizer + chat template。 |
| `opd-32b-v33-s200-gptq-w4a16/` | **`opd-32b-deploy`(step_200)的 GPTQ-w4a16 量化版** | int4 weight-only(compressed-tensors,int4 sym group-128 GPTQ)+ **校準的 fp8 KV scale**。**18.74GB**(bf16 65GB→int4,4 shards + index)。calibration 對齊 inference:sink-on + long-ctx(10240) + factor-32 YaRN。serve = sglang `olmo2_sink` + triton(sm120)/fa3(H200) + `--kv-cache-dtype fp8_e4m3`。詳見下方「GPTQ 量化版」。 |
| `opd-32b-v33-s150-gptq-w4a16/` | **`opd-32b-v33-s150`(step_150)的 GPTQ-w4a16 量化版** | 與 s200 gptq **同配方**(int4 sym group-128 GPTQ + sink-on calib + long-ctx 10240 + factor-32 YaRN + 校準 fp8 KV scale)。**18.74GB**(4 shards + index)。serve 同 s200。可做 s150 vs s200 量化版比較。 |
| `dflash-7b-draft/` | DFlash draft for 7B target | SGLang 可部署 draft(speculative decoding) |
| `dflash-32b-draft/` | DFlash draft for **stage1-v2-32b** target (s5317) | SGLang 可部署 draft;對齊舊 32B deploy target |
| `dflash-32b-draft-v2test/` | DFlash draft for stage1-v2-32b-softdistill-v2test — **phase-1 warm-up(非 final)** | curriculum **phase-1 短 context warm-up**(step-10000 快照)。SWA512 / block_size 11 / 8L / GQA-8。**部署請用下方 `dflash-32b-draft-v2test-phaseL`。** |
| `dflash-32b-draft-v2test-phaseL/` | **DFlash draft for stage1-v2-32b-softdistill-v2test — phase-2 final(部署推薦)** | curriculum **phase-2 長 context 特化**(job 140680,warm-start 自 phase-1):train data = 真實長 proof 部署分佈(OPD 32B rollouts finish_reason=length filtered + dsflash-v2-test teacher proofs,micro 65536)、GAMMA 20。step_3000 完整收尾,acc 0.605 / greedy mean_prefix_len 4.90。SWA512 / block_size 11 / 8L / GQA-8。serving accept ~3.1–4.1(單流,dev H200)。 |
| `dflash-32b-draft-v2test-phaseL-int4mlp/` | **phase-L draft 的 int4-MLP 量化版** | `dflash-32b-draft-v2test-phaseL`**MLP(gate/up/down)量成 compressed-tensors int4**(RTN W4A16 g128),qkv/o + sink/fc/mask_embed 留 bf16(保 DFlash fused-KV)。**4.82→2.30GB(−55%)**。sglang DFLASH 部署實測:載成 int4(weight mem 2.16GB)、`fused KV materialization ENABLED`、accept 3.1–4.1(== bf16 draft)、單流比 bf16 draft **+2~15% tok/s**。serve 需 patched `dflash_sink.py`(thread quant_config→MLP)+ `--speculative-draft-model-quantization compressed-tensors`。詳見 `docs/quantization.md §13`。 |
| `dflash-32b-draft-v2test-phaseL-int4mlp-gptq/` | **phase-L draft 的 int4-MLP GPTQ 版** | 同上 int4-MLP,但用 **GPTQ**(full-rank target-hidden Hessian, 26130 rows)取代 RTN——strictly 更準(weighted-err **−69%** vs RTN)。部署完全相同(compressed-tensors int4、`fused-KV ENABLED`、accept ~3.0–3.8 == RTN/bf16)、**2.30GB**。註:draft accept 已貼 bf16 lossless-verify 天花板,RTN/GPTQ 的 τ 統計等價;此版給要最高權重保真者。詳見 `docs/quantization.md §13`。 |
DFlash draft 只含 `config.json` + `model.safetensors`(已 reshard 成多 shard),需搭配**對應的** target 模型使用(注意 v2test draft 對應 v2test target,與舊 `dflash-32b-draft` 的 target 不同)。
### DFlash 32B v2test curriculum(phase-1 → phase-2)
v2test target 的 draft 走兩段式 curriculum:
- **phase-1(`dflash-32b-draft-v2test/`)**:短 context warm-up(DATA=l4-g2-ml4096、micro 8192),便宜暖身、acc ~0.64。**非部署用 final,僅 curriculum 暖身快照。**
- **phase-2(`dflash-32b-draft-v2test-phaseL/`)**:warm-start 自 phase-1,於**真實長 proof 部署分佈**(OPD 32B rollouts + dsflash teacher proofs、micro 65536)長 context 特化。**這顆才是對 OPD/soft-distill 32B target 部署用的 draft。**
## OPD 32B 版本說明(哪個是哪個)
agentic semi-on-policy OPD 32B(student = stage1-v2-32b-softdistill-v2test、teacher = DeepSeek-V4-Flash)一共訓練過兩次:
- **V32 = job 134244**:在 step ~148–158 因 length 自我放大崩盤(eos 90%→13%、cap-hit→87%)後喊停,最後 checkpoint 只到 step_150。**此 run 的權重未收進本 bundle。**
- **V33 = job 135076**:加了 cap-hit admission filter(+ fast sharded save + 拓樸 rebalance),健康跑到 step 237 後(user)喊停,存了 step_150 與 step_200。**本 bundle 的 `opd-32b-deploy`(= step_200)與 `opd-32b-v33-s150`(= step_150)都來自這條 run。**
> ⚠️ 先前版本的 card 把「step ~158 喊停」誤接在 step_200 上——那是 V32(134244)的崩盤,與本 bundle 的 step_200(來自 V33/135076)無關,已更正。
> ⚠️ V33 的 cap-hit filter 是在**訓練端**減緩 length 自我放大、讓 run 不崩;蒸餾出的 student **在推理時仍帶 OPD reverse-KL 的 loop 傾向**(例如 refine 階段思考會落入重複吸引子、一路衝到 token cap)。這是 OPD reverse-KL 的通性,與「run 停在第幾步」無關。
### 部署權重的產生方式(s150 / s200 同一 recipe)
```bash
# step_NNN 訓練 checkpoint(DCP + consolidated hf/)→ serve-ready deploy dir
python deploy/make_olmo3sink_deploy.py \
--src training/opd_v2/runs/agentic_32b_lc140k_v33/checkpoints/step_000NNN/hf \
--dst outputs/agentic_32b_lc140k_v33-sNNN-deploy
python deploy_kaggle/enable_swa_config.py outputs/agentic_32b_lc140k_v33-sNNN-deploy
```
## GPTQ 量化版(`opd-32b-v33-s200-gptq-w4a16`)
`opd-32b-deploy`(step_200 bf16)的 4-bit 部署版,給 Kaggle RTX 6000 Pro(sm120)等 VRAM 受限環境。**18.74GB**(bf16 65GB → int4,4 shards + index)。也同步上傳為 Kaggle private model `threerabbits/opd-32b-v33-s200-gptq-w4a16`。
**量化配方(刻意對齊 serving 分布、消除 calib/infer mismatch)**:llm-compressor GPTQ,scheme W4A16(int4 / symmetric / group_size 128 / Hessian 誤差補償),`lm_head`/embed/norm/sink 保 bf16。calibration:
- **sink-on**:gpt-oss attention sink 進 eager calib forward(= sglang serve 端的算法;trained sink logit mean ~+6.7,非可忽略,故 calib 必須帶 sink)
- **long-context seqlen 10240**:> YaRN original_max 8192 且 > sliding window 4096 → 吃到長程 / 高位置 post-YaRN K 分布
- **factor-32 YaRN rope**(deploy config 原樣)
- calib data = L4 訓練 bins(同 129280 transplant vocab),n=64
**KV cache**:含**校準的 fp8 per-tensor static k_scale / v_scale**(`kv_cache_scheme` 寫進 config),取代未校準的 scale=1.0。實測 k_scale 0.032–0.169(mean 0.061)、v_scale 0.0069–0.436(mean 0.161;深層 V 顯著大於淺層)。
**品質**(sink-on、serving regime、teacher-forced @8192、vs bf16 reference):ppl **+0.13%**、top1_agree **0.975**、KL(bf16‖q) 0.011 —— 權重幾乎無損。
**Serving 注意事項**:
- sglang,bind-mount `deploy/target/olmo2_sink.py`(in-kernel sink),`--attention-backend triton`(sm120 唯一 sink-correct)或 `fa3`(H200),**`--kv-cache-dtype fp8_e4m3`** 才會載入校準的 k/v_scale。sglang 從 config 的 `quantization_config` 自動偵測 compressed-tensors,不需傳 `--quantization`。
- ⚠️ 校準的 KV scale(非 unit)與 **DFlash fused-KV ring 互斥**(DFlash 路徑遇 non-unit k/v_scale 會關掉 fused-KV)。要 DFlash spec-decode 時改用 unit-scale fp8 KV。
- `actorder=static` 但 checkpoint **0 個 g_idx**(重排已 bake、無 permutation 需套)→ marlin W4A16 與 humming W4A8 路徑皆安全。
- ⚠️ KV scale 在 calib 長度 10240 下校準;serving 到 256k 時極高位置的 K 若略超校準 amax,fp8 會 saturate(非 error)。