NetaYume DMDX — 4-step CFG-free LoRA

darask0/netayume-gelbooru-ft (NetaYume Lumina2 full fine-tune) を DMDX (Adversarial Distribution Matching, arXiv:2507.18569) で 4-step / CFG-free に蒸留した LoRA です。

×13〜14 高速化: 1024×1024 を 4 step・CFG なしで生成(RTX Pro 6000 実測 0.5–1.2s/枚 vs teacher 30-step CFG 7.5–15.6s)
LoRA rank 32(attn + ff + adaln + embed、244 modules)、~230MB
samples/ に同一 seed の 4-step vs teacher 30-step 比較 8 ペアあり

既知の限界

文字描画: 短い文字列は概ね判読可能な字形が出るが、長文は崩れる(4-step 蒸留の一般的限界)
微細テクスチャは teacher 30-step 比でわずかに簡略化されることがある

使い方

学習・推論コードは darask-full-FT リポジトリの distill/ にあります。推論は distill/infer_dmdx_lumina.py を参照(要点: 4-step Euler、 推論 scheduler の shift 格子(LuminaBundle.student_sigmas())を使用、 cfg_scale=1.0、negative prompt 不要)。

LoRA は save_lora_state 形式の safetensors(peft 互換のキー命名)。 Lumina2Transformer2DModel に rank-32 で適用してください。

学習レシピ(再現用)

teacher: darask0/netayume-gelbooru-ft / data: gelbooru キャプション 8000 件の teacher rollout(1024px, 30-step, cfg 5.5)precompute。 単一のクリーン run(以下の修正 3 点をすべて有効化した状態でゼロから):

phase	outer steps	設定
warmup (recon)	0–500	lr 2e-5、全 step 勾配
ADM	500–8000	lr_gen 5e-6、`--t-bias uniform --rollout-grad all`

共通: lr_disc 1e-5, recon-weight 0.1 (Smooth-L1 anchor), n_critic=2, dt_ratio 1/64, evolve_grad=ste, batch 1, grad checkpointing, LADD 判別器(teacher blocks [4,9,14,19,24] hook, D=2304, 5 heads)。 RTX Pro 6000 (96GB) で warmup ~1.9s/outer、ADM ~5–6s/outer、計 ~12h。

本家 rapid-anima / 論文構成からの重要な修正 3 点

--rollout-grad all(画質の決定打): 既定の grad-last-only では勾配が最終 step(dt=0.035)にしか流れず、shift 格子 [1.0, 0.924, 0.753, 0.035, 0] の 画質を支配する大ジャンプ step (0.753→0.035) が teacher 初期値のまま凍結する。全 step に勾配を通すと滲み・二重像が解消(grad checkpointing 併用で +2GB 程度)。
warmup recon も全 step 勾配で: warmup が last-step-only だと土台の時点で大ジャンプ step が未訓練のまま ADM に入る。全 step recon の土台があると ADM 開始後わずか 500 outer で旧構成 8000 outer の品質を超えた。
--t-bias uniform: 論文の cubic 高ノイズ偏重は質量の 46% が t>0.9 に集中し、ノイズに埋もれて student のボケが判別器から不可視になる。uniform 化で低ノイズ域(ボケ可視域)でも D が戦い、G への勾配も (1−t) 圧縮を免れる。

(これらは opt-in フラグで、デフォルトは本家挙動のまま)

Downloads last month: 20

Model tree for darask0/netayume-dmdx

Base model

darask0/netayume-gelbooru-ft

Adapter

(1)

this model

Paper for darask0/netayume-dmdx

Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis

Paper • 2507.18569 • Published Jul 24, 2025