Instructions to use darask0/netayume-dmdx with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Diffusers
How to use darask0/netayume-dmdx with Diffusers:
pip install -U diffusers transformers accelerate
import torch from diffusers import DiffusionPipeline # switch to "mps" for apple devices pipe = DiffusionPipeline.from_pretrained("darask0/netayume-gelbooru-ft", dtype=torch.bfloat16, device_map="cuda") pipe.load_lora_weights("darask0/netayume-dmdx") prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k" image = pipe(prompt).images[0] - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- Draw Things
- DiffusionBee
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("darask0/netayume-gelbooru-ft", dtype=torch.bfloat16, device_map="cuda")
pipe.load_lora_weights("darask0/netayume-dmdx")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]NetaYume DMDX — 4-step CFG-free LoRA
darask0/netayume-gelbooru-ft (NetaYume Lumina2 full fine-tune) を DMDX (Adversarial Distribution Matching, arXiv:2507.18569) で 4-step / CFG-free に蒸留した LoRA です。
- ×13〜14 高速化: 1024×1024 を 4 step・CFG なしで生成(RTX Pro 6000 実測 0.5–1.2s/枚 vs teacher 30-step CFG 7.5–15.6s)
- LoRA rank 32(attn + ff + adaln + embed、244 modules)、~230MB
samples/に同一 seed の 4-step vs teacher 30-step 比較 8 ペアあり
既知の限界
- 文字描画: 短い文字列は概ね判読可能な字形が出るが、長文は崩れる(4-step 蒸留の一般的限界)
- 微細テクスチャは teacher 30-step 比でわずかに簡略化されることがある
使い方
学習・推論コードは darask-full-FT リポジトリの distill/ にあります。
推論は distill/infer_dmdx_lumina.py を参照(要点: 4-step Euler、
推論 scheduler の shift 格子(LuminaBundle.student_sigmas())を使用、
cfg_scale=1.0、negative prompt 不要)。
LoRA は save_lora_state 形式の safetensors(peft 互換のキー命名)。
Lumina2Transformer2DModel に rank-32 で適用してください。
学習レシピ(再現用)
teacher: darask0/netayume-gelbooru-ft / data: gelbooru キャプション 8000 件の
teacher rollout(1024px, 30-step, cfg 5.5)precompute。
単一のクリーン run(以下の修正 3 点をすべて有効化した状態でゼロから):
| phase | outer steps | 設定 |
|---|---|---|
| warmup (recon) | 0–500 | lr 2e-5、全 step 勾配 |
| ADM | 500–8000 | lr_gen 5e-6、--t-bias uniform --rollout-grad all |
共通: lr_disc 1e-5, recon-weight 0.1 (Smooth-L1 anchor), n_critic=2, dt_ratio 1/64, evolve_grad=ste, batch 1, grad checkpointing, LADD 判別器(teacher blocks [4,9,14,19,24] hook, D=2304, 5 heads)。 RTX Pro 6000 (96GB) で warmup ~1.9s/outer、ADM ~5–6s/outer、計 ~12h。
本家 rapid-anima / 論文構成からの重要な修正 3 点
--rollout-grad all(画質の決定打): 既定の grad-last-only では勾配が 最終 step(dt=0.035)にしか流れず、shift 格子[1.0, 0.924, 0.753, 0.035, 0]の 画質を支配する大ジャンプ step (0.753→0.035) が teacher 初期値のまま凍結する。 全 step に勾配を通すと滲み・二重像が解消(grad checkpointing 併用で +2GB 程度)。- warmup recon も全 step 勾配で: warmup が last-step-only だと土台の時点で 大ジャンプ step が未訓練のまま ADM に入る。全 step recon の土台があると ADM 開始後わずか 500 outer で旧構成 8000 outer の品質を超えた。
--t-bias uniform: 論文の cubic 高ノイズ偏重は質量の 46% が t>0.9 に集中し、 ノイズに埋もれて student のボケが判別器から不可視になる。uniform 化で 低ノイズ域(ボケ可視域)でも D が戦い、G への勾配も(1−t)圧縮を免れる。
(これらは opt-in フラグで、デフォルトは本家挙動のまま)
- Downloads last month
- 20
Model tree for darask0/netayume-dmdx
Base model
darask0/netayume-gelbooru-ft