Instructions to use zan/Qwen3.6-27B-DFlash-ja with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use zan/Qwen3.6-27B-DFlash-ja with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="zan/Qwen3.6-27B-DFlash-ja", trust_remote_code=True)# Load model directly from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("zan/Qwen3.6-27B-DFlash-ja", trust_remote_code=True) model = AutoModel.from_pretrained("zan/Qwen3.6-27B-DFlash-ja", trust_remote_code=True) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- vLLM
How to use zan/Qwen3.6-27B-DFlash-ja with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "zan/Qwen3.6-27B-DFlash-ja" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "zan/Qwen3.6-27B-DFlash-ja", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker
docker model run hf.co/zan/Qwen3.6-27B-DFlash-ja
- SGLang
How to use zan/Qwen3.6-27B-DFlash-ja with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "zan/Qwen3.6-27B-DFlash-ja" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "zan/Qwen3.6-27B-DFlash-ja", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "zan/Qwen3.6-27B-DFlash-ja" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "zan/Qwen3.6-27B-DFlash-ja", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }' - Docker Model Runner
How to use zan/Qwen3.6-27B-DFlash-ja with Docker Model Runner:
docker model run hf.co/zan/Qwen3.6-27B-DFlash-ja
Qwen3.6-27B-DFlash-ja
Qwen/Qwen3.6-27B (multimodal Qwen3.5) ファミリ向けの DFlash 互換 draft model です。具体的には AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-Multimodal-NVFP4-MTP-XS を target にした投機的デコーディングで、日本語タスクをもう少し速く回せないか、というお試しで作ってみました。
z-lab/Qwen3.6-27B-DFlash を初期重みとして英語 + 日本語データで追加学習しています。
その結果、日本語タスクの acceptance length が改善しました。
DFlash (An et al., arXiv:2602.06036) の block-diffusion drafter です。Qwen3.6-27B ファミリを target にした投機的デコーディングで使えます。vLLM の --speculative-config method=dflash でそのまま動作します。
Installation
uv pip install vllm
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
使い方 (vLLM)
vllm serve AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-Multimodal-NVFP4-MTP-XS \
--tokenizer Qwen/Qwen3.6-27B \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.85 \
--max-num-seqs 4 \
--enable-chunked-prefill \
--attention-backend flash_attn \
--quantization modelopt \
--dtype auto \
--trust-remote-code \
--speculative-config '{"method":"dflash","model":"zan/Qwen3.6-27B-DFlash-ja","num_speculative_tokens":10}'
drafter は auto_map: {"AutoModel": "dflash.DFlashDraftModel"} 経由でロードされるため、--trust-remote-code 必須です。
学習レシピ (概要)
| 項目 | 値 |
|---|---|
| 初期重み | z-lab/Qwen3.6-27B-DFlash (FT で継承) |
| 追加学習データ | 英語 chat 5,003 + 日本語コーディング 2,000 + 日本語 chat 10,306 = 17,309 sample |
| target hidden 抽出 | AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-Multimodal-NVFP4-MTP-XS を 独自に bf16 へ dequant した上で 5 層 [1, 16, 31, 46, 61] を抽出。E2M1 LUT + per-block FP8 + global FP32 scale を自前で復元 |
| 学習方式 | full-seq context + block-sparse anchor attention (z-lab の DFlash 訓練を移植) |
| epoch / lr / block_size / max_anchors | 2 / 3e-5 / 16 / 256 |
| grad_accum / warmup_ratio / loss_gamma | 2 / 0.03 / 7.0 |
| max_seq_len | 4096 |
| 計算 | NVIDIA GB10 (Spark) 1 台、cache 抽出 ~4.5h + 学習 ~8.5h + bench 30min = 全体 ~14h |
ベンチマーク
論文に倣い num_speculative_tokens=10, max_tokens=512, concurrency=1 で測定しました。τ = mean accept length (=acceptance_rate × 10 + 1)、tok/s は wall-clock スループットの中央値です。
日本語 (13 prompts)
| dataset | n | z-lab τ / tok/s | 本モデル τ / tok/s | Δ τ |
|---|---|---|---|---|
| jp_general | 1 | 2.37 / 20.21 | 2.92 / 24.88 | +23% |
| jp_code | 1 | 2.77 / 23.36 | 3.46 / 29.15 | +25% |
| jp_reasoning | 1 | 2.88 / 24.24 | 3.47 / 29.21 | +21% |
| jp_seed (mix) | 10 | 2.48 / 20.17 | 3.01 / 23.28 | +22% |
| JP overall (median) | 13 | 2.53 / 20.66 | 3.07 / 24.88 | +22% τ / +20% tok/s |
JP では 13 prompt 中 12 prompt で z-lab を上回り、残り 1 prompt も -5% 以内のズレに収まっています。
英語 (13 prompts)
| dataset | n | z-lab τ / tok/s | 本モデル τ / tok/s | Δ τ |
|---|---|---|---|---|
| en_general | 3 | 2.79 / 22.94 | 2.99 / 26.67 | +7% |
| en_code | 3 | 6.07 / 48.04 | 6.72 / 56.97 | +11% |
| en_math | 3 | 6.43 / 51.06 | 6.78 / 53.69 | +5% |
| en_reason | 2 | 4.69 / 39.38 | 4.58 / 38.51 | -2% |
| en_long | 2 | 6.57 / 53.99 | 6.65 / 54.76 | +1% |
| EN overall (median) | 13 | 5.26 / 47.35 | 5.53 / 52.99 | +5% τ / +12% tok/s |
英語ベンチも 13 prompt 中 13 で同等以上、特に code / math 領域で安定して上回ります。
en_reasoning_001 の単独計測
日本語に振り切ったレシピだと、論理推論系の単一プロンプト (en_reason_001) で z-lab に対して -31% (38.41 tok/s vs 55.63 tok/s) まで落ちることが過去の実験で観測されていました。本モデルでは teacher mismatch fix によって -3.5% (53.67 tok/s vs 55.63 tok/s) までほぼ回帰が消えています。「日本語化のために英語推論を捨てる」必要がなくなっています。
⚠ ベンチマーク条件について
z-lab 列は 本環境で再測定した値 であり、z-lab がモデルカードで公開している τ とは別物です。
| 項目 | 本ベンチ | z-lab 公開値 |
|---|---|---|
| target モデル | AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-Multimodal-NVFP4-MTP-XS |
Qwen/Qwen3.6-27B bf16 |
| inference | vLLM (chunked-prefill, flash_attn) | SGLang FA4 (推定) |
| HW | NVIDIA GB10 (Spark) | NVIDIA H200 (推定) |
| subset | 各カテゴリ 1-10 prompt | テストセット全件 |
num_speculative_tokens |
10 | (z-lab 公開値の設定不明) |
NVFP4 量子化と subset 取得の影響で、τ の絶対値は z-lab 公式 (理想化された bf16 環境) より低めに出ています。
既知の制約
- target は
AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-Multimodal-NVFP4-MTP-XSを想定しています。アーキテクチャ互換な他の Qwen3.6-27B 派生モデル (bf16 / 他の NVFP4 派生など) を target にしても動作はしますが、本モデルは XS target の hidden 分布に合わせて学習しているため、acceptance rate は劣化する見込みで、報告値の利得は再現されない可能性があります。 - subset での bench であり、
gsm8k/humanevalなどの full-set bench は未実施です。
ライセンス
Apache 2.0 (上流 Qwen3.6 / z-lab 継承)。
謝辞
モデル・コード
- 上流 z-lab/Qwen3.6-27B-DFlash の事前学習を継承
- target / tokenizer の Qwen/Qwen3.6-27B (Alibaba Qwen team)
- 推論時 target の AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-Multimodal-NVFP4-MTP-XS (AEON-7 による NVFP4-modelopt 量子化)
- DFlash 論文: An et al., arXiv:2602.06036
- 学習レシピは vllm-project/speculators を参考
学習データ
- 英語 chat (5,003): HuggingFaceH4/ultrachat_200k のプロンプトを target で再生成
- 日本語コーディング (2,000): llm-jp/Synthetic-JP-EN-Coding-Dataset のプロンプトを target で再生成
- 日本語 chat (10,306): データセット (jp_general / jp_code / jp_long / tool 等のカテゴリで構成)
- Downloads last month
- 46
Model tree for zan/Qwen3.6-27B-DFlash-ja
Base model
z-lab/Qwen3.6-27B-DFlash