Qwen SpeedLab — Qwen 3.6 27B Hyper-Rapide sur RTX 3090

Objectif : faire tourner Qwen 3.6 27B à la vitesse maximale sur une seule RTX 3090 (24 GB VRAM).

Techniques utilisées

Technique Speedup Description
DFlash 3-5× Block diffusion speculative decoding — un drafter parallèle qui propose plusieurs tokens vérifiés en un seul forward pass
MTP (Multi-Token Prediction) 1.7-2× Self-speculative decoding utilisant les têtes MTP natives de Qwen 3.6
TurboQuant KV 5-7.5× compression Quantification Walsh-Hadamard du cache KV → plus de contexte dans le même VRAM
Flash Attention 1.2-1.5× Attention kernels optimisés pour Ampere (RTX 3090 = sm_86)
Quantification Q4_K_M 16 GB → tient dans les 24 GB avec marge pour le KV cache

Architecture de Qwen 3.6 27B

  • 64 couches : 48 GatedDeltaNet (SSM linéaire) + 16 full-attention (toutes les 4 couches)
  • Hidden dim : 5120, FFN : 17408
  • Contexte natif : 262K tokens
  • MTP head : blk.64.nextn.* — 1 tête de prédiction multi-token
  • Cache KV : Seulement sur les 16 couches full-attention → très léger
  • Licence : Apache 2.0

Kernels CUDA custom

Des kernels spécialisés pour l'architecture hybride de Qwen 3.6 (48 GDN + 16 attention) :

Kernel Fichier Gain
Fused GDN Projections kernels/gdn_fused_proj.cu +15-25% sur GDN (+11-19% net)
Warp-Shuffle Conv1D kernels/gdn_conv1d_warp.cu 3-5× sur conv1d (+3-4% net)
MTP Batched Verify kernels/mtp_fused_verify.cu +10-15% en mode MTP (+3-5% net)

Gain cumulatif projeté : +18-31% sur le baseline.

Fichiers du projet

/workspace/
├── kernels/               # Kernels CUDA custom optimisés Qwen 3.6
│   ├── gdn_fused_proj.cu  # Fusion QKVZ + activations (1 launch au lieu de 6)
│   ├── gdn_conv1d_warp.cu # Conv1D causale par warp shuffle
│   ├── mtp_fused_verify.cu # Vérification MTP batchée + forward fusionné
│   ├── speedlab_kernels.h # Header commun C-linkage
│   └── Makefile           # Build system pour les kernels
├── beellama.cpp/          # Moteur BeeLlama (DFlash + TurboQuant)
├── llama.cpp-turboq-mtp/  # Moteur Indras-Mirror (TBQ4 FA + RotorQuant)
├── models/
│   ├── batiai-qwen36-27b/ # Modèle cible GGUF (Q4_K_M)
│   ├── dflash/            # Modèle drafter DFlash
│   └── mannix-mtp-qwen36-27b/ # MTP-enabled GGUF
├── scripts/               # Scripts de lancement
└── README.md

Lancement rapide

Mode DFlash (vitesse maximale, ~78-130 tok/s)

./scripts/serve-dflash.sh

Mode MTP (simple, ~55-70 tok/s)

./scripts/serve-mtp.sh

Mode baseline (~35-45 tok/s)

./scripts/serve-baseline.sh

Benchmark

./scripts/benchmark.sh
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support