JetLLMPlus-3.5 / README.md
rezanaltjetlink's picture
Upload README.md
399a42c verified
---
license: apache-2.0
library_name: transformers
tags:
- qwen
- multimodal
- moe
- vision-language
- conversational
- transformers
- vllm
- sglang
- ktransformers
- function-calling
- reasoning
pipeline_tag: image-text-to-text
base_model: Qwen/Qwen3.5-122B-A10B
---
# JetLLMPlus-3.5
**JetLLMPlus-3.5** is a multimodal Mixture-of-Experts model published by **Jetlink**.
It is intended for teams that want to manage deployment, access, and internal distribution from their own namespace while preserving compatibility with the original upstream model ecosystem.
## Model Summary
JetLLMPlus-3.5 is a 122B total / 10B active parameter multimodal MoE model with:
- **122B total parameters, 10B activated per token**
- **Causal Language Model with Vision Encoder**
- **Hybrid architecture: Gated DeltaNet (36 layers) + Full Attention (12 layers) + Sparse MoE**
- **256 routed experts + 1 shared expert per layer**
- **262,144 tokens native context length**
- **Extensible context up to 1,010,000 tokens via YaRN**
- **Support for 201 languages and dialects**
- Compatibility with **Transformers**, **vLLM**, **SGLang**, and **KTransformers**
## Intended Use
This model is suitable for advanced workloads such as:
- multimodal chat assistants
- long-context document and PDF understanding
- OCR, chart comprehension, and document extraction pipelines
- reasoning and step-by-step problem solving
- agentic workflows with function calling
- coding assistants and code generation
- GUI automation and screen understanding
- multilingual enterprise assistants
- research and benchmarking
## Model Details
### Architecture
- **Model type:** Causal Language Model with Vision Encoder
- **Training stage:** Pre-training & Post-training
- **Total parameters:** 122B
- **Activated parameters:** 10B per token
- **Hidden dimension:** 3,072
- **Number of layers:** 48 (36 GatedDeltaNet linear attention + 12 full attention)
- **MoE experts:** 256 routed + 1 shared per layer
- **Activated experts:** 8 routed + 1 shared
- **Expert FFN dimension:** 1,024
- **Vocabulary size:** 248,320
- **Native context length:** 262,144 tokens
- **Extended context capability:** up to 1,010,000 tokens via YaRN
### Architecture Note: Hybrid Attention (GatedDeltaNet + MoE)
JetLLMPlus-3.5 uses a novel hybrid attention design unique to the Qwen3.5 architecture. Unlike standard transformer MoE models, it combines:
- **GatedDeltaNet linear attention** (36 out of 48 layers) for efficient long-context processing with sub-quadratic complexity
- **Full global attention** (12 layers) for high-quality token interactions
- **Sparse MoE** routing in feed-forward layers for parameter efficiency
This design delivers high-throughput inference with significantly lower latency than pure full-attention models of comparable total parameter count.
> ⚠️ **Deployment note:** The GatedDeltaNet layers impose additional constraints compared to standard MoE models. When serving with SGLang, `--attention-backend triton` and `--kv-cache-dtype bf16` are required. FP8 KV cache is not recommended due to potential output corruption on this architecture. CUDA graph and HiCache (prefix caching) are currently incompatible with DeltaNet layers.
### Ecosystem Compatibility
- Hugging Face Transformers
- vLLM
- SGLang
- KTransformers
## Hardware Requirements
> JetLLMPlus-3.5 sits between the lightweight 35B-A3B and the flagship 397B-A17B, requiring multi-GPU infrastructure at full precision but manageable on 2–4 datacenter GPUs.
### Reference Hardware
Approximate GPU memory requirements:
- **Unquantized (BF16):** ~244GB VRAM — 3–4× A100 80GB or equivalent
- **FP8:** ~127GB — 2× A100 80GB or equivalent
- **GPTQ-Int4:** ~79GB — 1× H100 80GB or 2× A100 40GB
- **Multi-GPU:** tensor parallelism recommended via vLLM or SGLang (`--tp-size 4` or `--tp-size 8`)
> Note: requirements vary significantly based on context length, KV cache settings, and batch size. FP8 KV cache should be avoided for this model due to DeltaNet architecture constraints — use BF16 KV.
### Recommendation
For most production teams:
1. use **FP8 weights + BF16 KV** for the best balance of memory and quality
2. use **GPTQ-Int4** for single-GPU or memory-constrained deployments
3. enable **MTP (Multi-Token Prediction)** for the highest throughput gains — this is the primary optimization path for this model's architecture
4. use `--language-model-only` when vision is not needed to free KV cache memory
## Software Requirements
Recommended environment:
- Python 3.10+
- Linux
- CUDA-enabled GPU infrastructure
- One of the following runtimes:
- Transformers (latest from `main` branch)
- vLLM
- SGLang
- KTransformers
Common dependencies:
- `torch`
- `transformers`
- `torchvision`
- `pillow`
- `accelerate`
## Quickstart
Install Transformers:
pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
### Basic text inference
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "Jetlink/JetLLMPlus-3.5"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)
messages = [
{"role": "user", "content": [{"type": "text", "text": "Explain the difference between MoE and dense models."}]}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_tensors="pt"
).to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))
### Thinking mode (deep reasoning)
Enable step-by-step reasoning with `enable_thinking=True`:
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_tensors="pt",
enable_thinking=True,
).to(model.device)
### Non-thinking mode (direct response)
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_tensors="pt",
enable_thinking=False,
).to(model.device)
## Serving Examples
### vLLM
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3
### vLLM with Tool Use
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
### vLLM with MTP (Multi-Token Prediction)
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
### vLLM text-only mode
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only
### SGLang
> ⚠️ DeltaNet layers require additional flags. Use `--attention-backend triton` and `--kv-cache-dtype bf16`.
python -m sglang.launch_server \
--model-path Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tp-size 4 \
--mem-fraction-static 0.80 \
--context-length 262144 \
--reasoning-parser qwen3 \
--attention-backend triton \
--kv-cache-dtype bf16 \
--disable-cuda-graph \
--disable-radix-cache
### SGLang with Tool Use
python -m sglang.launch_server \
--model-path Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tp-size 4 \
--mem-fraction-static 0.80 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--attention-backend triton \
--kv-cache-dtype bf16 \
--disable-cuda-graph \
--disable-radix-cache
### SGLang with Multi-Token Prediction (MTP)
python -m sglang.launch_server \
--model-path Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tp-size 4 \
--mem-fraction-static 0.80 \
--context-length 262144 \
--reasoning-parser qwen3 \
--attention-backend triton \
--kv-cache-dtype bf16 \
--disable-cuda-graph \
--disable-radix-cache \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
## Long Context Notes
JetLLMPlus-3.5 natively supports **262,144 tokens**.
For tasks exceeding this window, the upstream documentation recommends YaRN-based long-context scaling, supported in Transformers, vLLM, KTransformers, and SGLang, extending context up to **1,010,000 tokens**.
The hybrid GatedDeltaNet + full-attention architecture provides sub-quadratic scaling for long-context inputs on the linear attention layers, making long-context processing more efficient than pure full-attention models of similar scale.
## Strengths
- very strong knowledge and vision benchmarks in the open-weight mid-tier class
- best-in-class document understanding (OCRBench 92.1, OmniDocBench 89.8)
- leading function calling performance in the Qwen3.5 lineup (BFCL-V4 72.2)
- strong GUI and screen automation capabilities (ScreenSpot Pro 70.4)
- highly efficient inference thanks to MoE — only 10B parameters activate per token
- hybrid DeltaNet attention for efficient long-context processing
- 262K native context, extensible to 1M via YaRN
- 201 language support
- Apache 2.0 license
## Limitations
- full weight matrix (122B) must reside in memory regardless of active parameters
- GatedDeltaNet layers impose framework-specific constraints (no FP8 KV, no CUDA graph, no prefix caching in SGLang)
- multi-GPU deployment required for unquantized serving
- long context significantly increases KV cache memory pressure
- multimodal usage adds further overhead
- deployment characteristics vary significantly by framework and configuration
## Out-of-Scope / Cautionary Use
As with other frontier-scale multimodal language models, outputs should be reviewed before use in:
- medical decision-making
- legal advice
- safety-critical automation
- high-stakes financial decisions
- fully autonomous customer actions without guardrails
Human review, policy controls, and tool-level validation are strongly recommended.
## License
This repository follows the same license as the upstream release.
- **License:** Apache-2.0
- See the upstream Qwen repository and included license text for the governing terms.
If you redistribute, fine-tune, quantize, or otherwise modify this model, make sure your usage remains compliant with the upstream license and attribution requirements.
## Attribution
Original model and research release by the **Qwen** team.
Upstream model:
- `Qwen/Qwen3.5-122B-A10B`
This repository is an organization-managed copy and is **not the original upstream source**.
## Citation
Please cite the original Qwen release when using this model in research, evaluation, or production documentation.
```bibtex
@misc{qwen3.5,
title = {Qwen3.5 Technical Report},
author = {Qwen Team},
year = {2026},
publisher = {Alibaba Cloud},
howpublished = {\url{https://huggingface.co/Qwen/Qwen3.5-122B-A10B}}
}
```
---
# JetLLMPlus-3.5 (Türkçe)
**JetLLMPlus-3.5**, **Jetlink** tarafından yayınlanan multimodal bir Mixture-of-Experts modelidir.
Bu depo; modeli kendi namespace'i altında yönetmek, erişimi kontrol etmek ve dağıtımı kolaylaştırmak isteyen ekipler için hazırlanmıştır.
## Model Özeti
JetLLMPlus-3.5, token başına 10B parametre aktive eden 122B toplam parametreli bir multimodal MoE modelidir:
- **122B toplam parametre, token başına 10B aktif**
- **Vision Encoder içeren Causal Language Model**
- **Hibrit mimari: Gated DeltaNet (36 katman) + Tam Dikkat (12 katman) + Sparse MoE**
- **Katman başına 256 routed expert + 1 shared expert**
- **262.144 token yerel bağlam uzunluğu**
- **YaRN ile 1.010.000 token'a kadar genişletilebilir bağlam**
- **201 dil ve lehçe desteği**
- **Transformers**, **vLLM**, **SGLang** ve **KTransformers** ile uyumluluk
## Kullanım Amacı
Bu model aşağıdaki gelişmiş kullanım senaryoları için uygundur:
- multimodal sohbet asistanları
- uzun bağlamlı doküman ve PDF anlama
- OCR, grafik anlama ve doküman çıkarma pipeline'ları
- adım adım akıl yürütme ve problem çözme
- function calling ile agentic workflow yapıları
- kodlama asistanları ve kod üretimi
- GUI otomasyon ve ekran anlama
- çok dilli kurumsal asistanlar
- araştırma ve benchmark çalışmaları
## Model Detayları
### Mimari
- **Model tipi:** Vision Encoder içeren Causal Language Model
- **Eğitim aşaması:** Pre-training ve Post-training
- **Toplam parametre:** 122B
- **Aktif parametre:** Token başına 10B
- **Hidden dimension:** 3.072
- **Katman sayısı:** 48 (36 GatedDeltaNet lineer dikkat + 12 tam dikkat)
- **MoE expert sayısı:** Katman başına 256 routed + 1 shared
- **Aktif expert:** 8 routed + 1 shared
- **Expert FFN boyutu:** 1.024
- **Vocabulary size:** 248.320
- **Yerel bağlam uzunluğu:** 262.144 token
- **Genişletilmiş bağlam kapasitesi:** YaRN ile 1.010.000 token'a kadar
### Mimari Notu: Hibrit Dikkat (GatedDeltaNet + MoE)
JetLLMPlus-3.5, Qwen3.5 mimarisine özgü yenilikçi bir hibrit dikkat tasarımı kullanır. Standart transformer MoE modellerinden farklı olarak şunları birleştirir:
- **GatedDeltaNet lineer dikkat** (48 katmandan 36'sı): sub-quadratic karmaşıklıkla verimli uzun bağlam işleme
- **Tam global dikkat** (12 katman): yüksek kaliteli token etkileşimleri
- **Sparse MoE** routing: parametre verimliliği için feed-forward katmanlarında
Bu tasarım, benzer toplam parametre sayısına sahip tam-dikkat modellerine kıyasla çok daha düşük gecikmeyle yüksek throughput inference sağlar.
> ⚠️ **Deployment notu:** GatedDeltaNet katmanları, standart MoE modellerine kıyasla ek kısıtlamalar getirir. SGLang ile servis ederken `--attention-backend triton` ve `--kv-cache-dtype bf16` zorunludur. FP8 KV cache bu mimaride output bozulmasına yol açabileceğinden önerilmez. CUDA graph ve HiCache (prefix caching) DeltaNet katmanlarıyla uyumsuzluk nedeniyle devre dışı bırakılmalıdır.
### Ekosistem Uyumluluğu
- Hugging Face Transformers
- vLLM
- SGLang
- KTransformers
## Donanım Gereksinimleri
> JetLLMPlus-3.5, hafif 35B-A3B ile flagship 397B-A17B arasında konumlanmaktadır. Tam hassasiyette çoklu GPU altyapısı gerektirir ancak 2–4 datacenter GPU ile yönetilebilir düzeydedir.
### Referans Donanım
Tahmini GPU bellek gereksinimleri:
- **Quantize edilmemiş (BF16):** ~244GB VRAM — 3–4× A100 80GB veya eşdeğeri
- **FP8:** ~127GB — 2× A100 80GB veya eşdeğeri
- **GPTQ-Int4:** ~79GB — 1× H100 80GB veya 2× A100 40GB
- **Çoklu GPU:** vLLM veya SGLang üzerinden tensor parallelism önerilir (`--tp-size 4` veya `--tp-size 8`)
> Not: Gereksinimler bağlam uzunluğu, KV cache ayarları ve batch size'a göre önemli ölçüde değişir. Bu model için FP8 KV cache, DeltaNet mimari kısıtlamaları nedeniyle önerilmez — BF16 KV kullanın.
### Öneri
Çoğu production ekip için en mantıklı yaklaşım:
1. en iyi bellek/kalite dengesi için **FP8 ağırlık + BF16 KV** kullanmak
2. tek GPU veya bellek kısıtlı dağıtımlar için **GPTQ-Int4** kullanmak
3. en yüksek throughput kazanımı için **MTP (Multi-Token Prediction)** etkinleştirmek — bu modelin mimarisinde birincil optimizasyon yoludur
4. vision gerekmiyorsa KV cache belleği açmak için `--language-model-only` kullanmak
## Yazılım Gereksinimleri
Önerilen ortam:
- Python 3.10+
- Linux
- CUDA destekli GPU altyapısı
- Şu runtime'lardan biri:
- Transformers (en son `main` branch)
- vLLM
- SGLang
- KTransformers
Yaygın bağımlılıklar:
- `torch`
- `transformers`
- `torchvision`
- `pillow`
- `accelerate`
## Hızlı Başlangıç
Transformers kurulumu:
pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
### Temel metin çıkarımı
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "Jetlink/JetLLMPlus-3.5"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)
messages = [
{"role": "user", "content": [{"type": "text", "text": "MoE ve dense modeller arasındaki farkı açıkla."}]}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_tensors="pt"
).to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))
### Thinking modu (derin akıl yürütme)
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_tensors="pt",
enable_thinking=True,
).to(model.device)
### Non-thinking modu (doğrudan yanıt)
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_tensors="pt",
enable_thinking=False,
).to(model.device)
## Serving Örnekleri
### vLLM
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3
### vLLM Tool Use ile
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
### vLLM MTP ile
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
### vLLM sadece metin modu
vllm serve Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only
### SGLang
> ⚠️ DeltaNet katmanları ek flag gerektirmektedir. `--attention-backend triton` ve `--kv-cache-dtype bf16` zorunludur.
python -m sglang.launch_server \
--model-path Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tp-size 4 \
--mem-fraction-static 0.80 \
--context-length 262144 \
--reasoning-parser qwen3 \
--attention-backend triton \
--kv-cache-dtype bf16 \
--disable-cuda-graph \
--disable-radix-cache
### SGLang Tool Use ile
python -m sglang.launch_server \
--model-path Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tp-size 4 \
--mem-fraction-static 0.80 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--attention-backend triton \
--kv-cache-dtype bf16 \
--disable-cuda-graph \
--disable-radix-cache
### SGLang Multi-Token Prediction (MTP) ile
python -m sglang.launch_server \
--model-path Jetlink/JetLLMPlus-3.5 \
--port 8000 \
--tp-size 4 \
--mem-fraction-static 0.80 \
--context-length 262144 \
--reasoning-parser qwen3 \
--attention-backend triton \
--kv-cache-dtype bf16 \
--disable-cuda-graph \
--disable-radix-cache \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
## Uzun Bağlam Notları
JetLLMPlus-3.5 yerel olarak **262.144 token** destekler.
Bu pencereyi aşan görevlerde Transformers, vLLM, KTransformers ve SGLang tarafından desteklenen YaRN tabanlı uzun bağlam ölçekleme ile **1.010.000 token'a** kadar genişletilebilir.
Hibrit GatedDeltaNet + tam dikkat mimarisi, lineer dikkat katmanlarında uzun bağlam girdileri için sub-quadratic ölçekleme sağlayarak benzer ölçekteki saf tam dikkat modellerine kıyasla uzun bağlam işlemeyi daha verimli hale getirir.
## Güçlü Yönler
- açık ağırlıklı orta kademe sınıfında çok güçlü bilgi ve vision benchmark'ları
- en iyi sınıf doküman anlama (OCRBench 92.1, OmniDocBench 89.8)
- Qwen3.5 serisinde öncü function calling performansı (BFCL-V4 72.2)
- güçlü GUI ve ekran otomasyon yetenekleri (ScreenSpot Pro 70.4)
- MoE sayesinde yüksek verimli inference — token başına yalnızca 10B parametre aktive edilir
- verimli uzun bağlam işleme için hibrit DeltaNet dikkat
- YaRN ile 262K yerel bağlam, 1M'a genişletilebilir
- 201 dil desteği
- Apache 2.0 lisansı
## Sınırlamalar
- aktif parametrelerden bağımsız olarak tam ağırlık matrisi (122B) bellekte tutulmalıdır
- GatedDeltaNet katmanları framework'e özgü kısıtlamalar getirir (FP8 KV yok, CUDA graph yok, SGLang'da prefix caching yok)
- quantize edilmemiş serving için çoklu GPU dağıtımı gereklidir
- uzun bağlam KV cache bellek baskısını ciddi ölçüde artırır
- multimodal kullanım ek yük getirir
- deployment karakteristiği framework ve konfigürasyona göre önemli ölçüde değişir
## Kapsam Dışı / Dikkat Gerektiren Kullanımlar
Diğer frontier-scale multimodal language model'lerde olduğu gibi, model çıktıları şu alanlarda insan denetimi olmadan kullanılmamalıdır:
- tıbbi karar verme
- hukuki tavsiye
- güvenlik kritik otomasyon
- yüksek riskli finansal kararlar
- korumasız tam otonom müşteri aksiyonları
İnsan incelemesi, politika kontrolleri ve tool seviyesinde doğrulama güçlü şekilde önerilir.
## Lisans
Bu depo, upstream sürümle aynı lisansı takip eder.
- **Lisans:** Apache-2.0
- Geçerli şartlar için upstream Qwen deposu ve lisans metni incelenmelidir.
Modeli yeniden dağıtıyor, fine-tune ediyor, quantize ediyor veya başka şekilde değiştiriyorsan; kullanımının upstream lisans ve attribution gereklilikleriyle uyumlu olduğundan emin olmalısın.
## Atıf
Orijinal model ve araştırma yayını **Qwen** ekibine aittir.
Upstream model:
- `Qwen/Qwen3.5-122B-A10B`
Bu depo, kurum tarafından yönetilen bir kopyadır ve **orijinal upstream kaynak değildir**.
## Atıf / Citation
Bu modeli araştırma, değerlendirme veya production dokümantasyonunda kullanıyorsan, lütfen orijinal Qwen sürümüne atıf yap.
```bibtex
@misc{qwen3.5,
title = {Qwen3.5 Technical Report},
author = {Qwen Team},
year = {2026},
publisher = {Alibaba Cloud},
howpublished = {\url{https://huggingface.co/Qwen/Qwen3.5-122B-A10B}}
}
```