rezanaltjetlink commited on
Commit
399a42c
·
verified ·
1 Parent(s): fdd95c2

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +680 -0
README.md ADDED
@@ -0,0 +1,680 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ library_name: transformers
4
+ tags:
5
+ - qwen
6
+ - multimodal
7
+ - moe
8
+ - vision-language
9
+ - conversational
10
+ - transformers
11
+ - vllm
12
+ - sglang
13
+ - ktransformers
14
+ - function-calling
15
+ - reasoning
16
+ pipeline_tag: image-text-to-text
17
+ base_model: Qwen/Qwen3.5-122B-A10B
18
+ ---
19
+
20
+ # JetLLMPlus-3.5
21
+
22
+ **JetLLMPlus-3.5** is a multimodal Mixture-of-Experts model published by **Jetlink**.
23
+
24
+ It is intended for teams that want to manage deployment, access, and internal distribution from their own namespace while preserving compatibility with the original upstream model ecosystem.
25
+
26
+ ## Model Summary
27
+
28
+ JetLLMPlus-3.5 is a 122B total / 10B active parameter multimodal MoE model with:
29
+
30
+ - **122B total parameters, 10B activated per token**
31
+ - **Causal Language Model with Vision Encoder**
32
+ - **Hybrid architecture: Gated DeltaNet (36 layers) + Full Attention (12 layers) + Sparse MoE**
33
+ - **256 routed experts + 1 shared expert per layer**
34
+ - **262,144 tokens native context length**
35
+ - **Extensible context up to 1,010,000 tokens via YaRN**
36
+ - **Support for 201 languages and dialects**
37
+ - Compatibility with **Transformers**, **vLLM**, **SGLang**, and **KTransformers**
38
+
39
+ ## Intended Use
40
+
41
+ This model is suitable for advanced workloads such as:
42
+
43
+ - multimodal chat assistants
44
+ - long-context document and PDF understanding
45
+ - OCR, chart comprehension, and document extraction pipelines
46
+ - reasoning and step-by-step problem solving
47
+ - agentic workflows with function calling
48
+ - coding assistants and code generation
49
+ - GUI automation and screen understanding
50
+ - multilingual enterprise assistants
51
+ - research and benchmarking
52
+
53
+ ## Model Details
54
+
55
+ ### Architecture
56
+
57
+ - **Model type:** Causal Language Model with Vision Encoder
58
+ - **Training stage:** Pre-training & Post-training
59
+ - **Total parameters:** 122B
60
+ - **Activated parameters:** 10B per token
61
+ - **Hidden dimension:** 3,072
62
+ - **Number of layers:** 48 (36 GatedDeltaNet linear attention + 12 full attention)
63
+ - **MoE experts:** 256 routed + 1 shared per layer
64
+ - **Activated experts:** 8 routed + 1 shared
65
+ - **Expert FFN dimension:** 1,024
66
+ - **Vocabulary size:** 248,320
67
+ - **Native context length:** 262,144 tokens
68
+ - **Extended context capability:** up to 1,010,000 tokens via YaRN
69
+
70
+ ### Architecture Note: Hybrid Attention (GatedDeltaNet + MoE)
71
+
72
+ JetLLMPlus-3.5 uses a novel hybrid attention design unique to the Qwen3.5 architecture. Unlike standard transformer MoE models, it combines:
73
+
74
+ - **GatedDeltaNet linear attention** (36 out of 48 layers) for efficient long-context processing with sub-quadratic complexity
75
+ - **Full global attention** (12 layers) for high-quality token interactions
76
+ - **Sparse MoE** routing in feed-forward layers for parameter efficiency
77
+
78
+ This design delivers high-throughput inference with significantly lower latency than pure full-attention models of comparable total parameter count.
79
+
80
+ > ⚠️ **Deployment note:** The GatedDeltaNet layers impose additional constraints compared to standard MoE models. When serving with SGLang, `--attention-backend triton` and `--kv-cache-dtype bf16` are required. FP8 KV cache is not recommended due to potential output corruption on this architecture. CUDA graph and HiCache (prefix caching) are currently incompatible with DeltaNet layers.
81
+
82
+ ### Ecosystem Compatibility
83
+
84
+ - Hugging Face Transformers
85
+ - vLLM
86
+ - SGLang
87
+ - KTransformers
88
+
89
+ ## Hardware Requirements
90
+
91
+ > JetLLMPlus-3.5 sits between the lightweight 35B-A3B and the flagship 397B-A17B, requiring multi-GPU infrastructure at full precision but manageable on 2–4 datacenter GPUs.
92
+
93
+ ### Reference Hardware
94
+
95
+ Approximate GPU memory requirements:
96
+
97
+ - **Unquantized (BF16):** ~244GB VRAM — 3–4× A100 80GB or equivalent
98
+ - **FP8:** ~127GB — 2× A100 80GB or equivalent
99
+ - **GPTQ-Int4:** ~79GB — 1× H100 80GB or 2× A100 40GB
100
+ - **Multi-GPU:** tensor parallelism recommended via vLLM or SGLang (`--tp-size 4` or `--tp-size 8`)
101
+
102
+ > Note: requirements vary significantly based on context length, KV cache settings, and batch size. FP8 KV cache should be avoided for this model due to DeltaNet architecture constraints — use BF16 KV.
103
+
104
+ ### Recommendation
105
+
106
+ For most production teams:
107
+
108
+ 1. use **FP8 weights + BF16 KV** for the best balance of memory and quality
109
+ 2. use **GPTQ-Int4** for single-GPU or memory-constrained deployments
110
+ 3. enable **MTP (Multi-Token Prediction)** for the highest throughput gains — this is the primary optimization path for this model's architecture
111
+ 4. use `--language-model-only` when vision is not needed to free KV cache memory
112
+
113
+ ## Software Requirements
114
+
115
+ Recommended environment:
116
+
117
+ - Python 3.10+
118
+ - Linux
119
+ - CUDA-enabled GPU infrastructure
120
+ - One of the following runtimes:
121
+ - Transformers (latest from `main` branch)
122
+ - vLLM
123
+ - SGLang
124
+ - KTransformers
125
+
126
+ Common dependencies:
127
+
128
+ - `torch`
129
+ - `transformers`
130
+ - `torchvision`
131
+ - `pillow`
132
+ - `accelerate`
133
+
134
+ ## Quickstart
135
+
136
+ Install Transformers:
137
+
138
+ pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
139
+
140
+ ### Basic text inference
141
+
142
+ from transformers import AutoProcessor, AutoModelForImageTextToText
143
+ import torch
144
+
145
+ model_id = "Jetlink/JetLLMPlus-3.5"
146
+
147
+ processor = AutoProcessor.from_pretrained(model_id)
148
+ model = AutoModelForImageTextToText.from_pretrained(
149
+ model_id,
150
+ torch_dtype=torch.bfloat16,
151
+ device_map="auto",
152
+ trust_remote_code=True,
153
+ )
154
+
155
+ messages = [
156
+ {"role": "user", "content": [{"type": "text", "text": "Explain the difference between MoE and dense models."}]}
157
+ ]
158
+
159
+ inputs = processor.apply_chat_template(
160
+ messages,
161
+ add_generation_prompt=True,
162
+ tokenize=True,
163
+ return_tensors="pt"
164
+ ).to(model.device)
165
+
166
+ output = model.generate(**inputs, max_new_tokens=512)
167
+ print(processor.decode(output[0], skip_special_tokens=True))
168
+
169
+ ### Thinking mode (deep reasoning)
170
+
171
+ Enable step-by-step reasoning with `enable_thinking=True`:
172
+
173
+ inputs = processor.apply_chat_template(
174
+ messages,
175
+ add_generation_prompt=True,
176
+ tokenize=True,
177
+ return_tensors="pt",
178
+ enable_thinking=True,
179
+ ).to(model.device)
180
+
181
+ ### Non-thinking mode (direct response)
182
+
183
+ inputs = processor.apply_chat_template(
184
+ messages,
185
+ add_generation_prompt=True,
186
+ tokenize=True,
187
+ return_tensors="pt",
188
+ enable_thinking=False,
189
+ ).to(model.device)
190
+
191
+ ## Serving Examples
192
+
193
+ ### vLLM
194
+
195
+ vllm serve Jetlink/JetLLMPlus-3.5 \
196
+ --port 8000 \
197
+ --tensor-parallel-size 4 \
198
+ --max-model-len 262144 \
199
+ --reasoning-parser qwen3
200
+
201
+ ### vLLM with Tool Use
202
+
203
+ vllm serve Jetlink/JetLLMPlus-3.5 \
204
+ --port 8000 \
205
+ --tensor-parallel-size 4 \
206
+ --max-model-len 262144 \
207
+ --reasoning-parser qwen3 \
208
+ --enable-auto-tool-choice \
209
+ --tool-call-parser qwen3_coder
210
+
211
+ ### vLLM with MTP (Multi-Token Prediction)
212
+
213
+ vllm serve Jetlink/JetLLMPlus-3.5 \
214
+ --port 8000 \
215
+ --tensor-parallel-size 4 \
216
+ --max-model-len 262144 \
217
+ --reasoning-parser qwen3 \
218
+ --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
219
+
220
+ ### vLLM text-only mode
221
+
222
+ vllm serve Jetlink/JetLLMPlus-3.5 \
223
+ --port 8000 \
224
+ --tensor-parallel-size 4 \
225
+ --max-model-len 262144 \
226
+ --reasoning-parser qwen3 \
227
+ --language-model-only
228
+
229
+ ### SGLang
230
+
231
+ > ⚠️ DeltaNet layers require additional flags. Use `--attention-backend triton` and `--kv-cache-dtype bf16`.
232
+
233
+ python -m sglang.launch_server \
234
+ --model-path Jetlink/JetLLMPlus-3.5 \
235
+ --port 8000 \
236
+ --tp-size 4 \
237
+ --mem-fraction-static 0.80 \
238
+ --context-length 262144 \
239
+ --reasoning-parser qwen3 \
240
+ --attention-backend triton \
241
+ --kv-cache-dtype bf16 \
242
+ --disable-cuda-graph \
243
+ --disable-radix-cache
244
+
245
+ ### SGLang with Tool Use
246
+
247
+ python -m sglang.launch_server \
248
+ --model-path Jetlink/JetLLMPlus-3.5 \
249
+ --port 8000 \
250
+ --tp-size 4 \
251
+ --mem-fraction-static 0.80 \
252
+ --context-length 262144 \
253
+ --reasoning-parser qwen3 \
254
+ --tool-call-parser qwen3_coder \
255
+ --attention-backend triton \
256
+ --kv-cache-dtype bf16 \
257
+ --disable-cuda-graph \
258
+ --disable-radix-cache
259
+
260
+ ### SGLang with Multi-Token Prediction (MTP)
261
+
262
+ python -m sglang.launch_server \
263
+ --model-path Jetlink/JetLLMPlus-3.5 \
264
+ --port 8000 \
265
+ --tp-size 4 \
266
+ --mem-fraction-static 0.80 \
267
+ --context-length 262144 \
268
+ --reasoning-parser qwen3 \
269
+ --attention-backend triton \
270
+ --kv-cache-dtype bf16 \
271
+ --disable-cuda-graph \
272
+ --disable-radix-cache \
273
+ --speculative-algo NEXTN \
274
+ --speculative-num-steps 3 \
275
+ --speculative-eagle-topk 1 \
276
+ --speculative-num-draft-tokens 4
277
+
278
+ ## Long Context Notes
279
+
280
+ JetLLMPlus-3.5 natively supports **262,144 tokens**.
281
+
282
+ For tasks exceeding this window, the upstream documentation recommends YaRN-based long-context scaling, supported in Transformers, vLLM, KTransformers, and SGLang, extending context up to **1,010,000 tokens**.
283
+
284
+ The hybrid GatedDeltaNet + full-attention architecture provides sub-quadratic scaling for long-context inputs on the linear attention layers, making long-context processing more efficient than pure full-attention models of similar scale.
285
+
286
+ ## Strengths
287
+
288
+ - very strong knowledge and vision benchmarks in the open-weight mid-tier class
289
+ - best-in-class document understanding (OCRBench 92.1, OmniDocBench 89.8)
290
+ - leading function calling performance in the Qwen3.5 lineup (BFCL-V4 72.2)
291
+ - strong GUI and screen automation capabilities (ScreenSpot Pro 70.4)
292
+ - highly efficient inference thanks to MoE — only 10B parameters activate per token
293
+ - hybrid DeltaNet attention for efficient long-context processing
294
+ - 262K native context, extensible to 1M via YaRN
295
+ - 201 language support
296
+ - Apache 2.0 license
297
+
298
+ ## Limitations
299
+
300
+ - full weight matrix (122B) must reside in memory regardless of active parameters
301
+ - GatedDeltaNet layers impose framework-specific constraints (no FP8 KV, no CUDA graph, no prefix caching in SGLang)
302
+ - multi-GPU deployment required for unquantized serving
303
+ - long context significantly increases KV cache memory pressure
304
+ - multimodal usage adds further overhead
305
+ - deployment characteristics vary significantly by framework and configuration
306
+
307
+ ## Out-of-Scope / Cautionary Use
308
+
309
+ As with other frontier-scale multimodal language models, outputs should be reviewed before use in:
310
+
311
+ - medical decision-making
312
+ - legal advice
313
+ - safety-critical automation
314
+ - high-stakes financial decisions
315
+ - fully autonomous customer actions without guardrails
316
+
317
+ Human review, policy controls, and tool-level validation are strongly recommended.
318
+
319
+ ## License
320
+
321
+ This repository follows the same license as the upstream release.
322
+
323
+ - **License:** Apache-2.0
324
+ - See the upstream Qwen repository and included license text for the governing terms.
325
+
326
+ If you redistribute, fine-tune, quantize, or otherwise modify this model, make sure your usage remains compliant with the upstream license and attribution requirements.
327
+
328
+ ## Attribution
329
+
330
+ Original model and research release by the **Qwen** team.
331
+
332
+ Upstream model:
333
+ - `Qwen/Qwen3.5-122B-A10B`
334
+
335
+ This repository is an organization-managed copy and is **not the original upstream source**.
336
+
337
+ ## Citation
338
+
339
+ Please cite the original Qwen release when using this model in research, evaluation, or production documentation.
340
+
341
+ ```bibtex
342
+ @misc{qwen3.5,
343
+ title = {Qwen3.5 Technical Report},
344
+ author = {Qwen Team},
345
+ year = {2026},
346
+ publisher = {Alibaba Cloud},
347
+ howpublished = {\url{https://huggingface.co/Qwen/Qwen3.5-122B-A10B}}
348
+ }
349
+ ```
350
+
351
+ ---
352
+
353
+ # JetLLMPlus-3.5 (Türkçe)
354
+
355
+ **JetLLMPlus-3.5**, **Jetlink** tarafından yayınlanan multimodal bir Mixture-of-Experts modelidir.
356
+
357
+ Bu depo; modeli kendi namespace'i altında yönetmek, erişimi kontrol etmek ve dağıtımı kolaylaştırmak isteyen ekipler için hazırlanmıştır.
358
+
359
+ ## Model Özeti
360
+
361
+ JetLLMPlus-3.5, token başına 10B parametre aktive eden 122B toplam parametreli bir multimodal MoE modelidir:
362
+
363
+ - **122B toplam parametre, token başına 10B aktif**
364
+ - **Vision Encoder içeren Causal Language Model**
365
+ - **Hibrit mimari: Gated DeltaNet (36 katman) + Tam Dikkat (12 katman) + Sparse MoE**
366
+ - **Katman başına 256 routed expert + 1 shared expert**
367
+ - **262.144 token yerel bağlam uzunluğu**
368
+ - **YaRN ile 1.010.000 token'a kadar genişletilebilir bağlam**
369
+ - **201 dil ve lehçe desteği**
370
+ - **Transformers**, **vLLM**, **SGLang** ve **KTransformers** ile uyumluluk
371
+
372
+ ## Kullanım Amacı
373
+
374
+ Bu model aşağıdaki gelişmiş kullanım senaryoları için uygundur:
375
+
376
+ - multimodal sohbet asistanları
377
+ - uzun bağlamlı doküman ve PDF anlama
378
+ - OCR, grafik anlama ve doküman çıkarma pipeline'ları
379
+ - adım adım akıl yürütme ve problem çözme
380
+ - function calling ile agentic workflow yapıları
381
+ - kodlama asistanları ve kod üretimi
382
+ - GUI otomasyon ve ekran anlama
383
+ - çok dilli kurumsal asistanlar
384
+ - araştırma ve benchmark çalışmaları
385
+
386
+ ## Model Detayları
387
+
388
+ ### Mimari
389
+
390
+ - **Model tipi:** Vision Encoder içeren Causal Language Model
391
+ - **Eğitim aşaması:** Pre-training ve Post-training
392
+ - **Toplam parametre:** 122B
393
+ - **Aktif parametre:** Token başına 10B
394
+ - **Hidden dimension:** 3.072
395
+ - **Katman sayısı:** 48 (36 GatedDeltaNet lineer dikkat + 12 tam dikkat)
396
+ - **MoE expert sayısı:** Katman başına 256 routed + 1 shared
397
+ - **Aktif expert:** 8 routed + 1 shared
398
+ - **Expert FFN boyutu:** 1.024
399
+ - **Vocabulary size:** 248.320
400
+ - **Yerel bağlam uzunluğu:** 262.144 token
401
+ - **Genişletilmiş bağlam kapasitesi:** YaRN ile 1.010.000 token'a kadar
402
+
403
+ ### Mimari Notu: Hibrit Dikkat (GatedDeltaNet + MoE)
404
+
405
+ JetLLMPlus-3.5, Qwen3.5 mimarisine özgü yenilikçi bir hibrit dikkat tasarımı kullanır. Standart transformer MoE modellerinden farklı olarak şunları birleştirir:
406
+
407
+ - **GatedDeltaNet lineer dikkat** (48 katmandan 36'sı): sub-quadratic karmaşıklıkla verimli uzun bağlam işleme
408
+ - **Tam global dikkat** (12 katman): yüksek kaliteli token etkileşimleri
409
+ - **Sparse MoE** routing: parametre verimliliği için feed-forward katmanlarında
410
+
411
+ Bu tasarım, benzer toplam parametre sayısına sahip tam-dikkat modellerine kıyasla çok daha düşük gecikmeyle yüksek throughput inference sağlar.
412
+
413
+ > ⚠️ **Deployment notu:** GatedDeltaNet katmanları, standart MoE modellerine kıyasla ek kısıtlamalar getirir. SGLang ile servis ederken `--attention-backend triton` ve `--kv-cache-dtype bf16` zorunludur. FP8 KV cache bu mimaride output bozulmasına yol açabileceğinden önerilmez. CUDA graph ve HiCache (prefix caching) DeltaNet katmanlarıyla uyumsuzluk nedeniyle devre dışı bırakılmalıdır.
414
+
415
+ ### Ekosistem Uyumluluğu
416
+
417
+ - Hugging Face Transformers
418
+ - vLLM
419
+ - SGLang
420
+ - KTransformers
421
+
422
+ ## Donanım Gereksinimleri
423
+
424
+ > JetLLMPlus-3.5, hafif 35B-A3B ile flagship 397B-A17B arasında konumlanmaktadır. Tam hassasiyette çoklu GPU altyapısı gerektirir ancak 2–4 datacenter GPU ile yönetilebilir düzeydedir.
425
+
426
+ ### Referans Donanım
427
+
428
+ Tahmini GPU bellek gereksinimleri:
429
+
430
+ - **Quantize edilmemiş (BF16):** ~244GB VRAM — 3–4× A100 80GB veya eşdeğeri
431
+ - **FP8:** ~127GB — 2× A100 80GB veya eşdeğeri
432
+ - **GPTQ-Int4:** ~79GB — 1× H100 80GB veya 2× A100 40GB
433
+ - **Çoklu GPU:** vLLM veya SGLang üzerinden tensor parallelism önerilir (`--tp-size 4` veya `--tp-size 8`)
434
+
435
+ > Not: Gereksinimler bağlam uzunluğu, KV cache ayarları ve batch size'a göre önemli ölçüde değişir. Bu model için FP8 KV cache, DeltaNet mimari kısıtlamaları nedeniyle önerilmez — BF16 KV kullanın.
436
+
437
+ ### Öneri
438
+
439
+ Çoğu production ekip için en mantıklı yaklaşım:
440
+
441
+ 1. en iyi bellek/kalite dengesi için **FP8 ağırlık + BF16 KV** kullanmak
442
+ 2. tek GPU veya bellek kısıtlı dağıtımlar için **GPTQ-Int4** kullanmak
443
+ 3. en yüksek throughput kazanımı için **MTP (Multi-Token Prediction)** etkinleştirmek — bu modelin mimarisinde birincil optimizasyon yoludur
444
+ 4. vision gerekmiyorsa KV cache belleği açmak için `--language-model-only` kullanmak
445
+
446
+ ## Yazılım Gereksinimleri
447
+
448
+ Önerilen ortam:
449
+
450
+ - Python 3.10+
451
+ - Linux
452
+ - CUDA destekli GPU altyapısı
453
+ - Şu runtime'lardan biri:
454
+ - Transformers (en son `main` branch)
455
+ - vLLM
456
+ - SGLang
457
+ - KTransformers
458
+
459
+ Yaygın bağımlılıklar:
460
+
461
+ - `torch`
462
+ - `transformers`
463
+ - `torchvision`
464
+ - `pillow`
465
+ - `accelerate`
466
+
467
+ ## Hızlı Başlangıç
468
+
469
+ Transformers kurulumu:
470
+
471
+ pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
472
+
473
+ ### Temel metin çıkarımı
474
+
475
+ from transformers import AutoProcessor, AutoModelForImageTextToText
476
+ import torch
477
+
478
+ model_id = "Jetlink/JetLLMPlus-3.5"
479
+
480
+ processor = AutoProcessor.from_pretrained(model_id)
481
+ model = AutoModelForImageTextToText.from_pretrained(
482
+ model_id,
483
+ torch_dtype=torch.bfloat16,
484
+ device_map="auto",
485
+ trust_remote_code=True,
486
+ )
487
+
488
+ messages = [
489
+ {"role": "user", "content": [{"type": "text", "text": "MoE ve dense modeller arasındaki farkı açıkla."}]}
490
+ ]
491
+
492
+ inputs = processor.apply_chat_template(
493
+ messages,
494
+ add_generation_prompt=True,
495
+ tokenize=True,
496
+ return_tensors="pt"
497
+ ).to(model.device)
498
+
499
+ output = model.generate(**inputs, max_new_tokens=512)
500
+ print(processor.decode(output[0], skip_special_tokens=True))
501
+
502
+ ### Thinking modu (derin akıl yürütme)
503
+
504
+ inputs = processor.apply_chat_template(
505
+ messages,
506
+ add_generation_prompt=True,
507
+ tokenize=True,
508
+ return_tensors="pt",
509
+ enable_thinking=True,
510
+ ).to(model.device)
511
+
512
+ ### Non-thinking modu (doğrudan yanıt)
513
+
514
+ inputs = processor.apply_chat_template(
515
+ messages,
516
+ add_generation_prompt=True,
517
+ tokenize=True,
518
+ return_tensors="pt",
519
+ enable_thinking=False,
520
+ ).to(model.device)
521
+
522
+ ## Serving Örnekleri
523
+
524
+ ### vLLM
525
+
526
+ vllm serve Jetlink/JetLLMPlus-3.5 \
527
+ --port 8000 \
528
+ --tensor-parallel-size 4 \
529
+ --max-model-len 262144 \
530
+ --reasoning-parser qwen3
531
+
532
+ ### vLLM Tool Use ile
533
+
534
+ vllm serve Jetlink/JetLLMPlus-3.5 \
535
+ --port 8000 \
536
+ --tensor-parallel-size 4 \
537
+ --max-model-len 262144 \
538
+ --reasoning-parser qwen3 \
539
+ --enable-auto-tool-choice \
540
+ --tool-call-parser qwen3_coder
541
+
542
+ ### vLLM MTP ile
543
+
544
+ vllm serve Jetlink/JetLLMPlus-3.5 \
545
+ --port 8000 \
546
+ --tensor-parallel-size 4 \
547
+ --max-model-len 262144 \
548
+ --reasoning-parser qwen3 \
549
+ --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
550
+
551
+ ### vLLM sadece metin modu
552
+
553
+ vllm serve Jetlink/JetLLMPlus-3.5 \
554
+ --port 8000 \
555
+ --tensor-parallel-size 4 \
556
+ --max-model-len 262144 \
557
+ --reasoning-parser qwen3 \
558
+ --language-model-only
559
+
560
+ ### SGLang
561
+
562
+ > ⚠️ DeltaNet katmanları ek flag gerektirmektedir. `--attention-backend triton` ve `--kv-cache-dtype bf16` zorunludur.
563
+
564
+ python -m sglang.launch_server \
565
+ --model-path Jetlink/JetLLMPlus-3.5 \
566
+ --port 8000 \
567
+ --tp-size 4 \
568
+ --mem-fraction-static 0.80 \
569
+ --context-length 262144 \
570
+ --reasoning-parser qwen3 \
571
+ --attention-backend triton \
572
+ --kv-cache-dtype bf16 \
573
+ --disable-cuda-graph \
574
+ --disable-radix-cache
575
+
576
+ ### SGLang Tool Use ile
577
+
578
+ python -m sglang.launch_server \
579
+ --model-path Jetlink/JetLLMPlus-3.5 \
580
+ --port 8000 \
581
+ --tp-size 4 \
582
+ --mem-fraction-static 0.80 \
583
+ --context-length 262144 \
584
+ --reasoning-parser qwen3 \
585
+ --tool-call-parser qwen3_coder \
586
+ --attention-backend triton \
587
+ --kv-cache-dtype bf16 \
588
+ --disable-cuda-graph \
589
+ --disable-radix-cache
590
+
591
+ ### SGLang Multi-Token Prediction (MTP) ile
592
+
593
+ python -m sglang.launch_server \
594
+ --model-path Jetlink/JetLLMPlus-3.5 \
595
+ --port 8000 \
596
+ --tp-size 4 \
597
+ --mem-fraction-static 0.80 \
598
+ --context-length 262144 \
599
+ --reasoning-parser qwen3 \
600
+ --attention-backend triton \
601
+ --kv-cache-dtype bf16 \
602
+ --disable-cuda-graph \
603
+ --disable-radix-cache \
604
+ --speculative-algo NEXTN \
605
+ --speculative-num-steps 3 \
606
+ --speculative-eagle-topk 1 \
607
+ --speculative-num-draft-tokens 4
608
+
609
+ ## Uzun Bağlam Notları
610
+
611
+ JetLLMPlus-3.5 yerel olarak **262.144 token** destekler.
612
+
613
+ Bu pencereyi aşan görevlerde Transformers, vLLM, KTransformers ve SGLang tarafından desteklenen YaRN tabanlı uzun bağlam ölçekleme ile **1.010.000 token'a** kadar genişletilebilir.
614
+
615
+ Hibrit GatedDeltaNet + tam dikkat mimarisi, lineer dikkat katmanlarında uzun bağlam girdileri için sub-quadratic ölçekleme sağlayarak benzer ölçekteki saf tam dikkat modellerine kıyasla uzun bağlam işlemeyi daha verimli hale getirir.
616
+
617
+ ## Güçlü Yönler
618
+
619
+ - açık ağırlıklı orta kademe sınıfında çok güçlü bilgi ve vision benchmark'ları
620
+ - en iyi sınıf doküman anlama (OCRBench 92.1, OmniDocBench 89.8)
621
+ - Qwen3.5 serisinde öncü function calling performansı (BFCL-V4 72.2)
622
+ - güçlü GUI ve ekran otomasyon yetenekleri (ScreenSpot Pro 70.4)
623
+ - MoE sayesinde yüksek verimli inference — token başına yalnızca 10B parametre aktive edilir
624
+ - verimli uzun bağlam işleme için hibrit DeltaNet dikkat
625
+ - YaRN ile 262K yerel bağlam, 1M'a genişletilebilir
626
+ - 201 dil desteği
627
+ - Apache 2.0 lisansı
628
+
629
+ ## Sınırlamalar
630
+
631
+ - aktif parametrelerden bağımsız olarak tam ağırlık matrisi (122B) bellekte tutulmalıdır
632
+ - GatedDeltaNet katmanları framework'e özgü kısıtlamalar getirir (FP8 KV yok, CUDA graph yok, SGLang'da prefix caching yok)
633
+ - quantize edilmemiş serving için çoklu GPU dağıtımı gereklidir
634
+ - uzun bağlam KV cache bellek baskısını ciddi ölçüde artırır
635
+ - multimodal kullanım ek yük getirir
636
+ - deployment karakteristiği framework ve konfigürasyona göre önemli ölçüde değişir
637
+
638
+ ## Kapsam Dışı / Dikkat Gerektiren Kullanımlar
639
+
640
+ Diğer frontier-scale multimodal language model'lerde olduğu gibi, model çıktıları şu alanlarda insan denetimi olmadan kullanılmamalıdır:
641
+
642
+ - tıbbi karar verme
643
+ - hukuki tavsiye
644
+ - güvenlik kritik otomasyon
645
+ - yüksek riskli finansal kararlar
646
+ - korumasız tam otonom müşteri aksiyonları
647
+
648
+ İnsan incelemesi, politika kontrolleri ve tool seviyesinde doğrulama güçlü şekilde önerilir.
649
+
650
+ ## Lisans
651
+
652
+ Bu depo, upstream sürümle aynı lisansı takip eder.
653
+
654
+ - **Lisans:** Apache-2.0
655
+ - Geçerli şartlar için upstream Qwen deposu ve lisans metni incelenmelidir.
656
+
657
+ Modeli yeniden dağıtıyor, fine-tune ediyor, quantize ediyor veya başka şekilde değiştiriyorsan; kullanımının upstream lisans ve attribution gereklilikleriyle uyumlu olduğundan emin olmalısın.
658
+
659
+ ## Atıf
660
+
661
+ Orijinal model ve araştırma yayını **Qwen** ekibine aittir.
662
+
663
+ Upstream model:
664
+ - `Qwen/Qwen3.5-122B-A10B`
665
+
666
+ Bu depo, kurum tarafından yönetilen bir kopyadır ve **orijinal upstream kaynak değildir**.
667
+
668
+ ## Atıf / Citation
669
+
670
+ Bu modeli araştırma, değerlendirme veya production dokümantasyonunda kullanıyorsan, lütfen orijinal Qwen sürümüne atıf yap.
671
+
672
+ ```bibtex
673
+ @misc{qwen3.5,
674
+ title = {Qwen3.5 Technical Report},
675
+ author = {Qwen Team},
676
+ year = {2026},
677
+ publisher = {Alibaba Cloud},
678
+ howpublished = {\url{https://huggingface.co/Qwen/Qwen3.5-122B-A10B}}
679
+ }
680
+ ```