Image-Text-to-Text
Transformers
Safetensors
qwen3_5_moe
qwen
llm
Mixture of Experts
multimodal
vision-language
conversational
coding
reasoning
vllm
sglang
ktransformers
Instructions to use Jetlink/JetLLMLite-3.6 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Jetlink/JetLLMLite-3.6 with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("image-text-to-text", model="Jetlink/JetLLMLite-3.6") messages = [ { "role": "user", "content": [ {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"}, {"type": "text", "text": "What animal is on the candy?"} ] }, ] pipe(text=messages)# Load model directly from transformers import AutoProcessor, AutoModelForImageTextToText processor = AutoProcessor.from_pretrained("Jetlink/JetLLMLite-3.6") model = AutoModelForImageTextToText.from_pretrained("Jetlink/JetLLMLite-3.6") messages = [ { "role": "user", "content": [ {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"}, {"type": "text", "text": "What animal is on the candy?"} ] }, ] inputs = processor.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt", ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=40) print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:])) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- vLLM
How to use Jetlink/JetLLMLite-3.6 with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "Jetlink/JetLLMLite-3.6" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Jetlink/JetLLMLite-3.6", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] }'Use Docker
docker model run hf.co/Jetlink/JetLLMLite-3.6
- SGLang
How to use Jetlink/JetLLMLite-3.6 with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "Jetlink/JetLLMLite-3.6" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Jetlink/JetLLMLite-3.6", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "Jetlink/JetLLMLite-3.6" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Jetlink/JetLLMLite-3.6", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] }' - Docker Model Runner
How to use Jetlink/JetLLMLite-3.6 with Docker Model Runner:
docker model run hf.co/Jetlink/JetLLMLite-3.6
File size: 17,728 Bytes
19425ac | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 | ---
license: apache-2.0
library_name: transformers
tags:
- qwen
- llm
- moe
- multimodal
- vision-language
- conversational
- coding
- reasoning
- transformers
- vllm
- sglang
- ktransformers
pipeline_tag: image-text-to-text
base_model: Qwen/Qwen3.6-35B-A3B
---
# JetLLMLite-3.6
This repository hosts an organization-managed copy of **JetLLMLite-3.6** for advanced coding, reasoning, long-context, and agentic AI workloads.
It is intended for teams that want to manage deployment, access, and internal distribution from their own namespace while preserving compatibility with the upstream model ecosystem.
## Model Summary
JetLLMLite-3.6 is an open-weight post-trained model released in Hugging Face Transformers format. According to the official model card, these artifacts are compatible with **Hugging Face Transformers**, **vLLM**, **SGLang**, and **KTransformers**. The model is described as a **Causal Language Model with Vision Encoder**, with **35B total parameters** and **3B activated parameters**, plus **262,144 native context length** extensible up to **1,010,000 tokens**. :contentReference[oaicite:0]{index=0}
## Key Features
- **35B total parameters**
- **3B activated parameters**
- **MoE-based architecture**
- **Vision-language capability**
- **Strong coding and agentic performance**
- **262,144 native context length**
- **Extensible context up to 1,010,000 tokens**
- Compatible with **Transformers**, **vLLM**, **SGLang**, and **KTransformers** :contentReference[oaicite:1]{index=1}
## Intended Use
This model is suitable for:
- advanced chat assistants
- coding assistants
- repository-level reasoning
- agentic workflows
- multimodal question answering
- long-context document understanding
- RAG and tool-using systems
- enterprise AI applications
- research and benchmarking :contentReference[oaicite:2]{index=2}
## Model Details
### Architecture
According to the official Qwen model card:
- **Model type:** Causal Language Model with Vision Encoder
- **Training stage:** Pre-training & Post-training
- **Total parameters:** 35B
- **Activated parameters:** 3B
- **Hidden dimension:** 2048
- **Token embedding:** 248320 (padded)
- **Number of layers:** 40
- **Hidden layout:** 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- **Number of experts:** 256
- **Activated experts:** 8 Routed + 1 Shared
- **Expert intermediate dimension:** 512
- **MTP:** trained with multi-steps
- **Context length:** 262,144 natively and extensible up to 1,010,000 tokens :contentReference[oaicite:3]{index=3}
## Performance Positioning
The official model card highlights JetLLMLite-3.6 as an open-weight model built with a focus on **stability** and **real-world utility**, with notable emphasis on:
- **Agentic coding**
- **Frontend workflows**
- **Repository-level reasoning**
- **Thinking preservation across historical context** :contentReference[oaicite:4]{index=4}
## Hardware Requirements
> This model does not have a single universal minimum hardware requirement for every deployment scenario.
Actual requirements depend on:
- inference backend
- precision / quantization
- batch size
- context length
- whether vision inputs are enabled
- concurrency
- latency targets
- KV cache configuration :contentReference[oaicite:5]{index=5}
### Minimum System Requirements
Because the model has **35B total parameters** and **3B activated parameters**, real VRAM usage can vary substantially depending on the runtime and workload profile. The upstream model card does not publish a single hard minimum VRAM number. However, for practical planning, the following guidance is reasonable:
- **Estimated practical minimum for heavily quantized local inference:** around **24 GB VRAM**
- **More realistic for smoother local / development usage:** **48–80 GB VRAM**
- **Recommended for production serving of the original model:** multi-GPU or high-memory datacenter GPU environments
- **Recommended for long-context or multimodal serving:** high-memory datacenter-class infrastructure :contentReference[oaicite:6]{index=6}
> Note: these values are practical estimates for deployment planning, not universal hard limits. Real memory usage can increase significantly with longer contexts, multimodal inputs, larger batch sizes, and serving-framework overhead.
### Reference Hardware
The upstream model card provides official serving examples for this model with common inference stacks such as **vLLM**, **SGLang**, and **Transformers**, and includes a Docker example for SGLang. For practical deployment planning:
- **Quantized local experimentation:** high-memory single-GPU environments may be sufficient
- **Standard production-oriented serving:** modern datacenter GPUs are recommended
- **Long-context and higher-concurrency serving:** multi-GPU deployment is the safer reference setup
- **Multimodal production workloads:** high-memory server infrastructure is strongly recommended :contentReference[oaicite:7]{index=7}
### Practical Recommendation
For most teams:
1. start with quantized evaluation if you are testing locally
2. benchmark using your real context lengths
3. use dedicated serving stacks such as **vLLM** or **SGLang**
4. reserve high-memory infrastructure for production-scale or long-context workloads :contentReference[oaicite:8]{index=8}
## Software Requirements
Recommended environment:
- Python 3.10+
- Linux
- CUDA-enabled GPU environment
- One of the following runtimes:
- Transformers
- vLLM
- SGLang
- KTransformers
The official model card also notes that the latest `transformers` is required for JetLLMLite-3.6 and recommends ensuring `torchvision` and `pillow` are installed for multimodal use. :contentReference[oaicite:9]{index=9}
Common dependencies may include:
- `torch`
- `transformers`
- `torchvision`
- `pillow`
## Quickstart
Install Transformers:
pip install "transformers[serving]"
Basic loading example:
from transformers import pipeline
pipe = pipeline(
"image-text-to-text",
model="Jetlink/JetLLMLite-3.6",
trust_remote_code=True
)
## Serving Examples
### vLLM
vllm serve Jetlink/JetLLMLite-3.6
### SGLang
docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path "Jetlink/JetLLMLite-3.6" \
--host 0.0.0.0 \
--port 30000
### Docker Model Runner
docker model run hf.co/Jetlink/JetLLMLite-3.6
## Long Context Notes
JetLLMLite-3.6 natively supports **262,144 tokens** and can be extended up to **1,010,000 tokens**. The official model card includes YaRN-style rope scaling configuration guidance for long-context usage. :contentReference[oaicite:10]{index=10}
## Strengths
- strong coding and agentic capabilities
- improved frontend and repository-level reasoning
- multimodal support
- very long native context
- extensible ultra-long context support
- modern MoE architecture
- compatibility with popular open inference frameworks :contentReference[oaicite:11]{index=11}
## Limitations
- infrastructure requirements can be substantial depending on deployment style
- long-context inference can greatly increase memory pressure
- multimodal workloads add additional overhead
- local deployment practicality depends heavily on quantization and runtime choices
- real-world latency and throughput vary significantly by framework and hardware configuration
## Out-of-Scope / Cautionary Use
Outputs should be reviewed before use in:
- medical decision-making
- legal advice
- safety-critical automation
- high-stakes financial decisions
- fully autonomous actions without validation
- sensitive production workflows without guardrails
Human review, tool validation, and policy controls are strongly recommended.
## License
This repository follows the same license as the upstream release.
- **License:** Apache-2.0
If you redistribute, fine-tune, quantize, or otherwise modify this model, make sure your usage remains compliant with the upstream license and attribution requirements. :contentReference[oaicite:12]{index=12}
## Attribution
Original upstream model:
- `Qwen/Qwen3.6-35B-A3B`
This repository is an organization-managed copy and is **not the original upstream source**.
## Citation
Please cite the original JetLLMLite-3.6 release when using this model in research, evaluation, or production documentation.
## Disclaimer
This repository may include packaging, naming, or deployment-oriented changes for organizational use.
For official updates, benchmark details, long-context settings, and upstream release notes, refer to the original Qwen model card. :contentReference[oaicite:13]{index=13}
---
# JetLLMLite-3.6 (Türkçe)
Bu depo, gelişmiş kodlama, akıl yürütme, uzun bağlam ve agentic AI iş yükleri için **JetLLMLite-3.6** modelinin kurum tarafından yönetilen bir kopyasını barındırır.
Bu depo; modeli kendi namespace’i altında yönetmek, erişimi kontrol etmek ve dağıtımı kolaylaştırmak isteyen ekipler için hazırlanmıştır. Amaç, upstream model ekosistemiyle uyumluluğu koruyarak kurumsal kullanım sağlamaktır.
## Model Özeti
JetLLMLite-3.6 resmi model kartına göre bu artefaktlar **Hugging Face Transformers**, **vLLM**, **SGLang** ve **KTransformers** ile uyumludur. Model, **Vision Encoder içeren bir Causal Language Model** olarak tanımlanır; **35B toplam parametre**, **3B aktif parametre**, **262.144 token yerel bağlam** ve **1.010.000 token’a kadar genişletilebilir bağlam** sunar. :contentReference[oaicite:14]{index=14}
## Temel Özellikler
- **35B toplam parametre**
- **3B aktif parametre**
- **MoE tabanlı mimari**
- **Vision-language kabiliyeti**
- **Güçlü kodlama ve agentic performans**
- **262.144 token yerel bağlam**
- **1.010.000 token’a kadar genişletilebilir bağlam**
- **Transformers**, **vLLM**, **SGLang** ve **KTransformers** ile uyumluluk :contentReference[oaicite:15]{index=15}
## Kullanım Amacı
Bu model aşağıdaki senaryolar için uygundur:
- gelişmiş sohbet asistanları
- kodlama asistanları
- repository seviyesinde akıl yürütme
- agentic workflow yapıları
- multimodal soru-cevap
- uzun bağlamlı doküman anlama
- RAG ve tool-using sistemler
- kurumsal AI uygulamaları
- araştırma ve benchmark çalışmaları :contentReference[oaicite:16]{index=16}
## Model Detayları
### Mimari
Resmi Qwen model kartına göre:
- **Model tipi:** Vision Encoder içeren Causal Language Model
- **Eğitim aşaması:** Pre-training & Post-training
- **Toplam parametre:** 35B
- **Aktif parametre:** 3B
- **Hidden dimension:** 2048
- **Token embedding:** 248320 (padded)
- **Katman sayısı:** 40
- **Hidden layout:** 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- **Expert sayısı:** 256
- **Aktif expert:** 8 Routed + 1 Shared
- **Expert intermediate dimension:** 512
- **MTP:** multi-steps ile eğitilmiş
- **Bağlam uzunluğu:** yerel olarak 262.144, genişletilmiş olarak 1.010.000 token’a kadar :contentReference[oaicite:17]{index=17}
## Performans Konumlandırması
Resmi model kartı JetLLMLite-3.6’yı özellikle şu alanlarda öne çıkarır:
- **Agentic coding**
- **Frontend workflow’leri**
- **Repository-level reasoning**
- **Geçmiş mesajlardan düşünme bağlamını koruma** :contentReference[oaicite:18]{index=18}
## Donanım Gereksinimleri
> Bu model için her senaryoya uyan tek bir evrensel minimum donanım gereksinimi yoktur.
Gerçek ihtiyaçlar şunlara bağlıdır:
- inference backend
- precision / quantization
- batch size
- bağlam uzunluğu
- vision girdilerinin açık olup olmaması
- concurrency
- latency hedefleri
- KV cache yapılandırması :contentReference[oaicite:19]{index=19}
### Minimum Sistem Gereksinimleri
Model **35B toplam parametreye** ve **3B aktif parametreye** sahip olduğu için gerçek VRAM kullanımı runtime ve iş yüküne göre ciddi biçimde değişebilir. Upstream model kartı tek bir kesin minimum VRAM sayısı vermez. Ancak pratik planlama için şu rehber uygundur:
- **Ağır quantized local inference için tahmini pratik minimum:** yaklaşık **24 GB VRAM**
- **Daha rahat local / geliştirme kullanımı için daha gerçekçi seviye:** **48–80 GB VRAM**
- **Orijinal modelin production serving’i için önerilen:** çoklu GPU veya yüksek bellekli datacenter GPU ortamları
- **Uzun bağlam veya multimodal serving için önerilen:** yüksek bellekli datacenter sınıfı altyapı :contentReference[oaicite:20]{index=20}
> Not: bunlar deployment planlaması için pratik tahminlerdir; evrensel kesin sınırlar değildir. Daha uzun bağlamlar, multimodal girdiler, büyük batch size ve serving framework kaynaklı ek yükler gerçek bellek kullanımını ciddi şekilde artırabilir.
### Referans Donanım
Upstream model kartı bu model için **vLLM**, **SGLang** ve **Transformers** gibi inference stack’leriyle resmi serving örnekleri sunar ve ayrıca SGLang için bir Docker örneği içerir. Pratik dağıtım planlaması için:
- **Quantized local denemeler:** yüksek bellekli tek GPU ortamları yeterli olabilir
- **Standart production serving:** modern datacenter GPU’lar önerilir
- **Uzun bağlam ve daha yüksek concurrency:** çoklu GPU dağıtımı daha güvenli referanstır
- **Multimodal production iş yükleri:** yüksek bellekli sunucu altyapısı güçlü şekilde önerilir :contentReference[oaicite:21]{index=21}
### Pratik Öneri
Çoğu ekip için en mantıklı yaklaşım:
1. local testte quantized değerlendirme ile başlamak
2. gerçek bağlam uzunluklarıyla benchmark almak
3. **vLLM** veya **SGLang** gibi özel serving stack’leri kullanmak
4. production ölçeği veya uzun bağlam için yüksek bellekli altyapı ayırmak :contentReference[oaicite:22]{index=22}
## Yazılım Gereksinimleri
Önerilen ortam:
- Python 3.10+
- Linux
- CUDA destekli GPU ortamı
- Şu runtime’lardan biri:
- Transformers
- vLLM
- SGLang
- KTransformers
Resmi model kartı ayrıca JetLLMLite-3.6 için en güncel `transformers` sürümünün gerektiğini ve multimodal kullanım için `torchvision` ile `pillow` kurulu olması gerektiğini belirtir. :contentReference[oaicite:23]{index=23}
Yaygın bağımlılıklar:
- `torch`
- `transformers`
- `torchvision`
- `pillow`
## Hızlı Başlangıç
Transformers kurulumu:
pip install "transformers[serving]"
Temel yükleme örneği:
from transformers import pipeline
pipe = pipeline(
"image-text-to-text",
model="Jetlink/JetLLMLite-3.6",
trust_remote_code=True
)
## Serving Örnekleri
### vLLM
vllm serve Jetlink/JetLLMLite-3.6
### SGLang
docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path "Jetlink/JetLLMLite-3.6" \
--host 0.0.0.0 \
--port 30000
### Docker Model Runner
docker model run hf.co/Jetlink/JetLLMLite-3.6
## Uzun Bağlam Notları
JetLLMLite-3.6 yerel olarak **262.144 token** destekler ve **1.010.000 token’a kadar** genişletilebilir. Resmi model kartı uzun bağlam kullanımı için YaRN tabanlı rope scaling yapılandırma rehberi de içerir. :contentReference[oaicite:24]{index=24}
## Güçlü Yönler
- güçlü kodlama ve agentic kabiliyetler
- gelişmiş frontend ve repository-level reasoning
- multimodal destek
- çok uzun yerel bağlam
- genişletilebilir ultra uzun bağlam
- modern MoE mimarisi
- popüler açık inference framework’leriyle uyumluluk :contentReference[oaicite:25]{index=25}
## Sınırlamalar
- deployment tipine göre altyapı ihtiyacı ciddi olabilir
- uzun bağlam inference bellek baskısını büyük ölçüde artırabilir
- multimodal iş yükleri ek kaynak tüketir
- local kullanımın pratikliği quantization ve runtime seçimine çok bağlıdır
- gerçek dünya latency ve throughput değerleri framework ve donanım yapılandırmasına göre ciddi biçimde değişir
## Kapsam Dışı / Dikkat Gerektiren Kullanımlar
Çıktılar şu alanlarda insan kontrolü olmadan kullanılmamalıdır:
- tıbbi karar verme
- hukuki tavsiye
- güvenlik kritik otomasyon
- yüksek riskli finansal kararlar
- doğrulama olmadan tam otonom aksiyonlar
- korumasız hassas production iş akışları
İnsan incelemesi, tool doğrulaması ve politika kontrolleri güçlü şekilde önerilir.
## Lisans
Bu depo, upstream sürümle aynı lisansı takip eder.
- **Lisans:** Apache-2.0
Modeli yeniden dağıtıyor, fine-tune ediyor, quantize ediyor veya başka şekilde değiştiriyorsan; kullanımının upstream lisans ve attribution gereklilikleriyle uyumlu olduğundan emin olmalısın. :contentReference[oaicite:26]{index=26}
## Atıf
Orijinal upstream model:
- `Qwen/Qwen3.6-35B-A3B`
Bu depo, kurum tarafından yönetilen bir kopyadır ve **orijinal upstream kaynak değildir**.
## Atıf / Citation
Bu modeli araştırma, değerlendirme veya production dokümantasyonunda kullanıyorsan, lütfen orijinal Qwen3.6 sürümüne atıf yap.
## Feragatname
Bu depo, kurumsal kullanım amacıyla paketleme, isimlendirme veya dağıtım odaklı bazı değişiklikler içerebilir.
Resmi güncellemeler, benchmark detayları, uzun bağlam ayarları ve upstream sürüm notları için orijinal Qwen model kartına bakılmalıdır. :contentReference[oaicite:27]{index=27} |