Spécifications Qwen-3 8B - Fenêtre de contexte
Fenêtre de contexte maximale
Le modèle DragonLLM/Qwen-Open-Finance-R-8B (basé sur Qwen-3 8B) supporte:
Fenêtre de base
- 32 768 tokens (32K tokens)
- Support natif pour la plupart des cas d'usage
Fenêtre étendue (avec YaRN)
- 128 000 tokens (128K tokens)
- Extension via le mécanisme YaRN (Yet another RoPE extensioN)
- Nécessite une configuration spécifique pour activer
Composition du contexte
Quand vous envoyez une requête, le contexte total inclut:
Contexte total = Prompt système + Messages conversation + Réponse générée
Exemples pratiques:
| Type de requête | Prompt + Messages | Réponse max | Total |
|---|---|---|---|
| Question simple | ~100 tokens | 800 tokens | ~900 tokens |
| Analyse complexe | ~500 tokens | 1500 tokens | ~2000 tokens |
| Document long | ~5000 tokens | 2000 tokens | ~7000 tokens |
| Analyse très longue | ~15000 tokens | 4000 tokens | ~19000 tokens |
Limite pratique recommandée: 30 000 tokens pour laisser de la marge.
Limite de génération (max_tokens)
Limite théorique maximale: 20 000 tokens en sortie
Limite pratique: Dépend de la fenêtre de contexte disponible:
- Si contexte d'entrée = 2K tokens → peut générer jusqu'à ~30K tokens
- Si contexte d'entrée = 10K tokens → peut générer jusqu'à ~22K tokens
- Si contexte d'entrée = 30K tokens → peut générer jusqu'à ~2K tokens
Formule: max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité
Configuration actuelle
Dans notre application:
max_tokens(génération): 1500 tokens (configurable via API)- Contexte d'entrée: Illimité jusqu'à ~30K tokens (pour laisser de la marge)
- Contexte total: Jusqu'à 32K tokens (base) ou 128K (avec YaRN)
- Limite théorique max: 20K tokens en sortie (mais contrainte par contexte disponible)
Recommandations
Pour des requêtes simples:
max_tokens = 800-1000 # Suffisant pour la plupart des réponses
Pour des requêtes complexes (SWIFT, analyses):
max_tokens = 1500-2000 # Permet raisonnement + réponse complète
Pour des documents longs:
- Utilisez le contexte jusqu'à ~30K tokens pour le prompt
- Réservez 2-5K tokens pour la réponse
- Total: jusqu'à 32K tokens (base)
Activation de YaRN pour contexte étendu:
Si vous avez besoin de plus de 32K tokens:
- Vérifiez que le backend Transformers supporte YaRN
- Configurez les paramètres de RoPE scaling
- La fenêtre peut être étendue jusqu'à 128K tokens
Références
- Qwen-3 models: Fenêtre de 32K tokens (base), 128K avec YaRN
- YaRN: Yet another RoPE extensioN - méthode d'extension de contexte
- Documentation technique Qwen: https://huggingface.co/Qwen/Qwen2.5