# Spécifications Qwen-3 8B - Fenêtre de contexte ## Fenêtre de contexte maximale Le modèle **DragonLLM/Qwen-Open-Finance-R-8B** (basé sur Qwen-3 8B) supporte: ### Fenêtre de base - **32 768 tokens** (32K tokens) - Support natif pour la plupart des cas d'usage ### Fenêtre étendue (avec YaRN) - **128 000 tokens** (128K tokens) - Extension via le mécanisme YaRN (Yet another RoPE extensioN) - Nécessite une configuration spécifique pour activer ## Composition du contexte Quand vous envoyez une requête, le contexte total inclut: ``` Contexte total = Prompt système + Messages conversation + Réponse générée ``` ### Exemples pratiques: | Type de requête | Prompt + Messages | Réponse max | Total | |----------------|-------------------|-------------|-------| | Question simple | ~100 tokens | 800 tokens | ~900 tokens | | Analyse complexe | ~500 tokens | 1500 tokens | ~2000 tokens | | Document long | ~5000 tokens | 2000 tokens | ~7000 tokens | | Analyse très longue | ~15000 tokens | 4000 tokens | ~19000 tokens | **Limite pratique recommandée:** 30 000 tokens pour laisser de la marge. ## Limite de génération (max_tokens) **Limite théorique maximale:** **20 000 tokens** en sortie **Limite pratique:** Dépend de la fenêtre de contexte disponible: - Si contexte d'entrée = 2K tokens → peut générer jusqu'à ~30K tokens - Si contexte d'entrée = 10K tokens → peut générer jusqu'à ~22K tokens - Si contexte d'entrée = 30K tokens → peut générer jusqu'à ~2K tokens **Formule:** `max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité` ## Configuration actuelle Dans notre application: - `max_tokens` (génération): **1500 tokens** (configurable via API) - Contexte d'entrée: Illimité jusqu'à ~30K tokens (pour laisser de la marge) - Contexte total: Jusqu'à 32K tokens (base) ou 128K (avec YaRN) - Limite théorique max: 20K tokens en sortie (mais contrainte par contexte disponible) ## Recommandations ### Pour des requêtes simples: ```python max_tokens = 800-1000 # Suffisant pour la plupart des réponses ``` ### Pour des requêtes complexes (SWIFT, analyses): ```python max_tokens = 1500-2000 # Permet raisonnement + réponse complète ``` ### Pour des documents longs: - Utilisez le contexte jusqu'à ~30K tokens pour le prompt - Réservez 2-5K tokens pour la réponse - Total: jusqu'à 32K tokens (base) ### Activation de YaRN pour contexte étendu: Si vous avez besoin de plus de 32K tokens: 1. Vérifiez que le backend Transformers supporte YaRN 2. Configurez les paramètres de RoPE scaling 3. La fenêtre peut être étendue jusqu'à 128K tokens ## Références - Qwen-3 models: Fenêtre de 32K tokens (base), 128K avec YaRN - YaRN: Yet another RoPE extensioN - méthode d'extension de contexte - Documentation technique Qwen: https://huggingface.co/Qwen/Qwen2.5