| # Spécifications Qwen-3 8B - Fenêtre de contexte | |
| ## Fenêtre de contexte maximale | |
| Le modèle **DragonLLM/Qwen-Open-Finance-R-8B** (basé sur Qwen-3 8B) supporte: | |
| ### Fenêtre de base | |
| - **32 768 tokens** (32K tokens) | |
| - Support natif pour la plupart des cas d'usage | |
| ### Fenêtre étendue (avec YaRN) | |
| - **128 000 tokens** (128K tokens) | |
| - Extension via le mécanisme YaRN (Yet another RoPE extensioN) | |
| - Nécessite une configuration spécifique pour activer | |
| ## Composition du contexte | |
| Quand vous envoyez une requête, le contexte total inclut: | |
| ``` | |
| Contexte total = Prompt système + Messages conversation + Réponse générée | |
| ``` | |
| ### Exemples pratiques: | |
| | Type de requête | Prompt + Messages | Réponse max | Total | | |
| |----------------|-------------------|-------------|-------| | |
| | Question simple | ~100 tokens | 800 tokens | ~900 tokens | | |
| | Analyse complexe | ~500 tokens | 1500 tokens | ~2000 tokens | | |
| | Document long | ~5000 tokens | 2000 tokens | ~7000 tokens | | |
| | Analyse très longue | ~15000 tokens | 4000 tokens | ~19000 tokens | | |
| **Limite pratique recommandée:** 30 000 tokens pour laisser de la marge. | |
| ## Limite de génération (max_tokens) | |
| **Limite théorique maximale:** **20 000 tokens** en sortie | |
| **Limite pratique:** Dépend de la fenêtre de contexte disponible: | |
| - Si contexte d'entrée = 2K tokens → peut générer jusqu'à ~30K tokens | |
| - Si contexte d'entrée = 10K tokens → peut générer jusqu'à ~22K tokens | |
| - Si contexte d'entrée = 30K tokens → peut générer jusqu'à ~2K tokens | |
| **Formule:** `max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité` | |
| ## Configuration actuelle | |
| Dans notre application: | |
| - `max_tokens` (génération): **1500 tokens** (configurable via API) | |
| - Contexte d'entrée: Illimité jusqu'à ~30K tokens (pour laisser de la marge) | |
| - Contexte total: Jusqu'à 32K tokens (base) ou 128K (avec YaRN) | |
| - Limite théorique max: 20K tokens en sortie (mais contrainte par contexte disponible) | |
| ## Recommandations | |
| ### Pour des requêtes simples: | |
| ```python | |
| max_tokens = 800-1000 # Suffisant pour la plupart des réponses | |
| ``` | |
| ### Pour des requêtes complexes (SWIFT, analyses): | |
| ```python | |
| max_tokens = 1500-2000 # Permet raisonnement + réponse complète | |
| ``` | |
| ### Pour des documents longs: | |
| - Utilisez le contexte jusqu'à ~30K tokens pour le prompt | |
| - Réservez 2-5K tokens pour la réponse | |
| - Total: jusqu'à 32K tokens (base) | |
| ### Activation de YaRN pour contexte étendu: | |
| Si vous avez besoin de plus de 32K tokens: | |
| 1. Vérifiez que le backend Transformers supporte YaRN | |
| 2. Configurez les paramètres de RoPE scaling | |
| 3. La fenêtre peut être étendue jusqu'à 128K tokens | |
| ## Références | |
| - Qwen-3 models: Fenêtre de 32K tokens (base), 128K avec YaRN | |
| - YaRN: Yet another RoPE extensioN - méthode d'extension de contexte | |
| - Documentation technique Qwen: https://huggingface.co/Qwen/Qwen2.5 | |