| # Limites de génération - Qwen-3 8B | |
| ## Limite théorique maximale | |
| **20 000 tokens** peuvent être générés en sortie (selon les spécifications Qwen-3 8B). | |
| ## Limite pratique | |
| La limite pratique dépend de la **fenêtre de contexte disponible**: | |
| ``` | |
| max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité | |
| ``` | |
| ### Exemples pratiques | |
| | Contexte d'entrée | Fenêtre totale | Max génération | Marge | | |
| |-------------------|----------------|----------------|-------| | |
| | 2K tokens | 32K | ~30K tokens | ✅ Large | | |
| | 10K tokens | 32K | ~22K tokens | ✅ Bonne | | |
| | 20K tokens | 32K | ~12K tokens | ✅ Suffisant | | |
| | 30K tokens | 32K | ~2K tokens | ⚠️ Limite | | |
| | 50K tokens | 128K (YaRN) | ~78K tokens | ✅ Très large | | |
| ## Pour notre application | |
| ### Configuration actuelle | |
| - **max_tokens configuré:** 1500 tokens | |
| - **Typique contexte entrée:** ~100-500 tokens (messages conversation) | |
| - **Disponible pour génération:** ~30K tokens | |
| ### Pourquoi 1500 tokens est suffisant? | |
| 1. **Questions simples:** 800-1000 tokens suffisent | |
| 2. **Analyses complexes:** 1500 tokens couvrent raisonnement + réponse | |
| 3. **Messages SWIFT:** 1200-1500 tokens pour format complet | |
| 4. **Marge de sécurité:** Reste bien en dessous de la limite pratique | |
| ## Ajuster max_tokens selon les besoins | |
| ### Questions simples (max_tokens=800) | |
| ```python | |
| agent_short = Agent( | |
| finance_model, | |
| model_settings=ModelSettings(max_output_tokens=800), | |
| ) | |
| ``` | |
| ### Analyses complexes (max_tokens=2000) | |
| ```python | |
| agent_long = Agent( | |
| finance_model, | |
| model_settings=ModelSettings(max_output_tokens=2000), | |
| ) | |
| ``` | |
| ### Documents très longs (max_tokens=5000) | |
| ```python | |
| agent_very_long = Agent( | |
| finance_model, | |
| model_settings=ModelSettings(max_output_tokens=5000), | |
| ) | |
| # Nécessite que l'entrée soit < 27K tokens | |
| ``` | |
| ## Recommandations | |
| | Cas d'usage | max_tokens recommandé | Notes | | |
| |-------------|----------------------|-------| | |
| | Questions rapides | 800-1000 | Suffisant pour la plupart | | |
| | Réponses détaillées | 1500-2000 | Inclut raisonnement | | |
| | Messages SWIFT | 1200-1500 | Format structuré | | |
| | Analyses longues | 2000-4000 | Si nécessaire | | |
| | Génération de code/docs | 3000-5000 | Documents complets | | |
| **Note:** Au-delà de 5000 tokens, vérifiez que votre contexte d'entrée n'est pas trop volumineux. | |