# Limites de génération - Qwen-3 8B

## Limite théorique maximale

**20 000 tokens** peuvent être générés en sortie (selon les spécifications Qwen-3 8B).

## Limite pratique

La limite pratique dépend de la **fenêtre de contexte disponible**:

```
max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité
```

### Exemples pratiques

| Contexte d'entrée | Fenêtre totale | Max génération | Marge |
|-------------------|----------------|----------------|-------|
| 2K tokens | 32K | ~30K tokens | ✅ Large |
| 10K tokens | 32K | ~22K tokens | ✅ Bonne |
| 20K tokens | 32K | ~12K tokens | ✅ Suffisant |
| 30K tokens | 32K | ~2K tokens | ⚠️ Limite |
| 50K tokens | 128K (YaRN) | ~78K tokens | ✅ Très large |

## Pour notre application

### Configuration actuelle
- **max_tokens configuré:** 1500 tokens
- **Typique contexte entrée:** ~100-500 tokens (messages conversation)
- **Disponible pour génération:** ~30K tokens

### Pourquoi 1500 tokens est suffisant?

1. **Questions simples:** 800-1000 tokens suffisent
2. **Analyses complexes:** 1500 tokens couvrent raisonnement + réponse
3. **Messages SWIFT:** 1200-1500 tokens pour format complet
4. **Marge de sécurité:** Reste bien en dessous de la limite pratique

## Ajuster max_tokens selon les besoins

### Questions simples (max_tokens=800)
```python
agent_short = Agent(
    finance_model,
    model_settings=ModelSettings(max_output_tokens=800),
)
```

### Analyses complexes (max_tokens=2000)
```python
agent_long = Agent(
    finance_model,
    model_settings=ModelSettings(max_output_tokens=2000),
)
```

### Documents très longs (max_tokens=5000)
```python
agent_very_long = Agent(
    finance_model,
    model_settings=ModelSettings(max_output_tokens=5000),
)
# Nécessite que l'entrée soit < 27K tokens
```

## Recommandations

| Cas d'usage | max_tokens recommandé | Notes |
|-------------|----------------------|-------|
| Questions rapides | 800-1000 | Suffisant pour la plupart |
| Réponses détaillées | 1500-2000 | Inclut raisonnement |
| Messages SWIFT | 1200-1500 | Format structuré |
| Analyses longues | 2000-4000 | Si nécessaire |
| Génération de code/docs | 3000-5000 | Documents complets |

**Note:** Au-delà de 5000 tokens, vérifiez que votre contexte d'entrée n'est pas trop volumineux.