open-finance-llm-8b / docs /generation_limits.md
jeanbaptdzd's picture
chore: Clean up repo - remove redundant tests and docs, update README
3e6b9d2
# Limites de génération - Qwen-3 8B
## Limite théorique maximale
**20 000 tokens** peuvent être générés en sortie (selon les spécifications Qwen-3 8B).
## Limite pratique
La limite pratique dépend de la **fenêtre de contexte disponible**:
```
max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité
```
### Exemples pratiques
| Contexte d'entrée | Fenêtre totale | Max génération | Marge |
|-------------------|----------------|----------------|-------|
| 2K tokens | 32K | ~30K tokens | ✅ Large |
| 10K tokens | 32K | ~22K tokens | ✅ Bonne |
| 20K tokens | 32K | ~12K tokens | ✅ Suffisant |
| 30K tokens | 32K | ~2K tokens | ⚠️ Limite |
| 50K tokens | 128K (YaRN) | ~78K tokens | ✅ Très large |
## Pour notre application
### Configuration actuelle
- **max_tokens configuré:** 1500 tokens
- **Typique contexte entrée:** ~100-500 tokens (messages conversation)
- **Disponible pour génération:** ~30K tokens
### Pourquoi 1500 tokens est suffisant?
1. **Questions simples:** 800-1000 tokens suffisent
2. **Analyses complexes:** 1500 tokens couvrent raisonnement + réponse
3. **Messages SWIFT:** 1200-1500 tokens pour format complet
4. **Marge de sécurité:** Reste bien en dessous de la limite pratique
## Ajuster max_tokens selon les besoins
### Questions simples (max_tokens=800)
```python
agent_short = Agent(
finance_model,
model_settings=ModelSettings(max_output_tokens=800),
)
```
### Analyses complexes (max_tokens=2000)
```python
agent_long = Agent(
finance_model,
model_settings=ModelSettings(max_output_tokens=2000),
)
```
### Documents très longs (max_tokens=5000)
```python
agent_very_long = Agent(
finance_model,
model_settings=ModelSettings(max_output_tokens=5000),
)
# Nécessite que l'entrée soit < 27K tokens
```
## Recommandations
| Cas d'usage | max_tokens recommandé | Notes |
|-------------|----------------------|-------|
| Questions rapides | 800-1000 | Suffisant pour la plupart |
| Réponses détaillées | 1500-2000 | Inclut raisonnement |
| Messages SWIFT | 1200-1500 | Format structuré |
| Analyses longues | 2000-4000 | Si nécessaire |
| Génération de code/docs | 3000-5000 | Documents complets |
**Note:** Au-delà de 5000 tokens, vérifiez que votre contexte d'entrée n'est pas trop volumineux.