open-finance-llm-8b / docs /generation_limits.md
jeanbaptdzd's picture
chore: Clean up repo - remove redundant tests and docs, update README
3e6b9d2

Limites de génération - Qwen-3 8B

Limite théorique maximale

20 000 tokens peuvent être générés en sortie (selon les spécifications Qwen-3 8B).

Limite pratique

La limite pratique dépend de la fenêtre de contexte disponible:

max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité

Exemples pratiques

Contexte d'entrée Fenêtre totale Max génération Marge
2K tokens 32K ~30K tokens ✅ Large
10K tokens 32K ~22K tokens ✅ Bonne
20K tokens 32K ~12K tokens ✅ Suffisant
30K tokens 32K ~2K tokens ⚠️ Limite
50K tokens 128K (YaRN) ~78K tokens ✅ Très large

Pour notre application

Configuration actuelle

  • max_tokens configuré: 1500 tokens
  • Typique contexte entrée: ~100-500 tokens (messages conversation)
  • Disponible pour génération: ~30K tokens

Pourquoi 1500 tokens est suffisant?

  1. Questions simples: 800-1000 tokens suffisent
  2. Analyses complexes: 1500 tokens couvrent raisonnement + réponse
  3. Messages SWIFT: 1200-1500 tokens pour format complet
  4. Marge de sécurité: Reste bien en dessous de la limite pratique

Ajuster max_tokens selon les besoins

Questions simples (max_tokens=800)

agent_short = Agent(
    finance_model,
    model_settings=ModelSettings(max_output_tokens=800),
)

Analyses complexes (max_tokens=2000)

agent_long = Agent(
    finance_model,
    model_settings=ModelSettings(max_output_tokens=2000),
)

Documents très longs (max_tokens=5000)

agent_very_long = Agent(
    finance_model,
    model_settings=ModelSettings(max_output_tokens=5000),
)
# Nécessite que l'entrée soit < 27K tokens

Recommandations

Cas d'usage max_tokens recommandé Notes
Questions rapides 800-1000 Suffisant pour la plupart
Réponses détaillées 1500-2000 Inclut raisonnement
Messages SWIFT 1200-1500 Format structuré
Analyses longues 2000-4000 Si nécessaire
Génération de code/docs 3000-5000 Documents complets

Note: Au-delà de 5000 tokens, vérifiez que votre contexte d'entrée n'est pas trop volumineux.