open-finance-llm-8b / docs /qwen3_specifications.md
jeanbaptdzd's picture
Reorganize tests and clean up documentation
6d3bf74

Spécifications Qwen-3 8B - Fenêtre de contexte

Fenêtre de contexte maximale

Le modèle DragonLLM/Qwen-Open-Finance-R-8B (basé sur Qwen-3 8B) supporte:

Fenêtre de base

  • 32 768 tokens (32K tokens)
  • Support natif pour la plupart des cas d'usage

Fenêtre étendue (avec YaRN)

  • 128 000 tokens (128K tokens)
  • Extension via le mécanisme YaRN (Yet another RoPE extensioN)
  • Nécessite une configuration spécifique pour activer

Composition du contexte

Quand vous envoyez une requête, le contexte total inclut:

Contexte total = Prompt système + Messages conversation + Réponse générée

Exemples pratiques:

Type de requête Prompt + Messages Réponse max Total
Question simple ~100 tokens 800 tokens ~900 tokens
Analyse complexe ~500 tokens 1500 tokens ~2000 tokens
Document long ~5000 tokens 2000 tokens ~7000 tokens
Analyse très longue ~15000 tokens 4000 tokens ~19000 tokens

Limite pratique recommandée: 30 000 tokens pour laisser de la marge.

Limite de génération (max_tokens)

Limite théorique maximale: 20 000 tokens en sortie

Limite pratique: Dépend de la fenêtre de contexte disponible:

  • Si contexte d'entrée = 2K tokens → peut générer jusqu'à ~30K tokens
  • Si contexte d'entrée = 10K tokens → peut générer jusqu'à ~22K tokens
  • Si contexte d'entrée = 30K tokens → peut générer jusqu'à ~2K tokens

Formule: max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité

Configuration actuelle

Dans notre application:

  • max_tokens (génération): 1500 tokens (configurable via API)
  • Contexte d'entrée: Illimité jusqu'à ~30K tokens (pour laisser de la marge)
  • Contexte total: Jusqu'à 32K tokens (base) ou 128K (avec YaRN)
  • Limite théorique max: 20K tokens en sortie (mais contrainte par contexte disponible)

Recommandations

Pour des requêtes simples:

max_tokens = 800-1000  # Suffisant pour la plupart des réponses

Pour des requêtes complexes (SWIFT, analyses):

max_tokens = 1500-2000  # Permet raisonnement + réponse complète

Pour des documents longs:

  • Utilisez le contexte jusqu'à ~30K tokens pour le prompt
  • Réservez 2-5K tokens pour la réponse
  • Total: jusqu'à 32K tokens (base)

Activation de YaRN pour contexte étendu:

Si vous avez besoin de plus de 32K tokens:

  1. Vérifiez que le backend Transformers supporte YaRN
  2. Configurez les paramètres de RoPE scaling
  3. La fenêtre peut être étendue jusqu'à 128K tokens

Références

  • Qwen-3 models: Fenêtre de 32K tokens (base), 128K avec YaRN
  • YaRN: Yet another RoPE extensioN - méthode d'extension de contexte
  • Documentation technique Qwen: https://huggingface.co/Qwen/Qwen2.5