Spaces:

jeanbaptdzd
/

open-finance-llm-8b

Paused

App Files Files Community

open-finance-llm-8b / docs /qwen3_specifications.md

jeanbaptdzd

Reorganize tests and clean up documentation

6d3bf74 26 days ago

preview code

raw

history blame contribute delete

2.87 kB

	# Spécifications Qwen-3 8B - Fenêtre de contexte

	## Fenêtre de contexte maximale

	Le modèle DragonLLM/Qwen-Open-Finance-R-8B (basé sur Qwen-3 8B) supporte:

	### Fenêtre de base
	- 32 768 tokens (32K tokens)
	- Support natif pour la plupart des cas d'usage

	### Fenêtre étendue (avec YaRN)
	- 128 000 tokens (128K tokens)
	- Extension via le mécanisme YaRN (Yet another RoPE extensioN)
	- Nécessite une configuration spécifique pour activer

	## Composition du contexte

	Quand vous envoyez une requête, le contexte total inclut:

	```
	Contexte total = Prompt système + Messages conversation + Réponse générée
	```

	### Exemples pratiques:

	\| Type de requête \| Prompt + Messages \| Réponse max \| Total \|
	\|----------------\|-------------------\|-------------\|-------\|
	\| Question simple \| ~100 tokens \| 800 tokens \| ~900 tokens \|
	\| Analyse complexe \| ~500 tokens \| 1500 tokens \| ~2000 tokens \|
	\| Document long \| ~5000 tokens \| 2000 tokens \| ~7000 tokens \|
	\| Analyse très longue \| ~15000 tokens \| 4000 tokens \| ~19000 tokens \|

	Limite pratique recommandée: 30 000 tokens pour laisser de la marge.

	## Limite de génération (max_tokens)

	Limite théorique maximale: 20 000 tokens en sortie

	Limite pratique: Dépend de la fenêtre de contexte disponible:
	- Si contexte d'entrée = 2K tokens → peut générer jusqu'à ~30K tokens
	- Si contexte d'entrée = 10K tokens → peut générer jusqu'à ~22K tokens
	- Si contexte d'entrée = 30K tokens → peut générer jusqu'à ~2K tokens

	Formule: `max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité`

	## Configuration actuelle

	Dans notre application:
	- `max_tokens` (génération): 1500 tokens (configurable via API)
	- Contexte d'entrée: Illimité jusqu'à ~30K tokens (pour laisser de la marge)
	- Contexte total: Jusqu'à 32K tokens (base) ou 128K (avec YaRN)
	- Limite théorique max: 20K tokens en sortie (mais contrainte par contexte disponible)

	## Recommandations

	### Pour des requêtes simples:
	```python
	max_tokens = 800-1000 # Suffisant pour la plupart des réponses
	```

	### Pour des requêtes complexes (SWIFT, analyses):
	```python
	max_tokens = 1500-2000 # Permet raisonnement + réponse complète
	```

	### Pour des documents longs:
	- Utilisez le contexte jusqu'à ~30K tokens pour le prompt
	- Réservez 2-5K tokens pour la réponse
	- Total: jusqu'à 32K tokens (base)

	### Activation de YaRN pour contexte étendu:
	Si vous avez besoin de plus de 32K tokens:
	1. Vérifiez que le backend Transformers supporte YaRN
	2. Configurez les paramètres de RoPE scaling
	3. La fenêtre peut être étendue jusqu'à 128K tokens

	## Références

	- Qwen-3 models: Fenêtre de 32K tokens (base), 128K avec YaRN
	- YaRN: Yet another RoPE extensioN - méthode d'extension de contexte
	- Documentation technique Qwen: https://huggingface.co/Qwen/Qwen2.5