Upload 3 files

31c4e48 verified about 1 month ago

4.21 kB

	---
	base_model: unsloth/Qwen3-4B-Instruct-2507-unsloth-bnb-4bit
	library_name: peft
	license: apache-2.0
	language:
	- fr
	- en
	pipeline_tag: text-generation
	tags:
	- lora
	- transformers
	- qwen3
	- pokemon
	- dasd
	- distillation
	- reasoning
	datasets:
	- pokemon-dasd-dataset
	---

	# Pokemon DASD LoRA Adapter

	Adaptateur LoRA pour Qwen3-4B fine-tuné sur un dataset de questions/réponses Pokémon avec raisonnement structuré, utilisant la méthode DASD (Distribution-Aligned Sequence Distillation).

	## Description du modèle

	Ce modèle est un adaptateur LoRA entraîné en 2 stages selon la méthodologie DASD :
	- Stage 1 : Entraînement sur des données générées à basse température (tau=0.3) pour la stabilité
	- Stage 2 : Entraînement sur des données générées à haute température (tau=0.9) pour la diversité

	Le modèle génère des réponses avec un raisonnement structuré dans des balises `<reasoning>...</reasoning>`.

	## Détails techniques

	\| Paramètre \| Valeur \|
	\|-----------\|--------\|
	\| Modèle de base \| `unsloth/Qwen3-4B-Instruct-2507-unsloth-bnb-4bit` \|
	\| Type de fine-tuning \| LoRA \|
	\| LoRA rank (r) \| 8 \|
	\| LoRA alpha \| 16 \|
	\| Modules ciblés \| q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj \|
	\| Framework \| LLaMA-Factory + PEFT 0.18.1 \|

	### Hyperparamètres d'entraînement

	\| Stage \| Epochs \| Learning Rate \| Batch Size \| Loss finale \|
	\|-------\|--------\|---------------\|------------\|-------------\|
	\| Stage 1 (tau=0.3) \| 5 \| 1e-4 \| 1 (grad_accum=4) \| 0.772 \|
	\| Stage 2 (tau=0.9) \| 3 \| 5e-5 \| 1 (grad_accum=4) \| 0.882 \|

	## Utilisation

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from peft import PeftModel

	# Charger le modèle de base
	base_model = AutoModelForCausalLM.from_pretrained(
	"unsloth/Qwen3-4B-Instruct-2507-unsloth-bnb-4bit",
	device_map="auto",
	trust_remote_code=True
	)
	tokenizer = AutoTokenizer.from_pretrained(
	"unsloth/Qwen3-4B-Instruct-2507-unsloth-bnb-4bit",
	trust_remote_code=True
	)

	# Charger l'adaptateur LoRA
	model = PeftModel.from_pretrained(base_model, "simoncharr/pokemon-dasd-lora-adapter")

	# Générer une réponse
	messages = [
	{"role": "system", "content": "Tu es un expert Pokémon. Raisonne étape par étape dans des balises <reasoning>...</reasoning> avant de donner ta réponse finale."},
	{"role": "user", "content": "Quelle est l'efficacité d'une attaque de type Feu contre un Pokémon de type Eau/Sol ?"}
	]

	inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
	outputs = model.generate(inputs, max_new_tokens=1024, temperature=0.7)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))
	```

	## Dataset d'entraînement

	Ce modèle a été entraîné sur le dataset [pokemon-dasd-dataset](https://huggingface.co/datasets/simoncharr/pokemon-dasd-dataset) contenant 600 exemples (300 par stage) de questions Pokémon avec réponses détaillées et raisonnement structuré.

	### Catégories couvertes
	- Efficacité des types
	- STAB et calcul de dégâts
	- Évolutions et conditions
	- Analyse de statistiques
	- Stratégie compétitive (Little Cup, OU, VGC)

	## Méthodologie DASD

	La méthode DASD (Distribution-Aligned Sequence Distillation) consiste à :
	1. Générer des réponses avec un modèle "teacher" à différentes températures
	2. Calculer les log-probabilités pour identifier les "Teacher Sentences" (où le teacher est confiant mais l'étudiant ne l'est pas)
	3. Filtrer les données via Divergence-Aware Sampling (DAS)
	4. Entraîner en 2 stages : stabilité (basse temp) puis diversité (haute temp)

	## Limitations

	- Le modèle peut générer des informations incorrectes sur des Pokémon fictifs ou mal nommés
	- Les réponses sont optimisées pour le français
	- Le raisonnement peut parfois être redondant

	## Citation

	```bibtex
	@misc{pokemon-dasd-2025,
	title={Pokemon DASD LoRA Adapter},
	author={[Votre nom]},
	year={2025},
	howpublished={HuggingFace Hub}
	}
	```

	## Références

	- [DASD Paper - Distribution-Aligned Sequence Distillation](https://github.com/D2I-ai/dasd-thinking)
	- [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory)
	- [Qwen3](https://huggingface.co/Qwen)