Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / agents-course /pr_653 /fr /unit1 /thoughts.md

rtrm

about 2 months ago

preview code

download

raw

5.61 kB

	# Réflexions : raisonnement interne et l'approche Re-Act

	> [!TIP]
	> Dans cette section, nous plongeons dans le fonctionnement interne d'un agent : sa capacité à raisonner et à planifier. Nous explorerons comment l'agent utilise son dialogue interne pour analyser l'information, décomposer des problèmes complexes en étapes gérables, et décider de l'action à entreprendre ensuite. De plus, nous présentons l'approche Re-Act, une technique pour prompter qui encourage le modèle à réfléchir « étape par étape » avant d'agir.

	Les réflexions représentent le raisonnement interne de l'agent et les processus de planification** pour résoudre la tâche.

	Elles utilisent la capacité du LLM de l'agent *à analyser l'information lorsqu'elle est présentée dans son prompt*** - essentiellement, son monologue intérieur pendant qu'il travaille sur un problème.

	Les réflexions de l'agent l'aident à évaluer les observations actuelles et à décider de la ou des prochaines actions à entreprendre. Grâce à ce processus, l'agent peut décomposer des problèmes complexes en étapes plus petites et plus faciles à gérer, réfléchir aux expériences passées et ajuster continuellement ses plans en fonction des nouvelles informations.

	## Exemples de types de réflexions courantes

	\| Type de Raisonnement \| Exemple \|
	\|------------------------\|-----------------------------------------------------------------------------------------------------------\|
	\| Planification \| "Je dois décomposer cette tâche en trois étapes : 1) recueillir les données, 2) analyser les tendances, 3) générer le rapport" \|
	\| Analyse \| "D'après le message d'erreur, le problème semble provenir des paramètres de connexion à la base de données" \|
	\| Prise de Décision \| "Étant donné les contraintes budgétaires de l'utilisateur, je devrais recommander l'option de milieu de gamme" \|
	\| Résolution de Problème \| "Pour optimiser ce code, je devrais d'abord le profiler pour identifier les goulets d'étranglement" \|
	\| Intégration de la Mémoire \| "L'utilisateur avait mentionné sa préférence pour Python plus tôt, donc je fournirai des exemples en Python" \|
	\| Auto-Réflexion \| "Ma dernière approche n'a pas bien fonctionné, je devrais essayer une stratégie différente" \|
	\| Définition d'Objectifs \| "Pour accomplir cette tâche, je dois d'abord établir les critères d'acceptation" \|
	\| Priorisation \| "La vulnérabilité de sécurité doit être traitée avant d'ajouter de nouvelles fonctionnalités" \|

	> Note: Dans le cas des LLM finetuné pour de l'appel de fonctions, le processus de réflexion est facultatif. Davantage de détails seront abordés dans la section sur les actions.

	## Chaîne de réflexion (Chain-of-Thought généralement abrégé en CoT)

	Une chaîne de réflexion est une technique de prompt qui guide un modèle à réfléchir à un problème étape par étape avant de produire une réponse finale.

	Cela commence généralement par :
	*« Réfléchissons étape par étape ».

	Cette approche aide le modèle à raisonner en interne, en particulier pour les tâches logiques ou mathématiques, sans interagir avec des outils externes.

	### Exemple
	```
	Question: Qu'est-ce que 15 % de 200 ?
	Thought: Réfléchissons étape par étape. 10 % de 200, c'est 20, et 5 % de 200, c'est 10, donc 15 %, c'est 30.
	Answer: 30
	```

	## ReAct : Raisonner + Action

	Une méthode clé est l'approche ReAct, qui combine le « raisonnement » (Think) et l'« action » (Act).

	ReAct est une technique de prompt qui encourage le modèle à réfléchir étape par étape et à intercaler des actions (comme l'utilisation d'outils) entre les étapes du raisonnement.

	Cela permet à l'agent de résoudre des tâches complexes en plusieurs étapes en alternant entre :
	- Réflexion : raisonnement interne
	- Action : utilisation d'outils
	- Observation : réception des résultats de l'outil

	### Exemple (ReAct)
	```
	Thought: J'ai besoin de connaître le temps qu'il fait à Paris.
	Action: Search["temps à Paris"]
	Observation: Il fait 18°C et le ciel est nuageux.
	Thought: Maintenant que je connais le temps...
	Action: Finish["Il fait 18°C et le ciel est nuageux à Paris."]
	```



	(d) est un exemple de l'approche ReAct, où nous demandons « Réfléchissons étape par étape », et le modèle agit entre les réflexions.


	## Comparison: ReAct vs. CoT

	\| Caractéristique \| Chain-of-Thought (CoT) \| ReAct \|
	\|----------------------\|-----------------------------\|-------------------------------------\|
	\| Logique étape par étape \| ✅ Oui \| ✅ Oui \|
	\| Outils externes \| ❌ Non \| ✅ Oui (Actions + Observations) \|
	\| Convient le mieux à \| Logique, mathématiques, tâches internes \| Recherche d'informations, tâches dynamiques en plusieurs étapes \|

	> [!TIP]
	> Les modèles récents comme Deepseek R1 ou OpenAI's o1 ont été finetunés pour réfléchir avant de répondre. Ils utilisent des tokens structurés comme `` et `` pour séparer explicitement la phase de raisonnement de la réponse finale.
	>
	> Contrairement à ReAct ou CoT - qui sont des stratégies pour prompter - il s'agit d'une technique d'entrâinement, où le modèle apprend à penser à l'aide d'exemples.

Xet Storage Details

Size:: 5.61 kB
Xet hash:: b4ef5cc5cb8c0d209209a7f5cc0bb50ff2a375a8352dbda321f24679eeaea1c5

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.