A2C Agent playing PandaReachJointsDense-v3
Ce modèle a été entraîné avec Stable-Baselines3 pour contrôler un bras robotisé. L'objectif est d'atteindre une cible en 3D en manipulant directement les articulations du robot.
Rendu Vidéo
Détails techniques
- Environnement : PandaReachJointsDense-v3
- Algorithme : A2C (Advantage Actor-Critic)
- Politique :
MultiInputPolicy(indispensable pour les Dict Observation Spaces) - Timesteps : 500 000
- Framework : Stable-Baselines3 v2.x et Gymnasium v0.29+
Suivi de l'expérience
Les courbes d'apprentissage complètes (récompense, perte d'entropie) sont disponibles sur Weights & Biases : MSO-TD1-PANDA sur W&B
- Downloads last month
- 72