A2C Agent playing PandaReachJointsDense-v3

Ce modèle a été entraîné avec Stable-Baselines3 pour contrôler un bras robotisé. L'objectif est d'atteindre une cible en 3D en manipulant directement les articulations du robot.

Rendu Vidéo

Détails techniques

Environnement : PandaReachJointsDense-v3
Algorithme : A2C (Advantage Actor-Critic)
Politique : MultiInputPolicy (indispensable pour les Dict Observation Spaces)
Timesteps : 500 000
Framework : Stable-Baselines3 v2.x et Gymnasium v0.29+

Suivi de l'expérience

Les courbes d'apprentissage complètes (récompense, perte d'entropie) sont disponibles sur Weights & Biases : MSO-TD1-PANDA sur W&B

Downloads last month: -

Video Preview

Reinforcement Learning