A2C Agent playing PandaReachJointsDense-v3

Ce modèle a été entraîné avec Stable-Baselines3 pour contrôler un bras robotisé. L'objectif est d'atteindre une cible en 3D en manipulant directement les articulations du robot.

Rendu Vidéo

Détails techniques

  • Environnement : PandaReachJointsDense-v3
  • Algorithme : A2C (Advantage Actor-Critic)
  • Politique : MultiInputPolicy (indispensable pour les Dict Observation Spaces)
  • Timesteps : 500 000
  • Framework : Stable-Baselines3 v2.x et Gymnasium v0.29+

Suivi de l'expérience

Les courbes d'apprentissage complètes (récompense, perte d'entropie) sont disponibles sur Weights & Biases : MSO-TD1-PANDA sur W&B

Downloads last month
72
Video Preview
loading