TD3 Agent for LunarLander-v3

This is a Twin Delayed DDPG (TD3) agent trained on LunarLander-v3.

Experiment Results

Final Mean Reward: 152.83
Total Timesteps: 100000

Hyperparameters

{'env_id': 'LunarLander-v3', 'project_name': 'td3-lunarlander-continuous', 'run_name': 'td3_run_a172a03d', 'seed': 42, 'total_timesteps': 100000, 'learning_starts': 10000, 'hidden_dim': 256, 'actor_lr': 0.0003, 'critic_lr': 0.0003, 'batch_size': 256, 'buffer_size': 1000000, 'gamma': 0.99, 'tau': 0.005, 'policy_noise': 0.2, 'noise_clip': 0.5, 'policy_delay': 2, 'exploration_noise': 0.1, 'eval_freq': 5000, 'save_model': True, 'hf_repo_id': 'yousefyousefyousef335/td3-lunarlander-v3'}

Downloads last month: -

Video Preview

Reinforcement Learning

Evaluation results

mean_reward on LunarLander-v3
self-reported

152.830