Upload policy_config.py with huggingface_hub
Browse files- policy_config.py +13 -4
policy_config.py
CHANGED
|
@@ -11,6 +11,7 @@ exp_config = {
|
|
| 11 |
'cfg_type': 'BaseEnvManagerDict'
|
| 12 |
},
|
| 13 |
'stop_value': 6000,
|
|
|
|
| 14 |
'env_id': 'Hopper-v3',
|
| 15 |
'norm_obs': {
|
| 16 |
'use_norm': False
|
|
@@ -20,7 +21,7 @@ exp_config = {
|
|
| 20 |
},
|
| 21 |
'collector_env_num': 1,
|
| 22 |
'evaluator_env_num': 8,
|
| 23 |
-
'
|
| 24 |
},
|
| 25 |
'policy': {
|
| 26 |
'model': {
|
|
@@ -69,9 +70,10 @@ exp_config = {
|
|
| 69 |
'render_freq': -1,
|
| 70 |
'mode': 'train_iter'
|
| 71 |
},
|
|
|
|
| 72 |
'cfg_type': 'InteractionSerialEvaluatorDict',
|
| 73 |
-
'
|
| 74 |
-
'
|
| 75 |
}
|
| 76 |
},
|
| 77 |
'other': {
|
|
@@ -95,5 +97,12 @@ exp_config = {
|
|
| 95 |
'cfg_type': 'DDPGPolicyDict'
|
| 96 |
},
|
| 97 |
'exp_name': 'Hopper-v3-DDPG',
|
| 98 |
-
'seed': 0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 99 |
}
|
|
|
|
| 11 |
'cfg_type': 'BaseEnvManagerDict'
|
| 12 |
},
|
| 13 |
'stop_value': 6000,
|
| 14 |
+
'n_evaluator_episode': 8,
|
| 15 |
'env_id': 'Hopper-v3',
|
| 16 |
'norm_obs': {
|
| 17 |
'use_norm': False
|
|
|
|
| 21 |
},
|
| 22 |
'collector_env_num': 1,
|
| 23 |
'evaluator_env_num': 8,
|
| 24 |
+
'env_wrapper': 'mujoco_default'
|
| 25 |
},
|
| 26 |
'policy': {
|
| 27 |
'model': {
|
|
|
|
| 70 |
'render_freq': -1,
|
| 71 |
'mode': 'train_iter'
|
| 72 |
},
|
| 73 |
+
'figure_path': None,
|
| 74 |
'cfg_type': 'InteractionSerialEvaluatorDict',
|
| 75 |
+
'stop_value': 6000,
|
| 76 |
+
'n_episode': 8
|
| 77 |
}
|
| 78 |
},
|
| 79 |
'other': {
|
|
|
|
| 97 |
'cfg_type': 'DDPGPolicyDict'
|
| 98 |
},
|
| 99 |
'exp_name': 'Hopper-v3-DDPG',
|
| 100 |
+
'seed': 0,
|
| 101 |
+
'wandb_logger': {
|
| 102 |
+
'gradient_logger': True,
|
| 103 |
+
'video_logger': True,
|
| 104 |
+
'plot_logger': True,
|
| 105 |
+
'action_logger': True,
|
| 106 |
+
'return_logger': False
|
| 107 |
+
}
|
| 108 |
}
|