basketball_code / run.sh

Upload folder using huggingface_hub

0c51b93 verified about 2 months ago

5.84 kB

	### ClothFold
	python train_PEBBLE.py \
	env=softgym_ClothFoldDiagonal \
	seed=0 \
	vlm_label=1 \
	vlm=gpt4v_two_image \
	exp_name=test \
	reward=learn_from_preference \
	image_reward=1 \
	num_train_steps=15000 \
	agent.params.actor_lr=0.0005 agent.params.critic_lr=0.0005 gradient_update=1 activation=tanh num_unsup_steps=250 \
	num_interact=1000 max_feedback=500 \
	reward_batch=50 reward_update=25 \
	resnet=1 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_mistake=0 \
	teacher_eps_skip=0 teacher_eps_equal=0 segment=1 num_seed_steps=250 \
	eval_frequency=250 num_eval_episodes=1 \
	cached_label_path=data/cached_labels/ClothFold/seed_0/


	### soccer
	python train_PEBBLE.py \
	env=metaworld_soccer-v2 \
	seed=0 \
	exp_name=reproduce \
	reward=learn_from_preference \
	vlm_label=1 \
	vlm=gemini_free_form \
	image_reward=1 \
	reward_batch=40 \
	segment=1 \
	teacher_eps_mistake=0 \
	reward_update=5 \
	num_interact=4000 \
	max_feedback=20000 \
	reward_lr=1e-4 \
	agent.params.actor_lr=0.0003 agent.params.critic_lr=0.0003 gradient_update=1 activation=tanh num_unsup_steps=9000 \
	num_train_steps=1000000 agent.params.batch_size=512 double_q_critic.params.hidden_dim=256 double_q_critic.params.hidden_depth=3 \
	diag_gaussian_actor.params.hidden_dim=256 diag_gaussian_actor.params.hidden_depth=3 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_skip=0 teacher_eps_equal=0 \
	num_eval_episodes=1 \
	cached_label_path=data/cached_labels/Soccer/seed_1/


	### drawer
	python train_PEBBLE.py \
	env=metaworld_drawer-open-v2 \
	seed=0 \
	exp_name=reproduce \
	reward=learn_from_preference \
	vlm_label=1 \
	vlm=gemini_free_form \
	image_reward=1 \
	reward_batch=40 \
	segment=1 \
	teacher_eps_mistake=0 \
	reward_update=10 \
	num_interact=4000 \
	max_feedback=20000 \
	agent.params.actor_lr=0.0003 agent.params.critic_lr=0.0003 gradient_update=1 activation=tanh num_unsup_steps=9000 \
	num_train_steps=1000000 agent.params.batch_size=512 double_q_critic.params.hidden_dim=256 double_q_critic.params.hidden_depth=3 \
	diag_gaussian_actor.params.hidden_dim=256 diag_gaussian_actor.params.hidden_depth=3 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_skip=0 teacher_eps_equal=0 \
	num_eval_episodes=1 \
	cached_label_path=data/cached_labels/Drawer/seed_0/


	### sweep into
	python train_PEBBLE.py \
	env=metaworld_sweep-into-v2 \
	seed=0 \
	exp_name=reproduce \
	reward=learn_from_preference \
	vlm_label=1 \
	vlm=gemini_free_form \
	image_reward=1 \
	reward_batch=40 \
	segment=1 \
	teacher_eps_mistake=0 \
	reward_update=10 \
	num_interact=4000 \
	max_feedback=20000 \
	agent.params.actor_lr=0.0003 agent.params.critic_lr=0.0003 gradient_update=1 activation=tanh num_unsup_steps=9000 \
	num_train_steps=1000000 agent.params.batch_size=512 double_q_critic.params.hidden_dim=256 double_q_critic.params.hidden_depth=3 \
	diag_gaussian_actor.params.hidden_dim=256 diag_gaussian_actor.params.hidden_depth=3 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_skip=0 teacher_eps_equal=0 \
	num_eval_episodes=1 \
	cached_label_path=data/cached_labels/Sweep-Into/combined/

	### cartpole
	python train_PEBBLE.py \
	env=CartPole-v1 \
	seed=0 \
	exp_name=reproduce \
	reward=learn_from_preference \
	vlm=gemini_free_form \
	vlm_label=1 \
	exp_name=2024-3-24-icml-rebuttal-more-seeds \
	segment=1 \
	image_reward=1 \
	max_feedback=10000 reward_batch=50 reward_update=50 \
	num_interact=5000 \
	num_train_steps=500000 \
	agent.params.critic_lr=0.0005 gradient_update=1 activation=tanh num_unsup_steps=1000 num_train_steps=500000 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_mistake=0 teacher_eps_skip=0 teacher_eps_equal=0 \
	agent.params.actor_lr=0.0005 \
	cached_label_path=data/cached_labels/CartPole/seed_0/

	# RopeFlattenEasy
	python train_PEBBLE.py \
	env=softgym_RopeFlattenEasy \
	seed=0 \
	exp_name=reproduce \
	reward=learn_from_preference \
	vlm_label=1 \
	vlm=gemini_free_form \
	image_reward=1 \
	reward_batch=100 \
	segment=1 \
	teacher_eps_mistake=0 \
	reward_update=30 \
	num_interact=5000 \
	max_feedback=20000 \
	reward_lr=1e-4 \
	agent.params.actor_lr=0.0003 agent.params.critic_lr=0.0003 gradient_update=1 activation=tanh num_unsup_steps=9000 \
	num_train_steps=600000 agent.params.batch_size=512 double_q_critic.params.hidden_dim=256 double_q_critic.params.hidden_depth=3 \
	diag_gaussian_actor.params.hidden_dim=256 diag_gaussian_actor.params.hidden_depth=3 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_skip=0 teacher_eps_equal=0 \
	num_eval_episodes=1 \
	resnet=1 \
	cached_label_path=data/cached_labels/RopeFlattenEasy/seed_0/

	# PassWater
	python train_PEBBLE.py \
	env=softgym_PassWater \
	seed=0 \
	exp_name=reproduce \
	reward=learn_from_preference \
	vlm_label=1 \
	vlm=gemini_free_form \
	image_reward=1 \
	reward_batch=100 \
	segment=1 \
	teacher_eps_mistake=0 \
	reward_update=30 \
	num_interact=5000 \
	max_feedback=20000 \
	reward_lr=1e-4 \
	agent.params.actor_lr=0.0003 agent.params.critic_lr=0.0003 gradient_update=1 activation=tanh num_unsup_steps=9000 \
	num_train_steps=600000 agent.params.batch_size=512 double_q_critic.params.hidden_dim=256 double_q_critic.params.hidden_depth=3 \
	diag_gaussian_actor.params.hidden_dim=256 diag_gaussian_actor.params.hidden_depth=3 \
	feed_type=0 teacher_beta=-1 teacher_gamma=1 teacher_eps_skip=0 teacher_eps_equal=0 \
	num_eval_episodes=1 \
	resnet=1 \
	cached_label_path=data/cached_labels/PassWater/seed_0/