Spaces:

ArseniyPerchik
/

Agent_Control_with_Language

Build error

Agent_Control_with_Language / warehouse_env.py

25a1345 8 months ago

5.5 kB

	from plot_functions import *



	class WarehouseEnv(gym.Env):
	"""
	WarehouseEnv Environment that follows gym interface.
	No inertia.
	State:
	x_a, y_a - current position [0, 100], [0, 100]
	x_rel, y_rel - relative to target position [0, 100], [0, 100]
	Action:
	alpha - an angle (direction) [0, 1]
	v - velocity [0, 1]
	Reward:
	-1 -> not in target radius
	10 -> in target radius
	"""

	metadata = {"render_modes": ["human"], "render_fps": 30}

	def __init__(self, render_mode):
	super().__init__()
	self.render_mode = render_mode
	self.to_render = self.render_mode == 'human'
	self.ACTIONS: int = 2
	self.N_CHANNELS: int = 4
	self.SIDE: int = 100
	# self.RADIUS_COVERAGE: int = 20 # working v1
	self.RADIUS_COVERAGE: int = 10
	self.MAX_STEPS: int = 500
	self.DIAG: float = math.sqrt(self.SIDE 2 + self.SIDE 2)
	self.action_space = spaces.Box(low=-1.0, high=1.0, shape=(self.ACTIONS,), dtype=np.float32)
	self.observation_space = spaces.Box(low=-1.0, high=1.0, shape=(self.N_CHANNELS,), dtype=np.float64)
	self.field = np.zeros((self.SIDE, self.SIDE))

	# Agent
	self.agent_x = None
	self.agent_y = None
	self.goal_x = None
	self.goal_y = None
	self.step_counter = None
	self.terminated = True
	self.truncated = True

	# to render
	if self.to_render:
	self.fig, self.ax = plt.subplots(1, 1, figsize=(5, 5))

	@property
	def rel_x(self) -> int:
	return self.agent_x - self.goal_x

	@property
	def rel_y(self) -> int:
	return self.agent_y - self.goal_y

	def reset(self, seed=None, options=None, agent_x=None, agent_y=None, goal_x=None, goal_y=None):
	if agent_x is None:
	self.agent_x = np.random.uniform(0, self.SIDE)
	self.agent_y = np.random.uniform(0, self.SIDE)
	# self.agent_x = 50.0
	# self.agent_y = 50.0
	else:
	self.agent_x = agent_x
	self.agent_y = agent_y
	if goal_x is None:
	self.goal_x = np.random.uniform(0, self.SIDE)
	self.goal_y = np.random.uniform(0, self.SIDE)
	else:
	self.goal_x = goal_x
	self.goal_y = goal_y
	self.step_counter = 0
	self.terminated = False
	self.truncated = False
	info = {}
	return self.build_obs(), info

	def build_obs(self):
	observation = np.array([
	self.agent_x / self.SIDE * 2 - 1,
	self.agent_y / self.SIDE * 2 - 1,
	self.rel_x / self.SIDE * 2 - 1,
	self.rel_y / self.SIDE * 2 - 1
	# self.goal_x / self.SIDE * 2 - 1,
	# self.goal_y / self.SIDE * 2 - 1
	])
	return observation

	def build_reward(self):
	rel_x, rel_y = self.rel_x, self.rel_y
	# rel_x = self.agent_x - self.goal_x
	# rel_y = self.agent_y - self.goal_y
	distance = math.sqrt(rel_x 2 + rel_y 2)

	# terminated + reward
	# if not (0 < self.agent_x < self.SIDE) or not (0 <= self.agent_y < self.SIDE):
	if distance < self.RADIUS_COVERAGE:
	self.terminated = True
	self.truncated = True
	return 20
	elif self.agent_x < 0 or self.agent_x > self.SIDE or self.agent_y < 0 or self.agent_y > self.SIDE:
	self.terminated = True
	self.truncated = True
	return -10
	# return -1 * (distance / self.DIAG)
	return -0.001

	def step(self, action):
	if self.terminated:
	raise RuntimeError('reset the env')

	# --- execute action ---
	input_angle, input_vel = action
	# reshape between 0 and 1
	input_angle = (input_angle + 1) / 2
	input_vel = (input_vel + 1) / 2
	# execute
	angle_rad = 2 * np.pi * input_angle
	mov_x, mov_y = np.array([np.cos(angle_rad), np.sin(angle_rad)])
	self.agent_x += input_vel * mov_x
	self.agent_y += input_vel * mov_y

	# rel_x, rel_y = self.rel_x, self.rel_y
	# rel_x = self.agent_x - self.goal_x
	# rel_y = self.agent_y - self.goal_y
	# distance = math.sqrt(rel_x2 + rel_y2)

	# terminated + reward
	# if not (0 < self.agent_x < self.SIDE) or not (0 <= self.agent_y < self.SIDE):
	# if distance < self.RADIUS_COVERAGE:
	# self.terminated = True
	# self.truncated = True
	# reward = 2
	# print('Win')
	# elif self.agent_x < 0 or self.agent_x > self.SIDE or self.agent_y < 0 or self.agent_y > self.SIDE:
	# self.terminated = True
	# self.truncated = True
	# reward = -2
	# else:
	# reward = -1 * (distance / self.DIAG)

	# truncated
	if self.step_counter > self.MAX_STEPS:
	# self.terminated = True
	self.truncated = True
	self.step_counter += 1

	# info
	info = {}
	return self.build_obs(), self.build_reward(), self.terminated, self.truncated, info

	def render(self):
	plot_env(self.ax, info={'env': self})
	plt.tight_layout()
	plt.pause(0.01)

	def close(self):
	pass


	def main():
	env = WarehouseEnv(render_mode='')
	# It will check your custom environment and output additional warnings if needed
	check_env(env)


	if __name__ == '__main__':
	main()