CartPole / Qlearning_pole.py

Initial Commit

f1acf35 over 2 years ago

9.42 kB

	import random

	import numpy as np
	import gym
	import time
	from tqdm import tqdm
	import configparser
	class Qlearning:
	###########################################################################
	# START - __init__ function
	###########################################################################
	# INPUTS:
	# env - Cart Pole environment
	# alpha - step size
	# gamma - discount rate
	# epsilon - parameter for epsilon-greedy approach
	# numberEpisodes - total number of simulation episodes

	# numberOfBins - this is a 4 dimensional list that defines the number of grid points
	# for state discretization
	# that is, this list contains number of bins for every state entry,
	# we have 4 entries, that is,
	# discretization for cart position, cart velocity, pole angle, and pole angular velocity

	# lowerBounds - lower bounds (limits) for discretization, list with 4 entries:
	# lower bounds on cart position, cart velocity, pole angle, and pole angular velocity

	# upperBounds - upper bounds (limits) for discretization, list with 4 entries:
	# upper bounds on cart position, cart velocity, pole angle, and pole angular velocity
	def __init__(self, env = gym.make('CartPole-v1'), file='config.ini'):
	self.env = env
	self.load_values(file)



	def load_values(self,file):
	config = configparser.ConfigParser()
	config.read(file)

	cart_velocity_min = float(config['Parameters']['cart_velocity_min'])
	cart_velocity_max = float(config['Parameters']['cart_velocity_max'])
	pole_angle_velocity_min = float(config['Parameters']['pole_angle_velocity_min'])
	pole_angle_velocity_max = float(config['Parameters']['pole_angle_velocity_max'])
	number_of_bins_position = int(config['Parameters']['number_of_bins_position'])
	number_of_bins_velocity = int(config['Parameters']['number_of_bins_velocity'])
	number_of_bins_angle = int(config['Parameters']['number_of_bins_angle'])
	number_of_bins_angle_velocity = int(config['Parameters']['number_of_bins_angle_velocity'])
	self.action_number = self.env.action_space.n
	self.alpha = float(config['Parameters']['alpha'])
	self.gamma = float(config['Parameters']['gamma'])
	self.epsilon = float(config['Parameters']['epsilon'])
	self.numEpisodes = int(config['Parameters']['number_episodes'])

	self.upperBounds = self.env.observation_space.high
	self.lowerBounds = self.env.observation_space.low
	self.upperBounds[1] = cart_velocity_max
	self.upperBounds[3] = pole_angle_velocity_max
	self.lowerBounds[1] = cart_velocity_min
	self.lowerBounds[3] = pole_angle_velocity_min

	self.batch_size = int(config['Parameters']['batch_size'])

	self.rewardsEpisode = 0
	self.sumRewardsEpisode = []

	# Update the number of bins
	self.num_bins = [number_of_bins_position, number_of_bins_velocity, number_of_bins_angle,
	number_of_bins_angle_velocity]

	self.replayBuffer = []
	self.Q = np.random.uniform(0, 1, size=(self.num_bins[0], self.num_bins[1], self.num_bins[2], self.num_bins[3], self.action_number))

	# Observation space is not discrete so we make it discrete
	def returnIndexState(self, state):
	position = state[0]
	velocity = state[1]
	angle = state[2]
	angularVelocity = state[3]

	cartPositionBin = np.linspace(self.lowerBounds[0], self.upperBounds[0], self.num_bins[0])
	cartVelocityBin = np.linspace(self.lowerBounds[1], self.upperBounds[1], self.num_bins[1])
	cartAngleBin = np.linspace(self.lowerBounds[2], self.upperBounds[2], self.num_bins[2])
	cartAngularVelocityBin = np.linspace(self.lowerBounds[3], self.upperBounds[3], self.num_bins[3])

	indexPosition = np.maximum(np.digitize(position, cartPositionBin) - 1, 0)
	indexVelocity = np.maximum(np.digitize(velocity, cartVelocityBin) - 1, 0)
	indexAngle = np.maximum(np.digitize(angle, cartAngleBin) - 1, 0)
	indexAngularVelocity = np.maximum(np.digitize(angularVelocity, cartAngularVelocityBin) - 1, 0)

	return tuple([indexPosition, indexVelocity, indexAngle, indexAngularVelocity])

	def selectAction(self, state, index):
	# First 10% episodes will be random
	if index < self.numEpisodes * 0.1:
	return np.random.choice(self.action_number)

	# We generate a random number to decide if we are exploring or not.
	randomNumber = np.random.random()

	# Decay starts at 55%
	if index > self.numEpisodes * 0.6:
	self.epsilon = 0.999 * self.epsilon

	# If satisfied we are exploring
	if randomNumber < self.epsilon:
	return np.random.choice(self.action_number)

	# Else we are being greedy
	else:
	return np.random.choice(np.where(
	self.Q[self.returnIndexState(state)] == np.max(self.Q[self.returnIndexState(state)]))[0])

	def train(self):
	for indexEpisode in tqdm(range(self.numEpisodes)):#, miniters=1):
	#for indexEpisode in range(self.numEpisodes):
	rewardsEpisode = []
	(stateS, _) = self.env.reset()
	stateS = list(stateS)
	#print(f'Simulating Episode {indexEpisode}')
	terminalState = False
	steps = 0
	# Add a steps limiter to shorten training time
	while not terminalState and steps < 2000:
	steps += 1
	stateSIndex = self.returnIndexState(stateS)
	actionA = self.selectAction(stateS, indexEpisode)

	(stateSprime, reward, terminalState, _, _) = self.env.step(actionA)
	rewardsEpisode.append(reward)
	stateSprime = list(stateSprime)

	# Store the experience in the buffer
	self.replayBuffer.append([stateS,actionA,reward,stateSprime,terminalState])

	stateSprimeIndex = self.returnIndexState(stateSprime)

	QmaxPrime = np.max(self.Q[stateSprimeIndex])
	if not terminalState:
	error = reward + self.gamma * QmaxPrime - self.Q[stateSIndex + (actionA,)]
	self.Q[stateSIndex + (actionA,)] = self.Q[stateSIndex + (actionA,)] + self.alpha * error
	else:
	error = reward - self.Q[stateSIndex + (actionA,)]
	self.Q[stateSIndex + (actionA,)] = self.Q[stateSIndex + (actionA,)] + self.alpha * error

	stateS = stateSprime

	if indexEpisode % 5 == 0:
	self.updateQValues()
	#print("Sum of rewards {}".format(np.sum(rewardsEpisode)))
	self.sumRewardsEpisode.append(np.sum(rewardsEpisode))


	def updateQValues(self):
	if len(self.replayBuffer)<self.batch_size:
	return

	# Select a random batch of experiences
	batch = random.sample(self.replayBuffer, self.batch_size)

	for experience in batch:
	state,action,reward,next_state,done = experience
	stateIndex = self.returnIndexState(state)
	actionIndex = action

	if not done:
	next_stateIndex = self.returnIndexState(next_state)
	QmaxPrime = np.max(self.Q[next_stateIndex])
	error = reward + self.gamma * QmaxPrime - self.Q[stateIndex + (actionIndex,)]
	else:
	error = reward - self.Q[stateIndex + (actionIndex,)]
	self.Q[stateIndex + (actionIndex,)] += self.alpha * error

	def simulateLearnedStrategy(self,env1 = gym.make("CartPole-v1"), render=False):
	import gym
	import time
	# Choose this line if you want to see how it behaves
	#env1 = gym.make("CartPole-v1", render_mode='human')
	(currentState, _) = env1.reset()
	if render:
	env1.render()
	timeSteps = 3000
	steps = 0
	# obtained rewards at every time step
	obtainedRewards = []
	terminated = False
	truncated = False
	while (not (terminated or truncated)) or steps < timeSteps:
	steps+=1
	#print(timeIndex)
	# select greedy actions
	actionInStateS = np.random.choice(np.where(self.Q[self.returnIndexState(currentState)] == np.max(
	self.Q[self.returnIndexState(currentState)]))[0])
	currentState, reward, terminated, truncated, info = env1.step(actionInStateS)
	obtainedRewards.append(reward)
	time.sleep(0.05)
	if (terminated):
	time.sleep(1)
	break
	return obtainedRewards, env1

	def simulateRandomStrategy(self):
	env2 = gym.make('CartPole-v1')
	(currentState, _) = env2.reset()
	#env2.render()
	# number of simulation episodes
	episodeNumber = 100
	# time steps in every episode
	timeSteps = 1000
	# sum of rewards in each episode
	rewardsEpisode = []


	for timeIndex in range(timeSteps):
	random_action = env2.action_space.sample()
	observation, reward, terminated, truncated, info = env2.step(random_action)
	rewardsEpisode.append(reward)
	if (terminated):
	break

	return np.sum(rewardsEpisode), env2