Upload 32 files

2db463d verified 4 months ago

25.4 kB

	import pickle
	import random
	import time
	from collections import deque

	import gym_super_mario_bros
	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.optim as optim
	from gym_super_mario_bros.actions import COMPLEX_MOVEMENT
	from nes_py.wrappers import JoypadSpace

	from PyQt5.QtWidgets import (QApplication, QMainWindow, QWidget, QVBoxLayout,
	QHBoxLayout, QPushButton, QLabel, QComboBox,
	QTextEdit, QProgressBar, QTabWidget, QFrame, QGroupBox)
	from PyQt5.QtCore import QTimer, Qt, pyqtSignal, QThread
	from PyQt5.QtGui import QImage, QPixmap, QFont
	import sys
	import cv2

	# Import your wrappers (make sure this module exists)
	try:
	from wrappers import *
	except ImportError:
	# Create a proper wrapper if the module doesn't exist
	class SimpleWrapper:
	def __init__(self, env):
	self.env = env
	self.action_space = env.action_space
	self.observation_space = env.observation_space

	def reset(self):
	return self.env.reset()

	def step(self, action):
	return self.env.step(action)

	def render(self, mode='rgb_array'):
	return self.env.render(mode)

	def close(self):
	if hasattr(self.env, 'close'):
	self.env.close()

	def wrap_mario(env):
	return SimpleWrapper(env)


	class FrameStacker:
	"""Handles frame stacking and preprocessing"""
	def __init__(self, frame_size=(84, 84), stack_size=4):
	self.frame_size = frame_size
	self.stack_size = stack_size
	self.frames = deque(maxlen=stack_size)

	def preprocess_frame(self, frame):
	"""Convert frame to grayscale and resize"""
	# Convert to grayscale
	gray = cv2.cvtColor(frame, cv2.COLOR_RGB2GRAY)
	# Resize to 84x84
	resized = cv2.resize(gray, self.frame_size, interpolation=cv2.INTER_AREA)
	# Normalize to [0, 1]
	normalized = resized.astype(np.float32) / 255.0
	return normalized

	def reset(self, frame):
	"""Reset frame stack with initial frame"""
	self.frames.clear()
	processed_frame = self.preprocess_frame(frame)
	for _ in range(self.stack_size):
	self.frames.append(processed_frame)
	return self.get_stacked_frames()

	def append(self, frame):
	"""Add new frame to stack"""
	processed_frame = self.preprocess_frame(frame)
	self.frames.append(processed_frame)
	return self.get_stacked_frames()

	def get_stacked_frames(self):
	"""Get stacked frames as numpy array"""
	stacked = np.array(self.frames)
	return np.ascontiguousarray(stacked)


	class replay_memory(object):
	def __init__(self, N):
	self.memory = deque(maxlen=N)

	def push(self, transition):
	self.memory.append(transition)

	def sample(self, n):
	return random.sample(self.memory, n)

	def __len__(self):
	return len(self.memory)


	class DuelingDQNModel(nn.Module):
	def __init__(self, n_frame, n_action, device):
	super(DuelingDQNModel, self).__init__()

	# CNN layers for feature extraction
	self.conv_layers = nn.Sequential(
	nn.Conv2d(n_frame, 32, kernel_size=8, stride=4),
	nn.ReLU(),
	nn.Conv2d(32, 64, kernel_size=4, stride=2),
	nn.ReLU(),
	nn.Conv2d(64, 64, kernel_size=3, stride=1),
	nn.ReLU()
	)

	# Calculate conv output size
	self.conv_out_size = self._get_conv_out((n_frame, 84, 84))

	# Advantage stream
	self.advantage_stream = nn.Sequential(
	nn.Linear(self.conv_out_size, 512),
	nn.ReLU(),
	nn.Linear(512, n_action)
	)

	# Value stream
	self.value_stream = nn.Sequential(
	nn.Linear(self.conv_out_size, 512),
	nn.ReLU(),
	nn.Linear(512, 1)
	)

	self.device = device
	self.apply(self.init_weights)

	def _get_conv_out(self, shape):
	with torch.no_grad():
	x = torch.zeros(1, *shape)
	x = self.conv_layers(x)
	return int(np.prod(x.size()))

	def init_weights(self, m):
	if isinstance(m, nn.Conv2d) or isinstance(m, nn.Linear):
	torch.nn.init.xavier_uniform_(m.weight)
	if m.bias is not None:
	m.bias.data.fill_(0.01)

	def forward(self, x):
	if not isinstance(x, torch.Tensor):
	x = torch.FloatTensor(x).to(self.device)

	# Forward through conv layers
	x = self.conv_layers(x)
	x = x.view(x.size(0), -1)

	# Forward through advantage and value streams
	advantage = self.advantage_stream(x)
	value = self.value_stream(x)

	# Combine value and advantage
	q_values = value + (advantage - advantage.mean(dim=1, keepdim=True))

	return q_values


	def train(q, q_target, memory, batch_size, gamma, optimizer, device):
	if len(memory) < batch_size:
	return 0.0

	transitions = memory.sample(batch_size)
	s, r, a, s_prime, done = list(map(list, zip(*transitions)))

	# Ensure positive strides for all arrays
	s = np.array([np.ascontiguousarray(arr) for arr in s])
	s_prime = np.array([np.ascontiguousarray(arr) for arr in s_prime])

	# Move computations to device
	s_tensor = torch.FloatTensor(s).to(device)
	s_prime_tensor = torch.FloatTensor(s_prime).to(device)

	# Get next Q values from target network
	with torch.no_grad():
	next_q_values = q_target(s_prime_tensor)
	next_actions = next_q_values.max(1)[1].unsqueeze(1)
	next_q_value = next_q_values.gather(1, next_actions)

	# Calculate target Q values
	r = torch.FloatTensor(r).unsqueeze(1).to(device)
	done = torch.FloatTensor(done).unsqueeze(1).to(device)
	target_q_values = r + gamma * next_q_value * (1 - done)

	# Get current Q values
	a_tensor = torch.LongTensor(a).unsqueeze(1).to(device)
	current_q_values = q(s_tensor).gather(1, a_tensor)

	# Calculate loss
	loss = F.smooth_l1_loss(current_q_values, target_q_values)

	# Optimize
	optimizer.zero_grad()
	loss.backward()

	# Gradient clipping
	torch.nn.utils.clip_grad_norm_(q.parameters(), max_norm=10.0)

	optimizer.step()
	return loss.item()


	def copy_weights(q, q_target):
	q_dict = q.state_dict()
	q_target.load_state_dict(q_dict)


	class MarioTrainingThread(QThread):
	update_signal = pyqtSignal(dict)
	frame_signal = pyqtSignal(np.ndarray)

	def __init__(self, device="cpu"):
	super().__init__()
	self.device = device
	self.running = False
	self.env = None
	self.q = None
	self.q_target = None
	self.optimizer = None
	self.frame_stacker = None

	# Training parameters
	self.gamma = 0.99
	self.batch_size = 32
	self.memory_size = 10000
	self.eps = 1.0 # Start with full exploration
	self.eps_min = 0.01
	self.eps_decay = 0.995
	self.update_interval = 1000
	self.save_interval = 100
	self.print_interval = 10

	self.memory = None
	self.t = 0
	self.k = 0
	self.total_score = 0.0
	self.loss_accumulator = 0.0
	self.best_score = -float('inf')
	self.last_x_pos = 0

	def setup_training(self):
	n_frame = 4 # Number of stacked frames
	try:
	self.env = gym_super_mario_bros.make("SuperMarioBros-v3")
	self.env = JoypadSpace(self.env, COMPLEX_MOVEMENT)
	self.env = wrap_mario(self.env)

	# Initialize frame stacker
	self.frame_stacker = FrameStacker(frame_size=(84, 84), stack_size=n_frame)

	self.q = DuelingDQNModel(n_frame, self.env.action_space.n, self.device).to(self.device)
	self.q_target = DuelingDQNModel(n_frame, self.env.action_space.n, self.device).to(self.device)

	copy_weights(self.q, self.q_target)

	# Set target network to eval mode
	self.q_target.eval()

	# Optimizer
	self.optimizer = optim.Adam(self.q.parameters(), lr=0.0001, weight_decay=1e-5)

	self.memory = replay_memory(self.memory_size)

	self.log_message(f"✅ Training setup complete - Actions: {self.env.action_space.n}, Device: {self.device}")

	except Exception as e:
	self.log_message(f"❌ Error setting up training: {e}")
	import traceback
	traceback.print_exc()
	self.running = False

	def run(self):
	self.running = True
	self.setup_training()

	if not self.running:
	return

	start_time = time.perf_counter()
	score_lst = []

	try:
	for k in range(1000000):
	if not self.running:
	break

	# Reset environment and frame stacker
	frame = self.env.reset()
	s = self.frame_stacker.reset(frame)
	done = False
	episode_loss = 0.0
	episode_steps = 0
	episode_score = 0.0
	self.last_x_pos = 0

	while not done and self.running:
	# Ensure state has positive strides before processing
	s_processed = np.ascontiguousarray(s)

	# Epsilon-greedy action selection
	if np.random.random() <= self.eps:
	a = self.env.action_space.sample()
	else:
	with torch.no_grad():
	# Add batch dimension and create tensor
	state_tensor = torch.FloatTensor(s_processed).unsqueeze(0).to(self.device)
	q_values = self.q(state_tensor)

	if self.device == "cuda" or self.device == "mps":
	a = np.argmax(q_values.cpu().numpy())
	else:
	a = np.argmax(q_values.detach().numpy())

	# Take action
	frame, r, done, info = self.env.step(a)

	# Update frame stack
	s_prime = self.frame_stacker.append(frame)

	episode_score += r

	# Enhanced reward shaping
	reward = r # Start with original reward

	# Bonus for x_pos progress
	if 'x_pos' in info:
	x_pos = info['x_pos']
	x_progress = x_pos - self.last_x_pos
	if x_progress > 0:
	reward += 0.1 * x_progress
	self.last_x_pos = x_pos

	# Large bonus for completing the level
	if done and info.get('flag_get', False):
	reward += 100.0
	self.log_message(f"🎉 LEVEL COMPLETED at episode {k}! 🎉")

	# Store transition with contiguous arrays
	s_contiguous = np.ascontiguousarray(s)
	s_prime_contiguous = np.ascontiguousarray(s_prime)
	self.memory.push((s_contiguous, float(reward), int(a), s_prime_contiguous, int(1 - done)))

	s = s_prime
	stage = info.get('stage', 1)
	world = info.get('world', 1)

	# Emit frame for display
	try:
	display_frame = self.env.render()
	if display_frame is not None:
	# Ensure frame has positive strides
	frame_contiguous = np.ascontiguousarray(display_frame)
	self.frame_signal.emit(frame_contiguous)
	except Exception as e:
	# Create a placeholder frame if rendering fails
	frame = np.zeros((240, 256, 3), dtype=np.uint8)
	self.frame_signal.emit(frame)

	# Train only if we have enough samples
	if len(self.memory) > self.batch_size:
	loss_val = train(self.q, self.q_target, self.memory, self.batch_size,
	self.gamma, self.optimizer, self.device)
	if loss_val > 0:
	self.loss_accumulator += loss_val
	episode_loss += loss_val
	self.t += 1

	# Update target network
	if self.t % self.update_interval == 0:
	copy_weights(self.q, self.q_target)

	episode_steps += 1

	# Emit training progress every 10 steps
	if episode_steps % 10 == 0:
	progress_data = {
	'episode': k,
	'total_reward': episode_score,
	'steps': episode_steps,
	'epsilon': self.eps,
	'world': world,
	'stage': stage,
	'loss': episode_loss / (episode_steps + 1e-8),
	'memory_size': len(self.memory),
	'x_pos': info.get('x_pos', 0),
	'score': info.get('score', 0),
	'coins': info.get('coins', 0),
	'time': info.get('time', 400),
	'flag_get': info.get('flag_get', False)
	}
	self.update_signal.emit(progress_data)

	# Epsilon decay after each episode
	if self.eps > self.eps_min:
	self.eps *= self.eps_decay

	# Update total score
	self.total_score += episode_score

	# Save best model
	if episode_score > self.best_score and k > 0:
	self.best_score = episode_score
	torch.save(self.q.state_dict(), "enhanced_mario_q_best.pth")
	torch.save(self.q_target.state_dict(), "enhanced_mario_q_target_best.pth")
	self.log_message(f"💾 New best model saved! Score: {self.best_score:.2f}")

	# Save models periodically
	if k % self.save_interval == 0 and k > 0:
	torch.save(self.q.state_dict(), "enhanced_mario_q.pth")
	torch.save(self.q_target.state_dict(), "enhanced_mario_q_target.pth")
	self.log_message(f"💾 Models saved at episode {k}")

	# Print progress
	if k % self.print_interval == 0 and k > 0:
	time_spent = time.perf_counter() - start_time
	start_time = time.perf_counter()

	avg_loss = self.loss_accumulator / (self.print_interval * max(episode_steps, 1))
	avg_score = self.total_score / self.print_interval

	log_msg = (
	f"{self.device} \| Ep: {k} \| Score: {avg_score:.2f} \| Loss: {avg_loss:.4f} \| "
	f"Stage: {world}-{stage} \| Eps: {self.eps:.3f} \| Time: {time_spent:.2f}s \| "
	f"Mem: {len(self.memory)} \| Steps: {episode_steps}"
	)
	self.log_message(log_msg)

	score_lst.append(avg_score)
	self.total_score = 0.0
	self.loss_accumulator = 0.0

	try:
	pickle.dump(score_lst, open("score.p", "wb"))
	except Exception as e:
	self.log_message(f"⚠️ Could not save scores: {e}")

	self.k = k

	except Exception as e:
	self.log_message(f"❌ Training error: {e}")
	import traceback
	traceback.print_exc()

	def log_message(self, message):
	progress_data = {
	'log_message': message
	}
	self.update_signal.emit(progress_data)

	def stop(self):
	self.running = False
	if self.env:
	try:
	self.env.close()
	except:
	pass


	class MarioRLApp(QMainWindow):
	def __init__(self):
	super().__init__()
	self.training_thread = None
	self.init_ui()

	def init_ui(self):
	self.setWindowTitle('🎮 Super Mario Bros - Dueling DQN Training')
	self.setGeometry(100, 100, 1200, 800)

	central_widget = QWidget()
	self.setCentralWidget(central_widget)
	layout = QVBoxLayout(central_widget)

	# Title
	title = QLabel('🎮 Super Mario Bros - Enhanced Dueling DQN')
	title.setFont(QFont('Arial', 16, QFont.Bold))
	title.setAlignment(Qt.AlignCenter)
	layout.addWidget(title)

	# Control Panel
	control_layout = QHBoxLayout()

	self.device_combo = QComboBox()
	self.device_combo.addItems(['cpu', 'cuda', 'mps'])

	self.start_btn = QPushButton('Start Training')
	self.start_btn.clicked.connect(self.start_training)

	self.stop_btn = QPushButton('Stop Training')
	self.stop_btn.clicked.connect(self.stop_training)
	self.stop_btn.setEnabled(False)

	self.load_btn = QPushButton('Load Model')
	self.load_btn.clicked.connect(self.load_model)

	control_layout.addWidget(QLabel('Device:'))
	control_layout.addWidget(self.device_combo)
	control_layout.addWidget(self.start_btn)
	control_layout.addWidget(self.stop_btn)
	control_layout.addWidget(self.load_btn)
	control_layout.addStretch()

	layout.addLayout(control_layout)

	# Content Area
	content_layout = QHBoxLayout()

	# Left side - Game Display
	left_frame = QFrame()
	left_frame.setFrameStyle(QFrame.Box)
	left_layout = QVBoxLayout(left_frame)

	self.game_display = QLabel()
	self.game_display.setMinimumSize(400, 300)
	self.game_display.setAlignment(Qt.AlignCenter)
	self.game_display.setText('Game display will appear here\nPress "Start Training" to begin')
	self.game_display.setStyleSheet('border: 1px solid gray; background-color: black; color: white;')

	left_layout.addWidget(QLabel('Mario Game Display:'))
	left_layout.addWidget(self.game_display)

	# Right side - Training Info
	right_frame = QFrame()
	right_frame.setFrameStyle(QFrame.Box)
	right_layout = QVBoxLayout(right_frame)

	# Training stats
	stats_group = QGroupBox("Training Statistics")
	stats_layout = QVBoxLayout(stats_group)

	self.episode_label = QLabel('Episode: 0')
	self.world_label = QLabel('World: 1-1')
	self.score_label = QLabel('Score: 0')
	self.reward_label = QLabel('Episode Reward: 0')
	self.steps_label = QLabel('Steps: 0')
	self.epsilon_label = QLabel('Epsilon: 1.000')
	self.loss_label = QLabel('Loss: 0.0000')
	self.memory_label = QLabel('Memory: 0')
	self.xpos_label = QLabel('X Position: 0')
	self.coins_label = QLabel('Coins: 0')
	self.time_label = QLabel('Time: 400')
	self.flag_label = QLabel('Flag: No')

	stats_layout.addWidget(self.episode_label)
	stats_layout.addWidget(self.world_label)
	stats_layout.addWidget(self.score_label)
	stats_layout.addWidget(self.reward_label)
	stats_layout.addWidget(self.steps_label)
	stats_layout.addWidget(self.epsilon_label)
	stats_layout.addWidget(self.loss_label)
	stats_layout.addWidget(self.memory_label)
	stats_layout.addWidget(self.xpos_label)
	stats_layout.addWidget(self.coins_label)
	stats_layout.addWidget(self.time_label)
	stats_layout.addWidget(self.flag_label)

	right_layout.addWidget(stats_group)

	# Training log
	right_layout.addWidget(QLabel('Training Log:'))
	self.log_text = QTextEdit()
	self.log_text.setMaximumHeight(300)
	right_layout.addWidget(self.log_text)

	content_layout.addWidget(left_frame)
	content_layout.addWidget(right_frame)
	layout.addLayout(content_layout)

	def start_training(self):
	device = self.device_combo.currentText()

	# Check device availability
	if device == "cuda" and not torch.cuda.is_available():
	self.log_text.append("❌ CUDA not available, using CPU instead")
	device = "cpu"
	elif device == "mps" and not torch.backends.mps.is_available():
	self.log_text.append("❌ MPS not available, using CPU instead")
	device = "cpu"

	self.training_thread = MarioTrainingThread(device)
	self.training_thread.update_signal.connect(self.update_training_info)
	self.training_thread.frame_signal.connect(self.update_game_display)
	self.training_thread.start()

	self.start_btn.setEnabled(False)
	self.stop_btn.setEnabled(True)

	self.log_text.append(f'🚀 Started Dueling DQN training on {device}...')

	def stop_training(self):
	if self.training_thread:
	self.training_thread.stop()
	self.training_thread.wait()

	self.start_btn.setEnabled(True)
	self.stop_btn.setEnabled(False)
	self.log_text.append('⏹️ Training stopped.')

	def load_model(self):
	# Placeholder for model loading functionality
	self.log_text.append('📁 Load model functionality not implemented yet')

	def update_training_info(self, data):
	if 'episode' in data:
	self.episode_label.setText(f'Episode: {data["episode"]}')
	if 'world' in data and 'stage' in data:
	self.world_label.setText(f'World: {data["world"]}-{data["stage"]}')
	if 'score' in data:
	self.score_label.setText(f'Score: {data["score"]}')
	if 'total_reward' in data:
	self.reward_label.setText(f'Episode Reward: {data["total_reward"]:.2f}')
	if 'steps' in data:
	self.steps_label.setText(f'Steps: {data["steps"]}')
	if 'epsilon' in data:
	self.epsilon_label.setText(f'Epsilon: {data["epsilon"]:.3f}')
	if 'loss' in data:
	self.loss_label.setText(f'Loss: {data["loss"]:.4f}')
	if 'memory_size' in data:
	self.memory_label.setText(f'Memory: {data["memory_size"]}')
	if 'x_pos' in data:
	self.xpos_label.setText(f'X Position: {data["x_pos"]}')
	if 'coins' in data:
	self.coins_label.setText(f'Coins: {data["coins"]}')
	if 'time' in data:
	self.time_label.setText(f'Time: {data["time"]}')
	if 'flag_get' in data:
	flag_text = "Yes" if data["flag_get"] else "No"
	self.flag_label.setText(f'Flag: {flag_text}')
	if 'log_message' in data:
	self.log_text.append(data['log_message'])
	# Auto-scroll to bottom
	self.log_text.verticalScrollBar().setValue(
	self.log_text.verticalScrollBar().maximum()
	)

	def update_game_display(self, frame):
	if frame is not None:
	try:
	h, w, ch = frame.shape
	bytes_per_line = ch * w
	# Ensure contiguous array
	frame_contiguous = np.ascontiguousarray(frame)
	q_img = QImage(frame_contiguous.data, w, h, bytes_per_line, QImage.Format_RGB888)
	pixmap = QPixmap.fromImage(q_img)
	self.game_display.setPixmap(pixmap.scaled(400, 300, Qt.KeepAspectRatio))
	except Exception as e:
	print(f"Error updating display: {e}")

	def closeEvent(self, event):
	self.stop_training()
	event.accept()


	def main():
	# Set random seeds for reproducibility
	torch.manual_seed(42)
	np.random.seed(42)
	random.seed(42)

	app = QApplication(sys.argv)
	window = MarioRLApp()
	window.show()
	sys.exit(app.exec_())


	if __name__ == '__main__':
	main()