Upload game.py with huggingface_hub

c2cac70 verified 28 days ago

6.84 kB

	import numpy as np

	WIN_PATTERNS = [
	(0, 1, 2),
	(3, 4, 5),
	(6, 7, 8),
	(0, 3, 6),
	(1, 4, 7),
	(2, 5, 8),
	(0, 4, 8),
	(2, 4, 6),
	]

	class UltimateTicTacToe:
	"""
	A very, very simple game of ConnectX in which we have:
	rows: 1
	columns: 4
	winNumber: 2
	"""

	def __init__(self):
	self.cells = 81
	self.board_width = 9
	self.state_planes = 9

	def get_init_board(self):
	b = np.zeros((self.cells,), dtype=int)
	return (b, None)

	def get_board_size(self):
	return (self.state_planes, self.board_width, self.board_width)

	def get_action_size(self):
	return self.cells

	def get_next_state(self, board, player, action, verify_move=False):
	if verify_move:
	if self.get_valid_moves(board)[action] == 0:
	return False
	new_board_data = np.copy(board[0])
	new_board_data[action] = player

	next_board = ((action // 9) % 3) * 3 + (action % 3)
	next_board = next_board if not self.is_board_full(new_board_data, next_board) else None

	# Return the new game, but
	# change the perspective of the game with negative
	return ((new_board_data, next_board), -player)

	def is_board_full(self, board_data, next_board):
	return self._is_small_board_win(board_data, next_board, 1) or self._is_small_board_win(board_data, next_board, -1) or self._is_board_full(board_data, next_board)

	def _small_board_cells(self, inner_board_idx):
	row_block = inner_board_idx // 3
	col_block = inner_board_idx % 3

	base = row_block * 27 + col_block * 3

	return [
	base, base + 1, base + 2,
	base + 9, base + 10, base + 11,
	base + 18, base + 19, base + 20
	]

	def _is_board_full(self, board_data, next_board):
	# Check if it is literally full
	cells = self._small_board_cells(next_board)

	for a in cells:
	if board_data[a] == 0:
	return False
	return True

	def _is_playable_small_board(self, board_data, inner_board_idx):
	return not self.is_board_full(board_data, inner_board_idx)

	def has_legal_moves(self, board):
	valid_moves = self.get_valid_moves(board)
	for i in valid_moves:
	if i == 1:
	return True
	return False

	def get_valid_moves(self, board):
	# All moves are invalid by default
	board_data, active_board = board
	valid_moves = [0] * self.get_action_size()

	if active_board is not None and not self._is_playable_small_board(board_data, active_board):
	active_board = None

	if active_board is None:
	playable_boards = [
	inner_board_idx
	for inner_board_idx in range(9)
	if self._is_playable_small_board(board_data, inner_board_idx)
	]
	for inner_board_idx in playable_boards:
	for index in self._small_board_cells(inner_board_idx):
	if board_data[index] == 0:
	valid_moves[index] = 1
	else:
	for index in self._small_board_cells(active_board):
	if board_data[index] == 0:
	valid_moves[index] = 1

	return valid_moves

	def _is_small_board_win(self, board_data, inner_board_idx, player):
	cells = self._small_board_cells(inner_board_idx)

	for a, b, c in WIN_PATTERNS:
	if board_data[cells[a]] == board_data[cells[b]] == board_data[cells[c]] == player:
	return True

	return False

	def is_win(self, board, player):
	board_data, _ = board
	won = [self._is_small_board_win(board_data, i, player) for i in range(9)]

	# Check if any winning combination is all 1s
	for a, b, c in WIN_PATTERNS:
	if won[a] and won[b] and won[c]:
	return True

	return False

	def get_reward_for_player(self, board, player):
	# return None if not ended, 1 if player 1 wins, -1 if player 1 lost

	if self.is_win(board, player):
	return 1
	if self.is_win(board, -player):
	return -1
	if self.has_legal_moves(board):
	return None

	return 0

	def get_canonical_board_data(self, board_data, player):
	return player * board_data

	def _small_board_mask(self, inner_board_idx):
	mask = np.zeros((self.board_width, self.board_width), dtype=np.float32)
	for index in self._small_board_cells(inner_board_idx):
	row = index // self.board_width
	col = index % self.board_width
	mask[row, col] = 1.0
	return mask

	def encode_state(self, board):
	board_data, active_board = board
	board_grid = board_data.reshape(self.board_width, self.board_width)

	current_stones = (board_grid == 1).astype(np.float32)
	opponent_stones = (board_grid == -1).astype(np.float32)
	empty_cells = (board_grid == 0).astype(np.float32)
	legal_moves = np.array(self.get_valid_moves(board), dtype=np.float32).reshape(self.board_width, self.board_width)

	active_board_mask = np.zeros((self.board_width, self.board_width), dtype=np.float32)
	if active_board is not None and self._is_playable_small_board(board_data, active_board):
	active_board_mask = self._small_board_mask(active_board)

	current_won_boards = np.zeros((self.board_width, self.board_width), dtype=np.float32)
	opponent_won_boards = np.zeros((self.board_width, self.board_width), dtype=np.float32)
	playable_boards = np.zeros((self.board_width, self.board_width), dtype=np.float32)

	for inner_board_idx in range(9):
	board_mask = self._small_board_mask(inner_board_idx)
	if self._is_small_board_win(board_data, inner_board_idx, 1):
	current_won_boards += board_mask
	elif self._is_small_board_win(board_data, inner_board_idx, -1):
	opponent_won_boards += board_mask

	if self._is_playable_small_board(board_data, inner_board_idx):
	playable_boards += board_mask

	move_count = np.count_nonzero(board_data) / self.cells
	move_count_plane = np.full((self.board_width, self.board_width), move_count, dtype=np.float32)

	return np.stack(
	(
	current_stones,
	opponent_stones,
	empty_cells,
	legal_moves,
	active_board_mask,
	current_won_boards,
	opponent_won_boards,
	playable_boards,
	move_count_plane,
	),
	axis=0,
	)