Spaces:

Abeee32t
/

ArbitrAgent

Runtime error

ArbitrAgent / diplomacy_env.py

AbeBhatti

last update before doc changes

c2097f9 about 2 months ago

7.08 kB

	import random
	from typing import Any, Dict, Tuple

	import numpy as np
	from diplomacy import Game
	from openenv.env import Env
	from sentence_transformers import SentenceTransformer


	class DiplomacyNegotiationEnv(Env):
	"""
	OpenEnv-compatible wrapper around the diplomacy.Game engine.

	Observation: 384-dim MiniLM embedding of a textual game-state description
	from the perspective of a single power (e.g. ENGLAND).
	Action: free-form text describing strategic intent (logged but not yet parsed).
	"""

	def __init__(self, power_name: str = "ENGLAND", seed: int \| None = None):
	self.power_name = power_name.upper()
	self.encoder = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
	self.game: Game \| None = None
	self.current_phase: int = 0
	self.prev_sc_count: int = 0
	self.max_phases: int = 50
	if seed is not None:
	random.seed(seed)

	def reset(self) -> Tuple[np.ndarray, Dict[str, Any]]:
	"""Reset the underlying Diplomacy game and return initial observation + info."""
	self.game = Game()
	self.current_phase = 0
	state = self.game.get_state()
	centers = state.get("centers", {})
	self.prev_sc_count = len(centers.get(self.power_name, []))
	obs = self._get_observation()
	info = {"phase": state.get("name"), "sc_count": self.prev_sc_count}
	return obs, info

	def step(self, action: str):
	"""
	Advance one phase.

	- Currently ignores the semantic content of `action` and instead
	submits random legal orders for all powers.
	- Logs the provided action in the returned info for later analysis.
	"""
	if self.game is None:
	raise RuntimeError("Environment must be reset() before step().")

	# Submit random legal orders for all powers.
	all_possible = self.game.get_all_possible_orders()
	for power, locs in self.game.get_orderable_locations().items():
	orders = []
	for loc in locs:
	loc_orders = all_possible.get(loc.upper(), [])
	if loc_orders:
	orders.append(random.choice(list(loc_orders)))
	if orders:
	self.game.set_orders(power, orders)

	self.game.process()
	self.current_phase += 1

	reward = self._compute_reward()
	obs = self._get_observation()
	done = self.game.is_game_done or self.current_phase >= self.max_phases

	state = self.game.get_state()
	curr_sc = len(state.get("centers", {}).get(self.power_name, []))

	if self.game.is_game_done:
	done_reason = "game_complete"
	elif self.current_phase >= self.max_phases:
	done_reason = "max_phases"
	else:
	done_reason = None

	info = {
	"phase": state.get("name"),
	"sc_count": curr_sc,
	"sc_delta": curr_sc - self.prev_sc_count,
	"action_logged": action,
	"done_reason": done_reason,
	}
	return obs, reward, done, info

	def _compute_reward(self) -> float:
	"""Shaped reward based on SC changes, relative rank, and game outcome."""
	if self.game is None:
	return 0.0

	state = self.game.get_state()
	centers = state.get("centers", {})
	curr_sc = len(centers.get(self.power_name, []))
	all_counts = {p: len(c) for p, c in centers.items()}

	delta = curr_sc - self.prev_sc_count
	self.prev_sc_count = curr_sc

	reward = 0.0
	if delta > 0:
	reward += 1.0
	if delta < 0:
	reward -= 1.0
	if curr_sc == 0:
	reward -= 2.0

	# Relative position bonuses/penalties.
	if all_counts:
	sorted_counts = sorted(all_counts.values(), reverse=True)
	top_two = sorted_counts[:2]
	bottom_two = sorted_counts[-2:]
	if curr_sc in top_two:
	reward += 0.3
	if curr_sc in bottom_two and curr_sc > 0:
	reward -= 0.2

	# Game outcome bonus when completed.
	if self.game.is_game_done:
	outcome = getattr(self.game, "outcome", [])
	if isinstance(outcome, list) and len(outcome) > 1:
	if self.power_name in [w.upper() for w in outcome[1:]]:
	reward += 2.0

	return float(reward)

	def _get_observation(self) -> np.ndarray:
	"""Return a 384-dim MiniLM embedding of the current game state text."""
	text = self._get_state_text()
	embedding = self.encoder.encode(text, convert_to_numpy=True)
	# Ensure consistent dtype for downstream RL code.
	return embedding.astype(np.float32)

	def _get_state_text(self) -> str:
	"""Human-readable textual description of the current game state."""
	if self.game is None:
	return "Environment not initialized."

	state = self.game.get_state()
	centers = state.get("centers", {})
	units = state.get("units", {})
	phase = state.get("name", "UNKNOWN")

	my_scs = centers.get(self.power_name, [])
	my_units = units.get(self.power_name, [])
	curr_sc = len(my_scs)
	delta = curr_sc - self.prev_sc_count

	# Coarse strategic position label.
	if curr_sc > 10:
	position = "dominant"
	elif curr_sc >= 7:
	position = "strong"
	elif curr_sc >= 4:
	position = "stable"
	elif curr_sc >= 2:
	position = "weak"
	else:
	position = "critical"

	lines: list[str] = [
	"DIPLOMACY GAME STATE",
	f"Phase: {phase}",
	f"Playing as: {self.power_name}",
	"",
	f"My units: {', '.join(my_units) or 'None'}",
	f"My supply centers: {', '.join(my_scs) or 'None'} ({curr_sc} centers)",
	"",
	"Other powers:",
	]

	for power in sorted(centers.keys()):
	if power == self.power_name:
	continue
	sc_count = len(centers.get(power, []))
	unit_list = units.get(power, [])
	lines.append(
	f" {power}: {sc_count} SCs \| Units: {', '.join(unit_list) or 'None'}"
	)

	lines += [
	"",
	f"Strategic position: {position}",
	f"Supply center delta: {delta:+d}",
	]
	return "\n".join(lines)

	def render(self):
	"""Print and return the current state text."""
	text = self._get_state_text()
	print(text)
	return text

	def close(self):
	"""Clean up the underlying game."""
	self.game = None
	print("Environment closed.")

	@property
	def observation_space(self) -> Dict[str, Any]:
	return {"type": "continuous", "shape": (384,), "dtype": "float32"}

	@property
	def action_space(self) -> Dict[str, Any]:
	return {"type": "text", "description": "Natural language strategic intent"}