Spaces:

nirmalpratheep
/

Car-Racing-Agent

Sleeping

App Files Files Community

Car-Racing-Agent / env /curriculum.py

nirmalpratheep

Upload 11 files

41a9651 verified about 1 month ago

raw

history blame contribute delete

5.09 kB

	"""
	CurriculumBuilder — bridges game/rl_splits.py with OpenEnv environments.

	Splits (from rl_splits.py):
	TRAIN 8 tracks — 2 per difficulty tier, easy → hard
	VAL 4 tracks — 1 per tier, performance gating
	TEST 4 tracks — 1 per tier, held-out evaluation

	Usage:
	builder = CurriculumBuilder()

	# Training loop
	env = builder.next_env()
	obs = env.reset()
	while not obs.done:
	obs = env.step(DriveAction(accel=1.0, steer=0.0))
	builder.record(total_reward) # advances frontier when ready

	# Validation
	for env in builder.val_envs():
	...

	# Status
	print(builder.status)
	"""

	from typing import Iterator, List

	from game.rl_splits import TRAIN, VAL, TEST, CurriculumSampler
	from .environment import RaceEnvironment


	class CurriculumBuilder:
	"""
	Wraps CurriculumSampler to produce ready-to-use RaceEnvironment instances.

	Parameters
	----------
	threshold : mean episode reward needed to advance to the next track
	window : rolling window size for reward averaging
	replay_frac : fraction of episodes replayed from already-mastered tracks
	max_steps : max steps per episode for every environment created
	laps_target : lap target per episode
	use_image : include 64×64 egocentric headlight image in observations
	"""

	def __init__(
	self,
	threshold: float = 30.0,
	window: int = 50,
	replay_frac: float = 0.3,
	max_steps: int = 3000,
	laps_target: int = 3,
	use_image: bool = True,
	):
	self._sampler = CurriculumSampler(
	TRAIN,
	threshold=threshold,
	window=window,
	replay_frac=replay_frac,
	)
	self._max_steps = max_steps
	self._laps_target = laps_target
	self._use_image = use_image

	# ── Frontier ─────────────────────────────────────────────────────────────

	def next_env(self) -> RaceEnvironment:
	"""Return an environment for the next episode (respects replay schedule)."""
	track = self._sampler.sample()
	track.build()
	return RaceEnvironment(track, self._max_steps, self._laps_target, self._use_image)

	def record(self, episode_reward: float, episode_crashes: int = 0, episode_laps: int = 0, is_frontier: bool = True) -> bool:
	"""
	Record the reward, crashes, and laps for the last episode.
	Advancement is gated by greedy eval only — this method never auto-advances.
	Always returns False.
	"""
	self._sampler.record(episode_reward, episode_crashes, episode_laps, is_frontier=is_frontier)
	return False

	# ── Fixed splits ─────────────────────────────────────────────────────────

	def train_envs(self) -> List[RaceEnvironment]:
	"""One environment per TRAIN track (all 8, in order)."""
	return self._make_envs(TRAIN)

	def val_envs(self) -> List[RaceEnvironment]:
	"""One environment per VAL track (4 tracks, one per difficulty tier)."""
	return self._make_envs(VAL)

	def test_envs(self) -> List[RaceEnvironment]:
	"""One environment per TEST track (4 tracks, held-out)."""
	return self._make_envs(TEST)

	# ── Iteration helper ─────────────────────────────────────────────────────

	def iter_train(self) -> Iterator[RaceEnvironment]:
	"""Yield environments one by one through the full TRAIN split in order."""
	for env in self.train_envs():
	yield env

	# ── Info ─────────────────────────────────────────────────────────────────

	@property
	def status(self) -> str:
	return self._sampler.status()

	@property
	def current_level(self) -> int:
	"""0-based index of the current frontier track within TRAIN."""
	return self._sampler.current_level

	@property
	def is_complete(self) -> bool:
	"""True when all TRAIN tracks have been mastered."""
	return self._sampler.current_level >= len(TRAIN) - 1

	# ── Internal ─────────────────────────────────────────────────────────────

	def _make_envs(self, tracks) -> List[RaceEnvironment]:
	envs = []
	for track in tracks:
	track.build()
	envs.append(RaceEnvironment(track, self._max_steps, self._laps_target, self._use_image))
	return envs