Spaces:

ayussssssiiii
/

codecourt

Sleeping

App Files Files Community

codecourt / scripts /baseline.py

ayussssssiiii

Initial HF Space snapshot

fcb838d about 1 month ago

raw

history blame contribute delete

3.48 kB

	"""
	Baseline script — establishes pre-training metrics.
	Run this BEFORE training to get the "before" numbers for your README.

	Usage:
	python scripts/baseline.py --episodes 50
	"""

	import sys
	import os
	import json
	from pathlib import Path

	sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

	from env.codecourt_env import CodeCourtEnv
	from agents.setter import SetterAgent
	from agents.solver import SolverAgent


	def update_root_manifest(baseline_payload: dict):
	manifest_path = Path("./outputs/artifact_manifest.json")
	manifest = {}
	if manifest_path.exists():
	try:
	manifest = json.loads(manifest_path.read_text())
	except json.JSONDecodeError:
	manifest = {}
	manifest["baseline"] = baseline_payload
	manifest_path.write_text(json.dumps(manifest, indent=2))


	def run_baseline(n_episodes: int = 50, use_brute_force: bool = True):
	"""
	Run baseline with:
	- Setter: reference solutions (optimal)
	- Solver: brute-force solutions (suboptimal, will TLE on hard problems)
	"""
	env = CodeCourtEnv(difficulty_progression=False)
	setter = SetterAgent(use_reference=True)
	solver = SolverAgent(use_brute_force=use_brute_force)

	results = []
	print(f"\nRunning baseline ({n_episodes} episodes, brute_force={use_brute_force})...")
	print("-" * 60)

	for ep in range(n_episodes):
	obs = env.reset()
	full_problem = env._current_state.problem

	setter_code = setter.generate_solution(full_problem)
	solver_code = solver.solve(full_problem)

	setter_info, solver_info, done, info = env.step(setter_code, solver_code)

	results.append({
	"episode": ep,
	"archetype": obs["archetype"],
	"outcome": info["outcome"],
	"setter_reward": setter_info["reward"],
	"solver_reward": solver_info["reward"],
	"solver_pass_rate": info["solver_pass_rate"],
	})

	# Summary stats
	outcomes = [r["outcome"] for r in results]
	solver_pass_rates = [r["solver_pass_rate"] for r in results]
	solver_rewards = [r["solver_reward"] for r in results]

	summary = {
	"total_episodes": n_episodes,
	"solver_mode": "brute_force" if use_brute_force else "reference",
	"solver_win_rate": outcomes.count("solver_wins") / n_episodes,
	"setter_win_rate": outcomes.count("setter_wins") / n_episodes,
	"invalid_rate": outcomes.count("invalid") / n_episodes,
	"avg_solver_pass_rate": sum(solver_pass_rates) / len(solver_pass_rates),
	"avg_solver_reward": sum(solver_rewards) / len(solver_rewards),
	}

	print(f"\nBaseline Results:")
	print(json.dumps(summary, indent=2))

	# Save
	os.makedirs("./outputs", exist_ok=True)
	with open("./outputs/baseline_results.json", "w") as f:
	json.dump({"summary": summary, "episodes": results}, f, indent=2)
	update_root_manifest({
	"path": "./outputs/baseline_results.json",
	"summary": summary,
	})

	print("\n✓ Baseline saved to ./outputs/baseline_results.json")
	return summary


	if __name__ == "__main__":
	import argparse
	p = argparse.ArgumentParser()
	p.add_argument("--episodes", type=int, default=50)
	p.add_argument("--optimal", action="store_true",
	help="Use optimal solver (sanity check)")
	args = p.parse_args()

	run_baseline(args.episodes, use_brute_force=not args.optimal)