Spaces:

kharki
/

abpt

Paused

abpt / src /utils /autoresearch.py

auto: sync run_testformer_wikitext_combo_remote.py

f37be5a about 2 months ago

15.4 kB

	from __future__ import annotations

	from dataclasses import asdict, dataclass
	from pathlib import Path
	from statistics import fmean
	import json


	DEFAULT_FRONTIER_MODELS: tuple[str, ...] = (
	"uniform",
	"structured_runtime",
	"structured_v2",
	"structured_v2_copy",
	"structured_fast",
	"structured_copy",
	)


	@dataclass(frozen=True)
	class ExperimentSpec:
	name: str
	dataset: str
	models: tuple[str, ...]
	steps: int
	batch_size: int
	seq_len: int
	eval_every: int
	eval_steps: int
	train_rows: int = 1000
	val_rows: int = 100
	time_budget_s: float = 0.0
	code_repo: str = "bigcode/the-stack-smol-xs"
	code_lang: str = "python"
	code_bytes: int = 1_200_000
	seed: int = 42

	def dataset_key(self) -> str:
	if self.dataset == "code":
	return f"code::{self.code_repo}::{self.code_lang}::{self.code_bytes}"
	return f"tinystories::{self.train_rows}::{self.val_rows}"

	def budget_key(self) -> str:
	if self.time_budget_s > 0.0:
	rounded = int(round(self.time_budget_s))
	return f"time::{rounded}s"
	return f"steps::{self.steps}"

	def slug(self) -> str:
	if self.time_budget_s > 0.0:
	rounded = int(round(self.time_budget_s))
	suffix = f"time_{rounded}s"
	else:
	suffix = f"steps_{self.steps}"
	return f"{self.name}_{suffix}_seed_{self.seed}"

	def as_dict(self) -> dict[str, object]:
	return asdict(self)


	@dataclass(frozen=True)
	class SelectionDecision:
	spec: ExperimentSpec
	pending_models: tuple[str, ...]
	score: float
	reason: str


	def build_frontier_specs(
	frontier_models: tuple[str, ...] = DEFAULT_FRONTIER_MODELS,
	tinystories_steps: int = 150,
	code_steps: int = 100,
	time_budget_s: float = 20.0,
	batch_size: int = 4,
	seq_len: int = 64,
	eval_every: int = 25,
	eval_steps: int = 5,
	train_rows: int = 1000,
	val_rows: int = 100,
	code_repo: str = "bigcode/the-stack-smol-xs",
	code_lang: str = "python",
	code_bytes: int = 1_200_000,
	seeds: tuple[int, ...] = (42,),
	) -> list[ExperimentSpec]:
	specs: list[ExperimentSpec] = []
	for seed in seeds:
	specs.extend(
	[
	ExperimentSpec(
	name="tinystories_equal_step_frontier",
	dataset="tinystories",
	models=frontier_models,
	steps=tinystories_steps,
	batch_size=batch_size,
	seq_len=seq_len,
	eval_every=eval_every,
	eval_steps=eval_steps,
	train_rows=train_rows,
	val_rows=val_rows,
	seed=seed,
	),
	ExperimentSpec(
	name="tinystories_equal_time_frontier",
	dataset="tinystories",
	models=frontier_models,
	steps=9999,
	batch_size=batch_size,
	seq_len=seq_len,
	eval_every=eval_every,
	eval_steps=eval_steps,
	train_rows=train_rows,
	val_rows=val_rows,
	time_budget_s=time_budget_s,
	seed=seed,
	),
	ExperimentSpec(
	name="code_equal_step_frontier",
	dataset="code",
	models=frontier_models,
	steps=code_steps,
	batch_size=batch_size,
	seq_len=seq_len,
	eval_every=eval_every,
	eval_steps=eval_steps,
	code_repo=code_repo,
	code_lang=code_lang,
	code_bytes=code_bytes,
	seed=seed,
	),
	ExperimentSpec(
	name="code_equal_time_frontier",
	dataset="code",
	models=frontier_models,
	steps=9999,
	batch_size=batch_size,
	seq_len=seq_len,
	eval_every=eval_every,
	eval_steps=eval_steps,
	time_budget_s=time_budget_s,
	code_repo=code_repo,
	code_lang=code_lang,
	code_bytes=code_bytes,
	seed=seed,
	),
	]
	)
	return specs


	def is_benchmark_result(payload: object) -> bool:
	if not isinstance(payload, dict):
	return False
	if "dataset" not in payload or "runtime" not in payload:
	return False
	dataset = payload.get("dataset")
	runtime = payload.get("runtime")
	return isinstance(dataset, dict) and isinstance(runtime, dict)


	def load_benchmark_results(results_dir: Path) -> list[dict[str, object]]:
	loaded: list[dict[str, object]] = []
	for path in sorted(results_dir.rglob("*.json")):
	try:
	payload = json.loads(path.read_text(encoding="utf-8"))
	except (OSError, json.JSONDecodeError):
	continue
	if not is_benchmark_result(payload):
	continue
	item = dict(payload)
	item["__path__"] = str(path)
	loaded.append(item)
	return loaded


	def result_dataset_key(result: dict[str, object]) -> str:
	dataset = result["dataset"]
	assert isinstance(dataset, dict)
	dataset_name = str(dataset.get("name", ""))
	if dataset_name == "the-stack-bpe":
	return (
	f"code::{dataset.get('repo_id')}::{dataset.get('lang')}::"
	f"{dataset.get('target_bytes')}"
	)
	return f"tinystories::{dataset.get('train_rows')}::{dataset.get('val_rows')}"


	def result_budget_key(result: dict[str, object]) -> str:
	runtime = result["runtime"]
	assert isinstance(runtime, dict)
	time_budget_s = float(runtime.get("time_budget_s", 0.0))
	if time_budget_s > 0.0:
	rounded = int(round(time_budget_s))
	return f"time::{rounded}s"
	return f"steps::{int(runtime.get('steps', 0))}"


	def result_models(result: dict[str, object]) -> tuple[str, ...]:
	runtime = result["runtime"]
	assert isinstance(runtime, dict)
	models = runtime.get("models", [])
	return tuple(str(model) for model in models)


	def result_covers_spec(result: dict[str, object], spec: ExperimentSpec) -> bool:
	runtime = result["runtime"]
	assert isinstance(runtime, dict)
	return (
	result_dataset_key(result) == spec.dataset_key()
	and result_budget_key(result) == spec.budget_key()
	and int(runtime.get("seed", 42)) == spec.seed
	)


	def find_pending_models(spec: ExperimentSpec, results: list[dict[str, object]]) -> tuple[str, ...]:
	pending: list[str] = []
	for model in spec.models:
	if model == "uniform":
	continue
	covered = any(result_covers_spec(result, spec) and model in result_models(result) for result in results)
	if not covered:
	pending.append(model)
	return tuple(pending)


	def _safe_float(value: object, default: float = 0.0) -> float:
	try:
	return float(value)
	except (TypeError, ValueError):
	return default


	def model_relative_score(result: dict[str, object], model_name: str) -> float \| None:
	baseline = result.get("uniform")
	model = result.get(model_name)
	if not isinstance(baseline, dict) or not isinstance(model, dict):
	return None

	baseline_best = baseline.get("best_by_val_loss")
	model_best = model.get("best_by_val_loss")
	baseline_acc = baseline.get("best_by_val_acc")
	model_acc = model.get("best_by_val_acc")
	baseline_final = baseline.get("final")
	model_final = model.get("final")
	if not all(isinstance(item, dict) for item in (baseline_best, model_best, baseline_acc, model_acc, baseline_final, model_final)):
	return None

	loss_gain = _safe_float(baseline_best.get("val_loss")) - _safe_float(model_best.get("val_loss"))
	acc_gain = _safe_float(model_acc.get("val_accuracy")) - _safe_float(baseline_acc.get("val_accuracy"))
	baseline_speed = _safe_float(baseline_final.get("train_tokens_per_s"), 1.0)
	model_speed = _safe_float(model_final.get("train_tokens_per_s"), 0.0)
	speed_ratio = model_speed / max(baseline_speed, 1e-8)
	baseline_stability = _safe_float(baseline_final.get("val_loss")) - _safe_float(baseline_best.get("val_loss"))
	model_stability = _safe_float(model_final.get("val_loss")) - _safe_float(model_best.get("val_loss"))
	stability_gain = baseline_stability - model_stability

	return 4.0 * loss_gain + 2.0 * acc_gain + 0.5 * (speed_ratio - 1.0) + stability_gain


	def aggregate_model_promise(
	results: list[dict[str, object]],
	frontier_models: tuple[str, ...] = DEFAULT_FRONTIER_MODELS,
	) -> dict[str, float]:
	aggregated: dict[str, list[float]] = {model: [] for model in frontier_models if model != "uniform"}
	for result in results:
	for model in aggregated:
	score = model_relative_score(result, model)
	if score is not None:
	aggregated[model].append(score)
	return {
	model: fmean(scores) if scores else 0.0
	for model, scores in aggregated.items()
	}


	def coverage_counts(results: list[dict[str, object]]) -> dict[str, int]:
	counts = {"tinystories": 0, "code": 0, "time": 0, "steps": 0}
	for result in results:
	dataset_key = result_dataset_key(result)
	budget_key = result_budget_key(result)
	if dataset_key.startswith("code::"):
	counts["code"] += 1
	else:
	counts["tinystories"] += 1
	if budget_key.startswith("time::"):
	counts["time"] += 1
	else:
	counts["steps"] += 1
	return counts


	def choose_next_experiment(
	specs: list[ExperimentSpec],
	results: list[dict[str, object]],
	) -> SelectionDecision \| None:
	decisions = rank_candidate_experiments(specs=specs, results=results)
	return decisions[0] if decisions else None


	def rank_candidate_experiments(
	specs: list[ExperimentSpec],
	results: list[dict[str, object]],
	) -> list[SelectionDecision]:
	promise = aggregate_model_promise(results)
	counts = coverage_counts(results)
	recent_names: list[str] = []
	for result in results[-12:]:
	runtime = result.get("runtime")
	dataset = result.get("dataset")
	if not isinstance(runtime, dict) or not isinstance(dataset, dict):
	continue
	if str(dataset.get("name")) == "the-stack-bpe":
	prefix = "code"
	else:
	prefix = "tinystories"
	mode = "time" if float(runtime.get("time_budget_s", 0.0)) > 0.0 else "steps"
	recent_names.append(f"{prefix}_{mode}")
	decisions: list[SelectionDecision] = []

	for spec in specs:
	pending = find_pending_models(spec, results)
	if not pending:
	continue
	recent_penalty = 0.25 if f"{spec.dataset}_{'time' if spec.time_budget_s > 0.0 else 'steps'}" in recent_names[-4:] else 0.0
	dataset_bonus = 0.35 if (
	spec.dataset == "code" and counts["code"] <= counts["tinystories"]
	) or (
	spec.dataset == "tinystories" and counts["tinystories"] < counts["code"]
	) else 0.0
	budget_bonus = 0.2 if (
	spec.time_budget_s > 0.0 and counts["time"] <= counts["steps"]
	) or (
	spec.time_budget_s == 0.0 and counts["steps"] < counts["time"]
	) else 0.0
	promise_bonus = sum(max(0.0, promise.get(model, 0.0)) for model in pending)
	score = 3.0 * len(pending) + promise_bonus + dataset_bonus + budget_bonus - recent_penalty
	reason = (
	f"pending={', '.join(pending)}; "
	f"dataset_bonus={dataset_bonus:.2f}; "
	f"budget_bonus={budget_bonus:.2f}; "
	f"promise_bonus={promise_bonus:.3f}; "
	f"recent_penalty={recent_penalty:.2f}"
	)
	decisions.append(
	SelectionDecision(
	spec=spec,
	pending_models=pending,
	score=score,
	reason=reason,
	)
	)

	decisions.sort(
	key=lambda decision: (
	decision.score,
	len(decision.pending_models),
	1 if decision.spec.dataset == "code" else 0,
	1 if decision.spec.time_budget_s > 0.0 else 0,
	-decision.spec.seed,
	),
	reverse=True,
	)
	return decisions


	def build_command(
	spec: ExperimentSpec,
	runner_path: Path,
	output_path: Path,
	python_executable: str,
	) -> list[str]:
	command = [
	python_executable,
	str(runner_path),
	"--dataset",
	spec.dataset,
	"--steps",
	str(spec.steps),
	"--batch_size",
	str(spec.batch_size),
	"--seq_len",
	str(spec.seq_len),
	"--eval_every",
	str(spec.eval_every),
	"--eval_steps",
	str(spec.eval_steps),
	"--seed",
	str(spec.seed),
	"--output",
	str(output_path),
	"--models",
	*spec.models,
	]
	if spec.time_budget_s > 0.0:
	command.extend(["--time_budget_s", str(spec.time_budget_s)])
	if spec.dataset == "code":
	command.extend(
	[
	"--code_repo",
	spec.code_repo,
	"--code_lang",
	spec.code_lang,
	"--code_bytes",
	str(spec.code_bytes),
	]
	)
	else:
	command.extend(
	[
	"--train_rows",
	str(spec.train_rows),
	"--val_rows",
	str(spec.val_rows),
	]
	)
	return command


	def build_global_leaderboard(
	results: list[dict[str, object]],
	frontier_models: tuple[str, ...] = DEFAULT_FRONTIER_MODELS,
	) -> list[dict[str, object]]:
	rows: list[dict[str, object]] = []
	promise = aggregate_model_promise(results, frontier_models=frontier_models)
	for model in frontier_models:
	if model == "uniform":
	continue
	coverage = 0
	exact_hits: list[str] = []
	for result in results:
	if model in result_models(result):
	coverage += 1
	exact_hits.append(f"{result_dataset_key(result)}\|{result_budget_key(result)}")
	rows.append(
	{
	"model": model,
	"mean_relative_score": promise.get(model, 0.0),
	"coverage_runs": coverage,
	"coverage_keys": sorted(set(exact_hits)),
	}
	)
	rows.sort(key=lambda row: (float(row["mean_relative_score"]), int(row["coverage_runs"])), reverse=True)
	return rows


	def leaderboard_markdown(rows: list[dict[str, object]]) -> str:
	header = [
	"\| Model \| Mean Relative Score \| Coverage Runs \| Coverage Keys \|",
	"\|---\|---:\|---:\|---\|",
	]
	body: list[str] = []
	for row in rows:
	coverage_keys = "<br>".join(str(item) for item in row["coverage_keys"])
	body.append(
	f"\| {row['model']} \| {float(row['mean_relative_score']):+.4f} \| "
	f"{int(row['coverage_runs'])} \| {coverage_keys} \|"
	)
	return "\n".join(header + body)