Spaces:

GAInTech
/

feather-a10g-large-runtime

Paused

App Files Files Community

feather-a10g-large-runtime / overlay /scripts /benchmark_step.py

icarus112

Update Feather a10g-large training runtime image

c475135 verified about 1 month ago

Raw

History Blame Contribute Delete

10.8 kB

	"""Feather training step benchmark — local CPU/GPU smoke plus JSON TPS manifest.

	Usage (CPU smoke):
	HYDRA_BATCH_SIZE=1 HYDRA_TOTAL_BATCH=1024 HYDRA_N_LAYER=2 HYDRA_D_MODEL=128 \
	HYDRA_GPU_BF16_TFLOPS=0.1 HYDRA_CPU_THREADS=4 \
	python scripts/benchmark_step.py --steps 3 --manifest-out /tmp/bench.json

	Usage (GPU / A10G-like subset):
	HYDRA_BATCH_SIZE=4 HYDRA_TOTAL_BATCH=32768 HYDRA_N_LAYER=6 HYDRA_D_MODEL=384 \
	HYDRA_GPU_BF16_TFLOPS=125.0 \
	python scripts/benchmark_step.py --seq-len 2048 --steps 20 --manifest-out bench.json

	The step loop preserves CE-loss training semantics (model(x, y) + backward). It
	is still synthetic data and therefore smoke/relative-TPS evidence, not corpus
	quality evidence. Set HYDRA_PROFILE_FORWARD=0 for TPS rows; profiling synchronizes
	and the emitted manifest marks such rows attribution-only.
	"""
	from __future__ import annotations

	import argparse
	import json
	import math
	import os
	import subprocess
	import sys
	import time
	from pathlib import Path
	from typing import Any

	CD = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
	os.chdir(CD)
	sys.path.insert(0, CD)

	import torch

	try:
	from hydra.config import (
	SEED, D_MODEL, N_LAYER, D_STATE, HEADDIM, N_HEADS, EXPAND,
	DEVICE_BATCH_SIZE, TOTAL_BATCH_SIZE, GPU_BF16_PEAK_FLOPS,
	ADAM_BETAS,
	)
	from hydra.model import PostSemClawModel
	from hydra.config import PostSemClawConfig
	from prepare import Tokenizer
	except Exception as e:
	print(f"[benchmark] import failed: {e}")
	raise

	try:
	from harness.tps_manifest_validity import normalize_tps_manifest
	except Exception:
	normalize_tps_manifest = None


	ENV_ECHO_KEYS = [
	"HYDRA_PROFILE_FORWARD",
	"HYDRA_MODEL_COMPILE",
	"HYDRA_MUON_COMPILE",
	"HYDRA_FUSED_DEVICE_STEP",
	"HYDRA_FORCE_HTM_CPU",
	"HYDRA_HTM_FUSED",
	"HYDRA_HTM_BATCHED_FUSED",
	"HYDRA_FUSED_SDR_PROJECT",
	"HYDRA_DISABLE_FUSED_SDR_TRITON",
	"HYDRA_USE_NEMOTRON",
	"HYDRA_TARGET_SHARDS",
	"HYDRA_TOKEN_CACHE_GB",
	"HYDRA_DISABLE_TOKEN_CACHE",
	]


	def _truthy_env(name: str) -> bool:
	return os.environ.get(name, "0").strip().lower() in {"1", "true", "yes", "on"}


	def _git_sha() -> str:
	try:
	return subprocess.run(
	["git", "rev-parse", "--short=12", "HEAD"],
	cwd=CD,
	text=True,
	capture_output=True,
	check=True,
	timeout=5,
	).stdout.strip()
	except Exception:
	return "unknown"


	def _warmup(model, x, y, autocast_ctx, n: int = 2):
	for _ in range(n):
	with autocast_ctx:
	loss = model(x, y)
	loss.backward()
	model.zero_grad(set_to_none=True)


	def _env_echo() -> dict[str, str]:
	return {key: os.environ[key] for key in ENV_ECHO_KEYS if key in os.environ}


	def _write_manifest(path: str \| None, manifest: dict[str, Any]) -> None:
	if normalize_tps_manifest is not None:
	manifest = normalize_tps_manifest(manifest)
	text = json.dumps(manifest, indent=2, sort_keys=True) + "\n"
	if not path:
	print("[benchmark_manifest] " + json.dumps(manifest, sort_keys=True), flush=True)
	return
	out = Path(path)
	out.parent.mkdir(parents=True, exist_ok=True)
	out.write_text(text, encoding="utf-8")
	print(f"[benchmark] manifest written: {out}", flush=True)


	def parse_args() -> argparse.Namespace:
	p = argparse.ArgumentParser(description="Feather CE step TPS/profiling smoke benchmark")
	p.add_argument("--steps", type=int, default=int(os.environ.get("BENCH_STEPS", "20")))
	p.add_argument("--warmup", type=int, default=int(os.environ.get("BENCH_WARMUP_STEPS", "3")))
	p.add_argument("--seq-len", type=int, default=int(os.environ.get("BENCH_SEQ_LEN", os.environ.get("HYDRA_SEQUENCE_LEN", "512"))))
	p.add_argument("--engram-columns", type=int, default=int(os.environ.get("BENCH_ENGRAM_COLUMNS", "4096")))
	p.add_argument("--engram-key-dim", type=int, default=int(os.environ.get("BENCH_ENGRAM_KEY_DIM", "64")))
	p.add_argument("--engram-layer-idx", type=int, default=int(os.environ.get("BENCH_ENGRAM_LAYER_IDX", "1")))
	p.add_argument("--vocab-size", type=int, default=int(os.environ.get("BENCH_VOCAB_SIZE", "0")), help="Synthetic vocab size for tokenizer-free smoke runs.")
	p.add_argument("--manifest-out", default=os.environ.get("BENCH_MANIFEST_OUT"))
	p.add_argument("--task-id", default=os.environ.get("HERMES_KANBAN_TASK", ""))
	p.add_argument("--run-id", default=os.environ.get("FEATHER_RUN_ID", "local-benchmark-step"))
	p.add_argument("--runtime-profile", default=os.environ.get("FEATHER_HF_RUNTIME_PROFILE", "local_synthetic_step"))
	p.add_argument("--metric-role", choices=["tps", "profile"], default=("profile" if _truthy_env("HYDRA_PROFILE_FORWARD") else "tps"))
	p.add_argument("--active-duplicate-jobs", type=int, default=None, help="Set after HF duplicate-active-job preflight; omitted locally.")
	return p.parse_args()


	def main():
	args = parse_args()
	torch.manual_seed(SEED)
	device_str = "cuda" if torch.cuda.is_available() else "cpu"
	device = torch.device(device_str)
	if device_str == "cuda":
	torch.cuda.manual_seed(SEED)
	torch.set_float32_matmul_precision("high")
	torch.backends.cuda.matmul.allow_tf32 = True
	torch.backends.cudnn.allow_tf32 = True
	else:
	_cpu_threads = int(os.environ.get("HYDRA_CPU_THREADS", str(min(os.cpu_count() or 4, 8))))
	torch.set_num_threads(_cpu_threads)
	print(f"[CPU] torch.set_num_threads={_cpu_threads}")

	if args.vocab_size > 0:
	vocab_size = args.vocab_size
	print(f"[benchmark] using synthetic vocab_size={vocab_size}", flush=True)
	else:
	tokenizer = Tokenizer.from_directory()
	vocab_size = tokenizer.get_vocab_size()

	config = PostSemClawConfig(
	sequence_len=args.seq_len,
	vocab_size=vocab_size,
	n_layer=N_LAYER,
	d_model=D_MODEL,
	d_state=D_STATE,
	headdim=HEADDIM,
	n_heads=N_HEADS,
	expand=EXPAND,
	engram_n_columns=args.engram_columns,
	engram_key_dim=args.engram_key_dim,
	engram_layer_idx=args.engram_layer_idx,
	)

	model = PostSemClawModel(config).to(device)
	model.train()

	tokens_per_fwdbwd = DEVICE_BATCH_SIZE * config.sequence_len
	assert TOTAL_BATCH_SIZE % tokens_per_fwdbwd == 0
	grad_accum_steps = TOTAL_BATCH_SIZE // tokens_per_fwdbwd

	try:
	optimizer = model.setup_optimizer(
	unembedding_lr=0.005,
	embedding_lr=1.0,
	scalar_lr=0.5,
	adam_betas=ADAM_BETAS,
	matrix_lr=0.12,
	weight_decay=0.01,
	)
	use_optimizer = True
	except Exception as e:
	print(f"[benchmark] optimizer setup skipped: {e}")
	optimizer = None
	use_optimizer = False

	torch.manual_seed(SEED + 1)
	x = torch.randint(0, vocab_size, (DEVICE_BATCH_SIZE, config.sequence_len), device=device)
	y = torch.randint(0, vocab_size, (DEVICE_BATCH_SIZE, config.sequence_len), device=device)

	autocast_ctx = torch.amp.autocast(
	device_type=device_str, dtype=torch.bfloat16, enabled=(device_str == "cuda")
	)

	_warmup(model, x, y, autocast_ctx, n=args.warmup)
	if device_str == "cuda":
	torch.cuda.synchronize()
	torch.cuda.reset_peak_memory_stats()

	step_durations: list[float] = []
	t0 = time.time()
	last_loss = None
	for _step in range(args.steps):
	s0 = time.time()
	for _ in range(grad_accum_steps):
	with autocast_ctx:
	loss = model(x, y)
	last_loss = float(loss.detach().cpu())
	loss.backward()
	if use_optimizer:
	optimizer.step()
	model.zero_grad(set_to_none=True)
	if device_str == "cuda":
	torch.cuda.synchronize()
	step_durations.append(time.time() - s0)

	dt = time.time() - t0
	tok_per_sec = int(args.steps * TOTAL_BATCH_SIZE / dt)
	ms_per_step = dt * 1000 / args.steps
	vram_mib = 0.0
	if device_str == "cuda":
	vram_mib = torch.cuda.max_memory_allocated() / 1024 / 1024

	sorted_step_tps = sorted(TOTAL_BATCH_SIZE / d for d in step_durations if d > 0)
	median_tps = sorted_step_tps[len(sorted_step_tps) // 2] if sorted_step_tps else tok_per_sec
	p90_tps = sorted_step_tps[int((len(sorted_step_tps) - 1) * 0.9)] if sorted_step_tps else tok_per_sec
	max_tps = max(sorted_step_tps) if sorted_step_tps else tok_per_sec
	achieved_flops = 6.0 * sum(p.numel() for p in model.parameters()) * tok_per_sec
	mfu = achieved_flops / (GPU_BF16_PEAK_FLOPS * 1e12) if GPU_BF16_PEAK_FLOPS else 0.0

	print(
	f"steps={args.steps} tok/s={tok_per_sec} ms/step={ms_per_step:.1f} "
	f"total_batch={TOTAL_BATCH_SIZE} device_batch={DEVICE_BATCH_SIZE} "
	f"accum={grad_accum_steps} seq_len={config.sequence_len} "
	f"n_layer={N_LAYER} d_model={D_MODEL} device={device_str} "
	f"vram_mib={vram_mib:.0f} mfu={mfu:.4f} loss={last_loss}",
	flush=True,
	)

	duplicate_check = {"performed": False, "reason": "local_synthetic_benchmark"}
	if args.active_duplicate_jobs is not None:
	duplicate_check = {"performed": True, "active_matching_jobs": args.active_duplicate_jobs}
	manifest = {
	"task_id": args.task_id,
	"run_id": args.run_id,
	"git_sha": _git_sha(),
	"metric_role": args.metric_role,
	"hardware": {"flavor": device_str, "cuda_arch": torch.cuda.get_device_name(0) if device_str == "cuda" else "cpu"},
	"runtime_profile": args.runtime_profile,
	"no_paid_launch_without_gate": True,
	"duplicate_active_job_check": duplicate_check,
	"env": _env_echo(),
	"model": {
	"sequence_len": config.sequence_len,
	"n_layer": N_LAYER,
	"d_model": D_MODEL,
	"engram_n_columns": args.engram_columns,
	"engram_key_dim": args.engram_key_dim,
	},
	"receipts": {
	"profile_forward": _truthy_env("HYDRA_PROFILE_FORWARD") or args.metric_role == "profile",
	"htm_gpu_verified": _truthy_env("HYDRA_FORCE_HTM_CPU") is False and device_str == "cuda",
	"training_tps_window": {"median": median_tps, "p90": p90_tps, "max": max_tps},
	"flavor_verified": device_str,
	},
	"metrics": {
	"steps": args.steps,
	"tok_per_sec": tok_per_sec,
	"ms_per_step": ms_per_step,
	"vram_mib": vram_mib,
	"mfu_estimate": mfu,
	"last_loss": last_loss,
	},
	}
	_write_manifest(args.manifest_out, manifest)


	if __name__ == "__main__":
	main()