temp_ss / src /fuse_layers.py

upload src

2c44909 verified 24 days ago

84.7 kB

	#!/usr/bin/env python3
	"""Fuse adjacent layers via attention head alignment + Fisher-barycentric merge."""

	import argparse
	import copy
	import gc
	import json
	import os
	import random
	from dataclasses import dataclass
	from typing import Dict, List, Optional, Set, Tuple

	import torch

	try:
	import numpy as np
	except Exception: # pragma: no cover - optional dependency
	np = None

	try:
	from transformers import AutoModelForCausalLM, AutoTokenizer
	except Exception as exc: # pragma: no cover - fail early with clear error
	raise SystemExit("transformers is required: pip install transformers") from exc

	try:
	import ppl_eval
	except Exception as exc: # pragma: no cover - optional dependency
	raise SystemExit("ppl_eval.py is required (missing or invalid)") from exc

	from fuse_layers_data import (
	FixedSeqDataset,
	build_token_chunks,
	expand_dataset_configs,
	load_instruction_records,
	load_texts,
	load_texts_from_datasets,
	)
	from common_lm_data import SharedLMDataSpec, build_chunks, build_dataloader
	from fuse_layers_distill import (
	commutator_precondition,
	compute_fisher_gate_priors,
	distill_reparam_merge,
	lora_ce_finetune,
	)
	from fuse_layers_model import (
	apply_norm_policy,
	build_head_permutation,
	clone_state_dict,
	compute_fisher,
	compute_head_means,
	decrement_config,
	drop_layer,
	find_attention_module,
	find_colon_modules,
	find_layer_container,
	get_dtype,
	get_norm_pair,
	merge_layers,
	permute_attention_heads,
	)
	from fuse_layers_select import select_layer_auto
	from progressive_loader import load_causal_lm, load_progressive_model


	def parse_args() -> argparse.Namespace:
	parser = argparse.ArgumentParser(
	description="Fuse layer i and i+1 using head alignment + Fisher barycenter."
	)
	parser.add_argument("--model", required=True, help="HF model id or local path")
	parser.add_argument(
	"--model_cache_dir",
	default=None,
	help="Optional cache dir for model/tokenizer downloads",
	)
	parser.add_argument(
	"--layer",
	type=str,
	default="auto",
	help="Layer index i (int) or 'auto' to select via auto metric",
	)
	parser.add_argument(
	"--selection_method",
	choices=["dwce", "sequential"],
	default="dwce",
	help=(
	"Pair selection policy for progressive pruning. "
	"'dwce' uses downstream-weighted composition error; "
	"'sequential' always takes the next available pair."
	),
	)
	parser.add_argument(
	"--exclude_pairs",
	"--exclude_layers",
	nargs="*",
	default=None,
	dest="exclude_pairs",
	help=(
	"Exclude pair indices from consideration for any fusion. Indices refer to "
	"pair start positions in [0..N-2]. Negative indices count from the end "
	"(-1 = last pair, -2 = second last). Accepts space- or comma-separated ints. "
	"Alias: --exclude_layers (deprecated)."
	),
	)
	parser.add_argument(
	"--output_dir", required=True, help="Directory to write fused model"
	)
	parser.add_argument(
	"--dataset",
	action="append",
	default=[],
	help=(
	"HF dataset name (repeatable). Optional if using --text or --text_file."
	),
	)
	parser.add_argument(
	"--dataset_config",
	action="append",
	default=[],
	help="Optional dataset config (repeatable or single shared config).",
	)
	parser.add_argument(
	"--dataset_split",
	default="train",
	help="Dataset split to use (default: train)",
	)
	parser.add_argument(
	"--dataset_text_field",
	default=None,
	help="Text field in dataset (default: auto-detect, applies to all datasets)",
	)
	parser.add_argument(
	"--text",
	action="append",
	default=[],
	help="Inline text samples (can pass multiple)",
	)
	parser.add_argument(
	"--text_file",
	default=None,
	help="Path to a text file for calibration data",
	)
	parser.add_argument(
	"--num_samples",
	type=int,
	default=128,
	help="Number of token sequences to use",
	)
	parser.add_argument(
	"--target_tokens",
	type=int,
	default=0,
	help="Target token budget for common_lm_data-backed calibration/distillation (0 = disabled)",
	)
	parser.add_argument("--seq_len", type=int, default=256, help="Sequence length")
	parser.add_argument("--batch_size", type=int, default=2, help="Batch size")
	parser.add_argument(
	"--device",
	default="cuda" if torch.cuda.is_available() else "cpu",
	help="Device for model + compute",
	)
	parser.add_argument(
	"--dtype",
	default="auto",
	choices=["auto", "float32", "float16", "bfloat16"],
	help="Model dtype",
	)
	parser.add_argument(
	"--layer_path",
	default=None,
	help="Override layer attribute path (e.g., model.layers)",
	)
	parser.add_argument(
	"--fisher_mode",
	default="tensor",
	choices=["tensor", "param"],
	help="Fisher approximation granularity",
	)
	parser.add_argument(
	"--no_head_permute",
	action="store_true",
	help=(
	"Deprecated alias for --no_head_permute_merge. "
	"Disables merge-stage head permutation only."
	),
	)
	parser.add_argument(
	"--no_head_permute_merge",
	action="store_true",
	help="Disable attention head permutation alignment before merge",
	)
	parser.add_argument(
	"--no_head_permute_select",
	action="store_true",
	help="Disable attention head permutation alignment during auto selection",
	)
	parser.add_argument("--eps", type=float, default=1e-8, help="Stability epsilon")
	parser.add_argument("--seed", type=int, default=0, help="Random seed")
	parser.add_argument(
	"--trust_remote_code",
	action="store_true",
	help="Allow custom model code from hub",
	)
	parser.add_argument(
	"--save_metadata",
	action="store_true",
	help="Backward-compatible no-op; metadata is always written.",
	)
	parser.add_argument(
	"--skip_eval",
	action="store_true",
	help="Skip pre/post perplexity evaluation",
	)
	parser.add_argument(
	"--eval_dataset",
	action="append",
	default=[],
	help="Evaluation dataset name (repeatable). Defaults to wikitext.",
	)
	parser.add_argument(
	"--eval_dataset_config",
	action="append",
	default=[],
	help="Evaluation dataset config (repeatable or single shared config).",
	)
	parser.add_argument(
	"--eval_split",
	default="test",
	help="Evaluation dataset split (default: test)",
	)
	parser.add_argument(
	"--eval_text_field",
	default=None,
	help="Evaluation text field override (default: auto-detect)",
	)
	parser.add_argument(
	"--eval_model_family",
	type=str,
	choices=["auto", "llama", "qwen"],
	default="auto",
	help="Model family for BOS handling during eval",
	)
	parser.add_argument(
	"--eval_add_bos",
	type=str,
	choices=["auto", "always", "never"],
	default="auto",
	help="Whether to prepend BOS to each eval sample",
	)
	parser.add_argument(
	"--eval_num_samples",
	type=int,
	default=0,
	help="Number of token sequences per eval dataset (0 = all)",
	)
	parser.add_argument(
	"--eval_seq_len",
	type=int,
	default=2048,
	help="Sequence length for eval",
	)
	parser.add_argument(
	"--eval_batch_size",
	type=int,
	default=None,
	help="Batch size for eval (defaults to --batch_size)",
	)
	parser.add_argument(
	"--eval_max_batches",
	type=int,
	default=None,
	help="Optional max number of eval batches per dataset",
	)
	parser.add_argument(
	"--eval_cache_dir",
	default=None,
	help="Optional datasets cache dir for eval",
	)
	parser.add_argument(
	"--eval_num_workers",
	type=int,
	default=0,
	help="Eval DataLoader workers",
	)
	parser.add_argument(
	"--eval_device",
	default=None,
	help="Device for eval (defaults to --device)",
	)
	parser.add_argument(
	"--skip_distill",
	action="store_true",
	help="Skip reparameterized distillation after head alignment/Fisher setup",
	)
	parser.add_argument(
	"--distill_calib_samples",
	type=int,
	default=256,
	help="Number of distillation sequences from calibration datasets",
	)
	parser.add_argument(
	"--distill_inst_samples",
	type=int,
	default=0,
	help="Number of distillation sequences from instruction dataset (0 = all)",
	)
	parser.add_argument(
	"--distill_seq_len",
	type=int,
	default=512,
	help="Sequence length for distillation",
	)
	parser.add_argument(
	"--distill_batch_size",
	type=int,
	default=2,
	help="Batch size for distillation",
	)
	parser.add_argument(
	"--distill_epochs",
	type=float,
	default=1.0,
	help="Number of distillation epochs (float allowed, e.g. 0.5)",
	)
	parser.add_argument(
	"--distill_lr",
	type=float,
	default=1e-4,
	help="Learning rate for distillation",
	)
	parser.add_argument(
	"--distill_method",
	choices=["reparam"],
	default="reparam",
	help="Distillation strategy (reparam only).",
	)
	parser.add_argument(
	"--distill_kl_weight",
	type=float,
	default=1e-2,
	help="Weight for KL loss on logits",
	)
	parser.add_argument(
	"--distill_kl_temp",
	type=float,
	default=4.0,
	help="Temperature for KL distillation on logits",
	)
	parser.add_argument(
	"--distill_hidden_mse_weight",
	type=float,
	default=1.0,
	help="Weight for hidden-state MSE in reparam distillation (0 disables it)",
	)
	parser.add_argument(
	"--distill_attn_mse_weight",
	type=float,
	default=0.0,
	help="Weight for auxiliary attention-output MSE in reparam distillation",
	)
	parser.add_argument(
	"--distill_mlp_mse_weight",
	type=float,
	default=0.0,
	help="Weight for auxiliary MLP-output MSE in reparam distillation",
	)
	parser.add_argument(
	"--reparam_eta",
	type=float,
	default=1e-2,
	help="Eta: \|\|lambda - lambda_gate\|\|^2 regularizer weight for --distill_method reparam",
	)
	parser.add_argument(
	"--reparam_gamma",
	type=float,
	default=1e-4,
	help="Gamma: \|\|U - U0\|\|^2 regularizer weight for --distill_method reparam",
	)
	parser.add_argument(
	"--reparam_attn_reg_scale",
	type=float,
	default=1.0,
	help="Relative scale applied to attention-parameter reparam regularizers",
	)
	parser.add_argument(
	"--reparam_mlp_reg_scale",
	type=float,
	default=1.0,
	help="Relative scale applied to MLP-parameter reparam regularizers",
	)
	parser.add_argument(
	"--reparam_param_subset",
	type=str,
	choices=["all", "mlp", "attn"],
	default="all",
	help="Restrict reparam merge/recovery capacity to only this parameter family",
	)
	parser.add_argument(
	"--norm_policy",
	type=str,
	choices=["hybrid", "merge_all", "copy_n1", "copy_n1_n2"],
	default="hybrid",
	help="Norm merge policy (default: hybrid)",
	)
	parser.add_argument(
	"--distill_weight_decay",
	type=float,
	default=0.0,
	help="Weight decay for distillation",
	)
	parser.add_argument(
	"--distill_max_grad_norm",
	type=float,
	default=1.0,
	help="Max grad norm for distillation",
	)
	parser.add_argument(
	"--distill_grad_accum_steps",
	type=int,
	default=1,
	help="Gradient accumulation steps for distillation",
	)
	parser.add_argument(
	"--distill_log_steps",
	type=int,
	default=100,
	help="Log distillation loss every N steps",
	)
	parser.add_argument(
	"--distill_eval_every",
	type=int,
	default=0,
	help="Evaluate PPL every N distill steps (0 = disable)",
	)
	parser.add_argument(
	"--distill_eval_max_batches",
	type=int,
	default=None,
	help="Max eval batches per dataset during distill (default: all)",
	)
	parser.add_argument(
	"--distill_teacher_device",
	default=None,
	help="Device for teacher model during distillation (defaults to --device)",
	)
	parser.add_argument(
	"--comm_enabled",
	action="store_true",
	help=(
	"Enable commutator-style preconditioning before each progressive "
	"cycle's fusion."
	),
	)
	parser.add_argument(
	"--comm_include_cycle1",
	action="store_true",
	help="Run commutator preconditioning for cycle 1 as well (default: skip cycle 1).",
	)
	parser.add_argument(
	"--comm_topk",
	type=int,
	default=1,
	help="Top-K lowest-score pairs used as the commutator candidate set",
	)
	parser.add_argument(
	"--comm_sample_eta",
	type=float,
	default=0.5,
	help="Mixture weight between uniform and score-biased candidate sampling",
	)
	parser.add_argument(
	"--comm_sample_dwce_scale",
	type=float,
	default=1.0,
	help="Scale c in softmax(-c * score(i)) for commutator pair sampling",
	)
	parser.add_argument(
	"--comm_temp",
	type=float,
	default=2.0,
	help="Temperature for teacher-anchor KL in commutator preconditioning",
	)
	parser.add_argument(
	"--comm_steps_ratio",
	type=float,
	default=0.1,
	help="Run this fraction of distillation optimizer steps for commutator phase",
	)
	parser.add_argument(
	"--comm_lr_scale",
	type=float,
	default=0.1,
	help="Commutator LR = --distill_lr * this scale",
	)
	parser.add_argument(
	"--comm_train_mode",
	choices=["lora", "full"],
	default="lora",
	help=(
	"Commutator trainable parameter mode: "
	"'lora' updates LoRA adapters on sampled receiver layers; "
	"'full' updates full receiver-layer weights."
	),
	)
	parser.add_argument(
	"--comm_interaction_mode",
	choices=["mse", "relative"],
	default="relative",
	help="Interaction loss form: plain MSE or relative MSE",
	)
	parser.add_argument(
	"--comm_interaction_eps",
	type=float,
	default=1e-8,
	help="Epsilon for relative commutator interaction normalization",
	)
	parser.add_argument(
	"--comm_mu",
	type=float,
	default=None,
	help=(
	"Weight for interaction loss. Defaults to 0.1 for --comm_interaction_mode=mse "
	"and 0.5 for --comm_interaction_mode=relative."
	),
	)
	parser.add_argument(
	"--comm_mu_auto",
	action="store_true",
	help="Enable automatic mu scaling via gradient-norm balancing",
	)
	parser.add_argument(
	"--comm_mu_auto_rho",
	type=float,
	default=0.1,
	help="Target anchor-to-interaction gradient ratio constant for auto-mu",
	)
	parser.add_argument(
	"--comm_mu_auto_eps",
	type=float,
	default=1e-8,
	help="Numerical epsilon in auto-mu denominator",
	)
	parser.add_argument(
	"--comm_log_steps",
	type=int,
	default=50,
	help="Log commutator preconditioning loss every N optimizer steps",
	)
	parser.add_argument(
	"--comm_skip_post_reselect",
	action="store_true",
	help=(
	"Keep the pre-comm selected fusion pair and skip recomputing "
	"selection after commutator preconditioning."
	),
	)
	parser.add_argument(
	"--redistrib_teacher_source",
	type=str,
	choices=["base_model", "previous_cycle"],
	default="base_model",
	help=(
	"Teacher source for commutator preconditioning teacher loading. "
	"'base_model' uses --model for all cycles; "
	"'previous_cycle' uses cycle-1 checkpoint (cycle 1 falls back to base_model)."
	),
	)
	parser.add_argument(
	"--lora_epochs",
	type=float,
	default=1.0,
	help="LoRA CE finetuning epochs after distill (0 = disable)",
	)
	parser.add_argument(
	"--lora_rank",
	type=int,
	default=8,
	help="LoRA rank (r)",
	)
	parser.add_argument(
	"--lora_alpha",
	type=float,
	default=16.0,
	help="LoRA alpha",
	)
	parser.add_argument(
	"--lora_dropout",
	type=float,
	default=0.0,
	help="LoRA dropout",
	)
	parser.add_argument(
	"--lora_kl_enabled",
	action="store_true",
	help="Add KL regularization between pre/post LoRA logits",
	)
	parser.add_argument(
	"--lora_kl_weight",
	type=float,
	default=1e-1,
	help="KL weight for LoRA regularization",
	)
	parser.add_argument(
	"--lora_kl_temp",
	type=float,
	default=4.0,
	help="Temperature for LoRA KL regularization",
	)
	parser.add_argument(
	"--lora_target_modules",
	nargs="*",
	default=[
	"q_proj",
	"k_proj",
	"v_proj",
	"o_proj",
	"gate_proj",
	"down_proj",
	"up_proj",
	],
	help="Module name suffixes to LoRA-wrap",
	)
	parser.add_argument(
	"--lora_respect_exclude_pairs",
	action="store_true",
	help=(
	"When attaching LoRA adapters, skip linear modules under layers touched by "
	"--exclude_pairs (i and i+1 for each excluded pair)."
	),
	)
	parser.add_argument(
	"--lora_lr",
	type=float,
	default=1e-4,
	help="Learning rate for LoRA finetuning",
	)
	parser.add_argument(
	"--lora_weight_decay",
	type=float,
	default=0.0,
	help="Weight decay for LoRA finetuning",
	)
	parser.add_argument(
	"--lora_max_grad_norm",
	type=float,
	default=1.0,
	help="Max grad norm for LoRA finetuning",
	)
	parser.add_argument(
	"--lora_grad_accum_steps",
	type=int,
	default=1,
	help="Gradient accumulation steps for LoRA finetuning",
	)
	parser.add_argument(
	"--lora_log_steps",
	type=int,
	default=100,
	help="Log LoRA loss every N steps",
	)
	parser.add_argument(
	"--lora_eval_every",
	type=int,
	default=0,
	help="Evaluate PPL every N LoRA steps (0 = disable)",
	)
	parser.add_argument(
	"--lora_eval_max_batches",
	type=int,
	default=None,
	help="Max eval batches per dataset during LoRA (default: all)",
	)
	parser.add_argument(
	"--instruction_dataset",
	default=None,
	help="HF dataset name for alpaca-style instruction data",
	)
	parser.add_argument(
	"--instruction_config",
	default=None,
	help="Optional instruction dataset config",
	)
	parser.add_argument(
	"--instruction_split",
	default="train",
	help="Instruction dataset split",
	)
	parser.add_argument(
	"--instruction_field_instruction",
	default="instruction",
	help="Instruction field name",
	)
	parser.add_argument(
	"--instruction_field_input",
	default="input",
	help="Optional input field name",
	)
	parser.add_argument(
	"--instruction_field_output",
	default="output",
	help="Response/output field name",
	)
	parser.add_argument(
	"--auto_max_batches",
	type=int,
	default=0,
	help="Max calibration batches for auto selection scoring (0 = all)",
	)
	parser.add_argument(
	"--auto_metric",
	type=str,
	choices=[
	"dwce",
	"cosine",
	"hybrid",
	"hybrid_cosine",
	"hybrid_global_rel",
	],
	default="dwce",
	help=(
	"Auto pair scoring metric. 'dwce' uses downstream-weighted composition error; "
	"'cosine' uses average token-level cosine distance between adjacent layer outputs; "
	"'hybrid'/'hybrid_cosine' use DWCE to shortlist then adjacent cosine for final scoring; "
	"'hybrid_global_rel' uses DWCE to shortlist then reranks by the change in "
	"pair-to-final-layer cosine relation after surrogate fusion."
	),
	)
	parser.add_argument(
	"--auto_cosine_topk",
	type=int,
	default=3,
	help="Top-K DWCE candidates to rescore with cosine in --auto_metric=hybrid",
	)
	parser.add_argument(
	"--auto_norm",
	type=str,
	choices=["relative", "none"],
	default="relative",
	help="Normalization mode for DWCE scoring (ignored for cosine)",
	)
	parser.add_argument(
	"--auto_dwce_mode",
	type=str,
	choices=["separate", "shared"],
	default="separate",
	help=(
	"DWCE implementation for auto scoring. "
	"'separate' runs distinct Fisher and DWCE backward passes; "
	"'shared' reuses one backward pass and replays DWCE with cached gradients."
	),
	)
	parser.add_argument(
	"--num_progressive",
	type=int,
	default=0,
	help="Number of progressive fusions (>0 required)",
	)
	parser.add_argument(
	"--resume_from_cycle",
	type=int,
	default=0,
	help=(
	"Resume from this completed cycle index. When > 0, --model should point "
	"to the saved full model directory for that cycle."
	),
	)
	parser.add_argument(
	"--save_full_model_cycles",
	nargs="*",
	default=[],
	help=(
	"Cycle indices whose full models should be saved. Requesting cycle c "
	"also saves cycle c-1 automatically (c=1 saves only cycle 1)."
	),
	)
	return parser.parse_args()


	def parse_exclude_pairs(exclude_raw: Optional[List[str]], num_pairs: int) -> List[int]:
	"""Parse --exclude_pairs into normalized pair indices for the current model.

	Indices refer to the start of an adjacent pair (i, i+1) and must be in [0..N-2].
	Negative indices count from the end (-1 = last pair).
	"""
	if not exclude_raw:
	return []
	exclude: List[int] = []
	for item in exclude_raw:
	if item is None:
	continue
	for part in str(item).split(","):
	part = part.strip()
	if not part:
	continue
	try:
	idx = int(part)
	except ValueError as exc:
	raise SystemExit("--exclude_pairs must contain integers.") from exc
	if idx < 0:
	idx = num_pairs + idx
	if 0 <= idx < num_pairs:
	exclude.append(idx)
	return sorted(set(exclude))


	def parse_cycle_list(raw_values: Optional[List[str]]) -> List[int]:
	if not raw_values:
	return []
	cycles: List[int] = []
	for item in raw_values:
	if item is None:
	continue
	for part in str(item).split(","):
	part = part.strip()
	if not part:
	continue
	try:
	cycles.append(int(part))
	except ValueError as exc:
	raise SystemExit(
	"--save_full_model_cycles must contain integers."
	) from exc
	return cycles


	def resolve_full_model_save_cycles(
	requested_cycles: List[int], num_progressive: int
	) -> Set[int]:
	resolved: Set[int] = set()
	for cycle in requested_cycles:
	if cycle <= 0 or cycle > num_progressive:
	raise SystemExit(
	"--save_full_model_cycles entries must be within [1, --num_progressive]."
	)
	resolved.add(cycle)
	if cycle > 1:
	resolved.add(cycle - 1)
	return resolved


	def load_resume_metadata(model_path: str) -> Optional[Dict[str, object]]:
	resume_meta_path = os.path.join(model_path, "resume_info.json")
	if not os.path.exists(resume_meta_path):
	return None
	with open(resume_meta_path, "r", encoding="utf-8") as handle:
	loaded = json.load(handle)
	return loaded if isinstance(loaded, dict) else None


	def build_generator(seed: int) -> torch.Generator:
	generator = torch.Generator(device="cpu")
	generator.manual_seed(int(seed))
	return generator


	def capture_rng_state() -> Dict[str, object]:
	state: Dict[str, object] = {
	"python_random_state": random.getstate(),
	"torch_cpu_rng_state": torch.get_rng_state(),
	}
	if np is not None:
	state["numpy_random_state"] = np.random.get_state()
	if torch.cuda.is_available():
	state["torch_cuda_rng_state_all"] = torch.cuda.get_rng_state_all()
	return state


	def restore_rng_state(state: Dict[str, object]) -> None:
	python_state = state.get("python_random_state")
	if python_state is not None:
	random.setstate(python_state)

	numpy_state = state.get("numpy_random_state")
	if numpy_state is not None and np is not None:
	np.random.set_state(numpy_state)

	torch_cpu_state = state.get("torch_cpu_rng_state")
	if torch_cpu_state is not None:
	torch.set_rng_state(torch_cpu_state)

	torch_cuda_state = state.get("torch_cuda_rng_state_all")
	if torch_cuda_state is not None and torch.cuda.is_available():
	torch.cuda.set_rng_state_all(torch_cuda_state)


	def save_rng_state(path: str) -> None:
	torch.save(capture_rng_state(), path)


	def load_rng_state(path: str) -> Optional[Dict[str, object]]:
	if not os.path.exists(path):
	return None
	loaded = torch.load(path, map_location="cpu", weights_only=False)
	return loaded if isinstance(loaded, dict) else None


	def configure_reproducibility(seed: int) -> None:
	random.seed(seed)
	if np is not None:
	np.random.seed(seed)
	torch.manual_seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(seed)
	if hasattr(torch.backends, "cudnn"):
	torch.backends.cudnn.deterministic = True
	torch.backends.cudnn.benchmark = False
	if hasattr(torch, "use_deterministic_algorithms"):
	torch.use_deterministic_algorithms(True, warn_only=True)


	def save_loader_generator_state(
	base_dir: str,
	*,
	distill_generator: Optional[torch.Generator] = None,
	lora_generator: Optional[torch.Generator] = None,
	) -> None:
	state: Dict[str, object] = {}
	if distill_generator is not None:
	state["distill_generator_state"] = distill_generator.get_state()
	if lora_generator is not None:
	state["lora_generator_state"] = lora_generator.get_state()
	if state:
	torch.save(state, os.path.join(base_dir, "loader_generators.pt"))


	def load_loader_generator_state(base_dir: str) -> Optional[Dict[str, object]]:
	path = os.path.join(base_dir, "loader_generators.pt")
	if not os.path.exists(path):
	return None
	loaded = torch.load(path, map_location="cpu")
	return loaded if isinstance(loaded, dict) else None


	def resolve_layer_idx(
	args: argparse.Namespace,
	model,
	layers: List[torch.nn.Module],
	dataloader,
	previous_scores,
	start_index: int,
	exclude_pairs: Set[int],
	):
	layer_arg = str(getattr(args, "layer", "auto")).strip().lower()
	selection_method = str(getattr(args, "selection_method", "dwce")).strip().lower()

	if layer_arg != "auto":
	try:
	layer_idx = int(layer_arg)
	except ValueError as exc:
	raise SystemExit("--layer must be 'auto' or an integer index") from exc
	num_pairs = max(len(layers) - 1, 0)
	if layer_idx < 0:
	layer_idx += num_pairs
	if layer_idx in exclude_pairs:
	raise SystemExit(f"--layer resolved to excluded pair index {layer_idx}")
	return layer_idx, previous_scores, {"method": "manual", "exclude_pairs": sorted(exclude_pairs)}

	if selection_method == "sequential":
	num_pairs = len(layers) - 1
	for layer_idx in range(max(start_index, 0), num_pairs):
	if layer_idx not in exclude_pairs:
	return layer_idx, previous_scores, {
	"method": "sequential",
	"start_index": max(start_index, 0),
	"exclude_pairs": sorted(exclude_pairs),
	}
	raise SystemExit("No eligible layer pairs remain after exclusions")

	layer_idx, dwce_scores, dwce_meta = select_layer_auto(
	model,
	layers,
	dataloader,
	args,
	previous_scores=previous_scores,
	start_index=start_index,
	exclude_pairs=exclude_pairs,
	)
	return layer_idx, dwce_scores, dwce_meta


	@dataclass
	class PreparedData:
	calib_loader: torch.utils.data.DataLoader
	calib_num_sequences: int
	distill_loader: Optional[torch.utils.data.DataLoader]
	distill_generator: Optional[torch.Generator]
	distill_meta: Dict[str, object]
	lora_loader: Optional[torch.utils.data.DataLoader]
	lora_generator: Optional[torch.Generator]
	lora_meta: Dict[str, object]
	eval_datasets: List[str]
	eval_configs: List[Optional[str]]
	eval_dataloaders: Optional[Dict[str, torch.utils.data.DataLoader]]


	def resolve_eval_datasets(args: argparse.Namespace) -> Tuple[List[str], List[Optional[str]]]:
	eval_datasets = args.eval_dataset or ["wikitext"]
	eval_configs = args.eval_dataset_config or ["wikitext-2-raw-v1"]
	eval_configs = ppl_eval._expand_dataset_configs(eval_datasets, eval_configs)
	return eval_datasets, eval_configs


	def run_ppl_eval(
	model_id_or_path: str,
	eval_datasets: List[str],
	eval_configs: List[Optional[str]],
	args: argparse.Namespace,
	prepared_eval_dataloaders: Optional[Dict[str, torch.utils.data.DataLoader]] = None,
	) -> Dict[str, float]:
	eval_device = args.eval_device or args.device
	dtype = get_dtype(args.dtype)

	eval_model = load_causal_lm(
	model_id_or_path,
	torch_dtype=dtype,
	trust_remote_code=args.trust_remote_code,
	)

	eval_model.to(eval_device)
	if prepared_eval_dataloaders is not None:
	results = ppl_eval.evaluate_ppl_dataloaders(
	eval_model,
	prepared_eval_dataloaders,
	eval_device,
	max_batches=args.eval_max_batches,
	)
	else:
	eval_batch_size = args.eval_batch_size or args.batch_size
	eval_tokenizer = AutoTokenizer.from_pretrained(
	model_id_or_path, trust_remote_code=args.trust_remote_code
	)
	if eval_tokenizer.pad_token is None and eval_tokenizer.eos_token is not None:
	eval_tokenizer.pad_token = eval_tokenizer.eos_token

	results = ppl_eval.evaluate_ppl_datasets(
	eval_model,
	eval_tokenizer,
	datasets=eval_datasets,
	configs=eval_configs,
	split=args.eval_split,
	text_field=args.eval_text_field,
	num_samples=args.eval_num_samples,
	seq_len=args.eval_seq_len,
	batch_size=eval_batch_size,
	device=eval_device,
	seed=args.seed,
	shuffle=False,
	model_family=args.eval_model_family,
	add_bos=args.eval_add_bos,
	max_batches=args.eval_max_batches,
	cache_dir=args.eval_cache_dir,
	num_workers=args.eval_num_workers,
	)

	del eval_model
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	return results


	def build_calibration_dataloader(
	args: argparse.Namespace, tokenizer
	) -> Tuple[List[str], List[torch.Tensor], torch.utils.data.DataLoader]:
	if args.dataset:
	datasets = list(args.dataset)
	configs = expand_dataset_configs(datasets, list(args.dataset_config))
	chunks: List[torch.Tensor] = []
	for idx, (dataset_name, config) in enumerate(zip(datasets, configs)):
	spec = SharedLMDataSpec(
	dataset=dataset_name,
	config=config,
	split=args.dataset_split,
	text_field=args.dataset_text_field,
	seq_len=args.seq_len,
	num_sequences=args.num_samples,
	seed=args.seed + idx,
	)
	chunks.extend(build_chunks(spec, tokenizer))
	if not chunks:
	raise SystemExit("Not enough text to build token sequences.")
	input_ids = torch.stack(chunks)
	attention_mask = torch.ones_like(input_ids)
	dataset = torch.utils.data.TensorDataset(input_ids, attention_mask)
	dataloader = torch.utils.data.DataLoader(
	dataset, batch_size=args.batch_size, shuffle=False
	)
	return [], chunks, dataloader

	texts = load_texts(args)
	if not texts:
	raise SystemExit(
	"No calibration text found. Provide --dataset, --text, or --text_file."
	)

	chunks = build_token_chunks(texts, tokenizer, args.seq_len, args.num_samples)
	if not chunks:
	raise SystemExit("Not enough text to build token sequences.")

	input_ids = torch.stack(chunks)
	attention_mask = torch.ones_like(input_ids)
	dataset = torch.utils.data.TensorDataset(input_ids, attention_mask)
	dataloader = torch.utils.data.DataLoader(
	dataset, batch_size=args.batch_size, shuffle=False
	)
	return texts, chunks, dataloader


	def prepare_distillation_data(
	args: argparse.Namespace, tokenizer, include_instruction: bool = True
	) -> Tuple[Optional[torch.utils.data.DataLoader], Optional[torch.Generator], Dict[str, object]]:
	if (
	include_instruction
	and args.distill_inst_samples != 0
	and not args.instruction_dataset
	):
	print(
	"Warning: --distill_inst_samples > 0 but no --instruction_dataset "
	"provided; instruction distillation will be skipped."
	)

	calib_texts: List[str] = []
	calib_dataset = None
	if args.target_tokens > 0 and args.dataset:
	datasets = list(args.dataset)
	configs = expand_dataset_configs(datasets, list(args.dataset_config))
	per_dataset = args.target_tokens // len(datasets)
	remainder = args.target_tokens % len(datasets)
	calib_chunks: List[torch.Tensor] = []
	for idx, (dataset_name, config) in enumerate(zip(datasets, configs)):
	dataset_tokens = per_dataset + (remainder if idx == 0 else 0)
	spec = SharedLMDataSpec(
	dataset=dataset_name,
	config=config,
	split=args.dataset_split,
	text_field=args.dataset_text_field,
	seq_len=args.distill_seq_len,
	target_tokens=dataset_tokens,
	seed=args.seed + 17 + idx,
	)
	calib_chunks.extend(build_chunks(spec, tokenizer))
	if calib_chunks:
	input_ids = torch.stack(calib_chunks)
	attention_mask = torch.ones_like(input_ids)
	calib_dataset = torch.utils.data.TensorDataset(input_ids, attention_mask)
	else:
	calib_texts = load_texts_from_datasets(
	datasets=list(args.dataset),
	configs=expand_dataset_configs(list(args.dataset), list(args.dataset_config)),
	split=args.dataset_split,
	text_field=args.dataset_text_field,
	num_samples=args.distill_calib_samples,
	seed=args.seed + 17,
	)
	inst_records = []
	if include_instruction:
	inst_records = load_instruction_records(args, args.distill_inst_samples)

	distill_datasets = []
	if calib_dataset is not None:
	distill_datasets.append(calib_dataset)
	elif calib_texts:
	calib_records = [{"text": text} for text in calib_texts]
	distill_datasets.append(
	FixedSeqDataset(calib_records, tokenizer, args.distill_seq_len)
	)
	if inst_records:
	distill_datasets.append(
	FixedSeqDataset(inst_records, tokenizer, args.distill_seq_len)
	)

	distill_meta: Dict[str, object] = {
	"calib_texts": len(calib_texts),
	"calib_sequences": len(calib_dataset) if calib_dataset is not None else len(calib_texts),
	"inst_sequences": len(inst_records),
	"total_sequences": 0,
	}

	if not distill_datasets:
	return None, None, distill_meta
	if len(distill_datasets) == 1:
	distill_dataset = distill_datasets[0]
	else:
	distill_dataset = torch.utils.data.ConcatDataset(distill_datasets)

	distill_meta["total_sequences"] = len(distill_dataset)
	distill_generator = build_generator(
	args.seed + 1000 + (1000000 if include_instruction else 0)
	)
	distill_loader = torch.utils.data.DataLoader(
	distill_dataset,
	batch_size=args.distill_batch_size,
	shuffle=True,
	generator=distill_generator,
	)
	return distill_loader, distill_generator, distill_meta


	def prepare_eval_dataloaders(
	args: argparse.Namespace,
	tokenizer,
	model: torch.nn.Module,
	eval_datasets: List[str],
	eval_configs: List[Optional[str]],
	) -> Optional[Dict[str, torch.utils.data.DataLoader]]:
	needs_eval = (not args.skip_eval) or (
	(not args.skip_distill and args.distill_eval_every)
	or (args.lora_epochs > 0 and args.lora_eval_every)
	)
	if not needs_eval:
	return None

	eval_batch_size = args.eval_batch_size or args.batch_size
	resolved_family = args.eval_model_family
	if resolved_family == "auto":
	resolved_family = ppl_eval._infer_model_family(model)

	return ppl_eval.prepare_ppl_dataloaders(
	tokenizer=tokenizer,
	datasets=eval_datasets,
	configs=eval_configs,
	split=args.eval_split,
	text_field=args.eval_text_field,
	num_samples=args.eval_num_samples,
	seq_len=args.eval_seq_len,
	batch_size=eval_batch_size,
	seed=args.seed,
	shuffle=False,
	model_family=resolved_family,
	add_bos=args.eval_add_bos,
	cache_dir=args.eval_cache_dir,
	num_workers=args.eval_num_workers,
	model=model,
	)


	def prepare_all_data(
	args: argparse.Namespace,
	tokenizer,
	model: torch.nn.Module,
	eval_datasets: List[str],
	eval_configs: List[Optional[str]],
	loader_generator_state: Optional[Dict[str, object]] = None,
	) -> PreparedData:
	texts, chunks, calib_loader = build_calibration_dataloader(args, tokenizer)
	calib_num_sequences = len(chunks)
	del texts
	del chunks

	distill_loader = None
	distill_generator = None
	distill_meta: Dict[str, object] = {
	"calib_texts": 0,
	"calib_sequences": 0,
	"inst_sequences": 0,
	"total_sequences": 0,
	}
	lora_loader = None
	lora_generator = None
	lora_meta: Dict[str, object] = {
	"calib_texts": 0,
	"calib_sequences": 0,
	"inst_sequences": 0,
	"total_sequences": 0,
	}
	if (not args.skip_distill) or bool(getattr(args, "comm_enabled", False)):
	distill_loader, distill_generator, distill_meta = prepare_distillation_data(
	args, tokenizer, include_instruction=False
	)
	if (
	distill_generator is not None
	and loader_generator_state is not None
	and loader_generator_state.get("distill_generator_state") is not None
	):
	distill_generator.set_state(loader_generator_state["distill_generator_state"])
	if args.lora_epochs > 0:
	lora_loader, lora_generator, lora_meta = prepare_distillation_data(
	args, tokenizer, include_instruction=True
	)
	if (
	lora_generator is not None
	and loader_generator_state is not None
	and loader_generator_state.get("lora_generator_state") is not None
	):
	lora_generator.set_state(loader_generator_state["lora_generator_state"])

	eval_dataloaders = prepare_eval_dataloaders(
	args, tokenizer, model, eval_datasets, eval_configs
	)

	return PreparedData(
	calib_loader=calib_loader,
	calib_num_sequences=calib_num_sequences,
	distill_loader=distill_loader,
	distill_generator=distill_generator,
	distill_meta=distill_meta,
	lora_loader=lora_loader,
	lora_generator=lora_generator,
	lora_meta=lora_meta,
	eval_datasets=eval_datasets,
	eval_configs=eval_configs,
	eval_dataloaders=eval_dataloaders,
	)


	def evaluate_ppl_model(
	model: torch.nn.Module,
	tokenizer,
	eval_datasets: List[str],
	eval_configs: List[Optional[str]],
	args: argparse.Namespace,
	max_batches: Optional[int] = None,
	prepared_eval_dataloaders: Optional[Dict[str, torch.utils.data.DataLoader]] = None,
	) -> Dict[str, float]:
	eval_device = args.eval_device or args.device
	prev_mode = model.training
	try:
	prev_device = next(model.parameters()).device
	except StopIteration:
	prev_device = torch.device(eval_device)

	model.eval()
	if str(prev_device) != eval_device:
	model.to(eval_device)

	if prepared_eval_dataloaders is not None:
	results = ppl_eval.evaluate_ppl_dataloaders(
	model,
	prepared_eval_dataloaders,
	eval_device,
	max_batches=max_batches if max_batches is not None else args.eval_max_batches,
	)
	else:
	eval_batch_size = args.eval_batch_size or args.batch_size
	results = ppl_eval.evaluate_ppl_datasets(
	model,
	tokenizer,
	datasets=eval_datasets,
	configs=eval_configs,
	split=args.eval_split,
	text_field=args.eval_text_field,
	num_samples=args.eval_num_samples,
	seq_len=args.eval_seq_len,
	batch_size=eval_batch_size,
	device=eval_device,
	seed=args.seed,
	shuffle=False,
	model_family=args.eval_model_family,
	add_bos=args.eval_add_bos,
	max_batches=max_batches if max_batches is not None else args.eval_max_batches,
	cache_dir=args.eval_cache_dir,
	num_workers=args.eval_num_workers,
	)

	if prev_mode:
	model.train()
	if str(prev_device) != eval_device:
	model.to(prev_device)
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	return results


	def has_post_fusion_data(
	distill_loader: Optional[torch.utils.data.DataLoader],
	distill_meta: Optional[Dict[str, object]],
	) -> bool:
	if distill_loader is None or distill_meta is None:
	return False
	return distill_meta.get("total_sequences", 0) > 0


	def summarize_gate_lambdas(gates: Dict[str, torch.Tensor]) -> Dict[str, object]:
	if not gates:
	return {"num_tensors": 0, "num_elements": 0}

	total_sum = 0.0
	total_elems = 0
	per_tensor_mean: Dict[str, Optional[float]] = {}
	for name, gate in gates.items():
	g = gate.detach().float()
	if g.numel() == 0:
	per_tensor_mean[name] = None
	continue
	per_tensor_mean[name] = float(g.mean().item())
	total_sum += float(g.sum().item())
	total_elems += int(g.numel())

	global_mean = None if total_elems == 0 else total_sum / float(total_elems)
	return {
	"num_tensors": len(gates),
	"num_elements": total_elems,
	"global_mean": global_mean,
	"per_tensor_mean": per_tensor_mean,
	}


	def compute_path_bytes(path: str) -> int:
	if os.path.isfile(path):
	return os.path.getsize(path)

	total = 0
	for root, _, files in os.walk(path):
	for name in files:
	file_path = os.path.join(root, name)
	if os.path.islink(file_path):
	continue
	try:
	total += os.path.getsize(file_path)
	except OSError:
	continue
	return total


	def save_stage_checkpoint(
	model: torch.nn.Module,
	tokenizer,
	stage_dir: str,
	stage_name: str,
	ppl_results: Optional[Dict[str, float]],
	) -> Dict[str, object]:
	os.makedirs(stage_dir, exist_ok=True)
	colon_modules = find_colon_modules(model)
	if colon_modules:
	raise RuntimeError(
	"Unexpected module names with ':' detected before save: "
	f"{', '.join(colon_modules)}."
	)

	model.save_pretrained(stage_dir)
	tokenizer.save_pretrained(stage_dir)

	stage_meta = {
	"stage": stage_name,
	"path": stage_dir,
	"weight_bytes": compute_path_bytes(stage_dir),
	"post_ppl": ppl_results,
	}
	with open(
	os.path.join(stage_dir, "stage_metrics.json"),
	"w",
	encoding="utf-8",
	) as handle:
	json.dump(stage_meta, handle, indent=2)
	return stage_meta


	def save_cycle_full_model(
	model: torch.nn.Module,
	tokenizer,
	cycle_dir: str,
	cycle_idx: int,
	args: argparse.Namespace,
	ppl_results: Optional[Dict[str, float]],
	) -> Dict[str, object]:
	full_model_dir = os.path.join(cycle_dir, "full_model")
	stage_meta = save_stage_checkpoint(
	model=model,
	tokenizer=tokenizer,
	stage_dir=full_model_dir,
	stage_name=f"cycle_{cycle_idx}_full_model",
	ppl_results=ppl_results,
	)
	resume_meta = {
	"base_model": getattr(args, "base_model_id", args.model),
	"cycle": cycle_idx,
	"output_dir": args.output_dir,
	"layer_path": args.layer_path,
	"rng_state": "rng_state.pt",
	"loader_generators": "loader_generators.pt",
	}
	with open(
	os.path.join(full_model_dir, "resume_info.json"),
	"w",
	encoding="utf-8",
	) as handle:
	json.dump(resume_meta, handle, indent=2)
	stage_meta["resume_info"] = "resume_info.json"
	return stage_meta


	def run_lora_phase(
	model: torch.nn.Module,
	tokenizer,
	eval_datasets: List[str],
	eval_configs: List[Optional[str]],
	args: argparse.Namespace,
	lora_loader: Optional[torch.utils.data.DataLoader] = None,
	lora_meta: Optional[Dict[str, object]] = None,
	eval_dataloaders: Optional[Dict[str, torch.utils.data.DataLoader]] = None,
	cycle_idx: Optional[int] = None,
	num_cycles: Optional[int] = None,
	) -> List[Dict[str, object]]:
	lora_eval_history: List[Dict[str, object]] = []
	if args.lora_epochs <= 0:
	return lora_eval_history
	if not has_post_fusion_data(lora_loader, lora_meta):
	print("No post-fusion sequences built; skipping LoRA finetuning.")
	return lora_eval_history

	lora_ce_finetune(
	model=model,
	dataloader=lora_loader,
	eval_tokenizer=tokenizer,
	eval_datasets=eval_datasets,
	eval_configs=eval_configs,
	eval_history=lora_eval_history,
	args=args,
	eval_dataloaders=eval_dataloaders,
	progressive_cycle=cycle_idx,
	progressive_total=num_cycles,
	)
	return lora_eval_history


	def run_progressive(
	args: argparse.Namespace,
	model: torch.nn.Module,
	tokenizer,
	prepared: PreparedData,
	) -> None:
	eval_datasets = prepared.eval_datasets
	eval_configs = prepared.eval_configs

	dataloader = prepared.calib_loader
	num_sequences = prepared.calib_num_sequences

	model.to(args.device)

	os.makedirs(args.output_dir, exist_ok=True)
	progressive_meta_path = os.path.join(args.output_dir, "progressive_metadata.json")
	existing_meta: Dict[str, object] = {}
	if args.resume_from_cycle > 0 and os.path.exists(progressive_meta_path):
	with open(progressive_meta_path, "r", encoding="utf-8") as handle:
	loaded_meta = json.load(handle)
	if isinstance(loaded_meta, dict):
	existing_meta = loaded_meta

	bootstrap_meta = {
	"base_model": getattr(args, "base_model_id", args.model),
	"num_progressive": args.num_progressive,
	"layer_path": args.layer_path,
	"resume_from_cycle": args.resume_from_cycle,
	"save_full_model_cycles": sorted(args.full_model_save_cycles),
	"cycles": (
	existing_meta.get("cycles", [])
	if isinstance(existing_meta.get("cycles"), list)
	else []
	),
	}
	with open(
	progressive_meta_path,
	"w",
	encoding="utf-8",
	) as handle:
	json.dump(bootstrap_meta, handle, indent=2)

	pre_eval = None
	if not args.skip_eval:
	pre_eval = evaluate_ppl_model(
	model,
	tokenizer,
	eval_datasets,
	eval_configs,
	args,
	prepared_eval_dataloaders=prepared.eval_dataloaders,
	)
	print("Pre-pruning perplexity:")
	for dataset_name, ppl in pre_eval.items():
	print(f"{dataset_name}: {ppl:.4f}")

	parent, name, container = find_layer_container(model, args.layer_path)
	layers = list(container)
	if args.num_progressive > (len(layers) - 1 + args.resume_from_cycle):
	raise SystemExit(
	f"--num_progressive ({args.num_progressive}) exceeds available pairs "
	f"after resume offset ({len(layers) - 1 + args.resume_from_cycle})"
	)

	dwce_scores = None
	dwce_meta = None
	last_fused_idx = 0
	cycle_summaries: List[Dict[str, object]] = []
	existing_cycles = existing_meta.get("cycles", [])
	if isinstance(existing_cycles, list):
	for entry in existing_cycles:
	if not isinstance(entry, dict):
	continue
	cycle_value = entry.get("cycle")
	if isinstance(cycle_value, int) and cycle_value <= args.resume_from_cycle:
	cycle_summaries.append(entry)

	comm_enabled = bool(getattr(args, "comm_enabled", False))
	comm_teacher_model = None
	comm_teacher_cycle: Optional[int] = None
	teacher_device = args.distill_teacher_device or args.device
	previous_cycle_teacher_model = None
	previous_cycle_teacher_cycle: Optional[int] = None

	def _release_comm_teacher() -> None:
	nonlocal comm_teacher_model, comm_teacher_cycle
	if comm_teacher_model is not None:
	del comm_teacher_model
	comm_teacher_model = None
	comm_teacher_cycle = None
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	def _release_previous_cycle_teacher() -> None:
	nonlocal previous_cycle_teacher_model, previous_cycle_teacher_cycle
	if previous_cycle_teacher_model is not None:
	del previous_cycle_teacher_model
	previous_cycle_teacher_model = None
	previous_cycle_teacher_cycle = None
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	def _snapshot_previous_cycle_teacher(cycle_idx: int) -> None:
	nonlocal previous_cycle_teacher_model, previous_cycle_teacher_cycle
	_release_previous_cycle_teacher()
	previous_cycle_teacher_model = copy.deepcopy(model)
	previous_cycle_teacher_model.to(teacher_device)
	previous_cycle_teacher_model.eval()
	previous_cycle_teacher_cycle = cycle_idx

	def _get_previous_cycle_teacher(
	cycle_idx: int,
	) -> Tuple[Optional[torch.nn.Module], str, Optional[int]]:
	prev_cycle = cycle_idx - 1
	if prev_cycle <= 0:
	return None, "base_model", 0
	if (
	previous_cycle_teacher_model is not None
	and previous_cycle_teacher_cycle == prev_cycle
	):
	return previous_cycle_teacher_model, "previous_cycle_memory", prev_cycle
	teacher_model = load_progressive_model(
	getattr(args, "base_model_id", args.model),
	args.output_dir,
	cycle=prev_cycle,
	device=teacher_device,
	dtype=args.dtype,
	trust_remote_code=args.trust_remote_code,
	layer_path=args.layer_path,
	)
	teacher_model.eval()
	return teacher_model, "previous_cycle_disk", prev_cycle

	def _get_comm_teacher(cycle_idx: int) -> Tuple[Optional[torch.nn.Module], str, Optional[int]]:
	nonlocal comm_teacher_model, comm_teacher_cycle
	if not comm_enabled:
	return None, "disabled", None

	source = str(getattr(args, "redistrib_teacher_source", "base_model"))
	if source == "base_model":
	if comm_teacher_model is None:
	print(
	"[comm] Loading fixed base teacher for anchor loss "
	f"(device={teacher_device})."
	)
	comm_teacher_model = AutoModelForCausalLM.from_pretrained(
	getattr(args, "base_model_id", args.model),
	torch_dtype=get_dtype(args.dtype),
	trust_remote_code=args.trust_remote_code,
	)
	comm_teacher_model.to(teacher_device)
	comm_teacher_model.eval()
	comm_teacher_cycle = 0
	return comm_teacher_model, "base_model", 0

	prev_cycle = cycle_idx - 1
	if prev_cycle <= 0:
	if comm_teacher_model is None or comm_teacher_cycle != 0:
	_release_comm_teacher()
	print(
	"[comm] --redistrib_teacher_source=previous_cycle but cycle 1 "
	"has no prior checkpoint; using base teacher."
	)
	comm_teacher_model = AutoModelForCausalLM.from_pretrained(
	getattr(args, "base_model_id", args.model),
	torch_dtype=get_dtype(args.dtype),
	trust_remote_code=args.trust_remote_code,
	)
	comm_teacher_model.to(teacher_device)
	comm_teacher_model.eval()
	comm_teacher_cycle = 0
	return comm_teacher_model, "base_model", 0

	if (
	previous_cycle_teacher_model is not None
	and previous_cycle_teacher_cycle == prev_cycle
	):
	if comm_teacher_model is not previous_cycle_teacher_model:
	_release_comm_teacher()
	comm_teacher_model = previous_cycle_teacher_model
	comm_teacher_cycle = prev_cycle
	return comm_teacher_model, "previous_cycle_memory", prev_cycle

	if comm_teacher_model is None or comm_teacher_cycle != prev_cycle:
	_release_comm_teacher()
	print(
	"[comm] Loading teacher from previous cycle "
	f"{prev_cycle} (device={teacher_device})."
	)
	comm_teacher_model = load_progressive_model(
	getattr(args, "base_model_id", args.model),
	args.output_dir,
	cycle=prev_cycle,
	device=teacher_device,
	dtype=args.dtype,
	trust_remote_code=args.trust_remote_code,
	layer_path=args.layer_path,
	)
	comm_teacher_model.eval()
	comm_teacher_cycle = prev_cycle
	return comm_teacher_model, "previous_cycle_disk", prev_cycle

	if args.resume_from_cycle > 0:
	_snapshot_previous_cycle_teacher(args.resume_from_cycle)

	start_cycle = args.resume_from_cycle + 1
	for cycle_idx in range(start_cycle, args.num_progressive + 1):
	print(f"[progressive] Cycle {cycle_idx}/{args.num_progressive}")
	run_comm = comm_enabled and (
	cycle_idx > 1 or bool(getattr(args, "comm_include_cycle1", False))
	)
	comm_stats: Dict[str, object] = {"enabled": False}
	comm_post_eval = None
	if run_comm:
	# Preconditioning updates model weights, so DWCE reuse is unreliable.
	start_index = 0
	reuse_scores = None
	else:
	start_index = last_fused_idx if cycle_idx > 1 else 0
	reuse_scores = dwce_scores
	exclude_pairs = set(parse_exclude_pairs(args.exclude_pairs, max(len(layers) - 1, 0)))
	layer_idx, dwce_scores, dwce_meta = resolve_layer_idx(
	args,
	model,
	layers,
	dataloader,
	reuse_scores,
	start_index,
	exclude_pairs,
	)

	if run_comm:
	dwce_scores_pre_comm = dwce_scores
	if prepared.calib_loader is None:
	print(
	"[comm] Enabled but no calibration sequences were built; skipping."
	)
	else:
	(
	comm_teacher_model_loaded,
	comm_teacher_source,
	comm_teacher_cycle_idx,
	) = _get_comm_teacher(cycle_idx)
	if comm_teacher_model_loaded is None:
	raise RuntimeError("comm_enabled but teacher model was not loaded.")
	comm_stats = commutator_precondition(
	student_model=model,
	student_layers=layers,
	teacher_model=comm_teacher_model_loaded,
	dataloader=prepared.calib_loader,
	dwce_scores=dwce_scores_pre_comm,
	exclude_pairs=exclude_pairs,
	args=args,
	progressive_cycle=cycle_idx,
	progressive_total=args.num_progressive,
	)
	if comm_stats.get("enabled"):
	comm_stats["teacher_source"] = comm_teacher_source
	comm_stats["teacher_cycle"] = comm_teacher_cycle_idx
	comm_stats["dwce_scores_pre"] = dwce_scores_pre_comm
	print(
	"[comm] Done:"
	f" opt_steps={comm_stats.get('opt_steps')}"
	f" lr={comm_stats.get('lr')}"
	)
	if not args.skip_eval:
	comm_post_eval = evaluate_ppl_model(
	model,
	tokenizer,
	eval_datasets,
	eval_configs,
	args,
	prepared_eval_dataloaders=prepared.eval_dataloaders,
	)
	comm_stats["post_ppl"] = comm_post_eval
	print(f"[progressive] Cycle {cycle_idx} post-comm perplexity:")
	for dataset_name, ppl in comm_post_eval.items():
	print(f"{dataset_name}: {ppl:.4f}")

	if bool(getattr(args, "comm_skip_post_reselect", False)):
	comm_stats["post_selection_recomputed"] = False
	comm_stats["selected_layer_post"] = int(layer_idx)
	print(
	"[comm] Keeping pre-comm DWCE pair selection for fusion."
	)
	else:
	print(
	"[comm] Recomputing DWCE after preconditioning for fusion selection."
	)
	layer_idx, dwce_scores, dwce_meta = resolve_layer_idx(
	args,
	model,
	layers,
	dataloader,
	None,
	0,
	exclude_pairs,
	)
	comm_stats["post_selection_recomputed"] = True
	comm_stats["selected_layer_post"] = int(layer_idx)

	if layer_idx < 0 or layer_idx >= len(layers) - 1:
	raise SystemExit("--layer must be in [0, num_layers-2]")

	num_layers_before = len(layers)
	layer_a = layers[layer_idx]
	layer_b = layers[layer_idx + 1]

	norm1_state = None
	norm2_state = None
	norm1, norm2, norm_names = get_norm_pair(layer_a)
	if norm1 is not None:
	norm1_state = clone_state_dict(norm1)
	if norm2 is not None:
	norm2_state = clone_state_dict(norm2)

	attn_a = find_attention_module(layer_a)
	attn_b = find_attention_module(layer_b)
	hidden_size = getattr(model.config, "hidden_size", None)
	if hidden_size is None:
	hidden_size = getattr(model.config, "n_embd", None)
	if hidden_size is None:
	raise SystemExit("Model config missing hidden_size/n_embd")

	no_head_permute_merge = bool(
	getattr(args, "no_head_permute_merge", False)
	or getattr(args, "no_head_permute", False)
	)
	if no_head_permute_merge:
	print("[fuse] Head permutation disabled; merging with original head order.")
	else:
	mean_a, mean_b, num_heads, num_kv_heads, head_dim = compute_head_means(
	model,
	attn_a,
	attn_b,
	dataloader,
	args.device,
	hidden_size,
	)

	perm = build_head_permutation(
	mean_a,
	mean_b,
	num_heads=num_heads,
	num_kv_heads=num_kv_heads,
	eps=args.eps,
	)
	permute_attention_heads(
	attn_b, perm, num_heads, num_kv_heads, head_dim=head_dim
	)

	fisher_sums, num_batches, param_numels = compute_fisher(
	model,
	layer_a,
	layer_b,
	dataloader,
	fisher_mode=args.fisher_mode,
	device=args.device,
	)

	distill_ready = has_post_fusion_data(
	prepared.distill_loader, prepared.distill_meta
	)
	teacher_cycle = cycle_idx - 1
	teacher_source = "previous_cycle" if teacher_cycle > 0 else "base_model"

	merge_method = "fisher"
	distill_method = str(getattr(args, "distill_method", "reparam"))
	reparam_stats: Optional[Dict[str, object]] = None
	reparam_gate_summary: Optional[Dict[str, object]] = None

	needs_teacher_for_reparam = (
	(not args.skip_distill)
	and distill_ready
	and float(args.distill_epochs) > 0.0
	)
	teacher_model = None
	teacher_parent = None
	teacher_layer_attr = None
	teacher_layers: Optional[List[torch.nn.Module]] = None
	teacher_from_cache = False
	if needs_teacher_for_reparam:
	teacher_model, teacher_source, teacher_cycle = _get_previous_cycle_teacher(
	cycle_idx
	)
	teacher_from_cache = (
	teacher_source == "previous_cycle_memory"
	and teacher_model is previous_cycle_teacher_model
	)
	if teacher_model is None:
	teacher_model = load_causal_lm(
	getattr(args, "base_model_id", args.model),
	torch_dtype=get_dtype(args.dtype),
	trust_remote_code=args.trust_remote_code,
	cache_dir=args.model_cache_dir,
	)
	teacher_model.to(teacher_device)
	teacher_model.eval()
	teacher_source = "base_model"
	teacher_cycle = 0
	teacher_parent, teacher_layer_attr, teacher_container = find_layer_container(
	teacher_model, args.layer_path
	)
	teacher_layers = list(teacher_container)

	do_reparam = (
	(not args.skip_distill)
	and distill_ready
	and prepared.distill_loader is not None
	)
	if (not args.skip_distill) and not do_reparam:
	print("[reparam] No distillation sequences built; skipping reparam distill.")
	distill_post_eval = None
	if do_reparam:
	lambda_source = "fisher_prior"
	reparam_gate_targets: Dict[str, object] = compute_fisher_gate_priors(
	layer_a=layer_a,
	layer_b=layer_b,
	fisher_a=fisher_sums[0],
	fisher_b=fisher_sums[1],
	num_batches=num_batches,
	numels_a=param_numels[0],
	numels_b=param_numels[1],
	fisher_mode=args.fisher_mode,
	eps=float(args.eps),
	)
	if not reparam_gate_targets:
	raise SystemExit("[reparam] No mergeable parameters found; cannot continue.")
	if float(args.distill_epochs) > 0.0 and (
	teacher_model is None or teacher_layers is None
	):
	raise SystemExit("--distill_method reparam requires a teacher model.")
	print(
	f"[reparam] Cycle {cycle_idx}: training U + gates for pair "
	f"{layer_idx}-{layer_idx + 1} (epochs={args.distill_epochs}, "
	f"hidden_mse_w={args.distill_hidden_mse_weight}, "
	f"attn_mse_w={args.distill_attn_mse_weight}, "
	f"mlp_mse_w={args.distill_mlp_mse_weight}, "
	f"eta={args.reparam_eta}, gamma={args.reparam_gamma}, "
	f"attn_reg_scale={args.reparam_attn_reg_scale}, "
	f"mlp_reg_scale={args.reparam_mlp_reg_scale}, "
	f"param_subset={args.reparam_param_subset}, "
	f"lambda_init={lambda_source})."
	)
	merged, final_gates, reparam_stats = distill_reparam_merge(
	student_model=model,
	student_parent=parent,
	student_layer_attr=name,
	student_layers=layers,
	teacher_model=teacher_model,
	teacher_parent=teacher_parent,
	teacher_layer_attr=teacher_layer_attr,
	teacher_layers=teacher_layers,
	layer_idx=layer_idx,
	gate_lambdas=reparam_gate_targets,
	dataloader=prepared.distill_loader,
	args=args,
	progressive_cycle=cycle_idx,
	progressive_total=args.num_progressive,
	)
	reparam_gate_summary = summarize_gate_lambdas(final_gates)
	merge_method = "reparam"
	if reparam_stats is not None:
	reparam_stats["lambda_init"] = lambda_source
	else:
	merged = merge_layers(
	layer_a,
	layer_b,
	fisher_sums[0],
	fisher_sums[1],
	num_batches,
	param_numels[0],
	param_numels[1],
	fisher_mode=args.fisher_mode,
	eps=args.eps,
	)

	apply_norm_policy(
	layer_a,
	args.norm_policy,
	norm1_state,
	norm2_state,
	norm_names,
	)
	if teacher_model is not None and not teacher_from_cache:
	del teacher_model
	teacher_model = None
	teacher_parent = None
	teacher_layer_attr = None
	teacher_layers = None
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	new_container = drop_layer(container, layer_idx + 1)
	setattr(parent, name, new_container)
	decrement_config(model.config)
	layers = list(new_container)

	lora_post_eval = None
	if (not args.skip_eval) and (not args.skip_distill) and do_reparam:
	distill_post_eval = evaluate_ppl_model(
	model,
	tokenizer,
	eval_datasets,
	eval_configs,
	args,
	prepared_eval_dataloaders=prepared.eval_dataloaders,
	)
	print(f"[progressive] Cycle {cycle_idx} post-distill perplexity:")
	for dataset_name, ppl in distill_post_eval.items():
	print(f"{dataset_name}: {ppl:.4f}")

	post_eval = None
	if not args.skip_eval:
	if distill_post_eval is not None:
	post_eval = distill_post_eval
	else:
	post_eval = evaluate_ppl_model(
	model,
	tokenizer,
	eval_datasets,
	eval_configs,
	args,
	prepared_eval_dataloaders=prepared.eval_dataloaders,
	)
	print(f"[progressive] Cycle {cycle_idx} perplexity:")
	for dataset_name, ppl in post_eval.items():
	print(f"{dataset_name}: {ppl:.4f}")

	cycle_dir = os.path.join(args.output_dir, f"cycle_{cycle_idx}")
	os.makedirs(cycle_dir, exist_ok=True)
	fused_layer_file = "fused_layer.pt"
	fused_layer_path = os.path.join(cycle_dir, fused_layer_file)
	torch.save(layers[layer_idx].state_dict(), fused_layer_path)

	cycle_meta: Dict[str, object] = {
	"cycle": cycle_idx,
	"layer_merged": layer_idx,
	"num_layers_before": num_layers_before,
	"num_layers_after": num_layers_before - 1,
	"fused_layer_state": fused_layer_file,
	"dwce_score": dwce_scores[layer_idx] if dwce_scores else None,
	"dwce_scores": dwce_scores,
	"dwce_meta": dwce_meta,
	"fisher_num_batches": num_batches,
	"merge_method": merge_method,
	"merged_params": merged,
	"num_sequences": num_sequences,
	"teacher_source": teacher_source,
	"teacher_cycle": teacher_cycle,
	"eval": {
	"datasets": eval_datasets,
	"configs": eval_configs,
	"split": args.eval_split,
	"num_samples": args.eval_num_samples,
	"seq_len": args.eval_seq_len,
	"post_ppl": post_eval,
	},
	"comm": comm_stats,
	"distill": {
	"enabled": not args.skip_distill,
	"method": distill_method,
	"calib_samples": args.distill_calib_samples,
	"inst_samples": args.distill_inst_samples,
	"seq_len": args.distill_seq_len,
	"batch_size": args.distill_batch_size,
	"epochs": args.distill_epochs,
	"lr": args.distill_lr,
	"kl_weight": args.distill_kl_weight,
	"kl_temp": args.distill_kl_temp,
	"hidden_mse_weight": args.distill_hidden_mse_weight,
	"attn_mse_weight": args.distill_attn_mse_weight,
	"mlp_mse_weight": args.distill_mlp_mse_weight,
	"reparam_eta": args.reparam_eta,
	"reparam_gamma": args.reparam_gamma,
	"reparam_attn_reg_scale": args.reparam_attn_reg_scale,
	"reparam_mlp_reg_scale": args.reparam_mlp_reg_scale,
	"reparam_param_subset": args.reparam_param_subset,
	"reparam_stats": reparam_stats,
	"reparam_gate_summary": reparam_gate_summary,
	"post_ppl": distill_post_eval,
	"weight_decay": args.distill_weight_decay,
	"max_grad_norm": args.distill_max_grad_norm,
	"grad_accum_steps": args.distill_grad_accum_steps,
	"instruction_dataset": args.instruction_dataset,
	"instruction_config": args.instruction_config,
	"instruction_split": args.instruction_split,
	},
	"lora": {
	"enabled": args.lora_epochs > 0,
	"seq_len": args.distill_seq_len,
	"batch_size": args.distill_batch_size,
	"epochs": args.lora_epochs,
	"rank": args.lora_rank,
	"alpha": args.lora_alpha,
	"dropout": args.lora_dropout,
	"target_modules": args.lora_target_modules,
	"respect_exclude_pairs": args.lora_respect_exclude_pairs,
	"kl_enabled": args.lora_kl_enabled,
	"kl_weight": args.lora_kl_weight,
	"kl_temp": args.lora_kl_temp,
	"post_ppl": lora_post_eval,
	"lr": args.lora_lr,
	"weight_decay": args.lora_weight_decay,
	"max_grad_norm": args.lora_max_grad_norm,
	"grad_accum_steps": args.lora_grad_accum_steps,
	"log_steps": args.lora_log_steps,
	"eval_every": args.lora_eval_every,
	"eval_max_batches": args.lora_eval_max_batches,
	},
	"norm_policy": args.norm_policy,
	}

	saved_full_model_dir = None
	if cycle_idx in args.full_model_save_cycles:
	cycle_meta["full_model_saved"] = True
	cycle_meta["full_model"] = save_cycle_full_model(
	model=model,
	tokenizer=tokenizer,
	cycle_dir=cycle_dir,
	cycle_idx=cycle_idx,
	args=args,
	ppl_results=post_eval,
	)
	saved_full_model_dir = os.path.join(cycle_dir, "full_model")
	else:
	cycle_meta["full_model_saved"] = False

	with open(
	os.path.join(cycle_dir, "cycle_metadata.json"),
	"w",
	encoding="utf-8",
	) as handle:
	json.dump(cycle_meta, handle, indent=2)

	cycle_summaries.append(
	{
	"cycle": cycle_idx,
	"layer_merged": layer_idx,
	"dwce_score": dwce_scores[layer_idx] if dwce_scores else None,
	"comm_post_ppl": comm_post_eval,
	"distill_post_ppl": distill_post_eval,
	"lora_post_ppl": lora_post_eval,
	"post_ppl": post_eval,
	"cycle_dir": f"cycle_{cycle_idx}",
	}
	)

	last_fused_idx = layer_idx
	_snapshot_previous_cycle_teacher(cycle_idx)

	parent, name, container = find_layer_container(model, args.layer_path)
	layers = list(container)
	if dwce_scores:
	dwce_scores = dwce_scores[: max(len(layers) - 1, 0)]

	# Encourage allocator to release cached blocks between cycles.
	if torch.cuda.is_available():
	torch.cuda.empty_cache()
	torch.cuda.ipc_collect()
	gc.collect()

	if saved_full_model_dir is not None:
	save_rng_state(os.path.join(saved_full_model_dir, "rng_state.pt"))
	save_loader_generator_state(
	saved_full_model_dir,
	distill_generator=prepared.distill_generator,
	lora_generator=prepared.lora_generator,
	)

	_release_comm_teacher()
	_release_previous_cycle_teacher()

	final_pre_lora_eval = cycle_summaries[-1]["post_ppl"] if cycle_summaries else None
	final_pre_lora_dir = f"{os.path.abspath(args.output_dir.rstrip(os.sep))}_final_pre_lora_hf"
	final_pre_lora_meta = save_stage_checkpoint(
	model=model,
	tokenizer=tokenizer,
	stage_dir=final_pre_lora_dir,
	stage_name="final_pre_lora",
	ppl_results=final_pre_lora_eval,
	)

	# Optional final LoRA finetune after all pruning cycles.
	lora_eval_history: List[Dict[str, object]] = []
	lora_post_eval = None
	lora_ready = has_post_fusion_data(prepared.lora_loader, prepared.lora_meta)
	if args.lora_epochs > 0:
	if not lora_ready:
	print("No post-fusion sequences built; skipping LoRA finetuning.")
	else:
	print(
	f"[progressive] Running final LoRA finetuning (epochs={args.lora_epochs})."
	)
	lora_eval_history = run_lora_phase(
	model=model,
	tokenizer=tokenizer,
	eval_datasets=eval_datasets,
	eval_configs=eval_configs,
	args=args,
	lora_loader=prepared.lora_loader,
	lora_meta=prepared.lora_meta,
	eval_dataloaders=prepared.eval_dataloaders,
	cycle_idx=args.num_progressive,
	num_cycles=args.num_progressive,
	)

	if not args.skip_eval:
	lora_post_eval = evaluate_ppl_model(
	model,
	tokenizer,
	eval_datasets,
	eval_configs,
	args,
	prepared_eval_dataloaders=prepared.eval_dataloaders,
	)
	print("[progressive] Post-LoRA perplexity:")
	for dataset_name, ppl in lora_post_eval.items():
	print(f"{dataset_name}: {ppl:.4f}")

	# Update final cycle metadata and summary with the post-LoRA PPL.
	if cycle_summaries:
	cycle_summaries[-1]["lora_post_ppl"] = lora_post_eval
	if lora_post_eval is not None:
	cycle_summaries[-1]["post_ppl"] = lora_post_eval

	final_cycle_dir = os.path.join(
	args.output_dir, f"cycle_{args.num_progressive}"
	)
	final_cycle_meta_path = os.path.join(final_cycle_dir, "cycle_metadata.json")
	if os.path.exists(final_cycle_meta_path):
	with open(final_cycle_meta_path, "r", encoding="utf-8") as handle:
	final_cycle_meta = json.load(handle)

	lora_meta_entry = final_cycle_meta.get("lora")
	if not isinstance(lora_meta_entry, dict):
	lora_meta_entry = {}
	final_cycle_meta["lora"] = lora_meta_entry
	lora_meta_entry["ran"] = True
	lora_meta_entry["post_ppl"] = lora_post_eval
	if lora_post_eval is not None and isinstance(
	final_cycle_meta.get("eval"), dict
	):
	final_cycle_meta["eval"]["post_ppl"] = lora_post_eval

	if lora_eval_history:
	lora_path = os.path.join(final_cycle_dir, "ppl_over_lora.json")
	with open(lora_path, "w", encoding="utf-8") as handle:
	json.dump(lora_eval_history, handle, indent=2)
	lora_meta_entry["ppl_over_lora"] = "ppl_over_lora.json"

	with open(final_cycle_meta_path, "w", encoding="utf-8") as handle:
	json.dump(final_cycle_meta, handle, indent=2)

	os.makedirs(args.output_dir, exist_ok=True)
	final_post_lora_meta = save_stage_checkpoint(
	model=model,
	tokenizer=tokenizer,
	stage_dir=args.output_dir,
	stage_name="final_post_lora" if lora_post_eval is not None else "final_model",
	ppl_results=lora_post_eval,
	)

	progressive_meta = {
	"base_model": getattr(args, "base_model_id", args.model),
	"num_progressive": args.num_progressive,
	"layer_path": args.layer_path,
	"resume_from_cycle": args.resume_from_cycle,
	"save_full_model_cycles": sorted(args.full_model_save_cycles),
	"num_sequences": num_sequences,
	"seq_len": args.seq_len,
	"lora": {
	"enabled": args.lora_epochs > 0,
	"ran": args.lora_epochs > 0 and lora_ready,
	"seq_len": args.distill_seq_len,
	"batch_size": args.distill_batch_size,
	"epochs": args.lora_epochs,
	"rank": args.lora_rank,
	"alpha": args.lora_alpha,
	"dropout": args.lora_dropout,
	"target_modules": args.lora_target_modules,
	"respect_exclude_pairs": args.lora_respect_exclude_pairs,
	"kl_enabled": args.lora_kl_enabled,
	"kl_weight": args.lora_kl_weight,
	"kl_temp": args.lora_kl_temp,
	"post_ppl": lora_post_eval,
	"ppl_over_lora": (
	f"cycle_{args.num_progressive}/ppl_over_lora.json"
	if lora_eval_history
	else None
	),
	"lr": args.lora_lr,
	"weight_decay": args.lora_weight_decay,
	"max_grad_norm": args.lora_max_grad_norm,
	"grad_accum_steps": args.lora_grad_accum_steps,
	"log_steps": args.lora_log_steps,
	"eval_every": args.lora_eval_every,
	"eval_max_batches": args.lora_eval_max_batches,
	},
	"artifacts": {
	"final_pre_lora": final_pre_lora_meta,
	"final_post_lora": final_post_lora_meta,
	},
	"eval": {
	"datasets": eval_datasets,
	"configs": eval_configs,
	"split": args.eval_split,
	"num_samples": args.eval_num_samples,
	"seq_len": args.eval_seq_len,
	"pre_ppl": pre_eval,
	"post_ppl": cycle_summaries[-1]["post_ppl"] if cycle_summaries else None,
	},
	"cycles": cycle_summaries,
	"final_num_layers": len(layers),
	}

	with open(
	os.path.join(args.output_dir, "progressive_metadata.json"),
	"w",
	encoding="utf-8",
	) as handle:
	json.dump(progressive_meta, handle, indent=2)

	print(
	f"[progressive] Completed {args.num_progressive} cycles. "
	f"Final model saved to {args.output_dir}."
	)


	def main() -> None:
	args = parse_args()
	if args.num_progressive <= 0:
	raise SystemExit(
	"Single-cycle mode has been removed. Pass --num_progressive > 0."
	)
	if args.resume_from_cycle < 0:
	raise SystemExit("--resume_from_cycle must be >= 0.")
	if args.resume_from_cycle >= args.num_progressive:
	raise SystemExit("--resume_from_cycle must be smaller than --num_progressive.")
	args.full_model_save_cycles = resolve_full_model_save_cycles(
	parse_cycle_list(args.save_full_model_cycles),
	args.num_progressive,
	)
	args.base_model_id = args.model
	if args.resume_from_cycle > 0:
	resume_meta = load_resume_metadata(args.model)
	if resume_meta is None:
	raise SystemExit(
	"--resume_from_cycle requires --model to point to a saved cycle full model "
	"directory containing resume_info.json."
	)
	resume_cycle = resume_meta.get("cycle")
	if resume_cycle is not None and int(resume_cycle) != args.resume_from_cycle:
	raise SystemExit(
	"resume_info.json cycle does not match --resume_from_cycle."
	)
	base_model = resume_meta.get("base_model")
	if isinstance(base_model, str) and base_model:
	args.base_model_id = base_model
	configure_reproducibility(args.seed)

	eval_datasets, eval_configs = resolve_eval_datasets(args)
	dtype = get_dtype(args.dtype)
	model = load_causal_lm(
	args.model,
	torch_dtype=dtype,
	trust_remote_code=args.trust_remote_code,
	cache_dir=args.model_cache_dir,
	)
	loader_generator_state = None
	if args.resume_from_cycle > 0:
	rng_state_path = os.path.join(args.model, "rng_state.pt")
	rng_state = load_rng_state(rng_state_path)
	if rng_state is not None:
	restore_rng_state(rng_state)
	loader_generator_state = load_loader_generator_state(args.model)
	tokenizer = AutoTokenizer.from_pretrained(
	args.model,
	trust_remote_code=args.trust_remote_code,
	cache_dir=args.model_cache_dir,
	)
	print(model)
	if tokenizer.pad_token is None and tokenizer.eos_token is not None:
	tokenizer.pad_token = tokenizer.eos_token

	# for llama?
	model.config.use_cache = False

	prepared = prepare_all_data(
	args,
	tokenizer,
	model,
	eval_datasets,
	eval_configs,
	loader_generator_state=loader_generator_state,
	)
	run_progressive(args, model, tokenizer, prepared)


	if __name__ == "__main__":
	main()