Upload 4 files

9987dd2 verified 4 days ago

80.1 kB

	"""
	MicroExperts — Self-organizing dynamic Mixture-of-Experts for continual learning.


	Target hardware: Apple M4 with 48 GB unified memory.
	"""

	import time
	import math
	import uuid
	import json
	import numpy as np
	import mlx.core as mx
	import mlx.nn as nn
	import mlx.optimizers as optim
	from mlx.utils import tree_flatten
	from datasets import load_dataset
	from transformers import PreTrainedTokenizerFast
	import os
	import glob
	import re
	from dataclasses import dataclass, field
	from typing import Dict, List, Optional, Tuple, Any
	from collections import defaultdict



	def one_hot(indices: mx.array, num_classes: int) -> mx.array:

	# Build a range vector [0, 1, ..., num_classes-1] and compare with indices
	flat = indices.reshape(-1) # (K,)
	arange = mx.arange(num_classes) # (num_classes,)
	oh = (flat[:, None] == arange[None, :]).astype(mx.float32) # (K, num_classes)
	return oh.reshape(*indices.shape, num_classes)

	# ==========================================
	# 1. CONFIGURATION
	# ==========================================
	@dataclass
	class ModelArgs:
	dim: int = 768
	n_layers: int = 12
	n_heads: int = 12
	n_kv_heads: int = 12
	vocab_size: int = -1
	norm_eps: float = 1e-8
	max_seq_len: int = 2048
	rope_theta: float = 10000.0


	@dataclass
	class MicroExpertConfig:
	"""All hyperparameters for the MicroExperts MoE system."""
	#tier_hidden_dims: Tuple[int, ...] = (512, 1024, 2048, 4096)
	tier_hidden_dims: Tuple[int, ...] = (256, 512, 1024, 2048)

	monolith_split_enabled: bool = True
	monolith_variance_ema_alpha: float = 0.02
	monolith_variance_z_threshold: float = 1.5

	# Router
	router_embed_dim: int = 128
	min_experts_per_token: int = 1
	max_experts_per_token: int = 64

	# Cannibalization / lifecycle
	ema_fast_alpha: float = 0.05
	ema_slow_alpha: float = 0.005
	split_threshold: float = 2.0
	# Relaxed merge thresholds so merges actually fire
	merge_co_route_threshold: float = 0.5
	merge_weakness_threshold: float = 0.05
	death_threshold: float = 0.001
	min_expert_age: int = 50
	cooldown_steps: int = 100
	# Base freeze duration — actual duration scaled by importance
	preserver_base_freeze_steps: int = 100
	preserver_max_freeze_steps: int = 200
	adapter_noise_scale: float = 0.02


	max_experts_per_layer: int = 12
	max_params_per_layer: int = 20_000_000 # 20 M

	# Initial state
	init_tier: int = 2

	# Interference
	interference_subsample: int = 64

	# Load balance loss
	load_balance_weight: float = 0.01

	# Capacity-pressure merge: trigger when pool exceeds this fraction of budget
	merge_capacity_pressure_frac: float = 0.8
	# Tier-gravity merge: same-tier co-activation threshold (lower than fragment)
	merge_tier_gravity_co_route: float = 0.4
	merge_tier_gravity_min_co_activation: float = 0.3 # both activated > 30 % of tokens


	density_ema_alpha: float = 0.02
	density_spike_z: float = 2.5 # z-score above mean to flag distribution shift


	@dataclass
	class TrainConfig:
	"""Training hyperparameters."""
	mode: str = "pretrain"
	batch_size: int = 8
	learning_rate: float = 3e-4
	max_steps: int = 30_000
	tokenizer_file: str = "gutenberg_tokenizer.json"
	checkpoint_dir: str = "checkpoints_me"
	log_every: int = 10
	summary_every: int = 500
	checkpoint_every: int = 1000
	lifecycle_every: int = 10

	# Active learning
	al_data_dir: str = "./domains"
	al_steps_per_domain: int = 2000
	al_learning_rate: float = 1e-4
	al_lifecycle_every: int = 5
	al_split_threshold: float = 1.5
	al_min_expert_age: int = 100


	# ==========================================
	# 2. EXPERT MODULE
	# ==========================================
	class Expert(nn.Module):
	"""Single MicroExpert: SwiGLU FFN."""

	def __init__(self, model_dim: int, hidden_dim: int):
	super().__init__()
	self.w1 = nn.Linear(model_dim, hidden_dim, bias=False)
	self.w2 = nn.Linear(hidden_dim, model_dim, bias=False)
	self.w3 = nn.Linear(model_dim, hidden_dim, bias=False)

	def __call__(self, x):
	return self.w2(nn.silu(self.w1(x)) * self.w3(x))


	# ==========================================
	# 3. EXPERT METADATA
	# ==========================================
	@dataclass
	class ExpertMeta:
	"""Non-parameter state for one expert."""
	expert_id: str
	tier: int
	hidden_dim: int
	age: int = 0
	cooldown: int = 0
	frozen_steps: int = 0
	ema_interference_fast: float = 0.0
	ema_interference_slow: float = 0.0
	ema_interference_var: float = 1.0
	avg_routing_weight: float = 0.1
	avg_activation_freq: float = 0.1
	parent_id: Optional[str] = None
	generation: int = 0

	def to_dict(self) -> dict:
	return {
	"expert_id": self.expert_id, "tier": self.tier,
	"hidden_dim": self.hidden_dim, "age": self.age,
	"cooldown": self.cooldown, "frozen_steps": self.frozen_steps,
	"ema_fast": self.ema_interference_fast,
	"ema_slow": self.ema_interference_slow,
	"ema_var": self.ema_interference_var,
	"avg_rw": self.avg_routing_weight,
	"avg_af": self.avg_activation_freq,
	"parent_id": self.parent_id, "generation": self.generation,
	}


	# ==========================================
	# 4. EXPERT EMBEDDING (trainable nn.Module)
	# ==========================================
	class ExpertEmbedding(nn.Module):

	def __init__(self, dim: int, init: Optional[mx.array] = None):
	super().__init__()
	if init is not None:
	self.embedding = init
	else:
	scale = 1.0 / math.sqrt(dim)
	self.embedding = mx.random.normal((dim,)) * scale


	# ==========================================
	# 5. ADAPTIVE ROUTER
	# ==========================================
	class AdaptiveRouter(nn.Module):

	def __init__(self, model_dim: int, config: MicroExpertConfig):
	super().__init__()
	self.config = config
	self.d = config.router_embed_dim
	self.proj = nn.Linear(model_dim, self.d, bias=False)
	self.threshold_head = nn.Linear(model_dim, 1, bias=True)

	# Trainable embeddings — list of nn.Module (MLX discovers these)
	self.embeddings: List[ExpertEmbedding] = []
	# Parallel ID list (same order)
	self._emb_ids: List[str] = []

	def _id_to_idx(self, eid: str) -> int:
	return self._emb_ids.index(eid)

	def add_expert(self, expert_id: str, init_embedding: Optional[mx.array] = None):
	emb = ExpertEmbedding(self.d, init=init_embedding)
	mx.eval(emb.parameters())
	self.embeddings.append(emb)
	self._emb_ids.append(expert_id)

	def remove_expert(self, expert_id: str):
	if expert_id not in self._emb_ids:
	return
	idx = self._id_to_idx(expert_id)
	self.embeddings.pop(idx)
	self._emb_ids.pop(idx)

	def get_embedding(self, expert_id: str) -> mx.array:
	return self.embeddings[self._id_to_idx(expert_id)].embedding

	def set_embedding(self, expert_id: str, emb: mx.array):
	self.embeddings[self._id_to_idx(expert_id)].embedding = emb

	def __call__(self, x: mx.array, expert_ids: List[str]):
	"""
	Returns:
	routing_weights: (B, L, N) sparse softmax-normalized
	raw_scores: (B, L, N) cosine similarities
	density: (B, L) active expert count per token
	"""
	B, L, D = x.shape
	N = len(expert_ids)

	if N == 0:
	z = mx.zeros((B, L, 1))
	return z[:, :, :0], z[:, :, :0], mx.zeros((B, L))

	# Project input to routing space and normalize
	h = self.proj(x) # (B, L, d)
	h_norm = h / (mx.linalg.norm(h, axis=-1, keepdims=True) + 1e-8)

	# Stack expert embeddings into matrix
	E = mx.stack([self.embeddings[self._emb_ids.index(eid)].embedding
	for eid in expert_ids], axis=0) # (N, d)
	E_norm = E / (mx.linalg.norm(E, axis=-1, keepdims=True) + 1e-8)

	raw_scores = h_norm @ E_norm.T # (B, L, N)

	# Adaptive per-token threshold
	threshold = mx.sigmoid(self.threshold_head(x)) # (B, L, 1)
	gate_mask = (raw_scores > threshold).astype(mx.float32)

	# Guarantee top-1 always active
	best_idx = mx.argmax(raw_scores, axis=-1) # (B, L)
	best_oh = one_hot(best_idx, N) # (B, L, N)
	gate_mask = mx.maximum(gate_mask, best_oh)

	# Cap maximum active experts
	max_k = self.config.max_experts_per_token
	if max_k < N:
	sorted_idx = mx.argsort(-raw_scores, axis=-1)
	rank = mx.argsort(sorted_idx, axis=-1)
	gate_mask = gate_mask * (rank < max_k).astype(mx.float32)

	# Softmax over active experts
	masked = raw_scores * gate_mask + (1.0 - gate_mask) * (-1e9)
	routing_weights = mx.softmax(masked, axis=-1) * gate_mask

	density = gate_mask.sum(axis=-1)
	return routing_weights, raw_scores, density


	# ==========================================
	# 6. UTILITY: zero a nested grad tree
	# ==========================================
	def _zero_tree(tree):
	"""Recursively zero all mx.arrays in a nested structure."""
	if isinstance(tree, mx.array):
	return mx.zeros_like(tree)
	elif isinstance(tree, dict):
	return {k: _zero_tree(v) for k, v in tree.items()}
	elif isinstance(tree, list):
	return [_zero_tree(v) for v in tree]
	return tree


	# ==========================================
	# 7. MoE LAYER
	# ==========================================
	class MicroExpertsMoELayer(nn.Module):

	def __init__(self, model_dim: int, config: MicroExpertConfig, layer_idx: int):
	super().__init__()
	self.model_dim = model_dim
	self.config = config
	self.layer_idx = layer_idx
	self.router = AdaptiveRouter(model_dim, config)
	self._variance_ema: Dict[str, float] = {}
	self._variance_ema_sq: Dict[str, float] = {}

	# Expert modules — list for MLX parameter discovery
	self.expert_modules: List[Expert] = []
	self._expert_id_list: List[str] = []
	self._expert_meta: Dict[str, ExpertMeta] = {}
	self._lifecycle_log: List[str] = []
	self.global_step: int = 0

	# Cached from forward pass (detached)
	self._last_routing_weights: Optional[mx.array] = None
	self._last_density: Optional[mx.array] = None
	self._last_input: Optional[mx.array] = None
	# FIX: Cache expert outputs to avoid redundant forward in interference
	self._last_expert_outputs: Optional[List[mx.array]] = None

	# Frozen expert tracking
	self._frozen_eids: set = set()

	# FIX: Density drift tracking
	self._density_ema: float = 1.0
	self._density_var: float = 1.0
	self._drift_detected: bool = False

	# Create initial monolith
	self._create_expert(tier=config.init_tier)

	# --- Helpers ---
	@property
	def expert_ids(self) -> List[str]:
	return list(self._expert_id_list)

	def _eid_to_index(self, eid: str) -> int:
	return self._expert_id_list.index(eid)

	def _get_expert(self, eid: str) -> Expert:
	return self.expert_modules[self._eid_to_index(eid)]

	def _tier_to_hidden(self, tier: int) -> int:
	t = min(tier, len(self.config.tier_hidden_dims) - 1)
	return self.config.tier_hidden_dims[t]

	def _expert_param_count(self, tier: int) -> int:
	return 3 * self.model_dim * self._tier_to_hidden(tier)

	def _total_params(self) -> int:
	return sum(self._expert_param_count(m.tier) for m in self._expert_meta.values())

	def _make_id(self) -> str:
	return uuid.uuid4().hex[:12]

	"""
	def _copy_optimizer_state(self, optimizer, parent_idx: int, child_eid: str):
	try:
	layers_state = optimizer.state.get("layers", [])
	if self.layer_idx >= len(layers_state):
	return
	moe_state = layers_state[self.layer_idx].get("moe", {})
	expert_states = moe_state.get("expert_modules", [])
	if parent_idx >= len(expert_states):
	return

	parent_state = expert_states[parent_idx]
	child_idx = self._eid_to_index(child_eid)

	# Grow the list if needed
	while len(expert_states) <= child_idx:
	expert_states.append({})

	# Deep copy the parent state
	import copy
	expert_states[child_idx] = copy.deepcopy(parent_state)
	except (KeyError, IndexError, TypeError):
	pass
	"""
	def _copy_optimizer_state(self, optimizer, parent_idx: int, children_eids: list):
	"""Copy parent's optimizer state to children, then rebuild list."""
	try:
	layers_state = optimizer.state.get("layers", [])
	if self.layer_idx >= len(layers_state):
	return
	moe_state = layers_state[self.layer_idx].get("moe", {})
	expert_states = moe_state.get("expert_modules", [])
	if parent_idx >= len(expert_states):
	return

	import copy
	parent_state = copy.deepcopy(expert_states[parent_idx])

	# Build new list matching current expert_modules order
	new_states = []
	for i, eid in enumerate(self._expert_id_list):
	if eid in children_eids:
	new_states.append(copy.deepcopy(parent_state))
	elif i < len(expert_states):
	new_states.append(expert_states[i])
	else:
	new_states.append({})

	moe_state["expert_modules"] = new_states
	except (KeyError, IndexError, TypeError):
	pass

	# --- Expert creation / removal ---
	def _create_expert(
	self, tier: int,
	parent_id: Optional[str] = None,
	init_weights_from: Optional[Expert] = None,
	noise_scale: float = 0.0,
	frozen_steps: int = 0,
	init_embedding: Optional[mx.array] = None,
	) -> str:
	eid = self._make_id()
	hidden = self._tier_to_hidden(tier)
	expert = Expert(self.model_dim, hidden)

	if init_weights_from is not None:
	src = dict(tree_flatten(init_weights_from.parameters()))
	dst = dict(tree_flatten(expert.parameters()))
	pairs = []
	for k in dst:
	if k in src and src[k].shape == dst[k].shape:
	w = src[k]
	if noise_scale > 0:
	w = w + mx.random.normal(w.shape) * noise_scale * (mx.abs(w).mean() + 1e-8)
	pairs.append((k, w))
	if pairs:
	expert.load_weights(pairs)

	mx.eval(expert.parameters())

	self.expert_modules.append(expert)
	self._expert_id_list.append(eid)

	gen = 0
	if parent_id and parent_id in self._expert_meta:
	gen = self._expert_meta[parent_id].generation + 1

	self._expert_meta[eid] = ExpertMeta(
	expert_id=eid, tier=tier, hidden_dim=hidden,
	frozen_steps=frozen_steps, parent_id=parent_id, generation=gen,
	)
	if frozen_steps > 0:
	self._frozen_eids.add(eid)

	self.router.add_expert(eid, init_embedding=init_embedding)
	return eid

	def _remove_expert(self, eid: str):
	if eid not in self._expert_id_list:
	return
	idx = self._eid_to_index(eid)
	self.expert_modules.pop(idx)
	self._expert_id_list.pop(idx)
	self._expert_meta.pop(eid, None)
	self._frozen_eids.discard(eid)
	self.router.remove_expert(eid)

	# --- Forward ---
	def __call__(self, x: mx.array) -> mx.array:
	B, L, D = x.shape
	N = len(self._expert_id_list)
	if N == 0:
	return mx.zeros_like(x)

	routing_weights, raw_scores, density = self.router(x, self._expert_id_list)

	# Compute and cache individual expert outputs
	expert_outputs = [self.expert_modules[i](x) for i in range(N)]

	output = mx.zeros_like(x)
	for i in range(N):
	w_i = routing_weights[:, :, i:i + 1]
	output = output + w_i * expert_outputs[i]

	# Cache detached copies for interference computation
	self._last_routing_weights = mx.stop_gradient(routing_weights)
	self._last_density = mx.stop_gradient(density)
	self._last_input = mx.stop_gradient(x)
	self._last_expert_outputs = [mx.stop_gradient(eo) for eo in expert_outputs]

	return output

	# --- Load balance loss ---
	def load_balance_loss(self) -> mx.array:
	"""
	Variance of per-expert activation frequency across the last batch.
	Penalizes uneven usage — prevents expert starvation without forcing
	uniform routing (which would defeat specialization).
	"""
	if self._last_routing_weights is None:
	return mx.array(0.0)

	N = self._last_routing_weights.shape[-1]
	if N <= 1:
	return mx.array(0.0)

	# Per-expert fraction of tokens where it's active (weight > 0.01)
	active = (self._last_routing_weights > 0.01).astype(mx.float32)
	freq = active.reshape(-1, N).mean(axis=0)

	return freq.var()

	# --- Frozen gradient zeroing ---
	def zero_frozen_grads(self, expert_grads: Any) -> Any:
	"""Zero gradients for the expert_modules subtree of frozen experts."""
	if not self._frozen_eids or not isinstance(expert_grads, list):
	return expert_grads
	result = []
	for i, g in enumerate(expert_grads):
	eid = self._expert_id_list[i] if i < len(self._expert_id_list) else None
	if eid and eid in self._frozen_eids:
	result.append(_zero_tree(g))
	else:
	result.append(g)
	return result

	def dr(self):
	"""Update density EMA and detect distribution shift spikes."""
	if self._last_density is None:
	return
	cfg = self.config
	current = self._last_density.mean().item()
	alpha = cfg.density_ema_alpha

	# Update EMA of density
	old_ema = self._density_ema
	self._density_ema = (1 - alpha) * self._density_ema + alpha * current
	diff = current - old_ema
	self._density_var = (1 - alpha) * self._density_var + alpha * diff * diff

	# Z-score spike detection
	std = math.sqrt(max(self._density_var, 1e-8))
	z = (current - self._density_ema) / std
	self._drift_detected = z > cfg.density_spike_z

	if self._drift_detected:
	msg = (f"[step {self.global_step}][L{self.layer_idx}] "
	f"DRIFT density={current:.1f} ema={self._density_ema:.1f} z={z:.1f}")
	self._lifecycle_log.append(msg)
	print(msg)

	def compute_interference(self) -> Dict[str, float]:
	if (self._last_routing_weights is None or self._last_input is None
	or self._last_expert_outputs is None):
	return {}

	x = self._last_input
	rw = self._last_routing_weights
	B, L, D = x.shape
	N = len(self._expert_id_list)
	if N == 0:
	return {}

	T = min(self.config.interference_subsample, B * L)
	rw_flat = rw.reshape(-1, N)[:T]

	# Use cached expert outputs instead of re-running forward passes
	expert_outs_flat = [eo.reshape(-1, D)[:T] for eo in self._last_expert_outputs]

	# Combined mixture output on subsample
	combined = mx.zeros((T, D))
	for i in range(N):
	combined = combined + rw_flat[:, i:i + 1] * expert_outs_flat[i]
	combined = mx.stop_gradient(combined)

	interference = {}
	for i in range(N):
	eid = self._expert_id_list[i]
	w_i = rw_flat[:, i]
	e_out = expert_outs_flat[i]
	active = (w_i > 0.01).astype(mx.float32)
	n_active = active.sum().item()
	if n_active < 1.0:
	interference[eid] = 0.0
	continue
	diff_norm = mx.linalg.norm(combined - e_out, axis=-1)
	e_norm = mx.linalg.norm(e_out, axis=-1) + 1e-8
	relative = diff_norm / e_norm
	score = (relative * w_i * active).sum() / (n_active + 1e-8)
	interference[eid] = score.item()

	mx.eval(list(interference.values()))
	return interference

	def _compute_monolith_split_scores(self) -> Dict[str, float]:
	scores = {}
	if self._last_expert_outputs is None or not self.config.monolith_split_enabled:
	return scores
	cfg = self.config
	for i, eid in enumerate(self._expert_id_list):
	if i >= len(self._last_expert_outputs):
	continue
	eo = self._last_expert_outputs[i]
	norms = mx.linalg.norm(eo.reshape(-1, eo.shape[-1]), axis=-1)
	var = norms.var().item()
	alpha = cfg.monolith_variance_ema_alpha
	prev_mean = self._variance_ema.get(eid, var)
	prev_sq = self._variance_ema_sq.get(eid, var * var)
	new_mean = (1 - alpha) * prev_mean + alpha * var
	new_sq = (1 - alpha) * prev_sq + alpha * var * var
	self._variance_ema[eid] = new_mean
	self._variance_ema_sq[eid] = new_sq
	running_std = math.sqrt(max(new_sq - new_mean * new_mean, 1e-8))
	z = (var - new_mean) / running_std
	scores[eid] = z
	return scores

	# --- Lifecycle ---
	def lifecycle_step(self, optimizer=None):

	self.dr()

	interference = self.compute_interference()
	events = []
	all_ids = list(self._expert_id_list) # snapshot before mutations


	monolith_scores = self._compute_monolith_split_scores()
	N = len(all_ids)

	for eid in all_ids:
	meta = self._expert_meta.get(eid)
	if meta is None:
	continue
	meta.age += 1
	if meta.cooldown > 0:
	meta.cooldown -= 1
	if meta.frozen_steps > 0:
	meta.frozen_steps -= 1
	if meta.frozen_steps == 0:
	self._frozen_eids.discard(eid)

	# Routing stats from cached data
	if self._last_routing_weights is not None and eid in self._expert_id_list:
	idx = self._eid_to_index(eid)
	if idx < self._last_routing_weights.shape[-1]:
	w = self._last_routing_weights[:, :, idx]
	meta.avg_routing_weight = (
	0.95 * meta.avg_routing_weight + 0.05 * w.mean().item()
	)
	meta.avg_activation_freq = (
	0.95 * meta.avg_activation_freq
	+ 0.05 * (w > 0.01).astype(mx.float32).mean().item()
	)

	# Interference EMAs
	intf = interference.get(eid, 0.0)
	af = self.config.ema_fast_alpha
	asl = self.config.ema_slow_alpha
	meta.ema_interference_fast = (1 - af) * meta.ema_interference_fast + af * intf
	meta.ema_interference_slow = (1 - asl) * meta.ema_interference_slow + asl * intf
	diff = intf - meta.ema_interference_slow
	meta.ema_interference_var = 0.99 * meta.ema_interference_var + 0.01 * diff * diff

	# Score by cannibalization z-score
	scored = []
	for eid in all_ids:
	meta = self._expert_meta.get(eid)
	if meta is None or eid not in self._expert_id_list:
	continue
	std = math.sqrt(max(meta.ema_interference_var, 1e-8))
	intf_z = (meta.ema_interference_fast - meta.ema_interference_slow) / std
	mono_z = monolith_scores.get(eid, 0.0)
	if N <= 2:
	z = mono_z
	else:
	z = max(intf_z, mono_z)
	scored.append((eid, z, meta))
	scored.sort(key=lambda t: -t[1])

	# FIX: Lower split threshold during detected drift — system should react faster
	effective_split_threshold = self.config.split_threshold
	if self._drift_detected:
	effective_split_threshold *= 0.7 # 30 % more sensitive during drift

	# Split / Death
	touched = set()
	for eid, z_score, meta in scored:
	if eid in touched or eid not in self._expert_id_list:
	continue
	if meta.age < self.config.min_expert_age or meta.cooldown > 0:
	continue
	budget_usage = self._total_params() / self.config.max_params_per_layer
	if budget_usage > 0.7:
	continue

	threshold = self.config.monolith_variance_z_threshold if N <= 2 else effective_split_threshold
	if (z_score > threshold
	and len(self._expert_id_list) < self.config.max_experts_per_layer
	and (self._total_params() + self._expert_param_count(meta.tier)
	< self.config.max_params_per_layer)):
	events.append(self._do_split(eid,optimizer=optimizer))
	touched.add(eid)
	continue

	if (meta.avg_routing_weight < self.config.death_threshold
	and len(self._expert_id_list) > 1):
	events.append(self._do_death(eid, optimizer=optimizer))
	touched.add(eid)
	continue

	events.extend(self._check_merges(touched, optimizer=optimizer))

	for e in events:
	msg = f"[step {self.global_step}][L{self.layer_idx}] {e}"
	self._lifecycle_log.append(msg)
	print(msg)
	return events

	# --- Importance-proportional preserver freeze ---
	def _compute_freeze_steps(self, meta: ExpertMeta) -> int:
	cfg = self.config
	importance = max(0.0, min(1.0, meta.avg_routing_weight * 10.0))
	freeze = int(
	cfg.preserver_base_freeze_steps
	+ importance * (cfg.preserver_max_freeze_steps - cfg.preserver_base_freeze_steps)
	)
	return freeze


	"""
	def _do_split(self, eid: str) -> str:
	meta = self._expert_meta[eid]
	parent = self._get_expert(eid)
	parent_emb = self.router.get_embedding(eid)

	freeze_steps = self._compute_freeze_steps(meta)

	preserver_id = self._create_expert(
	tier=meta.tier, parent_id=eid,
	init_weights_from=parent, noise_scale=0.0,
	frozen_steps=freeze_steps,
	init_embedding=parent_emb,
	)

	adapter_emb = parent_emb + mx.random.normal(parent_emb.shape) * 0.1
	mx.eval(adapter_emb)
	adapter_id = self._create_expert(
	tier=meta.tier, parent_id=eid,
	init_weights_from=parent,
	noise_scale=self.config.adapter_noise_scale,
	frozen_steps=0, init_embedding=adapter_emb,
	)

	self._remove_expert(eid)
	self._expert_meta[preserver_id].cooldown = self.config.cooldown_steps
	self._expert_meta[adapter_id].cooldown = self.config.cooldown_steps

	return (f"SPLIT {eid[:8]} (T{meta.tier}, w={meta.avg_routing_weight:.4f}) -> "
	f"preserver {preserver_id[:8]} (frozen={freeze_steps}) "
	f"+ adapter {adapter_id[:8]}")
	"""
	"""
	def _do_split(self, eid: str, optimizer=None) -> str:
	meta = self._expert_meta[eid]
	parent = self._get_expert(eid)
	parent_emb = self.router.get_embedding(eid)
	parent_idx = self._eid_to_index(eid)


	parent_opt_state = None
	parent_emb_opt_state = None
	if optimizer is not None:
	try:
	import copy
	layers_state = optimizer.state.get("layers", [])
	moe_state = layers_state[self.layer_idx].get("moe", {})
	expert_states = moe_state.get("expert_modules", [])
	if parent_idx < len(expert_states):
	parent_opt_state = copy.deepcopy(expert_states[parent_idx])
	# Save parent router embedding state
	router_state = moe_state.get("router", {})
	emb_states = router_state.get("embeddings", [])
	if parent_idx < len(emb_states):
	parent_emb_opt_state = copy.deepcopy(emb_states[parent_idx])
	except (KeyError, IndexError, TypeError):
	pass


	freeze_steps = self._compute_freeze_steps(meta)

	preserver_id = self._create_expert(
	tier=meta.tier, parent_id=eid,
	init_weights_from=parent, noise_scale=0.0,
	frozen_steps=freeze_steps,
	init_embedding=parent_emb,
	)

	adapter_emb = parent_emb + mx.random.normal(parent_emb.shape) * 0.1
	mx.eval(adapter_emb)
	adapter_id = self._create_expert(
	tier=meta.tier, parent_id=eid,
	init_weights_from=parent,
	noise_scale=self.config.adapter_noise_scale,
	frozen_steps=0, init_embedding=adapter_emb,
	)

	# Copy optimizer state before removing parent

	if optimizer is not None:
	self._copy_optimizer_state(optimizer, parent_idx, preserver_id)
	self._copy_optimizer_state(optimizer, parent_idx, adapter_id)

	self._remove_expert(eid)

	if optimizer is not None and parent_opt_state is not None:
	try:
	import copy
	layers_state = optimizer.state["layers"]
	moe_state = layers_state[self.layer_idx]["moe"]
	old_states = moe_state.get("expert_modules", [])

	new_states = []
	for i, expert_eid in enumerate(self._expert_id_list):
	if expert_eid == preserver_id or expert_eid == adapter_id:
	new_states.append(copy.deepcopy(parent_opt_state))
	elif i < len(old_states):
	new_states.append(old_states[i])
	else:
	new_states.append({})

	moe_state["expert_modules"] = new_states
	except (KeyError, IndexError, TypeError):
	pass



	if optimizer is not None:
	try:
	layers_state = optimizer.state.get("layers", [])
	expert_states = layers_state[self.layer_idx]["moe"]["expert_modules"]
	if parent_idx < len(expert_states):
	expert_states.pop(parent_idx)
	except (KeyError, IndexError, TypeError):
	pass

	self._expert_meta[preserver_id].cooldown = self.config.cooldown_steps
	self._expert_meta[adapter_id].cooldown = self.config.cooldown_steps

	return (f"SPLIT {eid[:8]} (T{meta.tier}, w={meta.avg_routing_weight:.4f}) -> "
	f"preserver {preserver_id[:8]} (frozen={freeze_steps}) "
	f"+ adapter {adapter_id[:8]}")

	"""
	def _do_split(self, eid: str, optimizer=None) -> str:
	meta = self._expert_meta[eid]
	parent = self._get_expert(eid)
	parent_emb = self.router.get_embedding(eid)
	parent_idx = self._eid_to_index(eid)

	parent_opt_state = None
	parent_emb_opt_state = None
	if optimizer is not None:
	try:
	import copy
	layers_state = optimizer.state.get("layers", [])
	moe_state = layers_state[self.layer_idx].get("moe", {})
	expert_states = moe_state.get("expert_modules", [])
	if parent_idx < len(expert_states):
	parent_opt_state = copy.deepcopy(expert_states[parent_idx])
	router_state = moe_state.get("router", {})
	emb_states = router_state.get("embeddings", [])
	if parent_idx < len(emb_states):
	parent_emb_opt_state = copy.deepcopy(emb_states[parent_idx])
	except (KeyError, IndexError, TypeError):
	pass

	freeze_steps = self._compute_freeze_steps(meta)

	preserver_id = self._create_expert(
	tier=meta.tier, parent_id=eid,
	init_weights_from=parent, noise_scale=0.0,
	frozen_steps=freeze_steps,
	init_embedding=parent_emb,
	)

	adapter_emb = parent_emb + mx.random.normal(parent_emb.shape) * 0.1
	mx.eval(adapter_emb)
	adapter_id = self._create_expert(
	tier=meta.tier, parent_id=eid,
	init_weights_from=parent,
	noise_scale=self.config.adapter_noise_scale,
	frozen_steps=0, init_embedding=adapter_emb,
	)

	self._remove_expert(eid)

	if optimizer is not None and parent_opt_state is not None:
	try:
	import copy
	layers_state = optimizer.state["layers"]
	moe_state = layers_state[self.layer_idx]["moe"]
	old_states = moe_state.get("expert_modules", [])

	new_states = []
	for i, expert_eid in enumerate(self._expert_id_list):
	if expert_eid == preserver_id or expert_eid == adapter_id:
	new_states.append(copy.deepcopy(parent_opt_state))
	elif i < len(old_states):
	new_states.append(old_states[i])
	else:
	new_states.append({})
	moe_state["expert_modules"] = new_states

	# Rebuild router embeddings state
	router_state = moe_state.get("router", {})
	old_emb_states = router_state.get("embeddings", [])
	new_emb_states = []
	for i, emb_eid in enumerate(self.router._emb_ids):
	if emb_eid == preserver_id or emb_eid == adapter_id:
	if parent_emb_opt_state is not None:
	new_emb_states.append(copy.deepcopy(parent_emb_opt_state))
	else:
	new_emb_states.append({})
	elif i < len(old_emb_states):
	new_emb_states.append(old_emb_states[i])
	else:
	new_emb_states.append({})
	router_state["embeddings"] = new_emb_states
	except (KeyError, IndexError, TypeError):
	pass

	self._expert_meta[preserver_id].cooldown = self.config.cooldown_steps
	self._expert_meta[adapter_id].cooldown = self.config.cooldown_steps

	return (f"SPLIT {eid[:8]} (T{meta.tier}, w={meta.avg_routing_weight:.4f}) -> "
	f"preserver {preserver_id[:8]} (frozen={freeze_steps}) "
	f"+ adapter {adapter_id[:8]}")

	def _do_death(self, eid: str, optimizer=None) -> str:
	meta = self._expert_meta[eid]
	info = f"DEATH {eid[:8]} (T{meta.tier}, age={meta.age}, w={meta.avg_routing_weight:.4f})"
	self._remove_expert(eid)

	if optimizer is not None:
	try:
	layers_state = optimizer.state.get("layers", [])
	if self.layer_idx < len(layers_state):
	moe_state = layers_state[self.layer_idx].get("moe", {})
	old_states = moe_state.get("expert_modules", [])
	new_states = []
	for i, expert_eid in enumerate(self._expert_id_list):
	if i < len(old_states):
	new_states.append(old_states[i])
	else:
	new_states.append({})
	moe_state["expert_modules"] = new_states

	# Rebuild router embeddings state
	router_state = moe_state.get("router", {})
	old_emb_states = router_state.get("embeddings", [])
	new_emb_states = []
	for i in range(len(self.router._emb_ids)):
	if i < len(old_emb_states):
	new_emb_states.append(old_emb_states[i])
	else:
	new_emb_states.append({})
	router_state["embeddings"] = new_emb_states
	except (KeyError, IndexError, TypeError):
	pass

	return info

	"""
	def _do_death(self, eid: str, optimizer=None) -> str:
	meta = self._expert_meta[eid]
	info = f"DEATH {eid[:8]} (T{meta.tier}, age={meta.age}, w={meta.avg_routing_weight:.4f})"
	self._remove_expert(eid)

	if optimizer is not None:
	try:
	layers_state = optimizer.state.get("layers", [])
	if self.layer_idx < len(layers_state):
	moe_state = layers_state[self.layer_idx].get("moe", {})
	old_states = moe_state.get("expert_modules", [])
	new_states = []
	for i, expert_eid in enumerate(self._expert_id_list):
	if i < len(old_states):
	new_states.append(old_states[i])
	else:
	new_states.append({})
	moe_state["expert_modules"] = new_states
	except (KeyError, IndexError, TypeError):
	pass

	return info

	"""

	def _average_expert_weights(self, expert_a: Expert, expert_b: Expert) -> List[Tuple[str, mx.array]]:
	"""Average the weights of two same-shape experts."""
	src_a = dict(tree_flatten(expert_a.parameters()))
	src_b = dict(tree_flatten(expert_b.parameters()))
	pairs = []
	for k in src_a:
	if k in src_b and src_a[k].shape == src_b[k].shape:
	pairs.append((k, (src_a[k] + src_b[k]) / 2.0))
	return pairs

	def _check_merges(self, touched: set, optimizer=None) -> List[str]:
	events = []
	merged = set()
	ids = list(self._expert_id_list)
	cfg = self.config

	# Pre-compute co-activation matrix from cached routing weights
	co_activation = {}
	if self._last_routing_weights is not None:
	N = self._last_routing_weights.shape[-1]
	active = (self._last_routing_weights > 0.01).astype(mx.float32)
	# (B*L, N) binary activation matrix
	act_flat = active.reshape(-1, N)
	# Per-expert activation freq
	act_freq = act_flat.mean(axis=0) # (N,)
	mx.eval(act_freq)

	def _can_merge(eid):
	return (eid not in merged and eid not in touched
	and eid in self._expert_id_list
	and (meta := self._expert_meta.get(eid)) is not None
	and meta.age >= cfg.min_expert_age
	and meta.cooldown == 0)

	def _do_merge(eid_a, eid_b, meta_a, meta_b, reason: str, optimizer=None) -> Optional[str]:
	"""Execute a merge and return event string, or None if budget exceeded."""
	new_tier = min(meta_a.tier + 1, len(cfg.tier_hidden_dims) - 1)
	cost = self._expert_param_count(new_tier)
	freed = (self._expert_param_count(meta_a.tier)
	+ self._expert_param_count(meta_b.tier))
	if self._total_params() - freed + cost > cfg.max_params_per_layer:
	return None

	emb_a = self.router.get_embedding(eid_a)
	emb_b = self.router.get_embedding(eid_b)
	avg_emb = (emb_a + emb_b) / 2.0
	mx.eval(avg_emb)

	if new_tier == meta_a.tier:

	merged_expert_id = self._create_expert(
	tier=new_tier, parent_id=eid_a,
	init_weights_from=self._get_expert(eid_a),
	init_embedding=avg_emb,
	)
	# Overwrite with averaged weights
	avg_weights = self._average_expert_weights(
	self._get_expert(eid_a), self._get_expert(eid_b))
	if avg_weights:
	self._get_expert(merged_expert_id).load_weights(avg_weights)
	mx.eval(self._get_expert(merged_expert_id).parameters())
	else:
	# Tier-up merge: different hidden dim, can't average weights
	merged_expert_id = self._create_expert(
	tier=new_tier, parent_id=eid_a,
	init_embedding=avg_emb,
	)

	self._expert_meta[merged_expert_id].cooldown = cfg.cooldown_steps
	self._remove_expert(eid_a)
	self._remove_expert(eid_b)
	merged.add(eid_a)
	merged.add(eid_b)
	"""
	if optimizer is not None:
	try:
	layers_state = optimizer.state.get("layers", [])
	if self.layer_idx < len(layers_state):
	moe_state = layers_state[self.layer_idx].get("moe", {})
	old_states = moe_state.get("expert_modules", [])
	new_states = []
	for i, expert_eid in enumerate(self._expert_id_list):
	if expert_eid == merged_expert_id:
	new_states.append({}) # fresh state, no momentum to copy
	elif i < len(old_states):
	new_states.append(old_states[i])
	else:
	new_states.append({})
	moe_state["expert_modules"] = new_states
	except (KeyError, IndexError, TypeError):
	pass
	"""

	if optimizer is not None:
	try:
	layers_state = optimizer.state.get("layers", [])
	if self.layer_idx < len(layers_state):
	moe_state = layers_state[self.layer_idx].get("moe", {})

	# Rebuild expert_modules state
	old_states = moe_state.get("expert_modules", [])
	new_states = []
	for i, expert_eid in enumerate(self._expert_id_list):
	if expert_eid == merged_expert_id:
	new_states.append({})
	elif i < len(old_states):
	new_states.append(old_states[i])
	else:
	new_states.append({})
	moe_state["expert_modules"] = new_states

	# Rebuild router embeddings state
	router_state = moe_state.get("router", {})
	old_emb_states = router_state.get("embeddings", [])
	new_emb_states = []
	for i in range(len(self.router._emb_ids)):
	if i < len(old_emb_states):
	new_emb_states.append(old_emb_states[i])
	else:
	new_emb_states.append({})
	router_state["embeddings"] = new_emb_states
	except (KeyError, IndexError, TypeError):
	pass

	return (f"MERGE({reason}) {eid_a[:8]}+{eid_b[:8]} (T{meta_a.tier}) "
	f"-> {merged_expert_id[:8]} (T{new_tier})")

	# --- Force 1: Fragment merge (original: co-route + both weak) ---
	for i, eid_a in enumerate(ids):
	if not _can_merge(eid_a):
	continue
	meta_a = self._expert_meta[eid_a]

	for j in range(i + 1, len(ids)):
	eid_b = ids[j]
	if not _can_merge(eid_b):
	continue
	meta_b = self._expert_meta[eid_b]
	if meta_a.tier != meta_b.tier:
	continue

	emb_a = self.router.get_embedding(eid_a)
	emb_b = self.router.get_embedding(eid_b)
	cos = ((emb_a * emb_b).sum()
	/ (mx.linalg.norm(emb_a) * mx.linalg.norm(emb_b) + 1e-8))

	both_weak = (meta_a.avg_routing_weight < cfg.merge_weakness_threshold
	and meta_b.avg_routing_weight < cfg.merge_weakness_threshold)

	if cos.item() > cfg.merge_co_route_threshold and both_weak:
	result = _do_merge(eid_a, eid_b, meta_a, meta_b, "fragment", optimizer=optimizer)
	if result:
	events.append(result)
	break

	# --- Force 2: Capacity-pressure merge ---
	budget_frac = self._total_params() / cfg.max_params_per_layer
	if budget_frac > cfg.merge_capacity_pressure_frac:
	# Find weakest same-tier pair with highest cosine similarity
	candidates = []
	for i, eid_a in enumerate(ids):
	if not _can_merge(eid_a):
	continue
	meta_a = self._expert_meta.get(eid_a)
	if meta_a is None:
	continue
	for j in range(i + 1, len(ids)):
	eid_b = ids[j]
	if not _can_merge(eid_b):
	continue
	meta_b = self._expert_meta.get(eid_b)
	if meta_b is None or meta_a.tier != meta_b.tier:
	continue
	emb_a = self.router.get_embedding(eid_a)
	emb_b = self.router.get_embedding(eid_b)
	cos = ((emb_a * emb_b).sum()
	/ (mx.linalg.norm(emb_a) * mx.linalg.norm(emb_b) + 1e-8))
	combined_w = meta_a.avg_routing_weight + meta_b.avg_routing_weight
	# Score: high cosine + low combined weight = best merge candidate
	score = cos.item() - combined_w
	candidates.append((score, eid_a, eid_b, meta_a, meta_b))

	candidates.sort(key=lambda t: -t[0])
	for score, eid_a, eid_b, meta_a, meta_b in candidates:
	if not _can_merge(eid_a) or not _can_merge(eid_b):
	continue
	result = _do_merge(eid_a, eid_b, meta_a, meta_b, "capacity",optimizer=optimizer)
	if result:
	events.append(result)
	# Only do one capacity merge per lifecycle step to avoid cascades
	break

	# --- Force 3: Tier-gravity merge (same-tier co-activate frequently) ---
	if self._last_routing_weights is not None:
	N = self._last_routing_weights.shape[-1]
	act_flat = (self._last_routing_weights > 0.01).astype(mx.float32).reshape(-1, N)
	total_tokens = act_flat.shape[0]

	for i, eid_a in enumerate(ids):
	if not _can_merge(eid_a):
	continue
	meta_a = self._expert_meta.get(eid_a)
	if meta_a is None:
	continue
	idx_a = self._eid_to_index(eid_a) if eid_a in self._expert_id_list else None
	if idx_a is None or idx_a >= N:
	continue

	for j in range(i + 1, len(ids)):
	eid_b = ids[j]
	if not _can_merge(eid_b):
	continue
	meta_b = self._expert_meta.get(eid_b)
	if meta_b is None or meta_a.tier != meta_b.tier:
	continue
	idx_b = self._eid_to_index(eid_b) if eid_b in self._expert_id_list else None
	if idx_b is None or idx_b >= N:
	continue

	# Co-activation: fraction of tokens where both are active
	both_active = (act_flat[:, idx_a] * act_flat[:, idx_b]).mean().item()

	emb_a = self.router.get_embedding(eid_a)
	emb_b = self.router.get_embedding(eid_b)
	cos = ((emb_a * emb_b).sum()
	/ (mx.linalg.norm(emb_a) * mx.linalg.norm(emb_b) + 1e-8))

	if (both_active > cfg.merge_tier_gravity_min_co_activation
	and cos.item() > cfg.merge_tier_gravity_co_route):
	result = _do_merge(eid_a, eid_b, meta_a, meta_b, "tier-gravity", optimizer=optimizer)
	if result:
	events.append(result)
	break

	return events


	# ==========================================
	# 8. MODEL COMPONENTS
	# ==========================================
	class RMSNorm(nn.Module):
	def __init__(self, dims: int, eps: float = 1e-5):
	super().__init__()
	self.weight = mx.ones((dims,))
	self.eps = eps

	def __call__(self, x):
	return mx.fast.rms_norm(x, self.weight, self.eps)


	class Attention(nn.Module):
	def __init__(self, args: ModelArgs):
	super().__init__()
	self.n_heads = args.n_heads
	self.n_kv_heads = args.n_kv_heads
	self.head_dim = args.dim // args.n_heads
	self.scale = self.head_dim ** -0.5
	self.wq = nn.Linear(args.dim, args.n_heads * self.head_dim, bias=False)
	self.wk = nn.Linear(args.dim, args.n_kv_heads * self.head_dim, bias=False)
	self.wv = nn.Linear(args.dim, args.n_kv_heads * self.head_dim, bias=False)
	self.wo = nn.Linear(args.n_heads * self.head_dim, args.dim, bias=False)
	self.rope = nn.RoPE(self.head_dim, traditional=False, base=args.rope_theta)

	def __call__(self, x, mask=None):
	B, L, D = x.shape
	queries, keys, values = self.wq(x), self.wk(x), self.wv(x)
	queries = queries.reshape(B, L, self.n_heads, -1).transpose(0, 2, 1, 3)
	keys = keys.reshape(B, L, self.n_kv_heads, -1).transpose(0, 2, 1, 3)
	values = values.reshape(B, L, self.n_kv_heads, -1).transpose(0, 2, 1, 3)
	queries = self.rope(queries)
	keys = self.rope(keys)
	output = mx.fast.scaled_dot_product_attention(
	queries, keys, values, scale=self.scale, mask=mask)
	return self.wo(output.transpose(0, 2, 1, 3).reshape(B, L, -1))


	class MicroExpertsBlock(nn.Module):
	def __init__(self, args: ModelArgs, me_config: MicroExpertConfig, layer_idx: int):
	super().__init__()
	self.attention = Attention(args)
	self.moe = MicroExpertsMoELayer(args.dim, me_config, layer_idx)
	self.attention_norm = RMSNorm(args.dim, eps=args.norm_eps)
	self.ffn_norm = RMSNorm(args.dim, eps=args.norm_eps)

	def __call__(self, x, mask=None):
	h = x + self.attention(self.attention_norm(x), mask)
	return h + self.moe(self.ffn_norm(h))


	class MicroExpertsModel(nn.Module):
	def __init__(self, args: ModelArgs, me_config: MicroExpertConfig):
	super().__init__()
	self.args = args
	self.me_config = me_config
	self.tok_embeddings = nn.Embedding(args.vocab_size, args.dim)
	self.layers = [
	MicroExpertsBlock(args, me_config, layer_idx=i)
	for i in range(args.n_layers)
	]
	self.norm = RMSNorm(args.dim, eps=args.norm_eps)
	self.output = nn.Linear(args.dim, args.vocab_size, bias=False)

	def __call__(self, x):
	L = x.shape[1]
	mask = nn.MultiHeadAttention.create_additive_causal_mask(L).astype(mx.float32)
	mask = mask[None, None, :, :]
	h = self.tok_embeddings(x)
	for layer in self.layers:
	h = layer(h, mask)
	return self.output(self.norm(h))

	def set_global_step(self, step: int):
	for layer in self.layers:
	layer.moe.global_step = step

	def run_lifecycle(self, optimizer=None):
	all_events = []
	for layer in self.layers:
	all_events.extend(layer.moe.lifecycle_step(optimizer=optimizer))
	return all_events

	def total_load_balance_loss(self) -> mx.array:
	"""Sum of per-layer activation frequency variance."""
	lb = mx.array(0.0)
	for layer in self.layers:
	lb = lb + layer.moe.load_balance_loss()
	return lb

	def zero_frozen_grads(self, grads):
	"""Walk gradient tree, zero frozen expert parameters."""
	if not isinstance(grads, dict) or "layers" not in grads:
	return grads
	new_layers = []
	for i, lg in enumerate(grads["layers"]):
	if (isinstance(lg, dict) and "moe" in lg
	and isinstance(lg["moe"], dict)
	and "expert_modules" in lg["moe"]):
	moe = self.layers[i].moe
	fixed = moe.zero_frozen_grads(lg["moe"]["expert_modules"])
	new_moe = dict(lg["moe"])
	new_moe["expert_modules"] = fixed
	new_lg = dict(lg)
	new_lg["moe"] = new_moe
	new_layers.append(new_lg)
	else:
	new_layers.append(lg)
	new_grads = dict(grads)
	new_grads["layers"] = new_layers
	return new_grads

	def expert_summary(self) -> str:
	lines = []
	total_e, total_p = 0, 0
	for i, layer in enumerate(self.layers):
	moe = layer.moe
	n = len(moe._expert_id_list)
	p = moe._total_params()
	total_e += n
	total_p += p
	tiers = defaultdict(int)
	for m in moe._expert_meta.values():
	tiers[m.tier] += 1
	ts = " ".join(f"T{t}:{c}" for t, c in sorted(tiers.items()))
	frozen = sum(1 for eid in moe._expert_id_list if eid in moe._frozen_eids)
	drift = " DRIFT" if moe._drift_detected else ""
	lines.append(
	f" L{i:2d}: {n:3d} experts ({ts}) \| {p/1e6:.1f}M \| "
	f"{frozen} frozen \| d={moe._density_ema:.1f}{drift}")
	lines.append(f" TOTAL: {total_e} experts \| {total_p/1e6:.1f}M MoE params")
	return "\n".join(lines)

	def save_meta(self, path: str):
	data = {}
	for i, layer in enumerate(self.layers):
	moe = layer.moe
	data[f"layer_{i}"] = {
	"expert_ids": list(moe._expert_id_list),
	"experts": {eid: m.to_dict() for eid, m in moe._expert_meta.items()},
	"density_ema": moe._density_ema,
	}
	with open(path, "w") as f:
	json.dump(data, f, indent=2)


	# ==========================================
	# 9. DATA STREAMS
	# ==========================================
	def stream_gutenberg(tokenizer, batch_size: int, seq_len: int):
	print("Connecting to Gutenberg stream...")
	dataset = load_dataset("teknium/OpenHermes-2.5", split="train", streaming=True,)
	dataset_iter = iter(dataset)
	buffers = [[] for _ in range(batch_size)]
	while True:
	for i in range(batch_size):
	while len(buffers[i]) < seq_len + 1:
	try:
	row = next(dataset_iter)
	except StopIteration:
	dataset_iter = iter(dataset)
	row = next(dataset_iter)
	text = row.get("conversations", "")
	if isinstance(text, list):
	parts = []
	for msg in text:
	role = msg.get("from", "")
	content = msg.get("value", [])
	if isinstance(content, str):
	parts.append(f"{role}\n{content}")
	text = "\n".join(parts)
	#
	if not text or len(text) < 10:
	continue
	buffers[i].extend(tokenizer.encode(text))
	batch = []
	for i in range(batch_size):
	batch.append(buffers[i][:seq_len + 1])
	buffers[i] = buffers[i][seq_len:]
	yield mx.array(batch, dtype=mx.int32)


	def stream_domain_files(tokenizer, data_dir: str, batch_size: int, seq_len: int):
	files = sorted(glob.glob(os.path.join(data_dir, "*.txt")))
	if not files:
	raise FileNotFoundError(f"No .txt files in {data_dir}")
	for fpath in files:
	domain = os.path.splitext(os.path.basename(fpath))[0]
	print(f"\n{'='*60}")
	print(f" ACTIVE LEARNING — Domain: {domain}")
	print(f"{'='*60}")
	with open(fpath, "r", encoding="utf-8", errors="replace") as f:
	text = f.read()
	tokens = tokenizer.encode(text)
	min_tokens = (seq_len + 1) * batch_size
	if len(tokens) < min_tokens:
	print(f" Skipping {domain}: {len(tokens)} tokens < {min_tokens} needed")
	continue

	def batch_gen(toks=tokens, bs=batch_size, sl=seq_len):
	while True:
	buf = list(toks)
	while len(buf) >= bs * (sl + 1):
	batch = []
	for _ in range(bs):
	batch.append(buf[:sl + 1])
	buf = buf[sl:]
	yield mx.array(batch, dtype=mx.int32)

	yield domain, batch_gen()


	# ==========================================
	# 10. LOSS + CHECKPOINT
	# ==========================================
	def loss_fn(model, x):
	"""Cross-entropy + load balance auxiliary loss."""
	logits = model(x)
	ce = nn.losses.cross_entropy(logits[:, :-1, :], x[:, 1:], reduction="mean")
	lb = model.total_load_balance_loss()
	return ce + model.me_config.load_balance_weight * lb

	def load_checkpoint(model, path: str):
	weights = dict(mx.load(path))
	meta_path = path.replace(".npz", ".json")
	with open(meta_path, "r") as f:
	meta = json.load(f)

	for i, layer in enumerate(model.layers):
	moe = layer.moe
	layer_key = f"layer_{i}"
	if layer_key not in meta:
	continue
	layer_meta = meta[layer_key]

	for eid in list(moe._expert_id_list):
	moe._remove_expert(eid)

	for eid in layer_meta["expert_ids"]:
	em = layer_meta["experts"][eid]
	tier = em["tier"]
	hidden = moe._tier_to_hidden(tier)
	expert = Expert(moe.model_dim, hidden)
	mx.eval(expert.parameters())
	moe.expert_modules.append(expert)
	moe._expert_id_list.append(eid)
	moe._expert_meta[eid] = ExpertMeta(
	expert_id=eid, tier=tier, hidden_dim=hidden,
	age=em.get("age", 0),
	cooldown=em.get("cooldown", 0),
	frozen_steps=em.get("frozen_steps", 0),
	ema_interference_fast=em.get("ema_fast", 0.0),
	ema_interference_slow=em.get("ema_slow", 0.0),
	ema_interference_var=em.get("ema_var", 1.0),
	avg_routing_weight=em.get("avg_rw", 0.1),
	avg_activation_freq=em.get("avg_af", 0.1),
	parent_id=em.get("parent_id"),
	generation=em.get("generation", 0),
	)
	if em.get("frozen_steps", 0) > 0:
	moe._frozen_eids.add(eid)
	router_key = f"__router__.{i}.{eid}"
	init_emb = weights.pop(router_key, None)
	moe.router.add_expert(eid, init_embedding=init_emb)

	moe._density_ema = layer_meta.get("density_ema", 1.0)

	remaining = [(k, v) for k, v in weights.items() if not k.startswith("__router__")]
	model.load_weights(remaining, strict=False)
	mx.eval(model.parameters())
	print(f" Loaded checkpoint from {path}")


	def get_latest_checkpoint(checkpoint_dir: str):
	if not os.path.exists(checkpoint_dir):
	return None, 0
	ckpts = sorted(glob.glob(os.path.join(checkpoint_dir, "checkpoint_step_*.npz")))
	if not ckpts:
	return None, 0
	latest = ckpts[-1]
	m = re.search(r"step_(\d+)", latest)
	return latest, int(m.group(1))


	def save_checkpoint(model, step: int, checkpoint_dir: str):
	path = os.path.join(checkpoint_dir, f"checkpoint_step_{step}.npz")

	save_dict = {}

	for k, v in tree_flatten(model.parameters()):
	save_dict[k] = v

	for i, layer in enumerate(model.layers):
	moe = layer.moe
	for j, eid in enumerate(moe.router._emb_ids):
	save_dict[f"__router__.{i}.{eid}"] = moe.router.embeddings[j].embedding

	mx.savez(path, **save_dict)
	model.save_meta(path.replace(".npz", ".json"))
	print(f" Saved checkpoint {path}")


	# ==========================================
	# 11. TRAINING LOOP
	# ==========================================
	def train_loop(model, optimizer, data_iter, tc: TrainConfig,
	start_step=0, max_steps=30000, lifecycle_every=10, label="train"):

	loss_and_grad_fn = nn.value_and_grad(model, loss_fn)
	compiled_loss_and_grad = mx.compile(loss_and_grad_fn)

	step = start_step
	tic = time.time()

	topology_changed = False

	for batch in data_iter:
	if step >= max_steps:
	break
	model.set_global_step(step)

	# After a lifecycle event changes the expert topology (add/remove modules),
	if topology_changed:
	compiled_loss_and_grad = mx.compile(nn.value_and_grad(model, loss_fn))
	topology_changed = False

	try:
	loss, grads = compiled_loss_and_grad(model, batch)
	except Exception:
	loss_and_grad_fn_eager = nn.value_and_grad(model, loss_fn)
	loss, grads = loss_and_grad_fn_eager(model, batch)
	compiled_loss_and_grad = mx.compile(nn.value_and_grad(model, loss_fn))

	grads = model.zero_frozen_grads(grads)
	try:
	optimizer.update(model, grads)
	except (ValueError, KeyError, IndexError):
	# Topology change left stale optimizer state — wipe and retry
	optimizer.state = {k: v for k, v in optimizer.state.items() if not isinstance(v, (dict, list))}
	optimizer.update(model, grads)
	mx.eval(model.parameters(), optimizer.state, loss)

	if step > 0 and step % lifecycle_every == 0:
	events = model.run_lifecycle(optimizer=optimizer)
	if events:
	topology_changed = True
	#optimizer.state = {k: v for k, v in optimizer.state.items() if not isinstance(v, (dict, list))}

	"""
	optimizer.update(model, grads)
	mx.eval(model.parameters(), optimizer.state, loss)
	"""

	if step % tc.log_every == 0:
	toc = time.time()
	n_exp = sum(len(l.moe._expert_id_list) for l in model.layers)
	avg_d = sum(
	l.moe._last_density.mean().item()
	for l in model.layers if l.moe._last_density is not None
	) / model.args.n_layers
	elapsed = toc - tic
	tok_per_sec = (tc.log_every * tc.batch_size * model.args.max_seq_len) / max(elapsed, 1e-6)
	print(f"[{label}] Step {step:6d} \| Loss {loss.item():.4f} \| "
	f"Experts {n_exp} \| Density {avg_d:.1f} \| "
	f"{tok_per_sec:.0f} tok/s \| {elapsed:.2f}s")
	tic = time.time()

	if step > 0 and step % tc.summary_every == 0:
	print(f"\n--- Expert Summary @ step {step} ---")
	print(model.expert_summary())
	print()

	if step > 0 and step % tc.checkpoint_every == 0:
	save_checkpoint(model, step, tc.checkpoint_dir)

	step += 1
	return step


	# ==========================================
	# 12. INTERACTIVE SETUP + MAIN
	# ==========================================
	def prompt_config() -> TrainConfig:
	"""Interactive configuration via input() prompts."""
	tc = TrainConfig()

	print("\n" + "="*60)
	print(" MicroExperts — Training Configuration")
	print("="*60)

	# Mode
	print(" 1. pretrain — Gutenberg streaming pretraining")
	print(" 2. active_learning — Sequential domain continual learning(not implemented yet)")
	print(" 3. inference — Chat with the trained model")
	print(" 4. interactive_learning — Chat and learn from your inputs")
	print(" 5. train_and_chat — Train with periodic chat breaks")
	choice = input("Mode [1]: ").strip()
	if choice == "2":
	tc.mode = "active_learning"
	elif choice == "3":
	tc.mode = "inference"
	elif choice == "4":
	tc.mode = "interactive_learning"
	elif choice == "5":
	tc.mode = "train_and_chat"
	else:
	tc.mode = "pretrain"

	# Tokenizer
	tok = "gutenberg_tokenizer.json"
	if tok:
	tc.tokenizer_file = tok

	# Checkpoint dir
	cd = input(f"Checkpoint directory [{tc.checkpoint_dir}]: ").strip()
	if cd:
	tc.checkpoint_dir = cd

	# Batch size
	bs = input(f"Batch size [{tc.batch_size}]: ").strip()
	if bs:
	tc.batch_size = int(bs)

	# Learning rate
	if tc.mode == "pretrain":
	default_lr = tc.learning_rate
	else:
	default_lr = tc.al_learning_rate
	lr = input(f"Learning rate [{default_lr}]: ").strip()
	if lr:
	tc.learning_rate = float(lr)
	else:
	tc.learning_rate = default_lr

	# Max steps
	ms = input(f"Max steps [{tc.max_steps}]: ").strip()
	if ms:
	tc.max_steps = int(ms)

	# Resume
	resume = input("Resume from checkpoint? [Y/n]: ").strip().lower()
	tc._resume = resume != "n"

	# Mode-specific
	if tc.mode == "active_learning":
	dd = input(f"Domain data directory [{tc.al_data_dir}]: ").strip()
	if dd:
	tc.al_data_dir = dd
	spd = input(f"Steps per domain [{tc.al_steps_per_domain}]: ").strip()
	if spd:
	tc.al_steps_per_domain = int(spd)

	print("\n" + "-"*60)
	print(f" Mode: {tc.mode}")
	print(f" LR: {tc.learning_rate}")
	print(f" Batch: {tc.batch_size}")
	print(f" Max steps: {tc.max_steps}")
	print(f" Checkpoint: {tc.checkpoint_dir}")
	print(f" Resume: {tc._resume}")
	if tc.mode == "active_learning":
	print(f" Data dir: {tc.al_data_dir}")
	print(f" Steps/dom: {tc.al_steps_per_domain}")
	print(f" M4 budget: 150M params/layer, 128 experts/layer max")
	print("-"*60)

	confirm = input("Continue? [Y/n]: ").strip().lower()
	if confirm == "n":
	print("Aborted.")
	exit(0)

	return tc

	def generate(model, tokenizer, prompt: str, max_tokens: int = 256, temperature: float = 0.8):
	tokens = tokenizer.encode(prompt)
	tokens = mx.array([tokens], dtype=mx.int32)

	for _ in range(max_tokens):
	logits = model(tokens)
	next_logits = logits[:, -1, :] / temperature
	next_token = mx.random.categorical(next_logits)
	next_token = next_token.reshape(1, 1)
	tokens = mx.concatenate([tokens, next_token], axis=1)
	mx.eval(tokens)

	token_id = next_token.item()
	if token_id == tokenizer.eos_token_id:
	break

	# Print expert usage per layer
	print("\n Expert routing:")
	for i, layer in enumerate(model.layers):
	moe = layer.moe
	if moe._last_routing_weights is None:
	continue
	rw = moe._last_routing_weights
	N = rw.shape[-1]
	# Average routing weight per expert across all tokens
	avg_w = rw.reshape(-1, N).mean(axis=0)
	active = (avg_w > 0.01)
	parts = []
	for j, eid in enumerate(moe._expert_id_list):
	if j < N and active[j].item():
	meta = moe._expert_meta.get(eid)
	tier = meta.tier if meta else "?"
	parts.append(f"{eid[:6]}(T{tier} w={avg_w[j].item():.3f})")
	if parts:
	print(f" L{i:2d}: {' '.join(parts)}")

	return tokenizer.decode(tokens[0].tolist())

	def main():
	tc = prompt_config()
	os.makedirs(tc.checkpoint_dir, exist_ok=True)

	# Tokenizer
	print(f"\nLoading tokenizer: {tc.tokenizer_file}")
	tokenizer = PreTrainedTokenizerFast(tokenizer_file=tc.tokenizer_file)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# Model
	args = ModelArgs()
	args.vocab_size = len(tokenizer)
	me_config = MicroExpertConfig()

	if tc.mode == "active_learning":
	me_config.split_threshold = tc.al_split_threshold
	me_config.min_expert_age = tc.al_min_expert_age

	print(f"Initializing MicroExperts model (vocab={args.vocab_size})...")
	model = MicroExpertsModel(args, me_config)

	# Resume
	current_step = 0
	if tc._resume:
	ckpt, ckpt_step = get_latest_checkpoint(tc.checkpoint_dir)
	if ckpt:
	print(f"Resuming from {ckpt} @ step {ckpt_step}")
	load_checkpoint(model, ckpt)
	current_step = ckpt_step
	else:
	print("No checkpoint found — starting fresh.")

	mx.eval(model.parameters())
	n_params = sum(v.size for _, v in tree_flatten(model.parameters()))
	print(f"Total params: {n_params / 1e6:.2f}M")
	print("Initial layout:")
	print(model.expert_summary())

	optimizer = optim.AdamW(learning_rate=tc.learning_rate)

	# ---- PRETRAIN ----
	if tc.mode == "pretrain":
	data = stream_gutenberg(tokenizer, tc.batch_size, args.max_seq_len)
	print(f"\nStarting pretraining for {tc.max_steps} steps...")
	final_step = train_loop(
	model, optimizer, data, tc,
	start_step=current_step, max_steps=tc.max_steps,
	lifecycle_every=tc.lifecycle_every, label="pretrain",
	)

	elif tc.mode == "inference":

	print("\nChat ready. Type 'quit' to exit.\n")
	while True:
	user_input = input("You: ").strip()
	if user_input.lower() in ("quit", "exit"):
	break
	if not user_input:
	continue
	response = generate(model, tokenizer, user_input)
	print(f"Model: {response}\n")

	final_step = current_step

	# ---- ACTIVE LEARNING ----
	elif tc.mode == "active_learning":
	lifecycle_every = tc.al_lifecycle_every
	print(f"\nActive learning from: {tc.al_data_dir}")
	print(f" Steps/domain: {tc.al_steps_per_domain} \| Lifecycle every: {lifecycle_every}")

	domain_gen = stream_domain_files(
	tokenizer, tc.al_data_dir, tc.batch_size, args.max_seq_len)

	global_step = current_step
	for domain_name, batches in domain_gen:
	domain_max = global_step + tc.al_steps_per_domain
	n_before = sum(len(l.moe._expert_id_list) for l in model.layers)

	print(f"\n Training '{domain_name}': steps {global_step} -> {domain_max}")
	global_step = train_loop(
	model, optimizer, batches, tc,
	start_step=global_step, max_steps=domain_max,
	lifecycle_every=lifecycle_every, label=f"AL:{domain_name}",
	)

	n_after = sum(len(l.moe._expert_id_list) for l in model.layers)
	print(f"\n '{domain_name}' done. Experts: {n_before} -> {n_after} ({n_after-n_before:+d})")
	print(model.expert_summary())

	final_step = global_step

	elif tc.mode == "interactive_learning":
	if not tc._resume:
	print("WARNING: No checkpoint loaded, model is random.")

	il_optimizer = optim.AdamW(learning_rate=tc.al_learning_rate)
	il_step = current_step
	conversation_tokens = []
	message_count = 0

	print("\nInteractive learning ready. Type 'quit' to exit.")
	print("The model learns from the conversation.\n")

	while True:
	user_input = input("You: ").strip()
	if user_input.lower() in ("quit", "exit"):
	break
	if not user_input:
	continue

	response = generate(model, tokenizer, user_input)
	print(f"Model: {response}\n")

	conversation_tokens.extend(tokenizer.encode(user_input))
	conversation_tokens.extend(tokenizer.encode(response))
	message_count += 1

	seq_len = model.args.max_seq_len
	trained = False

	# Train on full sequences when available
	while len(conversation_tokens) >= seq_len + 1:
	batch = mx.array([conversation_tokens[:seq_len + 1]], dtype=mx.int32)
	conversation_tokens = conversation_tokens[seq_len:]

	loss_and_grad_fn = nn.value_and_grad(model, loss_fn)
	loss, grads = loss_and_grad_fn(model, batch)
	grads = model.zero_frozen_grads(grads)
	il_optimizer.update(model, grads)
	mx.eval(model.parameters(), il_optimizer.state, loss)

	il_step += 1
	model.set_global_step(il_step)
	trained = True
	print(f" [learned: loss={loss.item():.4f}, step={il_step}]")

	# Force train every 2 messages even with partial sequence
	if not trained and message_count % 2 == 0 and len(conversation_tokens) > 2:
	pad_len = seq_len + 1
	tokens_to_use = conversation_tokens[-pad_len:] if len(conversation_tokens) >= pad_len else conversation_tokens
	# Pad if too short
	while len(tokens_to_use) < pad_len:
	tokens_to_use = tokens_to_use + tokens_to_use
	tokens_to_use = tokens_to_use[:pad_len]

	batch = mx.array([tokens_to_use], dtype=mx.int32)

	loss_and_grad_fn = nn.value_and_grad(model, loss_fn)
	loss, grads = loss_and_grad_fn(model, batch)
	grads = model.zero_frozen_grads(grads)
	il_optimizer.update(model, grads)
	mx.eval(model.parameters(), il_optimizer.state, loss)

	il_step += 1
	model.set_global_step(il_step)
	print(f" [forced learn @ msg {message_count}: loss={loss.item():.4f}, step={il_step}]")

	# Lifecycle check
	if il_step > 0 and il_step % tc.al_lifecycle_every == 0:
	events = model.run_lifecycle()
	if events:
	il_optimizer.state = {k: v for k, v in il_optimizer.state.items() if not isinstance(v, (dict, list))}

	print(model.expert_summary())

	save_checkpoint(model, il_step, tc.checkpoint_dir)
	print("Model saved.")
	final_step = il_step

	elif tc.mode == "train_and_chat":
	if not tc._resume:
	print("WARNING: No checkpoint loaded, model is random.")

	il_optimizer = optim.AdamW(learning_rate=tc.al_learning_rate)
	il_step = current_step
	conversation_tokens = []
	message_count = 0

	system_prompt = "You are a helpful assistant."
	chat_history = []

	print("\nChat Learning ready. Type 'quit' to exit.")
	print("The model learns from the conversation with chat format.\n")

	while True:
	user_input = input("You: ").strip()
	if user_input.lower() in ("quit", "exit"):
	break
	if not user_input:
	continue

	response = generate(model, tokenizer, user_input)
	print(f"Model: {response}\n")

	# Build chat-formatted training text
	chat_history.append({"role": "user", "content": user_input})
	chat_history.append({"role": "assistant", "content": response})

	chat_text = f"system\n{system_prompt}\n"
	for msg in chat_history:
	role = "human" if msg["role"] == "user" else "gpt"
	chat_text += f"{role}\n{msg['content']}\n"

	conversation_tokens = tokenizer.encode(chat_text)
	message_count += 1

	seq_len = model.args.max_seq_len
	trained = False

	# Train on full sequences from chat history
	train_tokens = list(conversation_tokens)
	while len(train_tokens) >= seq_len + 1:
	batch = mx.array([train_tokens[:seq_len + 1]], dtype=mx.int32)
	train_tokens = train_tokens[seq_len:]

	loss_and_grad_fn = nn.value_and_grad(model, loss_fn)
	loss, grads = loss_and_grad_fn(model, batch)
	grads = model.zero_frozen_grads(grads)
	try:
	il_optimizer.update(model, grads)
	except (ValueError, KeyError, IndexError):
	il_optimizer.state = {k: v for k, v in il_optimizer.state.items() if not isinstance(v, (dict, list))}
	il_optimizer.update(model, grads)
	mx.eval(model.parameters(), il_optimizer.state, loss)

	il_step += 1
	model.set_global_step(il_step)
	trained = True
	print(f" [learned: loss={loss.item():.4f}, step={il_step}]")

	# Force train every 2 messages even with partial sequence
	if not trained and message_count % 2 == 0 and len(train_tokens) > 2:
	pad_len = seq_len + 1
	tokens_to_use = train_tokens[-pad_len:] if len(train_tokens) >= pad_len else train_tokens
	while len(tokens_to_use) < pad_len:
	tokens_to_use = tokens_to_use + tokens_to_use
	tokens_to_use = tokens_to_use[:pad_len]

	batch = mx.array([tokens_to_use], dtype=mx.int32)

	loss_and_grad_fn = nn.value_and_grad(model, loss_fn)
	loss, grads = loss_and_grad_fn(model, batch)
	grads = model.zero_frozen_grads(grads)
	try:
	il_optimizer.update(model, grads)
	except (ValueError, KeyError, IndexError):
	il_optimizer.state = {k: v for k, v in il_optimizer.state.items() if not isinstance(v, (dict, list))}
	il_optimizer.update(model, grads)
	mx.eval(model.parameters(), il_optimizer.state, loss)

	il_step += 1
	model.set_global_step(il_step)
	print(f" [forced learn @ msg {message_count}: loss={loss.item():.4f}, step={il_step}]")

	# Trim chat history if too long
	max_history = 20
	if len(chat_history) > max_history:
	chat_history = chat_history[-max_history:]

	# Lifecycle check
	if il_step > 0 and il_step % tc.al_lifecycle_every == 0:
	events = model.run_lifecycle(optimizer=il_optimizer)
	if events:
	pass # optimizer state already rebuilt in lifecycle

	print(model.expert_summary())

	save_checkpoint(model, il_step, tc.checkpoint_dir)
	print("Model saved.")
	final_step = il_step

	# Save final
	print("\nTraining complete.")
	save_checkpoint(model, final_step, tc.checkpoint_dir)
	print("Final layout:")
	print(model.expert_summary())


	if __name__ == "__main__":
	main()