Spaces:

CompactAI-O
/

Homepage

Running

File size: 80,168 Bytes

#!/usr/bin/env python3
from __future__ import annotations

import json
import math
import os
import re
import shutil
import socket
import string
import sys
import threading
import webbrowser
from dataclasses import dataclass
from http.server import BaseHTTPRequestHandler, ThreadingHTTPServer
from pathlib import Path
from typing import Any, Dict, Iterator, List, Optional, Sequence, Tuple
from urllib.parse import quote, unquote, urlparse
from urllib.request import Request, urlopen

import hashlib

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.checkpoint import checkpoint


# ---------------------------------------------------------------------------
# Config (from ailay.config)
# ---------------------------------------------------------------------------


@dataclass
class ModelConfig:
    dim: int = 128
    n_unique_layers: int = 8
    n_logical_layers: int = 16
    n_heads: int = 4
    n_kv_heads: int = 2
    ffn_dim: int = 224
    dropout: float = 0.0
    seq_len: int = 2048
    sliding_window_size: int = 512
    mtp_horizons: Tuple[int, ...] = (2, 3, 4)
    rope_fraction: float = 0.5
    embed_scale: bool = True
    logit_soft_cap: float = -1.0
    quantization: str = "nvfp4"
    # Engram (conditional memory) config
    engram_dim: int = 0
    engram_heads: int = 4
    engram_table_size: int = 8192
    engram_max_ngram: int = 3
    # mHC (Manifold-Constrained Hyper-Connections) config
    mhc_expansion: int = 1

    @property
    def head_dim(self) -> int:
        return self.dim // self.n_heads


model_config = ModelConfig()

MODEL_SERIES = {
    "haiku": {
        "dim": 64,
        "n_unique_layers": 12,
        "n_logical_layers": 24,
        "n_heads": 4,
        "n_kv_heads": 2,
        "ffn_dim": 384,
        "dropout": 0.0,
        "seq_len": 2048,
        "mtp_horizons": (2, 3, 4),
        "rope_fraction": 0.5,
        "batch_size": 80,
        "grad_accum": 1,
        "lr": 8e-4,
        "min_lr": 1e-5,
        "sft_lr": 2e-4,
        "sft_min_lr": 1e-5,
        "warmup_steps": 300,
        "weight_decay": 0.02,
        "pretrain_passes": 2,
        "sft_passes": 3,
        "max_sft_target_chars": 0,
        "use_grad_checkpoint": True,
        "num_workers": 24,
        "prefetch_factor": 64,
        "shuffle_buffer": 8192,
        "max_pretrain_tokens": 0,
        "min_pretrain_tokens": 100_000_000,
        "quantization": "nvfp4",
        "engram_dim": 8,
        "engram_heads": 2,
        "engram_table_size": 64,
        "engram_max_ngram": 2,
        "mhc_expansion": 2,
    },
    "sonnet": {
        "dim": 1024,
        "n_unique_layers": 20,
        "n_logical_layers": 40,
        "n_heads": 16,
        "n_kv_heads": 4,
        "ffn_dim": 4096,
        "dropout": 0.0,
        "seq_len": 2048,
        "mtp_horizons": (2,),
        "rope_fraction": 0.5,
        "batch_size": 24,
        "grad_accum": 1,
        "lr": 1e-4,
        "min_lr": 2e-5,
        "sft_lr": 5e-5,
        "sft_min_lr": 5e-6,
        "warmup_steps": 250,
        "weight_decay": 0.1,
        "pretrain_passes": 1,
        "sft_passes": 1,
        "max_sft_target_chars": 0,
        "use_grad_checkpoint": True,
        "num_workers": 32,
        "prefetch_factor": 64,
        "shuffle_buffer": 16384,
        "max_pretrain_tokens": 0,
        "min_pretrain_tokens": 100_000_000,
        "quantization": "nvfp4",
        "engram_dim": 32,
        "engram_heads": 8,
        "engram_table_size": 4096,
        "engram_max_ngram": 2,
        "mhc_expansion": 2,
    },
    "opus": {
        "dim": 1536,
        "n_unique_layers": 18,
        "n_logical_layers": 36,
        "n_heads": 16,
        "n_kv_heads": 4,
        "ffn_dim": 5888,
        "dropout": 0.0,
        "seq_len": 2048,
        "mtp_horizons": (2,),
        "rope_fraction": 0.5,
        "batch_size": 24,
        "grad_accum": 1,
        "lr": 1.6e-4,
        "min_lr": 1.6e-5,
        "sft_lr": 3e-5,
        "sft_min_lr": 3e-6,
        "warmup_steps": 200,
        "weight_decay": 0.1,
        "pretrain_passes": 1,
        "sft_passes": 1,
        "max_sft_target_chars": 0,
        "use_grad_checkpoint": True,
        "num_workers": 48,
        "prefetch_factor": 64,
        "shuffle_buffer": 16384,
        "max_pretrain_tokens": 0,
        "min_pretrain_tokens": 100_000_000,
        "quantization": "nvfp4",
        "engram_dim": 64,
        "engram_heads": 8,
        "engram_table_size": 8192,
        "engram_max_ngram": 2,
        "mhc_expansion": 4,
    },
}


# ---------------------------------------------------------------------------
# Tokenizer (from ailay.tokenizer)
# ---------------------------------------------------------------------------

FORMAT_TOKENS = [
    "<|user|>",
    "<|assistant|>",
    "<|system|>",
    "<|start_header_id|>",
    "<|end_header_id|>",
    "<|begin_of_thought|>",
    "<|end_of_thought|>",
    "<|begin_of_solution|>",
    "<|end_of_solution|>",
]


class WordTokenizer:
    WORD_RE = re.compile(
        r"\s+|[^\W\d_]+(?:['\u2019][^\W\d_]+)?|\d+|[^\w\s]+", re.UNICODE
    )

    def __init__(
        self, extra_chars: str = "", format_tokens: Optional[List[str]] = None
    ) -> None:
        base = string.ascii_letters + string.digits + string.punctuation + " \n\t\r"
        fallback_chars = sorted(set(base + extra_chars))
        self.core_special = ["<PAD>", "<BOS>", "<EOS>", "<UNK>"]
        self.format_tokens = (
            list(format_tokens) if format_tokens else list(FORMAT_TOKENS)
        )
        self.special = list(self.core_special) + list(self.format_tokens)
        self.id_to_token: List[str] = (
            list(self.core_special) + self.format_tokens + fallback_chars
        )
        self.token_to_id: Dict[str, int] = {
            t: i for i, t in enumerate(self.id_to_token)
        }
        self.special_multi_tokens = sorted(
            [t for t in self.special if len(t) > 1], key=len, reverse=True
        )
        self.multi_char_tokens = self.special_multi_tokens
        self.dynamic_additions = 0

    @property
    def pad_id(self) -> int:
        return self.token_to_id["<PAD>"]

    @property
    def bos_id(self) -> int:
        return self.token_to_id["<BOS>"]

    @property
    def eos_id(self) -> int:
        return self.token_to_id["<EOS>"]

    @property
    def unk_id(self) -> int:
        return self.token_to_id["<UNK>"]

    @property
    def vocab_size(self) -> int:
        return len(self.id_to_token)

    def maybe_add_char(self, ch: str) -> bool:
        if ch in self.token_to_id:
            return False
        self.token_to_id[ch] = len(self.id_to_token)
        self.id_to_token.append(ch)
        self.dynamic_additions += 1
        return True

    def maybe_add_token(self, token: str) -> bool:
        if token in self.token_to_id:
            return False
        self.token_to_id[token] = len(self.id_to_token)
        self.id_to_token.append(token)
        self.dynamic_additions += 1
        return True

    def iter_lexical_tokens(self, text: str) -> Iterator[str]:
        i = 0
        n = len(text)
        while i < n:
            matched_special = False
            for token in self.special_multi_tokens:
                if text.startswith(token, i):
                    yield token
                    i += len(token)
                    matched_special = True
                    break
            if matched_special:
                continue
            m = self.WORD_RE.match(text, i)
            if m is None:
                yield text[i]
                i += 1
                continue
            tok = m.group(0)
            yield tok
            i = m.end()

    def encode(
        self, text: str, add_bos: bool = False, add_eos: bool = False
    ) -> List[int]:
        out: List[int] = []
        if add_bos:
            out.append(self.bos_id)
        unk = self.unk_id
        t2i = self.token_to_id
        for tok in self.iter_lexical_tokens(text):
            tid = t2i.get(tok)
            if tid is not None:
                out.append(tid)
                continue
            for ch in tok:
                out.append(t2i.get(ch, unk))
        if add_eos:
            out.append(self.eos_id)
        return out

    def decode(self, ids: Sequence[int], skip_special: bool = True) -> str:
        pieces: List[str] = []
        for idx in ids:
            if int(idx) < 0 or int(idx) >= len(self.id_to_token):
                continue
            tok = self.id_to_token[int(idx)]
            if skip_special and tok in self.special:
                continue
            pieces.append(tok)
        return "".join(pieces)

    def save(self, path: Path) -> None:
        with path.open("w", encoding="utf-8") as f:
            json.dump(
                {
                    "id_to_token": self.id_to_token,
                    "format_tokens": self.format_tokens,
                    "core_special": self.core_special,
                    "tokenizer_type": "word_level_v1",
                },
                f,
                ensure_ascii=False,
                indent=2,
            )

    @classmethod
    def load(cls, path: Path) -> WordTokenizer:
        with path.open("r", encoding="utf-8") as f:
            data = json.load(f)
        format_tokens = data.get("format_tokens", FORMAT_TOKENS)
        tokenizer = cls(extra_chars="", format_tokens=format_tokens)
        tokenizer.id_to_token = data["id_to_token"]
        tokenizer.token_to_id = {t: i for i, t in enumerate(tokenizer.id_to_token)}
        tokenizer.special = list(tokenizer.core_special) + list(tokenizer.format_tokens)
        tokenizer.special_multi_tokens = sorted(
            [t for t in tokenizer.special if len(t) > 1], key=len, reverse=True
        )
        tokenizer.multi_char_tokens = tokenizer.special_multi_tokens
        return tokenizer


LetterTokenizer = WordTokenizer


# ---------------------------------------------------------------------------
# Model (from ailay.model)
# ---------------------------------------------------------------------------


class RMSNorm(nn.Module):
    def __init__(self, dim: int, eps: float = 1e-6) -> None:
        super().__init__()
        self.weight = nn.Parameter(torch.ones(dim))
        self.eps = eps

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        if hasattr(torch.nn.functional, "rms_norm"):
            return torch.nn.functional.rms_norm(
                x, self.weight.shape, self.weight, self.eps
            )
        x_fp = x.float()
        rms = torch.rsqrt(x_fp.pow(2).mean(dim=-1, keepdim=True) + self.eps)
        return (x_fp * rms).to(dtype=x.dtype) * self.weight


class RotaryEmbedding(nn.Module):
    def __init__(self, dim: int, base: float = 10000.0) -> None:
        super().__init__()
        inv = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer("inv_freq", inv, persistent=False)

    def cos_sin(
        self, seq_len: int, device: torch.device, dtype: torch.dtype
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        t = torch.arange(seq_len, device=device, dtype=self.inv_freq.dtype)
        freqs = torch.outer(t, self.inv_freq)
        emb = torch.cat([freqs, freqs], dim=-1)
        cos = emb.cos()[None, None, :, :].to(dtype=dtype)
        sin = emb.sin()[None, None, :, :].to(dtype=dtype)
        return cos, sin


def _rotate_half(x: torch.Tensor) -> torch.Tensor:
    x1 = x[..., : x.shape[-1] // 2]
    x2 = x[..., x.shape[-1] // 2 :]
    return torch.cat((-x2, x1), dim=-1)


class CausalSelfAttention(nn.Module):
    def __init__(
        self,
        dim: int,
        n_heads: int,
        n_kv_heads: int,
        head_dim: int,
        dropout: float,
        sliding_window: int,
        rope_fraction: float,
    ) -> None:
        super().__init__()
        self.dim = dim
        self.n_heads = n_heads
        self.n_kv_heads = n_kv_heads
        self.head_dim = head_dim
        self.n_rep = n_heads // n_kv_heads
        self.dropout = dropout
        self.sliding_window = sliding_window

        self.wq = nn.Linear(dim, n_heads * head_dim, bias=False)
        self.wk = nn.Linear(dim, n_kv_heads * head_dim, bias=False)
        self.wv = nn.Linear(dim, n_kv_heads * head_dim, bias=False)
        self.wo = nn.Linear(n_heads * head_dim, dim, bias=False)

        for lin in (self.wq, self.wk, self.wv):
            nn.init.normal_(lin.weight, std=dim ** -0.5)
        nn.init.normal_(self.wo.weight, std=(n_heads * head_dim) ** -0.5)

        self.rope_dim = max(2, int(head_dim * rope_fraction) // 2 * 2)
        self.rope = RotaryEmbedding(self.rope_dim)

        self.q_norm = RMSNorm(head_dim)
        self.k_norm = RMSNorm(head_dim)

        self.output_gate = nn.Parameter(torch.zeros(n_heads))

    def forward(
        self,
        x: torch.Tensor,
        is_global: bool,
        past_kv: Optional[Tuple[torch.Tensor, torch.Tensor]] = None,
        use_cache: bool = False,
    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor, torch.Tensor]]]:
        B, T, _ = x.shape

        q = self.wq(x).view(B, T, self.n_heads, self.head_dim)
        k = self.wk(x).view(B, T, self.n_kv_heads, self.head_dim)
        v = self.wv(x).view(B, T, self.n_kv_heads, self.head_dim)

        q = self.q_norm(q)
        k = self.k_norm(k)

        q = q.transpose(1, 2)
        k = k.transpose(1, 2)
        v = v.transpose(1, 2)

        past_len = past_kv[0].shape[2] if past_kv is not None else 0
        cos, sin = self.rope.cos_sin(T + past_len, x.device, q.dtype)
        cos_slice = cos[:, :, past_len : past_len + T, :]
        sin_slice = sin[:, :, past_len : past_len + T, :]

        q_rope = q[..., : self.rope_dim]
        q_pass = q[..., self.rope_dim :]
        k_rope = k[..., : self.rope_dim]
        k_pass = k[..., self.rope_dim :]

        q_rope = (q_rope * cos_slice) + (_rotate_half(q_rope) * sin_slice)
        k_rope = (k_rope * cos_slice) + (_rotate_half(k_rope) * sin_slice)

        q = torch.cat([q_rope, q_pass], dim=-1)
        k = torch.cat([k_rope, k_pass], dim=-1)

        if past_kv is not None:
            k = torch.cat([past_kv[0], k], dim=2)
            v = torch.cat([past_kv[1], v], dim=2)

        new_kv = (k, v) if use_cache else None

        S = k.shape[2]
        if self.n_rep > 1:
            k = (
                k[:, :, None, :, :]
                .expand(B, self.n_kv_heads, self.n_rep, S, self.head_dim)
                .reshape(B, self.n_heads, S, self.head_dim)
            )
            v = (
                v[:, :, None, :, :]
                .expand(B, self.n_kv_heads, self.n_rep, S, self.head_dim)
                .reshape(B, self.n_heads, S, self.head_dim)
            )

        drop_p = self.dropout if (self.training and torch.is_grad_enabled()) else 0.0

        if is_global:
            if past_kv is None and T > 1:
                out = F.scaled_dot_product_attention(
                    q, k, v, is_causal=True, dropout_p=drop_p
                )
            else:
                out = F.scaled_dot_product_attention(q, k, v, dropout_p=drop_p)
        else:
            T_q = q.shape[2]
            q_pos = torch.arange(past_len, past_len + T_q, device=q.device).unsqueeze(1)
            k_pos = torch.arange(S, device=q.device).unsqueeze(0)
            mask = (q_pos >= k_pos) & ((q_pos - k_pos) < self.sliding_window)
            out = F.scaled_dot_product_attention(
                q, k, v, attn_mask=mask.unsqueeze(0).unsqueeze(0), dropout_p=drop_p
            )

        gate = torch.sigmoid(self.output_gate).view(1, self.n_heads, 1, 1)
        out = out * gate

        out = out.transpose(1, 2).contiguous().view(B, T, self.n_heads * self.head_dim)
        out = self.wo(out)

        return out, new_kv


class SwiGLU(nn.Module):
    def __init__(self, dim: int, hidden_dim: int, dropout: float) -> None:
        super().__init__()
        self.gate = nn.Linear(dim, hidden_dim, bias=False)
        self.up = nn.Linear(dim, hidden_dim, bias=False)
        self.down = nn.Linear(hidden_dim, dim, bias=False)
        self.drop = nn.Dropout(dropout)

        nn.init.normal_(self.gate.weight, std=dim ** -0.5)
        nn.init.normal_(self.up.weight, std=dim ** -0.5)
        nn.init.normal_(self.down.weight, std=hidden_dim ** -0.5)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        h = F.silu(self.gate(x)) * self.up(x)
        out = self.down(h)
        if self.training and torch.is_grad_enabled():
            out = self.drop(out)
        return out


class EngramBlock(nn.Module):
    """Conditional memory via O(1) hashed N-gram lookup (DeepSeek Engram)."""

    def __init__(
        self,
        dim: int,
        engram_dim: int,
        n_heads: int = 4,
        table_size: int = 8192,
        max_ngram: int = 3,
    ) -> None:
        super().__init__()
        self.dim = dim
        self.engram_dim = engram_dim
        self.n_heads = n_heads
        self.table_size = table_size
        self.max_ngram = max_ngram

        self.embeddings = nn.ParameterDict()
        for n in range(2, max_ngram + 1):
            for k in range(n_heads):
                self.embeddings[f"{n}_{k}"] = nn.Parameter(
                    torch.randn(table_size, engram_dim) * (engram_dim**-0.5)
                )

        for n in range(2, max_ngram + 1):
            for k in range(n_heads):
                seed = int(hashlib.md5(f"engram_{n}_{k}".encode()).hexdigest()[:8], 16)
                rng = torch.Generator().manual_seed(seed)
                a = torch.randint(1, 2**31, (1,), generator=rng).item()
                b = torch.randint(0, 2**31, (1,), generator=rng).item()
                self.register_buffer(
                    f"hash_a_{n}_{k}", torch.tensor(a), persistent=False
                )
                self.register_buffer(
                    f"hash_b_{n}_{k}", torch.tensor(b), persistent=False
                )

        total_branch_dim = engram_dim * n_heads * (max_ngram - 1)
        self.branch_conv = nn.Conv1d(
            total_branch_dim,
            total_branch_dim,
            kernel_size=4,
            dilation=max_ngram,
            padding=0,
            groups=total_branch_dim,
            bias=True,
        )
        nn.init.zeros_(self.branch_conv.weight)
        nn.init.zeros_(self.branch_conv.bias)

        self.gate_query = nn.Linear(dim, engram_dim, bias=False)
        self.gate_key = nn.Linear(total_branch_dim, engram_dim, bias=False)
        self.gate_value = nn.Linear(total_branch_dim, dim, bias=False)
        self.gate_scale = engram_dim**-0.5

    def _hash_ngram(self, token_ids: torch.Tensor, n: int, k: int) -> torch.Tensor:
        a = getattr(self, f"hash_a_{n}_{k}")
        b = getattr(self, f"hash_b_{n}_{k}")
        B, T = token_ids.shape
        padded = F.pad(token_ids, (n - 1, 0), value=0)
        combined = torch.zeros(B, T, dtype=torch.long, device=token_ids.device)
        for i in range(n):
            combined = (combined * 31 + padded[:, i : i + T].long()) % self.table_size
        return ((a * combined) ^ b) % self.table_size

    def forward(
        self, hidden: torch.Tensor, token_ids: Optional[torch.Tensor] = None
    ) -> torch.Tensor:
        B, T, _ = hidden.shape
        if token_ids is None:
            token_ids = hidden.mean(dim=-1).long() % self.table_size
        all_indices = []
        all_tables = []
        for n in range(2, self.max_ngram + 1):
            for k in range(self.n_heads):
                all_indices.append(self._hash_ngram(token_ids, n, k))
                all_tables.append(self.embeddings[f"{n}_{k}"])
        branch_outputs = [tbl[idx] for idx, tbl in zip(all_indices, all_tables)]
        memory = torch.cat(branch_outputs, dim=-1)
        conv_in = memory.transpose(1, 2)
        conv_in = F.pad(
            conv_in,
            (self.branch_conv.dilation[0] * (self.branch_conv.kernel_size[0] - 1), 0),
        )
        conv_out = self.branch_conv(conv_in)
        memory = conv_out.transpose(1, 2)
        query = self.gate_query(hidden)
        key = self.gate_key(memory)
        gate = torch.sigmoid(
            (query * key).sum(dim=-1, keepdim=True) * self.gate_scale
        )
        value = self.gate_value(memory)
        return gate * value


def _sinkhorn_knopp(logits: torch.Tensor, n_iters: int = 7) -> torch.Tensor:
    M = torch.exp(logits.clamp(-10, 10))
    for _ in range(n_iters):
        M = M / M.sum(dim=-1, keepdim=True).clamp(min=1e-10)
        M = M / M.sum(dim=-2, keepdim=True).clamp(min=1e-10)
    return M


class ManifoldHyperConnection(nn.Module):
    """Manifold-Constrained Hyper-Connections (mHC) residual wrapper."""

    def __init__(self, dim: int, expansion: int = 2) -> None:
        super().__init__()
        self.dim = dim
        self.expansion = expansion
        n = expansion

        self.bias_pre = nn.Parameter(torch.zeros(1, n))
        self.bias_post = nn.Parameter(torch.zeros(1, n))
        self.bias_res = nn.Parameter(torch.zeros(n, n))

        self.theta_pre = nn.Linear(n * dim, n, bias=False)
        self.theta_post = nn.Linear(n * dim, n, bias=False)
        self.theta_res = nn.Linear(n * dim, n * n, bias=False)

        self.alpha_pre = nn.Parameter(torch.tensor(0.0))
        self.alpha_post = nn.Parameter(torch.tensor(0.0))
        self.alpha_res = nn.Parameter(torch.tensor(0.0))

    def _compute_mappings(
        self, x_expanded: torch.Tensor
    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
        B, T, _ = x_expanded.shape
        n = self.expansion
        x_norm = F.rms_norm(x_expanded, [x_expanded.shape[-1]])
        d_pre = torch.tanh(self.theta_pre(x_norm))
        d_post = torch.tanh(self.theta_post(x_norm))
        d_res = self.theta_res(x_norm)
        H_pre_raw = torch.sigmoid(self.alpha_pre * d_pre + self.bias_pre)
        H_post_raw = 2.0 * torch.sigmoid(self.alpha_post * d_post + self.bias_post)
        H_res_raw = (self.alpha_res * d_res + self.bias_res.reshape(1, 1, -1)).reshape(
            B, T, n, n
        )
        H_res = _sinkhorn_knopp(H_res_raw)
        return H_pre_raw.unsqueeze(-2), H_post_raw.unsqueeze(-2), H_res

    def expand_stream(self, x: torch.Tensor) -> torch.Tensor:
        return x.repeat(1, 1, self.expansion)

    def collapse_stream(self, x_expanded: torch.Tensor) -> torch.Tensor:
        B, T, _ = x_expanded.shape
        return x_expanded.view(B, T, self.expansion, self.dim).mean(dim=-2)

    def pre_mix(self, x_expanded: torch.Tensor, H_pre: torch.Tensor) -> torch.Tensor:
        B, T, _ = x_expanded.shape
        x_streams = x_expanded.view(B, T, self.expansion, self.dim)
        return (H_pre @ x_streams).squeeze(-2)

    def post_res_mix(
        self,
        layer_output: torch.Tensor,
        x_expanded: torch.Tensor,
        H_post: torch.Tensor,
        H_res: torch.Tensor,
    ) -> torch.Tensor:
        B, T, _ = x_expanded.shape
        x_streams = x_expanded.view(B, T, self.expansion, self.dim)
        mixed = torch.matmul(H_res, x_streams)
        post_out = torch.matmul(H_post.transpose(-2, -1), layer_output.unsqueeze(-2))
        return (mixed + post_out).reshape(B, T, self.expansion * self.dim)


class TransformerBlock(nn.Module):
    def __init__(
        self,
        dim: int,
        n_heads: int,
        n_kv_heads: int,
        head_dim: int,
        ffn_dim: int,
        dropout: float,
        sliding_window: int,
        rope_fraction: float,
        engram_dim: int = 0,
        engram_heads: int = 4,
        engram_table_size: int = 8192,
        engram_max_ngram: int = 3,
        mhc_expansion: int = 1,
    ) -> None:
        super().__init__()
        self.dim = dim
        self.norm1 = RMSNorm(dim)
        self.attn = CausalSelfAttention(
            dim=dim,
            n_heads=n_heads,
            n_kv_heads=n_kv_heads,
            head_dim=head_dim,
            dropout=dropout,
            sliding_window=sliding_window,
            rope_fraction=rope_fraction,
        )
        self.norm2 = RMSNorm(dim)
        self.ffn = SwiGLU(dim, ffn_dim, dropout)
        self.use_engram = engram_dim > 0
        if self.use_engram:
            self.engram = EngramBlock(
                dim=dim,
                engram_dim=engram_dim,
                n_heads=engram_heads,
                table_size=engram_table_size,
                max_ngram=engram_max_ngram,
            )
            self.engram_norm = RMSNorm(dim)
        self.use_mhc = mhc_expansion > 1
        if self.use_mhc:
            self.mhc_attn = ManifoldHyperConnection(dim, expansion=mhc_expansion)
            self.mhc_ffn = ManifoldHyperConnection(dim, expansion=mhc_expansion)

    def forward(
        self,
        x: torch.Tensor,
        is_global: bool,
        past_kv: Optional[Tuple[torch.Tensor, torch.Tensor]] = None,
        use_cache: bool = False,
        token_ids: Optional[torch.Tensor] = None,
    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor, torch.Tensor]]]:
        if self.use_mhc:
            x_exp = self.mhc_attn.expand_stream(x)
            H_pre, H_post, H_res = self.mhc_attn._compute_mappings(x_exp)
            attn_in = self.mhc_attn.pre_mix(x_exp, H_pre)
            attn_out, new_kv = self.attn(
                self.norm1(attn_in), is_global, past_kv, use_cache
            )
            x_exp = self.mhc_attn.post_res_mix(attn_out, x_exp, H_post, H_res)
            if self.use_engram:
                collapsed = self.mhc_attn.collapse_stream(x_exp)
                collapsed = collapsed + self.engram(
                    self.engram_norm(collapsed), token_ids=token_ids
                )
                x_exp = self.mhc_attn.expand_stream(collapsed)
            H_pre2, H_post2, H_res2 = self.mhc_ffn._compute_mappings(x_exp)
            ffn_in = self.mhc_ffn.pre_mix(x_exp, H_pre2)
            ffn_out = self.ffn(self.norm2(ffn_in))
            x_exp = self.mhc_ffn.post_res_mix(ffn_out, x_exp, H_post2, H_res2)
            x = self.mhc_attn.collapse_stream(x_exp)
        else:
            attn_out, new_kv = self.attn(self.norm1(x), is_global, past_kv, use_cache)
            x = x + attn_out
            if self.use_engram:
                x = x + self.engram(self.engram_norm(x), token_ids=token_ids)
            x = x + self.ffn(self.norm2(x))
        return x, new_kv


def _detect_engram_dim(state_dict: dict) -> int:
    for key in state_dict:
        if ".engram." in key and ".embeddings." in key:
            return state_dict[key].shape[-1]
    return 0


def _detect_mhc_expansion(state_dict: dict) -> int:
    for key, val in state_dict.items():
        if ".mhc_attn.bias_pre" in key and val.dim() == 2:
            return val.shape[-1]
    return 1


class TinyMemoryLM(nn.Module):
    def __init__(
        self,
        vocab_size: int,
        dim: int,
        n_unique_layers: int,
        n_logical_layers: int,
        n_heads: int,
        n_kv_heads: int,
        ffn_dim: int,
        dropout: float,
        mtp_horizons: Sequence[int],
        grad_checkpoint: bool,
        sliding_window: int = 512,
        rope_fraction: float = 0.5,
        embed_scale: bool = True,
        engram_dim: int = 0,
        engram_heads: int = 4,
        engram_table_size: int = 8192,
        engram_max_ngram: int = 3,
        mhc_expansion: int = 1,
    ) -> None:
        super().__init__()
        self.dim = dim
        self.n_unique_layers = n_unique_layers
        self.n_logical_layers = n_logical_layers
        self.grad_checkpoint = grad_checkpoint
        self.embed_scale_factor = math.sqrt(dim) if embed_scale else 1.0
        head_dim = dim // n_heads

        self.embed_tokens = nn.Embedding(vocab_size, dim)
        self.head = nn.Linear(dim, vocab_size, bias=False)
        self.head.weight = self.embed_tokens.weight

        self.output_bias = nn.Parameter(torch.zeros(vocab_size))

        self.blocks = nn.ModuleList(
            [
                TransformerBlock(
                    dim=dim,
                    n_heads=n_heads,
                    n_kv_heads=n_kv_heads,
                    head_dim=head_dim,
                    ffn_dim=ffn_dim,
                    dropout=dropout,
                    sliding_window=sliding_window,
                    rope_fraction=rope_fraction,
                    engram_dim=engram_dim,
                    engram_heads=engram_heads,
                    engram_table_size=engram_table_size,
                    engram_max_ngram=engram_max_ngram,
                    mhc_expansion=mhc_expansion,
                )
                for _ in range(n_unique_layers)
            ]
        )
        self.norm = RMSNorm(dim)

        self.mtp_horizons = sorted({int(h) for h in mtp_horizons if int(h) > 1})
        self.mtp_adapters = nn.ModuleDict(
            {str(h): nn.Linear(dim, dim, bias=False) for h in self.mtp_horizons}
        )
        self.mtp_norms = nn.ModuleDict(
            {str(h): RMSNorm(dim) for h in self.mtp_horizons}
        )

        res_scale = (2 * n_logical_layers) ** -0.5
        for block in self.blocks:
            block.attn.wo.weight.data.mul_(res_scale)
            block.ffn.down.weight.data.mul_(res_scale)

    def resize_token_embeddings(self, new_vocab_size: int) -> None:
        old_vocab_size = self.embed_tokens.num_embeddings
        if new_vocab_size == old_vocab_size:
            return
        device = self.embed_tokens.weight.device
        old_embed_weight = self.embed_tokens.weight.data.clone()
        self.embed_tokens = nn.Embedding(
            new_vocab_size, self.embed_tokens.embedding_dim
        ).to(device)
        self.head = nn.Linear(
            self.embed_tokens.embedding_dim, new_vocab_size, bias=False
        ).to(device)
        self.head.weight = self.embed_tokens.weight
        old_bias = self.output_bias.data.clone()
        self.output_bias = nn.Parameter(torch.zeros(new_vocab_size, device=device))
        copy_size = min(old_vocab_size, new_vocab_size)
        self.output_bias.data[:copy_size] = old_bias[:copy_size]
        self.embed_tokens.weight.data[:copy_size] = old_embed_weight[:copy_size]

    def _build_logical_layers(self) -> List[Tuple[nn.Module, int]]:
        logical = []
        blocks_list = list(self.blocks)
        full_sequence = blocks_list + blocks_list
        for logical_idx, block in enumerate(full_sequence[: self.n_logical_layers]):
            logical.append((block, logical_idx))
        return logical

    def forward(
        self,
        ids: torch.Tensor,
        use_cache: bool = False,
        past_key_values: Optional[
            List[Optional[Tuple[torch.Tensor, torch.Tensor]]]
        ] = None,
        return_hidden: bool = False,
    ) -> Tuple[
        torch.Tensor,
        Dict[int, torch.Tensor],
        Optional[torch.Tensor],
        Optional[List[Tuple[torch.Tensor, torch.Tensor]]],
    ]:
        B, T = ids.shape
        x = self.embed_tokens(ids) * self.embed_scale_factor

        logical_layers = self._build_logical_layers()
        new_past_key_values: Optional[List[Tuple[torch.Tensor, torch.Tensor]]] = (
            [] if use_cache else None
        )

        for layer_idx, (block, logical_idx) in enumerate(logical_layers):
            is_global = logical_idx % 2 == 0
            past_kv = (
                past_key_values[layer_idx]
                if past_key_values is not None and layer_idx < len(past_key_values)
                else None
            )

            if self.grad_checkpoint and self.training and not use_cache:
                x, layer_kv = checkpoint(
                    block, x, is_global, past_kv, use_cache, ids, use_reentrant=True
                )
            else:
                x, layer_kv = block(x, is_global, past_kv, use_cache, ids)

            if new_past_key_values is not None:
                new_past_key_values.append(layer_kv)

        x = self.norm(x)
        h_out = x if return_hidden else None
        logits = self.head(x)
        if self.embed_scale_factor != 1.0:
            logits = logits / self.embed_scale_factor
        logits = logits + self.output_bias

        mtp: Dict[int, torch.Tensor] = {}
        if self.mtp_horizons and self.training:
            for horizon in self.mtp_horizons:
                if horizon > 1 and horizon <= T - 1:
                    shifted_h = x[:, :-horizon, :]
                    adapted_h = self.mtp_adapters[str(horizon)](shifted_h)
                    adapted_h = self.mtp_norms[str(horizon)](adapted_h)
                    mtp_logits = self.head(adapted_h)
                    if self.embed_scale_factor != 1.0:
                        mtp_logits = mtp_logits / self.embed_scale_factor
                    mtp_logits = mtp_logits + self.output_bias
                    mtp[horizon] = mtp_logits

        return logits, mtp, h_out, new_past_key_values


# ---------------------------------------------------------------------------
# Generation (from ailay.generation)
# ---------------------------------------------------------------------------


def sample_text(
    model: TinyMemoryLM,
    tokenizer: WordTokenizer,
    prompt: str,
    max_new_tokens: int,
    temperature: float,
    top_k: int,
    branches: int,
    branch_len: int,
    device: torch.device,
    seq_len: int,
) -> str:
    def _sample_id(logits: torch.Tensor) -> torch.Tensor:
        if not torch.isfinite(logits).any():
            logits = torch.zeros_like(logits)
        logits = torch.where(
            torch.isfinite(logits), logits, torch.full_like(logits, -1e9)
        )
        if top_k > 0:
            v, idx = torch.topk(logits, k=min(top_k, logits.shape[-1]))
            p = torch.softmax(v, dim=-1)
            return idx.gather(-1, torch.multinomial(p, 1))
        p = torch.softmax(logits, dim=-1)
        return torch.multinomial(p, 1)

    model.eval()
    ids = tokenizer.encode(prompt, add_bos=True, add_eos=False)
    prompt_len = len(ids)
    x = torch.tensor(ids, dtype=torch.long, device=device).unsqueeze(0)

    with torch.no_grad():
        generated = 0
        while generated < max_new_tokens:
            if branches <= 1:
                ctx = x[:, -seq_len:]
                logits, _, _, _ = model(ctx)
                nlogits = logits[:, -1, :] / max(temperature, 1e-6)
                nid = _sample_id(nlogits)
                x = torch.cat([x, nid], dim=1)
                generated += 1
                continue
            rollout = min(branch_len, max_new_tokens - generated)
            best_nll: Optional[float] = None
            best_tokens: Optional[List[torch.Tensor]] = None
            for _ in range(branches):
                cand = x
                cand_tokens: List[torch.Tensor] = []
                nll = 0.0
                for _ in range(rollout):
                    ctx = cand[:, -seq_len:]
                    logits, _, _, _ = model(ctx)
                    nlogits = logits[:, -1, :] / max(temperature, 1e-6)
                    nid = _sample_id(nlogits)
                    lp = F.log_softmax(nlogits.float(), dim=-1)
                    nll += float(-lp.gather(-1, nid).item())
                    cand = torch.cat([cand, nid], dim=1)
                    cand_tokens.append(nid)
                if best_nll is None or nll < best_nll:
                    best_nll = nll
                    best_tokens = cand_tokens
            assert best_tokens is not None
            for t in best_tokens:
                x = torch.cat([x, t], dim=1)
                generated += 1

    generated_ids = x[0, prompt_len:].tolist()
    return tokenizer.decode(generated_ids, skip_special=True)


def sample_text_cached(
    model: TinyMemoryLM,
    tokenizer: WordTokenizer,
    prompt: str,
    max_new_tokens: int,
    temperature: float,
    top_k: int,
    device: torch.device,
    seq_len: int,
) -> str:
    model.eval()
    ids = tokenizer.encode(prompt, add_bos=True, add_eos=False)
    prompt_len = len(ids)
    x = torch.tensor(ids, dtype=torch.long, device=device).unsqueeze(0)

    with torch.no_grad():
        logits, _, _, past_kv = model(x, use_cache=True)
        nlogits = logits[:, -1, :] / max(temperature, 1e-6)
        if top_k > 0:
            v, idx = torch.topk(nlogits, k=min(top_k, nlogits.shape[-1]))
            p = torch.softmax(v, dim=-1)
            nid = idx.gather(-1, torch.multinomial(p, 1))
        else:
            p = torch.softmax(nlogits, dim=-1)
            nid = torch.multinomial(p, 1)
        all_ids = [int(nid.item())]

        for _ in range(max_new_tokens - 1):
            logits, _, _, past_kv = model(nid, use_cache=True, past_key_values=past_kv)
            nlogits = logits[:, -1, :] / max(temperature, 1e-6)
            if top_k > 0:
                v, idx = torch.topk(nlogits, k=min(top_k, nlogits.shape[-1]))
                p = torch.softmax(v, dim=-1)
                nid = idx.gather(-1, torch.multinomial(p, 1))
            else:
                p = torch.softmax(nlogits, dim=-1)
                nid = torch.multinomial(p, 1)
            tid = int(nid.item())
            all_ids.append(tid)
            if tid == tokenizer.eos_id:
                break

    return tokenizer.decode(all_ids, skip_special=True)


def speculative_decode(
    model: TinyMemoryLM,
    tokenizer: WordTokenizer,
    prompt: str,
    max_new_tokens: int,
    temperature: float,
    top_k: int,
    device: torch.device,
    seq_len: int,
) -> str:
    model.eval()
    ids = tokenizer.encode(prompt, add_bos=True, add_eos=False)
    x = torch.tensor(ids, dtype=torch.long, device=device).unsqueeze(0)
    all_generated: List[int] = []

    with torch.no_grad():
        logits, _, h_out, past_kv = model(x, use_cache=True, return_hidden=True)

        def _sample_from(lg: torch.Tensor) -> int:
            lg = lg / max(temperature, 1e-6)
            if top_k > 0:
                v, idx = torch.topk(lg, k=min(top_k, lg.shape[-1]))
                p = torch.softmax(v, dim=-1)
                return int(idx[torch.multinomial(p, 1)].item())
            p = torch.softmax(lg, dim=-1)
            return int(torch.multinomial(p, 1).item())

        main_token = _sample_from(logits[0, -1, :])
        all_generated.append(main_token)

        while len(all_generated) < max_new_tokens:
            if main_token == tokenizer.eos_id:
                break

            draft_tokens = []
            if h_out is not None and model.mtp_horizons:
                last_hidden = h_out[:, -1:, :]
                for h in model.mtp_horizons:
                    adapter = model.mtp_adapters[str(h)]
                    norm = model.mtp_norms[str(h)]
                    adapted = norm(adapter(last_hidden))
                    draft_logits = model.head(adapted) + model.output_bias
                    draft_tok = _sample_from(draft_logits[0, 0, :])
                    draft_tokens.append(draft_tok)

            if not draft_tokens:
                nid = torch.tensor([[main_token]], dtype=torch.long, device=device)
                logits, _, h_out, past_kv = model(
                    nid, use_cache=True, past_key_values=past_kv, return_hidden=True
                )
                main_token = _sample_from(logits[0, -1, :])
                all_generated.append(main_token)
                continue

            verify_input = torch.tensor(
                [[main_token] + draft_tokens], dtype=torch.long, device=device
            )
            verify_logits, _, h_out, past_kv = model(
                verify_input,
                use_cache=True,
                past_key_values=past_kv,
                return_hidden=True,
            )

            accepted = 0
            all_generated.append(main_token) if main_token not in all_generated[
                -1:
            ] else None
            for i, draft_tok in enumerate(draft_tokens):
                verified_tok = _sample_from(verify_logits[0, i, :])
                if verified_tok == draft_tok:
                    all_generated.append(draft_tok)
                    accepted += 1
                    if draft_tok == tokenizer.eos_id:
                        break
                else:
                    all_generated.append(verified_tok)
                    break

            if accepted < len(draft_tokens):
                trim_len = len(draft_tokens) - accepted - 1
                if trim_len > 0 and past_kv is not None:
                    past_kv = [
                        (k[:, :, :-trim_len, :], v[:, :, :-trim_len, :])
                        if k is not None
                        else None
                        for k, v in past_kv
                    ]

            main_token = all_generated[-1]

    return tokenizer.decode(all_generated, skip_special=True)


def build_stop_token_ids(tokenizer: WordTokenizer) -> set:
    stop_tokens = {tokenizer.eos_id}
    for tok in ("<|user|>", "<|system|>", "<|assistant|>"):
        tid = tokenizer.token_to_id.get(tok)
        if tid is not None:
            stop_tokens.add(int(tid))
    return stop_tokens


def apply_no_repeat_ngram(
    logits: torch.Tensor,
    token_history: Sequence[int],
    ngram_size: int,
) -> torch.Tensor:
    if ngram_size <= 1 or len(token_history) < max(0, ngram_size - 1):
        return logits
    prefix = tuple(token_history[-(ngram_size - 1) :]) if ngram_size > 1 else tuple()
    banned: set = set()
    for i in range(len(token_history) - ngram_size + 1):
        if tuple(token_history[i : i + ngram_size - 1]) == prefix:
            banned.add(int(token_history[i + ngram_size - 1]))
    if not banned:
        return logits
    out = logits.clone()
    banned_ids = torch.tensor(sorted(banned), device=logits.device, dtype=torch.long)
    out[banned_ids] = float("-inf")
    return out


def score_candidate(
    prompt: str,
    raw_text: str,
    visible_text: str,
    avg_logprob: float,
) -> float:
    clean = visible_text.strip()
    if not clean:
        return -1e9
    score = avg_logprob
    words = clean.lower().split()
    prompt_words = re.findall(r"[A-Za-z][A-Za-z'-]{2,}", prompt.lower())
    prompt_stop = {
        "what",
        "which",
        "when",
        "where",
        "why",
        "how",
        "are",
        "is",
        "the",
        "and",
        "for",
        "with",
        "that",
        "this",
        "from",
        "into",
        "about",
        "explain",
        "tell",
        "give",
        "list",
        "show",
        "write",
        "their",
        "there",
        "your",
    }
    prompt_keywords = {w for w in prompt_words if w not in prompt_stop}
    candidate_keywords = set(re.findall(r"[A-Za-z][A-Za-z'-]{2,}", clean.lower()))
    if len(words) < 6:
        score -= 2.0
    else:
        score += min(2.0, len(words) * 0.03)
    if clean[-1:] in ".!?":
        score += 0.5
    if "<|user|>" in raw_text or "<|system|>" in raw_text:
        score -= 4.0
    if raw_text.count("<|assistant|>") > 1:
        score -= 2.0
    if prompt_keywords:
        overlap = len(prompt_keywords & candidate_keywords) / len(prompt_keywords)
        if overlap == 0.0:
            score -= 2.5
        else:
            score += min(3.5, overlap * 4.0)
    for open_tok, close_tok in [
        ("<|begin_of_thought|>", "<|end_of_thought|>"),
        ("<|begin_of_solution|>", "<|end_of_solution|>"),
    ]:
        if (open_tok in raw_text) != (close_tok in raw_text):
            score -= 1.0
    if len(words) >= 3:
        trigrams = [tuple(words[i : i + 3]) for i in range(len(words) - 2)]
        if trigrams:
            unique_ratio = len(set(trigrams)) / len(trigrams)
            if unique_ratio < 0.35:
                score -= 4.0
            elif unique_ratio < 0.55:
                score -= 2.0
            else:
                score += min(1.0, (unique_ratio - 0.55) * 2.0)
    alpha_words = [
        w
        for w in words
        if len(w) <= 18 and (sum(ch.isalpha() for ch in w) / max(len(w), 1)) > 0.7
    ]
    alpha_ratio = len(alpha_words) / max(len(words), 1)
    if alpha_ratio < 0.45:
        score -= 3.0
    elif alpha_ratio < 0.65:
        score -= 1.0
    return score


def generate_candidate(
    model: TinyMemoryLM,
    tokenizer: WordTokenizer,
    prompt: str,
    max_new_tokens: int,
    temperature: float,
    top_k: int,
    repetition_penalty: float,
    no_repeat_ngram_size: int,
    device: str,
    sft_mode: bool,
    force_thought: bool,
    stream: bool,
    context_window: int,
) -> Tuple[str, str, float, int]:
    if sft_mode:
        full_prompt = f"<|user|>\n{prompt}\n<|assistant|>\n"
    else:
        full_prompt = prompt
    if force_thought:
        full_prompt = f"{full_prompt}<|begin_of_thought|> "
    input_ids = tokenizer.encode(full_prompt, add_bos=True, add_eos=False)
    input_ids_t = torch.tensor([input_ids], dtype=torch.long, device=device)
    visible_tokens: List[str] = []
    raw_tokens: List[str] = []
    stop_token_ids = build_stop_token_ids(tokenizer)
    total_logprob = 0.0
    sampled_tokens = 0
    with torch.no_grad():
        for _ in range(max_new_tokens):
            ctx_ids = (
                input_ids_t[:, -context_window:] if context_window > 0 else input_ids_t
            )
            logits, _, _, _ = model(ctx_ids)
            next_logits = logits[0, -1, :].clone()
            raw_next_logits = next_logits.clone()
            if repetition_penalty != 1.0:
                seen = set(input_ids_t[0].tolist())
                for token_id in seen:
                    if next_logits[token_id] > 0:
                        next_logits[token_id] /= repetition_penalty
                    else:
                        next_logits[token_id] *= repetition_penalty
            if temperature != 1.0:
                next_logits = next_logits / max(temperature, 1e-6)
            if no_repeat_ngram_size > 1:
                next_logits = apply_no_repeat_ngram(
                    next_logits,
                    input_ids_t[0].tolist(),
                    no_repeat_ngram_size,
                )
            if top_k > 0:
                v, _ = torch.topk(next_logits, min(top_k, next_logits.size(0)))
                next_logits[next_logits < v[-1]] = float("-inf")
            top_p = 0.9
            if top_p < 1.0:
                sorted_logits, sorted_indices = torch.sort(next_logits, descending=True)
                cum_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)
                remove_mask = cum_probs - torch.softmax(sorted_logits, dim=-1) >= top_p
                sorted_logits[remove_mask] = float("-inf")
                next_logits = sorted_logits.scatter(0, sorted_indices, sorted_logits)
            if not torch.isfinite(next_logits).any():
                next_logits = raw_next_logits
                if temperature != 1.0:
                    next_logits = next_logits / max(temperature, 1e-6)
            probs = torch.softmax(next_logits, dim=-1)
            next_id = torch.multinomial(probs, num_samples=1).item()
            total_logprob += float(torch.log(probs[next_id] + 1e-12).item())
            sampled_tokens += 1
            if next_id in stop_token_ids:
                break
            token_str = (
                tokenizer.id_to_token[next_id]
                if next_id < len(tokenizer.id_to_token)
                else ""
            )
            raw_tokens.append(token_str)
            if token_str not in tokenizer.special:
                visible_tokens.append(token_str)
                if stream:
                    print(token_str, end="", flush=True)
            input_ids_t = torch.cat(
                [input_ids_t, torch.tensor([[next_id]], device=device)], dim=1
            )
    if stream:
        print()
    avg_logprob = total_logprob / max(1, sampled_tokens)
    return "".join(visible_tokens), "".join(raw_tokens), avg_logprob, 0


def generate_beam_search(
    model: TinyMemoryLM,
    tokenizer: WordTokenizer,
    prompt: str,
    max_new_tokens: int = 60,
    beam_width: int = 8,
    length_penalty: float = 0.7,
    no_repeat_ngram_size: int = 3,
    device: str = "cuda",
    sft_mode: bool = False,
    context_window: int = 2048,
) -> str:
    if sft_mode:
        full_prompt = f"<|user|>\n{prompt}\n<|assistant|>\n"
    else:
        full_prompt = prompt
    prompt_ids = tokenizer.encode(full_prompt, add_bos=True, add_eos=False)
    prompt_len = len(prompt_ids)
    stop_ids = build_stop_token_ids(tokenizer)
    beams: List[Tuple[float, List[int]]] = [(0.0, list(prompt_ids))]
    completed: List[Tuple[float, List[int]]] = []
    for _step in range(max_new_tokens):
        if not beams:
            break
        candidates: List[Tuple[float, List[int]]] = []
        for beam_score, beam_ids in beams:
            x = torch.tensor(
                [beam_ids[-context_window:]], dtype=torch.long, device=device
            )
            with torch.no_grad():
                logits, _, _, _ = model(x)
            nl = logits[0, -1, :]
            log_probs = F.log_softmax(nl, dim=-1)
            gen_ids = beam_ids[prompt_len:]
            if no_repeat_ngram_size > 1 and len(gen_ids) >= no_repeat_ngram_size - 1:
                prefix = tuple(gen_ids[-(no_repeat_ngram_size - 1) :])
                for i in range(len(gen_ids) - no_repeat_ngram_size + 1):
                    if tuple(gen_ids[i : i + no_repeat_ngram_size - 1]) == prefix:
                        log_probs[gen_ids[i + no_repeat_ngram_size - 1]] = float("-inf")
            topk_lp, topk_ids = torch.topk(log_probs, beam_width)
            for i in range(beam_width):
                tid = topk_ids[i].item()
                new_score = beam_score + topk_lp[i].item()
                new_ids = beam_ids + [tid]
                if tid in stop_ids:
                    completed.append((new_score, new_ids))
                else:
                    candidates.append((new_score, new_ids))

        def _norm_score(pair):
            gen_len = max(1, len(pair[1]) - prompt_len)
            return pair[0] / (gen_len**length_penalty)

        candidates.sort(key=_norm_score, reverse=True)
        beams = candidates[:beam_width]

    pool = completed + beams
    if not pool:
        return ""

    def _norm_score_final(pair):
        gen_len = max(1, len(pair[1]) - prompt_len)
        return pair[0] / (gen_len**length_penalty)

    pool.sort(key=_norm_score_final, reverse=True)
    best_ids = pool[0][1][prompt_len:]
    text = tokenizer.decode(best_ids, skip_special=True)
    nl_pos = text.find("\n")
    if nl_pos > 5:
        text = text[:nl_pos]
    return text.strip()


def generate(
    model: TinyMemoryLM,
    tokenizer: WordTokenizer,
    prompt: str,
    max_new_tokens: int = 256,
    temperature: float = 0.8,
    top_k: int = 40,
    repetition_penalty: float = 1.0,
    device: str = "cuda",
    sft_mode: bool = False,
    force_thought: bool = False,
    stream: bool = True,
    decode_mode: str = "legacy",
    best_of: int = 3,
    no_repeat_ngram_size: int = 3,
    context_window: int = 2048,
    beam_width: int = 8,
    length_penalty: float = 0.7,
) -> str:
    if decode_mode == "beam":
        text = generate_beam_search(
            model=model,
            tokenizer=tokenizer,
            prompt=prompt,
            max_new_tokens=max_new_tokens,
            beam_width=beam_width,
            length_penalty=length_penalty,
            no_repeat_ngram_size=no_repeat_ngram_size,
            device=device,
            sft_mode=sft_mode,
            context_window=context_window,
        )
        if stream:
            print(text)
        return text
    if decode_mode == "legacy":
        text, _, _, _ = generate_candidate(
            model=model,
            tokenizer=tokenizer,
            prompt=prompt,
            max_new_tokens=max_new_tokens,
            temperature=temperature,
            top_k=top_k,
            repetition_penalty=repetition_penalty,
            no_repeat_ngram_size=no_repeat_ngram_size,
            device=device,
            sft_mode=sft_mode,
            force_thought=force_thought,
            stream=stream,
            context_window=context_window,
        )
        return text
    candidates: List[Tuple[float, str, str, float]] = []
    for _ in range(max(1, best_of)):
        candidate_text, raw_text, avg_logprob, _ = generate_candidate(
            model=model,
            tokenizer=tokenizer,
            prompt=prompt,
            max_new_tokens=max_new_tokens,
            temperature=temperature,
            top_k=top_k,
            repetition_penalty=repetition_penalty,
            no_repeat_ngram_size=no_repeat_ngram_size,
            device=device,
            sft_mode=sft_mode,
            force_thought=force_thought,
            stream=False,
            context_window=context_window,
        )
        score = score_candidate(prompt, raw_text, candidate_text, avg_logprob)
        candidates.append((score, candidate_text, raw_text, avg_logprob))
    best_score, best_text, _, _ = max(candidates, key=lambda item: item[0])
    if stream:
        print(best_text, end="", flush=True)
        print()
    return best_text


# ---------------------------------------------------------------------------
# Web server (from interactive.py)
# ---------------------------------------------------------------------------

ROOT = Path(__file__).resolve().parent
if str(ROOT) not in sys.path:
    sys.path.insert(0, str(ROOT))


HF_ORG = "CompactAI"
HF_API = "https://huggingface.co/api"
CACHE_ROOT = Path.home() / ".cache" / "compactai_web"
USER_AGENT = "Mozilla/5.0 CompactAI-Web"
MODEL_CACHE: dict[tuple[str, str], dict[str, object]] = {}
MODEL_CACHE_LOCK = threading.RLock()
GENERATION_LOCK = threading.Lock()


def request_json(url: str):
    req = Request(url, headers={"User-Agent": USER_AGENT})
    with urlopen(req, timeout=60) as response:
        return json.loads(response.read().decode("utf-8"))


def request_text(url: str) -> str:
    req = Request(url, headers={"User-Agent": USER_AGENT})
    with urlopen(req, timeout=60) as response:
        return response.read().decode("utf-8", errors="replace")


def download_file(url: str, destination: Path) -> None:
    destination.parent.mkdir(parents=True, exist_ok=True)
    temp_path = destination.with_suffix(destination.suffix + ".tmp")
    req = Request(url, headers={"User-Agent": USER_AGENT})
    with urlopen(req, timeout=120) as response, temp_path.open("wb") as handle:
        shutil.copyfileobj(response, handle)
    temp_path.replace(destination)


def normalize_repo_id(raw_repo_id: str) -> str:
    if not isinstance(raw_repo_id, str):
        return ""
    repo_id = raw_repo_id.strip()
    if not repo_id:
        return ""
    try:
        repo_id = unquote(repo_id)
    except Exception:
        pass
    return (
        repo_id.replace("https://huggingface.co/", "")
        .replace("http://huggingface.co/", "")
        .replace("api/models/", "")
        .replace("models/", "")
        .split("?", 1)[0]
        .split("#", 1)[0]
        .strip("/")
    )


def series_from_name(name: str) -> str | None:
    lower = (name or "").lower()
    if "haiku" in lower:
        return "Haiku"
    if "sonnet" in lower:
        return "Sonnet"
    if "opus" in lower:
        return "Opus"
    return None


def encoded_repo_id(repo_id: str) -> str:
    return "/".join(
        quote(part, safe="") for part in normalize_repo_id(repo_id).split("/") if part
    )


def hf_file_url(repo_id: str, filename: str) -> str:
    encoded_name = "/".join(
        quote(part, safe="") for part in filename.split("/") if part
    )
    return (
        f"https://huggingface.co/{encoded_repo_id(repo_id)}/resolve/main/{encoded_name}"
    )


def model_list() -> list[dict[str, object]]:
    data = request_json(f"{HF_API}/models?author={quote(HF_ORG)}&full=true&limit=200")
    models: list[dict[str, object]] = []
    for item in data:
        siblings = item.get("siblings") or []
        filenames = [s.get("rfilename", "") for s in siblings if isinstance(s, dict)]
        has_model = "model.pt" in filenames or "model/model.pt" in filenames
        has_pretrain = "pretrain.pt" in filenames or "model/pretrain.pt" in filenames
        has_tokenizer = (
            "tokenizer.json" in filenames or "model/tokenizer.json" in filenames
        )
        if not has_model and not has_pretrain:
            continue
        name = (item.get("id") or "").split("/")[-1]
        series = series_from_name(name)
        if not series:
            continue
        models.append(
            {
                "id": item.get("id", ""),
                "name": name,
                "series": series,
                "downloads": item.get("downloads", 0) or 0,
                "likes": item.get("likes", 0) or 0,
                "has_model": has_model,
                "has_pretrain": has_pretrain,
                "has_tokenizer": has_tokenizer,
            }
        )
    return sorted(models, key=lambda entry: entry["downloads"], reverse=True)


def model_details(repo_id: str) -> dict[str, object] | None:
    normalized = normalize_repo_id(repo_id)
    if not normalized:
        return None
    data = request_json(f"{HF_API}/models/{encoded_repo_id(normalized)}")
    siblings = data.get("siblings") or []
    files: dict[str, dict[str, float]] = {}
    has_model = False
    has_pretrain = False
    for sibling in siblings:
        if not isinstance(sibling, dict):
            continue
        filename = sibling.get("rfilename") or ""
        if not filename:
            continue
        size_mb = round((sibling.get("size") or 0) / (1024 * 1024), 2)
        files[filename] = {"size_mb": size_mb}
        if filename.startswith("model/"):
            files[filename.removeprefix("model/")] = {"size_mb": size_mb}
        if filename in {"model.pt", "model/model.pt"}:
            has_model = True
        if filename in {"pretrain.pt", "model/pretrain.pt"}:
            has_pretrain = True
    readme_raw = ""
    try:
        readme_raw = request_text(
            f"https://huggingface.co/{encoded_repo_id(normalized)}/raw/main/README.md"
        )
    except Exception:
        readme_raw = ""
    name = (data.get("id") or normalized).split("/")[-1]
    return {
        "id": normalized,
        "name": name,
        "series": series_from_name(name) or "Sonnet",
        "downloads": data.get("downloads", 0) or 0,
        "files": files,
        "readme_raw": readme_raw,
        "hf_model_id": normalized,
        "has_model": has_model,
        "has_pretrain": has_pretrain,
    }


def cache_dir(repo_id: str, model_type: str) -> Path:
    return CACHE_ROOT / normalize_repo_id(repo_id).replace("/", "__") / model_type


def artifact_candidates(model_type: str) -> list[str]:
    return (
        ["model/pretrain.pt", "pretrain.pt"]
        if model_type == "pretrain"
        else ["model/model.pt", "model.pt"]
    )


def ensure_artifact(repo_id: str, model_type: str, destination_name: str) -> Path:
    normalized = normalize_repo_id(repo_id)
    target = cache_dir(normalized, model_type) / destination_name
    if target.exists():
        return target
    last_error: Exception | None = None
    for candidate in (
        artifact_candidates(model_type)
        if destination_name.endswith(".pt")
        else ["model/tokenizer.json", "tokenizer.json"]
    ):
        try:
            download_file(hf_file_url(normalized, candidate), target)
            return target
        except Exception as exc:
            last_error = exc
    raise RuntimeError(
        f"Unable to download {destination_name} for {normalized}: {last_error}"
    )


def series_config(series: str) -> dict[str, object]:
    return MODEL_SERIES.get(series.lower(), MODEL_SERIES["sonnet"])


def load_bundle(repo_id: str, model_type: str) -> dict[str, object]:
    normalized = normalize_repo_id(repo_id)
    details = model_details(normalized)
    if not details:
        raise RuntimeError("Model details are unavailable.")
    series = str(details["series"])
    key = (normalized, model_type)
    with MODEL_CACHE_LOCK:
        cached = MODEL_CACHE.get(key)
        if cached:
            return cached
        bundle_dir = cache_dir(normalized, model_type)
        bundle_dir.mkdir(parents=True, exist_ok=True)
        model_path = bundle_dir / (
            "pretrain.pt" if model_type == "pretrain" else "model.pt"
        )
        tokenizer_path = bundle_dir / "tokenizer.json"
        if not model_path.exists():
            ensure_artifact(normalized, model_type, model_path.name)
        if not tokenizer_path.exists():
            ensure_artifact(normalized, model_type, tokenizer_path.name)
        tokenizer = WordTokenizer.load(tokenizer_path)
        ckpt = torch.load(str(model_path), map_location="cpu", weights_only=False)
        cfg = series_config(series)
        vocab_size = int(ckpt.get("vocab_size", tokenizer.vocab_size))
        state_dict = ckpt.get("model_state") or ckpt.get("state_dict") or ckpt
        # Auto-detect new arch features from checkpoint weights
        engram_dim = _detect_engram_dim(state_dict) or int(
            cfg.get("engram_dim", model_config.engram_dim)
        )
        mhc_expansion = _detect_mhc_expansion(state_dict) or int(
            cfg.get("mhc_expansion", model_config.mhc_expansion)
        )
        model = TinyMemoryLM(
            vocab_size=vocab_size,
            dim=int(cfg.get("dim", model_config.dim)),
            n_unique_layers=int(
                cfg.get("n_unique_layers", model_config.n_unique_layers)
            ),
            n_logical_layers=int(
                cfg.get("n_logical_layers", model_config.n_logical_layers)
            ),
            n_heads=int(cfg.get("n_heads", model_config.n_heads)),
            n_kv_heads=int(cfg.get("n_kv_heads", model_config.n_kv_heads)),
            ffn_dim=int(cfg.get("ffn_dim", model_config.ffn_dim)),
            dropout=float(cfg.get("dropout", model_config.dropout)),
            mtp_horizons=tuple(
                int(v) for v in cfg.get("mtp_horizons", model_config.mtp_horizons)
            ),
            grad_checkpoint=False,
            sliding_window=int(
                cfg.get("sliding_window_size", model_config.sliding_window_size)
            ),
            rope_fraction=float(
                cfg.get("rope_fraction", model_config.rope_fraction)
            ),
            embed_scale=bool(
                cfg.get("embed_scale", model_config.embed_scale)
            ),
            engram_dim=engram_dim,
            engram_heads=int(cfg.get("engram_heads", model_config.engram_heads)),
            engram_table_size=int(
                cfg.get("engram_table_size", model_config.engram_table_size)
            ),
            engram_max_ngram=int(
                cfg.get("engram_max_ngram", model_config.engram_max_ngram)
            ),
            mhc_expansion=mhc_expansion,
        )
        model.load_state_dict(state_dict, strict=False)
        model.eval()
        if tokenizer.vocab_size > vocab_size:
            model.resize_token_embeddings(tokenizer.vocab_size)
        device = "cuda" if torch.cuda.is_available() else "cpu"
        model = model.to(device)
        bundle = {
            "repo_id": normalized,
            "name": details["name"],
            "series": series,
            "type": model_type,
            "model": model,
            "tokenizer": tokenizer,
            "device": device,
            "model_path": str(model_path),
            "tokenizer_path": str(tokenizer_path),
            "downloads": details["downloads"],
        }
        MODEL_CACHE[key] = bundle
        return bundle


def ensure_port(start_port: int) -> int:
    for port in range(start_port, start_port + 50):
        with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
            try:
                sock.bind(("127.0.0.1", port))
            except OSError:
                continue
            return port
    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
        sock.bind(("127.0.0.1", 0))
        return sock.getsockname()[1]


def page_html() -> str:
    return f"""<!doctype html>
<html lang="en">
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <title>CompactAI Web</title>
  <style>
    :root {{
      color-scheme: dark;
      --bg: #050505;
      --panel: #111111;
      --panel-2: #161616;
      --line: #262626;
      --text: #f5f5f5;
      --muted: #a3a3a3;
      --accent: #d97706;
      --accent-2: #b45309;
      --soft: #1f1f1f;
    }}
    * {{ box-sizing: border-box; }}
    body {{
      margin: 0;
      font-family: Geist, -apple-system, BlinkMacSystemFont, sans-serif;
      background: var(--bg);
      color: var(--text);
      line-height: 1.5;
    }}
    a {{ color: inherit; }}
    .wrap {{ max-width: 1120px; margin: 0 auto; padding: 28px 20px 40px; }}
    .hero {{
      display: flex;
      justify-content: space-between;
      align-items: end;
      gap: 16px;
      padding: 22px 0 28px;
      border-bottom: 1px solid var(--line);
      margin-bottom: 22px;
    }}
    h1 {{ margin: 0; font-size: clamp(2rem, 5vw, 3.5rem); letter-spacing: -0.04em; }}
    .subtitle {{ margin: 10px 0 0; color: var(--muted); max-width: 58ch; }}
    .grid {{
      display: grid;
      grid-template-columns: 1.1fr 1fr;
      gap: 18px;
    }}
    .panel {{
      background: var(--panel);
      border: 1px solid var(--line);
      border-radius: 18px;
      padding: 18px;
    }}
    .panel h2 {{ margin: 0 0 12px; font-size: 15px; letter-spacing: 0.02em; text-transform: uppercase; color: var(--muted); }}
    .row {{ display: flex; gap: 10px; flex-wrap: wrap; }}
    select, textarea, input {{
      width: 100%;
      background: var(--panel-2);
      color: var(--text);
      border: 1px solid var(--line);
      border-radius: 12px;
      padding: 12px 14px;
      font: inherit;
      outline: none;
    }}
    textarea {{ min-height: 170px; resize: vertical; }}
    select {{ appearance: none; }}
    .choice {{
      flex: 1 1 150px;
      display: flex;
      align-items: center;
      gap: 10px;
      padding: 10px 12px;
      border: 1px solid var(--line);
      border-radius: 12px;
      background: var(--panel-2);
      cursor: pointer;
    }}
    .choice input {{ width: auto; }}
    .btns {{ display: flex; flex-wrap: wrap; gap: 10px; }}
    button {{
      border: 1px solid var(--line);
      border-radius: 12px;
      padding: 11px 14px;
      background: var(--soft);
      color: var(--text);
      font: inherit;
      cursor: pointer;
      transition: transform 0.15s ease, border-color 0.15s ease, background 0.15s ease;
    }}
    button:hover {{ transform: translateY(-1px); border-color: #3a3a3a; }}
    .primary {{ background: var(--accent); border-color: var(--accent); color: #fff; }}
    .primary:hover {{ background: var(--accent-2); border-color: var(--accent-2); }}
    .status {{
      margin-top: 12px;
      color: var(--muted);
      font-size: 13px;
      min-height: 1.4em;
    }}
    .output {{
      white-space: pre-wrap;
      background: #0b0b0b;
      border: 1px solid var(--line);
      border-radius: 16px;
      min-height: 280px;
      padding: 16px;
      color: #e7e5e4;
      overflow: auto;
    }}
    .meta {{
      display: flex;
      flex-wrap: wrap;
      gap: 8px;
      margin-top: 8px;
    }}
    .chip {{
      display: inline-flex;
      align-items: center;
      gap: 6px;
      padding: 6px 10px;
      border-radius: 999px;
      border: 1px solid var(--line);
      background: var(--panel-2);
      font-size: 12px;
      color: var(--muted);
    }}
    .code {{
      margin-top: 14px;
      padding: 12px 14px;
      border-radius: 12px;
      border: 1px solid var(--line);
      background: #0b0b0b;
      font-family: ui-monospace, SFMono-Regular, Menlo, Monaco, Consolas, monospace;
      font-size: 13px;
      overflow-x: auto;
    }}
    @media (max-width: 900px) {{
      .grid {{ grid-template-columns: 1fr; }}
      .hero {{ align-items: start; flex-direction: column; }}
    }}
  </style>
</head>
<body>
  <div class="wrap">
    <div class="hero">
      <div>
        <h1>CompactAI Web</h1>
        <p class="subtitle">Pull a model from Hugging Face, keep it cached locally, and chat in the browser.</p>
      </div>
      <div class="meta">
        <span class="chip">Hugging Face: CompactAI</span>
        <span class="chip">pip install -r requirements.txt</span>
        <span class="chip">Local inference</span>
      </div>
    </div>

    <div class="grid">
      <section class="panel">
        <h2>Model</h2>
        <select id="modelSelect"></select>
        <div class="row" style="margin-top: 10px;">
          <label class="choice"><input type="radio" name="type" value="model" checked> Instruct / final</label>
          <label class="choice"><input type="radio" name="type" value="pretrain"> Pretrain</label>
        </div>
        <div class="btns" style="margin-top: 12px;">
          <button id="downloadBtn">Download</button>
          <button id="refreshBtn">Refresh models</button>
        </div>
        <div class="status" id="modelStatus">Loading model list…</div>
        <div class="code">python3 interactive_web.py</div>
      </section>

      <section class="panel">
        <h2>Prompt</h2>
        <textarea id="prompt" placeholder="Ask something…"></textarea>
        <div class="row" style="margin-top: 10px;">
          <input id="temperature" type="number" min="0.1" max="2" step="0.05" value="0.8" style="flex: 1 1 120px;">
          <input id="topK" type="number" min="1" max="100" step="1" value="40" style="flex: 1 1 120px;">
          <input id="maxTokens" type="number" min="16" max="2048" step="16" value="256" style="flex: 1 1 120px;">
        </div>
        <div class="btns" style="margin-top: 12px;">
          <button id="generateBtn" class="primary">Generate</button>
        </div>
        <div class="status" id="genStatus"></div>
      </section>
    </div>

    <section class="panel" style="margin-top: 18px;">
      <h2>Response</h2>
      <div id="output" class="output"></div>
    </section>
  </div>

  <script>
    const modelSelect = document.getElementById('modelSelect');
    const modelStatus = document.getElementById('modelStatus');
    const genStatus = document.getElementById('genStatus');
    const output = document.getElementById('output');
    const promptBox = document.getElementById('prompt');

    async function api(path, body) {{
      const response = await fetch(path, {{
        method: body ? 'POST' : 'GET',
        headers: body ? {{ 'Content-Type': 'application/json' }} : undefined,
        body: body ? JSON.stringify(body) : undefined,
      }});
      return response.json();
    }}

    function currentType() {{
      return document.querySelector('input[name="type"]:checked').value;
    }}

    function currentModelId() {{
      return modelSelect.value;
    }}

    function setModels(models) {{
      modelSelect.innerHTML = '';
      for (const model of models) {{
        const option = document.createElement('option');
        option.value = model.id;
        option.textContent = `${{model.name}} • ${{model.series}}`;
        modelSelect.appendChild(option);
      }}
      if (models.length === 0) {{
        const option = document.createElement('option');
        option.value = '';
        option.textContent = 'No CompactAI models found';
        modelSelect.appendChild(option);
      }}
    }}

    async function refreshModels() {{
      modelStatus.textContent = 'Loading model list…';
      try {{
        const models = await api('/api/models');
        setModels(models);
        modelStatus.textContent = models.length ? `${{models.length}} models available from CompactAI` : 'No compatible models found.';
      }} catch (error) {{
        modelStatus.textContent = 'Failed to load model list.';
      }}
    }}

    async function ensureModel() {{
      const modelId = currentModelId();
      if (!modelId) {{
        modelStatus.textContent = 'Pick a model first.';
        return null;
      }}
      modelStatus.textContent = 'Downloading model files…';
      const result = await api('/api/ensure', {{ modelId, type: currentType() }});
      if (!result.success) {{
        modelStatus.textContent = result.error || 'Download failed.';
        return null;
      }}
      modelStatus.textContent = `${{result.name}} ready on ${{result.series}}`;
      return result;
    }}

    async function generate() {{
      output.textContent = '';
      genStatus.textContent = '';
      const modelId = currentModelId();
      const prompt = promptBox.value.trim();
      if (!modelId) {{
        genStatus.textContent = 'Pick a model first.';
        return;
      }}
      if (!prompt) {{
        genStatus.textContent = 'Enter a prompt first.';
        return;
      }}
      genStatus.textContent = 'Preparing model…';
      const result = await api('/api/generate', {{
        modelId,
        type: currentType(),
        prompt,
        temperature: Number(document.getElementById('temperature').value || 0.8),
        top_k: Number(document.getElementById('topK').value || 40),
        max_new_tokens: Number(document.getElementById('maxTokens').value || 256),
      }});
      if (!result.success) {{
        genStatus.textContent = result.error || 'Generation failed.';
        return;
      }}
      output.textContent = result.text || '';
      genStatus.textContent = 'Done.';
    }}

    document.getElementById('refreshBtn').addEventListener('click', refreshModels);
    document.getElementById('downloadBtn').addEventListener('click', ensureModel);
    document.getElementById('generateBtn').addEventListener('click', generate);
    promptBox.addEventListener('keydown', (event) => {{
      if (event.key === 'Enter' && (event.ctrlKey || event.metaKey)) {{
        event.preventDefault();
        generate();
      }}
    }});

    refreshModels();
  </script>
</body>
</html>"""


class Handler(BaseHTTPRequestHandler):
    def _send_json(self, payload, status=200):
        body = json.dumps(payload).encode("utf-8")
        self.send_response(status)
        self.send_header("Content-Type", "application/json; charset=utf-8")
        self.send_header("Content-Length", str(len(body)))
        self.send_header("Cache-Control", "no-store")
        self.end_headers()
        self.wfile.write(body)

    def _send_html(self, payload: str, status=200):
        body = payload.encode("utf-8")
        self.send_response(status)
        self.send_header("Content-Type", "text/html; charset=utf-8")
        self.send_header("Content-Length", str(len(body)))
        self.send_header("Cache-Control", "no-store")
        self.end_headers()
        self.wfile.write(body)

    def do_GET(self):
        parsed = urlparse(self.path)
        if parsed.path in {"/", "/index.html"}:
            self._send_html(page_html())
            return
        if parsed.path == "/api/models":
            try:
                self._send_json(model_list())
            except Exception as exc:
                self._send_json({"success": False, "error": str(exc)}, 500)
            return
        if parsed.path.startswith("/api/models/"):
            repo_id = normalize_repo_id(parsed.path.removeprefix("/api/models/"))
            try:
                details = model_details(repo_id)
                if not details:
                    self._send_json(
                        {"success": False, "error": "Model not found."}, 404
                    )
                else:
                    self._send_json(details)
            except Exception as exc:
                self._send_json({"success": False, "error": str(exc)}, 500)
            return
        self._send_json({"success": False, "error": "Not found."}, 404)

    def do_POST(self):
        parsed = urlparse(self.path)
        length = int(self.headers.get("Content-Length", "0") or "0")
        raw = self.rfile.read(length).decode("utf-8") if length else "{}"
        try:
            payload = json.loads(raw or "{}")
        except Exception:
            payload = {}
        if parsed.path == "/api/ensure":
            try:
                repo_id = normalize_repo_id(payload.get("modelId", ""))
                model_type = payload.get("type", "model")
                if not repo_id:
                    self._send_json(
                        {"success": False, "error": "Missing model ID."}, 400
                    )
                    return
                details = model_details(repo_id)
                if not details:
                    self._send_json(
                        {"success": False, "error": "Model not found."}, 404
                    )
                    return
                bundle = load_bundle(repo_id, model_type)
                self._send_json(
                    {
                        "success": True,
                        "id": bundle["repo_id"],
                        "name": bundle["name"],
                        "series": bundle["series"],
                        "type": bundle["type"],
                    }
                )
            except Exception as exc:
                self._send_json({"success": False, "error": str(exc)}, 500)
            return
        if parsed.path == "/api/generate":
            try:
                repo_id = normalize_repo_id(payload.get("modelId", ""))
                model_type = payload.get("type", "model")
                prompt = str(payload.get("prompt", ""))
                if not repo_id:
                    self._send_json(
                        {"success": False, "error": "Missing model ID."}, 400
                    )
                    return
                bundle = load_bundle(repo_id, model_type)
                with GENERATION_LOCK:
                    text = generate(
                        model=bundle["model"],
                        tokenizer=bundle["tokenizer"],
                        prompt=prompt,
                        max_new_tokens=int(payload.get("max_new_tokens", 256)),
                        temperature=float(payload.get("temperature", 0.8)),
                        top_k=int(payload.get("top_k", 40)),
                        repetition_penalty=float(
                            payload.get("repetition_penalty", 1.0)
                        ),
                        device=str(bundle["device"]),
                        sft_mode=model_type != "pretrain",
                        force_thought=bool(payload.get("force_thought", False)),
                        stream=False,
                        decode_mode=str(payload.get("decode_mode", "legacy")),
                        best_of=int(payload.get("best_of", 3)),
                        no_repeat_ngram_size=int(
                            payload.get("no_repeat_ngram_size", 3)
                        ),
                        context_window=int(payload.get("context_window", 2048)),
                        beam_width=int(payload.get("beam_width", 8)),
                        length_penalty=float(payload.get("length_penalty", 0.7)),
                    )
                self._send_json(
                    {
                        "success": True,
                        "text": text,
                        "name": bundle["name"],
                        "series": bundle["series"],
                    }
                )
            except Exception as exc:
                self._send_json({"success": False, "error": str(exc)}, 500)
            return
        self._send_json({"success": False, "error": "Not found."}, 404)

    def log_message(self, format, *args):
        return


def main():
    CACHE_ROOT.mkdir(parents=True, exist_ok=True)
    port = ensure_port(int(os.environ.get("PORT", "7860")))
    server = ThreadingHTTPServer(("127.0.0.1", port), Handler)
    url = f"http://127.0.0.1:{port}"
    print(url, flush=True)
    try:
        webbrowser.open(url)
    except Exception:
        pass
    try:
        server.serve_forever()
    except KeyboardInterrupt:
        pass
    finally:
        server.server_close()


if __name__ == "__main__":
    main()