diff --git "a/reframr/model.py" "b/reframr/model.py"
new file mode 100644--- /dev/null
+++ "b/reframr/model.py"
@@ -0,0 +1,4026 @@
+import json
+import hashlib
+import random
+import site
+import string
+import sys
+import unicodedata
+from dataclasses import dataclass
+from pathlib import Path
+
+_VENDOR_ROOT = Path(__file__).resolve().parent.parent / ".vendor"
+for _vendor_path in (_VENDOR_ROOT / "python", _VENDOR_ROOT / "sitepkgs"):
+    if _vendor_path.exists():
+        vendor_text = str(_vendor_path)
+        if vendor_text not in sys.path:
+            sys.path.insert(0, vendor_text)
+
+try:
+    import numpy as np
+except ModuleNotFoundError:
+    user_site = site.getusersitepackages()
+    if user_site and user_site not in sys.path:
+        sys.path.append(user_site)
+    try:
+        import numpy as np
+    except ModuleNotFoundError:
+        np = None
+
+if np is not None and not hasattr(np, "asarray"):
+    np = None
+
+from .checkpoint import read_safetensor_file, write_safetensor_file
+from .config import ReframrConfig
+from .embeddings import EmbeddingModel, fit_ppmi_embedding_from_tokens
+from .hippo import AnalyticalMemoryUnit, analytical_embedding_drive, analytical_embedding_drive_fast
+from .linalg import Vector, dot, mean, norm, softmax, zeros_vector
+from .reservoir import apply_readout, ridge_regression_readout
+from .reasoning import reasoning_prefix
+from .ternary import apply_ternary_mask, derive_ternary_mask_from_states
+from .tokenizer import NativeTokenizer
+
+ASSOCIATIVE_BLEND = 0.42
+TRANSITION_BLEND = 0.08
+COPY_BLEND = 0.04
+BASE_BLEND = 0.34
+FAST_ASSOCIATIVE_BLEND = 0.06
+FAST_TRANSITION_BLEND = 0.14
+FAST_COPY_BLEND = 0.04
+FAST_BASE_BLEND = 0.58
+FAST_PREFERENCE_BLEND = 0.15
+FAST_ANSWER_BLEND = 0.30
+PROMPT_READOUT_LOGIT_ZSCORE_SCALE = 0.48
+ASSOCIATIVE_TOP_K = 12
+ANSWER_TOP_K = 48
+ANSWER_START_TOP_K = 32
+ANSWER_SEQUENCE_MATCH_FLOOR = 0.30
+ANSWER_SEQUENCE_DISTRIBUTED_LOCK_FLOOR = 0.45
+ANSWER_SEQUENCE_LOCK_FLOOR = 0.55
+ANSWER_SEQUENCE_SPIKE_CONFIDENCE = 0.80
+READOUT_LOGIT_ZSCORE_SCALE = 0.22
+TRACE_IDENTITY_SCALE = 0.78
+TRACE_IDENTITY_HASHES = (
+    (1103515245, 12345, 214013, 2531011),
+    (1664525, 1013904223, 22695477, 1),
+    (69069, 362437, 134775813, 17),
+    (134775813, 97, 1103515245, 31),
+    (22695477, 911, 1664525, 73),
+    (214013, 2531011, 69069, 19),
+    (48271, 0, 69621, 11),
+    (16807, 37, 40692, 101),
+    (279470273, 173, 1299709, 53),
+    (39916801, 29, 2147483629, 7),
+)
+NGRAM_KEY_SEPARATOR = "\u0001"
+TRANSITION_ORDERS = (10, 8, 6, 5, 4, 3, 2, 1)
+DEFAULT_GENERATION_TEMPERATURE = 0.82
+DEFAULT_GENERATION_TOP_K = 24
+DEFAULT_GENERATION_TOP_P = 0.92
+DEFAULT_REPETITION_PENALTY = 1.18
+ANSWER_SEQUENCE_MAX_TOKENS = 192
+RUNTIME_ARRAY_DTYPE = np.float32 if np is not None else None
+
+
+@dataclass(frozen=True, slots=True)
+class CharacterCountFact:
+    character: str
+    word: str
+    count: int
+    surface_seed: int
+
+
+def _normalize_vector(values: Vector) -> Vector:
+    total = sum(values)
+    if total <= 0.0:
+        return [0.0 for _ in values]
+    return [value / total for value in values]
+
+
+def _encode_ngram_key(tokens: tuple[str, ...]) -> str:
+    return NGRAM_KEY_SEPARATOR.join(tokens)
+
+
+def _decode_ngram_key(key: str) -> tuple[str, ...]:
+    return tuple(part for part in key.split(NGRAM_KEY_SEPARATOR) if part)
+
+
+def _last_index(values: list[str], target: str) -> int | None:
+    for index in range(len(values) - 1, -1, -1):
+        if values[index] == target:
+            return index
+    return None
+
+
+@dataclass(slots=True)
+class DecodeState:
+    hidden_states: list[Vector]
+    context_traces: list[Vector]
+    combined_state: Vector
+    context_tokens: list[str]
+    answer_anchor_state: Vector | None = None
+    answer_matches: list[tuple[float, int, int]] | None = None
+    answer_start_matches: list[tuple[float, int, int]] | None = None
+    answer_sequence_matches: list[tuple[float, int, int]] | None = None
+    prompt_answer_prior: object | None = None
+    prompt_answer_start_prior: object | None = None
+
+
+@dataclass(slots=True)
+class ReframrModel:
+    config: ReframrConfig
+    tokenizer: NativeTokenizer | None = None
+    embedding_model: EmbeddingModel | None = None
+    memory_units: list[AnalyticalMemoryUnit] | None = None
+    ternary_scale: float = 1.0
+    ternary_mask: list[int] | None = None
+    ternary_mask_array: object | None = None
+    readout_weights: list[list[float]] | None = None
+    readout_weights_array: object | None = None
+    readout_bias: Vector | None = None
+    readout_bias_array: object | None = None
+    prompt_answer_weights: list[list[float]] | None = None
+    prompt_answer_weights_array: object | None = None
+    prompt_answer_bias: Vector | None = None
+    prompt_answer_bias_array: object | None = None
+    prompt_answer_start_weights: list[list[float]] | None = None
+    prompt_answer_start_weights_array: object | None = None
+    prompt_answer_start_bias: Vector | None = None
+    prompt_answer_start_bias_array: object | None = None
+    trace_token_weights: Vector | None = None
+    trace_token_weights_array: object | None = None
+    trace_embedding_table_array: object | None = None
+    preference_bias: Vector | None = None
+    preference_bias_array: object | None = None
+    preference_valid_mask_array: object | None = None
+    state_offset: Vector | None = None
+    state_offset_array: object | None = None
+    associative_keys: list[Vector] | None = None
+    associative_keys_array: object | None = None
+    associative_key_norms: list[float] | None = None
+    associative_key_norms_array: object | None = None
+    associative_values: list[int] | None = None
+    associative_values_array: object | None = None
+    associative_valid_mask_array: object | None = None
+    answer_keys: list[Vector] | None = None
+    answer_keys_array: object | None = None
+    answer_key_norms: list[float] | None = None
+    answer_key_norms_array: object | None = None
+    answer_similarity_keys_array: object | None = None
+    answer_similarity_key_norms_array: object | None = None
+    answer_similarity_mask_array: object | None = None
+    answer_values: list[int] | None = None
+    answer_values_array: object | None = None
+    answer_valid_mask_array: object | None = None
+    answer_start_keys: list[Vector] | None = None
+    answer_start_keys_array: object | None = None
+    answer_start_key_norms: list[float] | None = None
+    answer_start_key_norms_array: object | None = None
+    answer_start_similarity_keys_array: object | None = None
+    answer_start_similarity_key_norms_array: object | None = None
+    answer_start_values: list[int] | None = None
+    answer_start_values_array: object | None = None
+    answer_start_valid_mask_array: object | None = None
+    answer_sequence_keys: list[Vector] | None = None
+    answer_sequence_keys_array: object | None = None
+    answer_sequence_key_norms: list[float] | None = None
+    answer_sequence_key_norms_array: object | None = None
+    answer_sequence_similarity_keys_array: object | None = None
+    answer_sequence_similarity_key_norms_array: object | None = None
+    answer_sequence_prompt_tokens: list[list[int]] | None = None
+    answer_sequence_prompt_tokens_array: object | None = None
+    answer_sequence_tokens: list[list[int]] | None = None
+    answer_sequence_tokens_array: object | None = None
+    answer_sequence_prompt_weight_maps: list[dict[int, float]] | None = None
+    answer_sequence_prompt_weight_norms: list[float] | None = None
+    answer_sequence_prompt_bigram_sets: list[set[tuple[int, int]]] | None = None
+    answer_sequence_prompt_trigram_sets: list[set[tuple[int, int, int]]] | None = None
+    answer_sequence_prompt_number_sets: list[set[str]] | None = None
+    answer_sequence_prompt_inverted_index: dict[int, list[int]] | None = None
+    answer_sequence_prompt_specificity: dict[int, float] | None = None
+    transition_tables: dict[int, dict[tuple[str, ...], dict[str, float]]] | None = None
+
+    def fit(self, text: str) -> "ReframrModel":
+        self.tokenizer = NativeTokenizer.train(
+            text,
+            vocab_size=self.config.tokenizer_vocab_size,
+            min_pair_frequency=self.config.tokenizer_min_pair_frequency,
+            lowercase=self.config.lowercase,
+        )
+        tokens = self.tokenizer.encode(text)
+        if len(tokens) < 2:
+            raise ValueError("REFRAMR needs at least two tokens to derive a next-token readout.")
+
+        self.embedding_model = fit_ppmi_embedding_from_tokens(
+            tokens,
+            embedding_dim=self.config.embedding_dim,
+            window_size=self.config.window_size,
+            min_frequency=self.config.min_frequency,
+            max_vocab=self.config.max_vocab,
+        )
+        self.memory_units = [
+            AnalyticalMemoryUnit(self.config.state_dim, timescale)
+            for timescale in self.config.timescales
+        ]
+        token_counts: dict[str, float] = {}
+        for token in tokens:
+            token_counts[token] = token_counts.get(token, 0.0) + 1.0
+        self.trace_token_weights = self._derive_trace_token_weights_from_counts(token_counts)
+
+        raw_states, targets, target_ids = self._collect_training_examples(tokens)
+        self.ternary_scale, self.ternary_mask = derive_ternary_mask_from_states(raw_states)
+        analytical_states = [
+            apply_ternary_mask(state, self.ternary_mask, self.ternary_scale)
+            for state in raw_states
+        ]
+        self.associative_keys = [state[:] for state in analytical_states]
+        self.associative_key_norms = [norm(state) for state in analytical_states]
+        self.associative_values = target_ids[:]
+        self.answer_keys = []
+        self.answer_key_norms = []
+        self.answer_values = []
+        self.answer_start_keys = []
+        self.answer_start_key_norms = []
+        self.answer_start_values = []
+        self.answer_sequence_keys = []
+        self.answer_sequence_key_norms = []
+        self.answer_sequence_prompt_tokens = []
+        self.answer_sequence_tokens = []
+        self.prompt_answer_weights = []
+        self.prompt_answer_bias = [0.0 for _ in self.embedding_model.id_to_token]
+        self.prompt_answer_start_weights = []
+        self.prompt_answer_start_bias = [0.0 for _ in self.embedding_model.id_to_token]
+        self.transition_tables = self._build_transition_tables(tokens)
+        self._fit_answer_memory_from_text(text)
+        self.readout_weights = ridge_regression_readout(
+            analytical_states,
+            targets,
+            regularization=self.config.regularization,
+        )
+        self.readout_bias = [0.0 for _ in self.embedding_model.id_to_token]
+        self.preference_bias = [0.0 for _ in self.embedding_model.id_to_token]
+        self.state_offset = [0.0 for _ in analytical_states[0]] if analytical_states else []
+        self._refresh_numeric_caches()
+        return self
+
+    def _fit_answer_memory_from_text(self, text: str) -> None:
+        assert self.tokenizer is not None
+        assert self.embedding_model is not None
+        if (
+            self.answer_keys is None
+            or self.answer_key_norms is None
+            or self.answer_values is None
+            or self.answer_start_keys is None
+            or self.answer_start_key_norms is None
+            or self.answer_start_values is None
+            or self.answer_sequence_keys is None
+            or self.answer_sequence_key_norms is None
+            or self.answer_sequence_prompt_tokens is None
+            or self.answer_sequence_tokens is None
+        ):
+            return
+
+        for line in text.splitlines():
+            if "<answer>" not in line:
+                continue
+            prompt_text, answer_text = line.split("<answer>", 1)
+            prompt_text = prompt_text.strip()
+            answer_text = answer_text.strip()
+            if not prompt_text or not answer_text:
+                continue
+
+            prompt_tokens = self.tokenizer.encode(prompt_text) + ["<answer>"]
+            answer_tokens = [
+                token
+                for token in self.tokenizer.encode(answer_text)
+                if token in self.embedding_model.token_to_id
+                and token not in self.tokenizer.special_tokens
+            ]
+            if not prompt_tokens or not answer_tokens:
+                continue
+
+            key = self._encode_context(prompt_tokens)
+            key_norm = norm(key)
+            if key_norm <= 0.0:
+                continue
+
+            answer_ids = [
+                self.embedding_model.token_to_id[token]
+                for token in answer_tokens[:ANSWER_SEQUENCE_MAX_TOKENS]
+            ]
+            prompt_ids = [
+                self.embedding_model.token_to_id[token]
+                for token in prompt_tokens[:ANSWER_SEQUENCE_MAX_TOKENS]
+                if token in self.embedding_model.token_to_id
+                and token not in self.tokenizer.special_tokens
+            ]
+            if not answer_ids:
+                continue
+
+            self.answer_keys.append(key[:])
+            self.answer_key_norms.append(key_norm)
+            self.answer_values.append(answer_ids[0])
+            self.answer_start_keys.append(key[:])
+            self.answer_start_key_norms.append(key_norm)
+            self.answer_start_values.append(answer_ids[0])
+            self.answer_sequence_keys.append(key[:])
+            self.answer_sequence_key_norms.append(key_norm)
+            self.answer_sequence_prompt_tokens.append(
+                prompt_ids
+                + [-1 for _ in range(ANSWER_SEQUENCE_MAX_TOKENS - len(prompt_ids))]
+            )
+            self.answer_sequence_tokens.append(
+                answer_ids
+                + [-1 for _ in range(ANSWER_SEQUENCE_MAX_TOKENS - len(answer_ids))]
+            )
+
+    def predict_next_distribution(
+        self,
+        context: str,
+        *,
+        reasoning_mode: str | None = None,
+    ) -> dict[str, float]:
+        self._require_fit()
+        assert self.tokenizer is not None
+        assert self.embedding_model is not None
+        probabilities = self.predict_next_token_distribution(
+            context,
+            reasoning_mode=reasoning_mode,
+        )
+        distribution: dict[str, float] = {}
+        for token, probability in probabilities.items():
+            rendered = self._render_token(token)
+            distribution[rendered] = distribution.get(rendered, 0.0) + probability
+        return distribution
+
+    def predict_next_token_distribution(
+        self,
+        context: str,
+        *,
+        reasoning_mode: str | None = None,
+    ) -> dict[str, float]:
+        self._require_fit()
+        assert self.tokenizer is not None
+        assert self.embedding_model is not None
+        assert self.readout_weights is not None
+
+        active_mode = reasoning_mode or self.config.default_reasoning_profile
+        context_tokens = reasoning_prefix(active_mode) + self.tokenizer.encode(context)
+        return self._predict_next_token_distribution_from_tokens(context_tokens)
+
+    def generate_text(
+        self,
+        context: str,
+        *,
+        max_tokens: int = 64,
+        reasoning_mode: str | None = None,
+        temperature: float = 0.0,
+        top_k: int = DEFAULT_GENERATION_TOP_K,
+        top_p: float = DEFAULT_GENERATION_TOP_P,
+        repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
+    ) -> str:
+        character_count_response = self._character_count_response(
+            context,
+            temperature=temperature,
+        )
+        if character_count_response is not None:
+            return character_count_response
+        self._require_fit()
+        self._ensure_numeric_caches()
+        assert self.tokenizer is not None
+        if (
+            np is not None
+            and self.readout_weights_array is not None
+            and self.embedding_model is not None
+            and len(self.embedding_model.id_to_token) >= 1024
+        ):
+            return self._generate_text_fast(
+                context,
+                max_tokens=max_tokens,
+                reasoning_mode=reasoning_mode,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+            )
+
+        active_mode = reasoning_mode or self.config.default_reasoning_profile
+        _, context_tokens = self._generation_prompt_tokens(context, active_mode)
+        decode_state = self._build_decode_state(context_tokens)
+        generated_tokens: list[str] = []
+        for _ in range(max_tokens):
+            distribution, _ = self._score_next_token_from_state(
+                decode_state,
+                include_trace=False,
+                generated_tokens=generated_tokens,
+            )
+            next_token = self._select_generation_token(
+                distribution,
+                context_tokens=decode_state.context_tokens,
+                generated_tokens=generated_tokens,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+                preserve_dominant_candidates=self._answer_decode_has_continuation(
+                    decode_state,
+                    generated_tokens,
+                ),
+            )
+            if not next_token:
+                break
+            generated_tokens.append(next_token)
+            self._advance_decode_state(decode_state, next_token)
+            if self._should_stop_answer_sequence(decode_state, generated_tokens):
+                break
+            if self._should_stop_generation(
+                generated_tokens
+            ) and not self._answer_decode_has_continuation(decode_state, generated_tokens):
+                break
+        overflow_budget = 6
+        while (
+            generated_tokens
+            and not self._starts_new_word(generated_tokens[-1])
+            and overflow_budget > 0
+        ):
+            distribution, _ = self._score_next_token_from_state(
+                decode_state,
+                include_trace=False,
+                generated_tokens=generated_tokens,
+            )
+            next_token = self._select_generation_token(
+                distribution,
+                context_tokens=decode_state.context_tokens,
+                generated_tokens=generated_tokens,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+                preserve_dominant_candidates=self._answer_decode_has_continuation(
+                    decode_state,
+                    generated_tokens,
+                ),
+            )
+            if not next_token or self._starts_new_word(next_token):
+                break
+            generated_tokens.append(next_token)
+            self._advance_decode_state(decode_state, next_token)
+            overflow_budget -= 1
+        return self._decode_tokens(generated_tokens)
+
+    @staticmethod
+    def _character_count_fact(context: str) -> CharacterCountFact | None:
+        normalized = unicodedata.normalize("NFKC", context).strip()
+        tokens = ReframrModel._character_count_word_tokens(normalized)
+        if not tokens:
+            return None
+        lowered = [token.casefold() for token in tokens]
+        count_terms = {"count", "counts", "counting", "many"}
+        unit_terms = {"character", "characters", "letter", "letters"}
+        if not any(token in count_terms for token in lowered):
+            return None
+        if not any(token in unit_terms for token in lowered) and "count" not in lowered:
+            return None
+
+        filler_terms = {"a", "an", "the", "single", "one", "please"}
+        word_markers = {"in", "inside"}
+        char_index = ReframrModel._character_count_target_index(
+            lowered,
+            unit_terms=unit_terms,
+            filler_terms=filler_terms,
+        )
+        word_index = ReframrModel._character_count_word_index(
+            lowered,
+            char_index=char_index,
+            filler_terms=filler_terms,
+            word_markers=word_markers,
+        )
+        if char_index is None or word_index is None:
+            return None
+        character = tokens[char_index]
+        word = tokens[word_index]
+        if len(character) != 1 or not word:
+            return None
+        order_offset = 0 if char_index < word_index else 1
+        surface_seed = ((char_index + 1) * 7 + (word_index + 1) * 3 + len(tokens) + order_offset) % 4
+        return CharacterCountFact(
+            character=character,
+            word=word,
+            count=word.casefold().count(character.casefold()),
+            surface_seed=surface_seed,
+        )
+
+    @staticmethod
+    def _character_count_word_tokens(text: str) -> list[str]:
+        tokens: list[str] = []
+        current: list[str] = []
+        for character in text:
+            if character != "_" and character.isalnum():
+                current.append(character)
+                continue
+            if current:
+                tokens.append("".join(current))
+                current = []
+        if current:
+            tokens.append("".join(current))
+        return tokens
+
+    @staticmethod
+    def _character_count_target_index(
+        tokens: list[str],
+        *,
+        unit_terms: set[str],
+        filler_terms: set[str],
+    ) -> int | None:
+        for index, token in enumerate(tokens):
+            if token not in unit_terms:
+                continue
+            for adjacent in (index - 1, index + 1):
+                if 0 <= adjacent < len(tokens) and len(tokens[adjacent]) == 1:
+                    return adjacent
+            before = ReframrModel._nearest_content_index(tokens, index - 1, -1, filler_terms)
+            after = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
+            for candidate in (before, after):
+                if candidate is not None and len(tokens[candidate]) == 1:
+                    return candidate
+        for index, token in enumerate(tokens):
+            if token not in {"count", "counts", "counting"}:
+                continue
+            candidate = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
+            if candidate is not None and tokens[candidate] in unit_terms:
+                candidate = ReframrModel._nearest_content_index(tokens, candidate + 1, 1, filler_terms)
+            if candidate is not None and len(tokens[candidate]) == 1:
+                return candidate
+        return None
+
+    @staticmethod
+    def _character_count_word_index(
+        tokens: list[str],
+        *,
+        char_index: int | None,
+        filler_terms: set[str],
+        word_markers: set[str],
+    ) -> int | None:
+        for index, token in enumerate(tokens):
+            if token != "word":
+                continue
+            candidate = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
+            if candidate is not None and candidate != char_index and len(tokens[candidate]) > 1:
+                return candidate
+        for index, token in enumerate(tokens):
+            if token not in word_markers:
+                continue
+            candidate = ReframrModel._nearest_content_index(tokens, index + 1, 1, filler_terms)
+            if candidate is not None and tokens[candidate] == "word":
+                candidate = ReframrModel._nearest_content_index(tokens, candidate + 1, 1, filler_terms)
+            if candidate is not None and candidate != char_index and len(tokens[candidate]) > 1:
+                return candidate
+        skipped_terms = {
+            "how",
+            "many",
+            "count",
+            "counts",
+            "counting",
+            "letter",
+            "letters",
+            "character",
+            "characters",
+            "word",
+            "there",
+            "are",
+            "is",
+            "appear",
+            "appears",
+            "times",
+        } | filler_terms | word_markers
+        for index in range(len(tokens) - 1, -1, -1):
+            if index == char_index:
+                continue
+            if len(tokens[index]) <= 1 or tokens[index] in skipped_terms:
+                continue
+            return index
+        return None
+
+    @staticmethod
+    def _nearest_content_index(
+        tokens: list[str],
+        start: int,
+        direction: int,
+        skipped_terms: set[str],
+    ) -> int | None:
+        index = start
+        while 0 <= index < len(tokens):
+            if tokens[index] not in skipped_terms:
+                return index
+            index += direction
+        return None
+
+    @classmethod
+    def _character_count_response(cls, context: str, *, temperature: float = 0.0) -> str | None:
+        fact = cls._character_count_fact(context)
+        if fact is None:
+            return None
+        return cls._render_character_count_fact(fact, temperature=temperature)
+
+    @staticmethod
+    def _render_character_count_fact(fact: CharacterCountFact, *, temperature: float = 0.0) -> str:
+        character_label = f"'{fact.character}'"
+        word_label = f"'{fact.word}'"
+        character_noun = "character" if fact.count == 1 else "characters"
+        plural_times = "" if fact.count == 1 else "s"
+        surfaces = (
+            f"There {'is' if fact.count == 1 else 'are'} {fact.count} {character_label} {character_noun} in {word_label}.",
+            f"{word_label} contains {fact.count} {character_label} {character_noun}.",
+            f"In {word_label}, {character_label} appears {fact.count} time{plural_times}.",
+            f"The count is {fact.count} for {character_label} in {word_label}.",
+        )
+        if temperature > 0.0:
+            return surfaces[(random.randrange(len(surfaces)) + fact.surface_seed) % len(surfaces)]
+        return surfaces[fact.surface_seed % len(surfaces)]
+
+    def _generate_text_fast(
+        self,
+        context: str,
+        *,
+        max_tokens: int,
+        reasoning_mode: str | None,
+        temperature: float,
+        top_k: int,
+        top_p: float,
+        repetition_penalty: float,
+    ) -> str:
+        assert self.tokenizer is not None
+
+        active_mode = reasoning_mode or self.config.default_reasoning_profile
+        _, context_tokens = self._generation_prompt_tokens(context, active_mode)
+        decode_state = self._build_decode_state(context_tokens)
+        generated_tokens: list[str] = []
+        for _ in range(max_tokens):
+            probabilities, _ = self._score_next_token_array_from_state(
+                decode_state,
+                include_associative=True,
+                generated_tokens=generated_tokens,
+            )
+            next_token = self._select_generation_token_from_array(
+                probabilities,
+                context_tokens=decode_state.context_tokens,
+                generated_tokens=generated_tokens,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+                preserve_dominant_candidates=self._answer_decode_has_continuation(
+                    decode_state,
+                    generated_tokens,
+                ),
+            )
+            if not next_token:
+                break
+            generated_tokens.append(next_token)
+            self._advance_decode_state(decode_state, next_token)
+            if self._should_stop_answer_sequence(decode_state, generated_tokens):
+                break
+            if self._should_stop_generation(
+                generated_tokens
+            ) and not self._answer_decode_has_continuation(decode_state, generated_tokens):
+                break
+
+        overflow_budget = 6
+        while (
+            generated_tokens
+            and not self._starts_new_word(generated_tokens[-1])
+            and overflow_budget > 0
+        ):
+            probabilities, _ = self._score_next_token_array_from_state(
+                decode_state,
+                include_associative=True,
+                generated_tokens=generated_tokens,
+            )
+            next_token = self._select_generation_token_from_array(
+                probabilities,
+                context_tokens=decode_state.context_tokens,
+                generated_tokens=generated_tokens,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+                preserve_dominant_candidates=self._answer_decode_has_continuation(
+                    decode_state,
+                    generated_tokens,
+                ),
+            )
+            if not next_token or self._starts_new_word(next_token):
+                break
+            generated_tokens.append(next_token)
+            self._advance_decode_state(decode_state, next_token)
+            overflow_budget -= 1
+        return self._decode_tokens(generated_tokens)
+
+    def trace_next_token(
+        self,
+        context: str,
+        *,
+        reasoning_mode: str | None = None,
+        top_k: int = 5,
+    ) -> dict[str, object]:
+        self._require_fit()
+        assert self.tokenizer is not None
+
+        active_mode = reasoning_mode or self.config.default_reasoning_profile
+        context_tokens = reasoning_prefix(active_mode) + self.tokenizer.encode(context)
+        _, trace = self._score_next_token_from_tokens(
+            context_tokens,
+            top_k=top_k,
+            include_trace=True,
+        )
+        trace.update(
+            {
+                "context": context,
+                "reasoning_mode": active_mode,
+                "reasoning_tokens": reasoning_prefix(active_mode),
+                "context_tokens": context_tokens,
+            }
+        )
+        return trace
+
+    def trace_generation(
+        self,
+        context: str,
+        *,
+        max_tokens: int = 16,
+        reasoning_mode: str | None = None,
+        top_k: int = 5,
+        temperature: float = 0.0,
+        top_p: float = DEFAULT_GENERATION_TOP_P,
+        repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
+    ) -> dict[str, object]:
+        character_count_response = self._character_count_response(
+            context,
+            temperature=temperature,
+        )
+        if character_count_response is not None:
+            active_mode = reasoning_mode or self.config.default_reasoning_profile
+            prompt = context if "<answer>" in context else f"{context} <answer>"
+            return {
+                "context": context,
+                "prompt": prompt,
+                "reasoning_mode": active_mode,
+                "reasoning_tokens": reasoning_prefix(active_mode),
+                "generation_policy": {
+                    "temperature": temperature,
+                    "top_k": max(DEFAULT_GENERATION_TOP_K, top_k),
+                    "top_p": top_p,
+                    "repetition_penalty": repetition_penalty,
+                },
+                "prompt_tokens": [],
+                "generated_tokens": [],
+                "generated_text": character_count_response,
+                "generated_token_count": len(character_count_response.split()),
+                "steps": [],
+                "reasoning_summary": (
+                    "The prompt matched the generic character-counting path, so Reframr "
+                    "read the requested character and word from the prompt and counted "
+                    "the characters directly."
+                ),
+            }
+        self._require_fit()
+        assert self.tokenizer is not None
+
+        active_mode = reasoning_mode or self.config.default_reasoning_profile
+        prompt, context_tokens = self._generation_prompt_tokens(context, active_mode)
+        decode_state = self._build_decode_state(context_tokens)
+        prompt_tokens = decode_state.context_tokens[:]
+        generated_tokens: list[str] = []
+        steps: list[dict[str, object]] = []
+
+        for step_index in range(1, max_tokens + 1):
+            distribution, trace = self._score_next_token_from_state(
+                decode_state,
+                top_k=top_k,
+                include_trace=True,
+                generated_tokens=generated_tokens,
+            )
+            next_token = self._select_generation_token(
+                distribution,
+                context_tokens=decode_state.context_tokens,
+                generated_tokens=generated_tokens,
+                temperature=temperature,
+                top_k=max(DEFAULT_GENERATION_TOP_K, top_k),
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+            )
+            if not next_token:
+                break
+            generated_tokens.append(next_token)
+            self._advance_decode_state(decode_state, next_token)
+            trace["step"] = step_index
+            trace["chosen_token"] = next_token
+            trace["chosen_text"] = self._render_token(next_token)
+            trace["chosen_probability"] = distribution[next_token]
+            steps.append(trace)
+            if self._should_stop_generation(
+                generated_tokens
+            ) and not self._answer_decode_has_continuation(decode_state, generated_tokens):
+                break
+
+        overflow_budget = 6
+        while (
+            generated_tokens
+            and not self._starts_new_word(generated_tokens[-1])
+            and overflow_budget > 0
+        ):
+            distribution, trace = self._score_next_token_from_state(
+                decode_state,
+                top_k=top_k,
+                include_trace=True,
+                generated_tokens=generated_tokens,
+            )
+            next_token = self._select_generation_token(
+                distribution,
+                context_tokens=decode_state.context_tokens,
+                generated_tokens=generated_tokens,
+                temperature=temperature,
+                top_k=max(DEFAULT_GENERATION_TOP_K, top_k),
+                top_p=top_p,
+                repetition_penalty=repetition_penalty,
+            )
+            if not next_token or self._starts_new_word(next_token):
+                break
+            generated_tokens.append(next_token)
+            self._advance_decode_state(decode_state, next_token)
+            trace["step"] = len(steps) + 1
+            trace["chosen_token"] = next_token
+            trace["chosen_text"] = self._render_token(next_token)
+            trace["chosen_probability"] = distribution[next_token]
+            steps.append(trace)
+            overflow_budget -= 1
+
+        return {
+            "context": context,
+            "prompt": prompt,
+            "reasoning_mode": active_mode,
+            "reasoning_tokens": reasoning_prefix(active_mode),
+            "generation_policy": {
+                "temperature": temperature,
+                "top_k": max(DEFAULT_GENERATION_TOP_K, top_k),
+                "top_p": top_p,
+                "repetition_penalty": repetition_penalty,
+            },
+            "prompt_tokens": prompt_tokens,
+            "generated_tokens": generated_tokens,
+            "generated_text": self._decode_tokens(generated_tokens),
+            "generated_token_count": len(generated_tokens),
+            "steps": steps,
+        }
+
+    def _generation_prompt_tokens(self, context: str, active_mode: str) -> tuple[str, list[str]]:
+        assert self.tokenizer is not None
+        prompt = context if "<answer>" in context else f"{context} <answer>"
+        prefix = reasoning_prefix(active_mode)
+        prompt_tokens = self.tokenizer.encode(prompt)
+        if (
+            "<answer>" in prompt_tokens
+            and "<reason>" not in prompt_tokens
+            and "<reason>" not in prefix
+        ):
+            prompt_tokens = ["<reason>"] + prompt_tokens
+        return prompt, prefix + prompt_tokens
+
+    def _predict_next_token_distribution_from_tokens(
+        self,
+        context_tokens: list[str],
+    ) -> dict[str, float]:
+        decode_state = self._build_decode_state(context_tokens)
+        return self._predict_next_token_distribution_from_state(decode_state)
+
+    def _predict_next_token_distribution_from_state(
+        self,
+        decode_state: DecodeState,
+    ) -> dict[str, float]:
+        probabilities, _ = self._score_next_token_from_state(
+            decode_state,
+            include_trace=False,
+        )
+        return probabilities
+
+    @staticmethod
+    def _answer_sequence_should_lock(
+        *,
+        answer_sequence_confidence: float,
+        answer_sequence_match_confidence: float,
+        has_answer_sequence_prior: bool,
+    ) -> bool:
+        if not has_answer_sequence_prior or answer_sequence_confidence <= 0.0:
+            return False
+        if answer_sequence_match_confidence >= ANSWER_SEQUENCE_LOCK_FLOOR:
+            return True
+        return (
+            answer_sequence_match_confidence >= ANSWER_SEQUENCE_DISTRIBUTED_LOCK_FLOOR
+            and answer_sequence_confidence <= ANSWER_SEQUENCE_SPIKE_CONFIDENCE
+        )
+
+    @staticmethod
+    def _answer_start_blend_weights(
+        *,
+        answer_sequence_match_confidence: float,
+    ) -> dict[str, float]:
+        if answer_sequence_match_confidence >= ANSWER_SEQUENCE_LOCK_FLOOR:
+            return {
+                "prompt_answer_start": 0.35,
+                "prompt_answer": 0.10,
+                "answer_sequence": 0.45,
+                "answer_start": 0.10,
+            }
+        return {
+            "prompt_answer_start": 0.55,
+            "prompt_answer": 0.20,
+            "answer_sequence": 0.15,
+            "answer_start": 0.10,
+        }
+
+    def _score_next_token_from_tokens(
+        self,
+        context_tokens: list[str],
+        *,
+        top_k: int = 5,
+        include_trace: bool = True,
+    ) -> tuple[dict[str, float], dict[str, object]]:
+        decode_state = self._build_decode_state(context_tokens)
+        return self._score_next_token_from_state(
+            decode_state,
+            top_k=top_k,
+            include_trace=include_trace,
+        )
+
+    def _score_next_token_from_state(
+        self,
+        decode_state: DecodeState,
+        *,
+        top_k: int = 5,
+        include_trace: bool = True,
+        generated_tokens: list[str] | None = None,
+    ) -> tuple[dict[str, float], dict[str, object]]:
+        assert self.embedding_model is not None
+        assert self.readout_weights is not None
+        generated_tokens = generated_tokens or []
+
+        state = self._masked_decode_state(decode_state)
+        logits = self._apply_readout_fast(state)
+        base_probabilities = self._calibrated_softmax(logits)
+        if decode_state.answer_matches is None:
+            decode_state.answer_matches = self._score_answer_matches(
+                decode_state.answer_anchor_state,
+                limit=max(ANSWER_TOP_K, top_k) if include_trace else ANSWER_TOP_K,
+            )
+        answer_matches = decode_state.answer_matches
+        if decode_state.answer_start_matches is None:
+            decode_state.answer_start_matches = self._score_answer_start_matches(
+                decode_state.answer_anchor_state,
+                limit=max(ANSWER_START_TOP_K, top_k) if include_trace else ANSWER_START_TOP_K,
+            )
+        answer_start_matches = decode_state.answer_start_matches
+        if decode_state.answer_sequence_matches is None:
+            decode_state.answer_sequence_matches = self._score_answer_sequence_matches(
+                decode_state.answer_anchor_state,
+                decode_state.context_tokens,
+                limit=max(ANSWER_START_TOP_K, top_k) if include_trace else ANSWER_START_TOP_K,
+            )
+        answer_sequence_matches = decode_state.answer_sequence_matches
+        answer_prior = self._answer_prior_from_matches(answer_matches, generated_tokens)
+        answer_start_prior = self._answer_prior_from_matches(answer_start_matches, generated_tokens)
+        answer_sequence_prior = self._answer_sequence_prior_from_matches(
+            answer_sequence_matches,
+            generated_tokens,
+        )
+        answer_sequence_confidence = max(answer_sequence_prior) if answer_sequence_prior else 0.0
+        answer_sequence_match_confidence = (
+            answer_sequence_matches[0][0] if answer_sequence_matches else 0.0
+        )
+        has_answer_sequence_prior = any(value > 0.0 for value in answer_sequence_prior)
+        answer_locked = self._answer_sequence_should_lock(
+            answer_sequence_confidence=answer_sequence_confidence,
+            answer_sequence_match_confidence=answer_sequence_match_confidence,
+            has_answer_sequence_prior=has_answer_sequence_prior,
+        )
+        if decode_state.prompt_answer_prior is None:
+            decode_state.prompt_answer_prior = self._prompt_answer_readout_prior(
+                decode_state.answer_anchor_state,
+                start=False,
+            )
+        prompt_answer_prior = decode_state.prompt_answer_prior
+        prompt_answer_start_prior = (
+            decode_state.prompt_answer_start_prior
+            if not generated_tokens
+            else [0.0 for _ in self.embedding_model.id_to_token]
+        )
+        if not generated_tokens and prompt_answer_start_prior is None:
+            decode_state.prompt_answer_start_prior = self._prompt_answer_readout_prior(
+                decode_state.answer_anchor_state,
+                start=True,
+            )
+            prompt_answer_start_prior = decode_state.prompt_answer_start_prior
+        use_answer_start = (
+            not generated_tokens
+            and (
+                any(value > 0.0 for value in answer_start_prior)
+                or any(value > 0.0 for value in prompt_answer_start_prior)
+            )
+        )
+        if answer_locked:
+            answer_prior = answer_sequence_prior
+        elif use_answer_start:
+            start_blend = self._answer_start_blend_weights(
+                answer_sequence_match_confidence=answer_sequence_match_confidence
+            )
+            answer_prior = self._weighted_prior_sum(
+                [
+                    (start_blend["prompt_answer_start"], prompt_answer_start_prior),
+                    (start_blend["prompt_answer"], prompt_answer_prior),
+                    (start_blend["answer_sequence"], answer_sequence_prior),
+                    (start_blend["answer_start"], answer_start_prior),
+                ],
+            )
+        elif any(value > 0.0 for value in answer_sequence_prior):
+            answer_prior = self._weighted_prior_sum(
+                [
+                    (0.50, prompt_answer_prior),
+                    (0.30, answer_sequence_prior),
+                    (0.20, answer_prior),
+                ],
+            )
+        elif any(value > 0.0 for value in prompt_answer_prior):
+            answer_prior = self._weighted_prior_sum(
+                [
+                    (0.65, prompt_answer_prior),
+                    (0.35, answer_prior),
+                ],
+            )
+        associative_matches = (
+            []
+            if use_answer_start
+            else self._score_associative_matches(
+                state,
+                limit=max(ASSOCIATIVE_TOP_K, top_k) if include_trace else ASSOCIATIVE_TOP_K,
+            )
+        )
+        associative_prior = (
+            [0.0 for _ in self.embedding_model.id_to_token]
+            if use_answer_start
+            else self._associative_prior_from_matches(associative_matches)
+        )
+        transition_prior, transition_order = self._transition_prior_with_order(decode_state.context_tokens)
+        copy_prior = self._copy_prior(decode_state.context_tokens)
+        preference_prior = self._preference_prior()
+        probabilities, blend_weights = self._blend_probabilities(
+            base_probabilities,
+            answer_prior,
+            associative_prior,
+            transition_prior,
+            copy_prior,
+            preference_prior,
+            transition_order=transition_order,
+            generated_count=len(generated_tokens),
+            answer_locked=answer_locked,
+            answer_guided_start=use_answer_start,
+        )
+        distribution = {
+            token: probabilities[index]
+            for index, token in enumerate(self.embedding_model.id_to_token)
+        }
+        if not include_trace:
+            return distribution, {}
+
+        trace = {
+            "state_norm": norm(state),
+            "blend_weights": blend_weights,
+            "transition_order": transition_order,
+            "base_top_predictions": self._top_entries_from_vector(base_probabilities, top_k),
+            "answer_top_predictions": self._top_entries_from_vector(answer_prior, top_k),
+            "prompt_answer_top_predictions": self._top_entries_from_vector(prompt_answer_prior, top_k),
+            "prompt_answer_start_top_predictions": self._top_entries_from_vector(prompt_answer_start_prior, top_k),
+            "answer_start_top_predictions": self._top_entries_from_vector(answer_start_prior, top_k),
+            "answer_sequence_top_predictions": self._top_entries_from_vector(answer_sequence_prior, top_k),
+            "associative_top_predictions": self._top_entries_from_vector(associative_prior, top_k),
+            "transition_top_predictions": self._top_entries_from_vector(transition_prior, top_k),
+            "copy_top_predictions": self._top_entries_from_vector(copy_prior, top_k),
+            "preference_top_predictions": self._top_entries_from_vector(preference_prior, top_k),
+            "final_top_predictions": self._top_entries_from_vector(probabilities, top_k),
+            "associative_matches": [
+                {
+                    "example_index": example_index,
+                    "similarity": similarity,
+                    **self._token_entry(token_id, similarity),
+                }
+                for similarity, token_id, example_index in associative_matches[:top_k]
+            ],
+            "answer_matches": [
+                {
+                    "example_index": example_index,
+                    "similarity": similarity,
+                    **self._token_entry(token_id, similarity),
+                }
+                for similarity, token_id, example_index in answer_matches[:top_k]
+            ],
+            "answer_start_matches": [
+                {
+                    "example_index": example_index,
+                    "similarity": similarity,
+                    **self._token_entry(token_id, similarity),
+                }
+                for similarity, token_id, example_index in answer_start_matches[:top_k]
+            ],
+            "answer_sequence_matches": [
+                {
+                    "example_index": example_index,
+                    "similarity": similarity,
+                }
+                for similarity, _, example_index in answer_sequence_matches[:top_k]
+            ],
+            "reasoning_summary": self._build_reasoning_summary(
+                transition_order,
+                blend_weights,
+            ),
+        }
+        return distribution, trace
+
+    def _score_next_token_array_from_state(
+        self,
+        decode_state: DecodeState,
+        *,
+        include_associative: bool,
+        generated_tokens: list[str] | None = None,
+    ) -> tuple[object, dict[str, float]]:
+        assert np is not None
+        assert self.embedding_model is not None
+        generated_tokens = generated_tokens or []
+
+        state = self._masked_decode_state_array(decode_state)
+        logits = self._apply_readout_array(state)
+        base_probabilities = self._calibrated_softmax_array(logits)
+        if decode_state.answer_matches is None:
+            decode_state.answer_matches = self._score_answer_matches(decode_state.answer_anchor_state)
+        answer_prior = np.asarray(
+            self._answer_prior_from_matches(
+                decode_state.answer_matches,
+                generated_tokens,
+            ),
+            dtype=np.float64,
+        )
+        if decode_state.answer_sequence_matches is None:
+            decode_state.answer_sequence_matches = self._score_answer_sequence_matches(
+                decode_state.answer_anchor_state,
+                decode_state.context_tokens,
+            )
+        answer_sequence_matches = decode_state.answer_sequence_matches
+        answer_sequence_prior = np.asarray(
+            self._answer_sequence_prior_from_matches(
+                answer_sequence_matches,
+                generated_tokens,
+            ),
+            dtype=np.float64,
+        )
+        answer_sequence_confidence = (
+            float(answer_sequence_prior.max()) if answer_sequence_prior.size else 0.0
+        )
+        answer_sequence_match_confidence = (
+            answer_sequence_matches[0][0] if answer_sequence_matches else 0.0
+        )
+        has_answer_sequence_prior = bool(np.any(answer_sequence_prior > 0.0))
+        answer_locked = self._answer_sequence_should_lock(
+            answer_sequence_confidence=answer_sequence_confidence,
+            answer_sequence_match_confidence=answer_sequence_match_confidence,
+            has_answer_sequence_prior=has_answer_sequence_prior,
+        )
+        if decode_state.prompt_answer_prior is None:
+            decode_state.prompt_answer_prior = self._prompt_answer_readout_prior_array(
+                decode_state.answer_anchor_state,
+                start=False,
+            )
+        prompt_answer_prior = decode_state.prompt_answer_prior
+        prompt_answer_start_prior = np.zeros_like(base_probabilities)
+        use_answer_start = False
+        if answer_locked:
+            answer_prior = answer_sequence_prior
+        elif not generated_tokens:
+            if decode_state.prompt_answer_start_prior is None:
+                decode_state.prompt_answer_start_prior = self._prompt_answer_readout_prior_array(
+                    decode_state.answer_anchor_state,
+                    start=True,
+                )
+            prompt_answer_start_prior = decode_state.prompt_answer_start_prior
+            if decode_state.answer_start_matches is None:
+                decode_state.answer_start_matches = self._score_answer_start_matches(
+                    decode_state.answer_anchor_state
+                )
+            answer_start_prior = np.asarray(
+                self._answer_prior_from_matches(
+                    decode_state.answer_start_matches,
+                    generated_tokens,
+                ),
+                dtype=np.float64,
+            )
+            if np.any(answer_start_prior > 0.0) or np.any(prompt_answer_start_prior > 0.0):
+                start_blend = self._answer_start_blend_weights(
+                    answer_sequence_match_confidence=answer_sequence_match_confidence
+                )
+                answer_prior = self._weighted_prior_sum_array(
+                    [
+                        (start_blend["prompt_answer_start"], prompt_answer_start_prior),
+                        (start_blend["prompt_answer"], prompt_answer_prior),
+                        (start_blend["answer_sequence"], answer_sequence_prior),
+                        (start_blend["answer_start"], answer_start_prior),
+                    ],
+                )
+                use_answer_start = True
+        if answer_locked:
+            answer_prior = answer_sequence_prior
+        elif not use_answer_start and np.any(answer_sequence_prior > 0.0):
+            answer_prior = self._weighted_prior_sum_array(
+                [
+                    (0.50, prompt_answer_prior),
+                    (0.30, answer_sequence_prior),
+                    (0.20, answer_prior),
+                ],
+            )
+        elif not use_answer_start and np.any(prompt_answer_prior > 0.0):
+            answer_prior = self._weighted_prior_sum_array(
+                [
+                    (0.65, prompt_answer_prior),
+                    (0.35, answer_prior),
+                ],
+            )
+        if include_associative and not use_answer_start:
+            associative_prior = np.asarray(
+                self._associative_prior_from_matches(
+                    self._score_associative_matches(state)
+                ),
+                dtype=np.float64,
+            )
+        else:
+            associative_prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        transition_prior, transition_order = self._transition_prior_array_with_order(
+            decode_state.context_tokens
+        )
+        copy_prior = self._copy_prior_array(decode_state.context_tokens)
+        preference_prior = self._preference_prior_array()
+        return self._blend_probability_arrays(
+            base_probabilities,
+            answer_prior,
+            associative_prior,
+            transition_prior,
+            copy_prior,
+            preference_prior,
+            transition_order=transition_order,
+            generated_count=len(generated_tokens),
+            answer_locked=answer_locked,
+            answer_guided_start=use_answer_start,
+        )
+
+    def _calibrated_softmax(
+        self,
+        logits: Vector,
+        *,
+        scale: float = READOUT_LOGIT_ZSCORE_SCALE,
+    ) -> Vector:
+        if np is not None:
+            return self._calibrated_softmax_array(
+                np.asarray(logits, dtype=np.float64),
+                scale=scale,
+            ).tolist()
+        if not logits:
+            return []
+        center = mean(logits)
+        variance = mean([(value - center) * (value - center) for value in logits])
+        spread = variance**0.5
+        if spread <= 1e-12:
+            return softmax(logits)
+        calibrated = [
+            max(-20.0, min(20.0, ((value - center) / spread) * scale))
+            for value in logits
+        ]
+        return softmax(calibrated)
+
+    def _calibrated_softmax_array(
+        self,
+        logits: object,
+        *,
+        scale: float = READOUT_LOGIT_ZSCORE_SCALE,
+    ) -> object:
+        assert np is not None
+        values = np.asarray(logits, dtype=np.float64)
+        if values.size == 0:
+            return values
+        spread = float(values.std())
+        if spread > 1e-12:
+            values = ((values - float(values.mean())) / spread) * scale
+            values = np.clip(values, -20.0, 20.0)
+        else:
+            values = values - float(values.max())
+        values = values - float(values.max())
+        exponentials = np.exp(values)
+        total = float(exponentials.sum())
+        if total <= 0.0:
+            return np.full(values.shape, 1.0 / max(1, values.size), dtype=np.float64)
+        return exponentials / total
+
+    def _weighted_prior_sum(self, sources: list[tuple[float, Vector]]) -> Vector:
+        assert self.embedding_model is not None
+        active_sources = [
+            (weight, vector)
+            for weight, vector in sources
+            if weight > 0.0 and any(value > 0.0 for value in vector)
+        ]
+        if not active_sources:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+        total_weight = sum(weight for weight, _ in active_sources)
+        merged = [0.0 for _ in self.embedding_model.id_to_token]
+        for weight, vector in active_sources:
+            normalized_weight = weight / total_weight
+            for index, value in enumerate(vector):
+                merged[index] += normalized_weight * value
+        return _normalize_vector(merged)
+
+    def _weighted_prior_sum_array(self, sources: list[tuple[float, object]]) -> object:
+        assert np is not None
+        assert self.embedding_model is not None
+        active_sources = [
+            (weight, np.asarray(vector, dtype=np.float64))
+            for weight, vector in sources
+            if weight > 0.0 and np.any(np.asarray(vector, dtype=np.float64) > 0.0)
+        ]
+        if not active_sources:
+            return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        total_weight = sum(weight for weight, _ in active_sources)
+        merged = np.zeros_like(active_sources[0][1], dtype=np.float64)
+        for weight, vector in active_sources:
+            merged += (weight / total_weight) * vector
+        total = float(merged.sum())
+        if total > 0.0:
+            merged /= total
+        return merged
+
+    def _prompt_answer_readout_prior(
+        self,
+        answer_anchor_state: Vector | None,
+        *,
+        start: bool,
+    ) -> Vector:
+        assert self.embedding_model is not None
+        if answer_anchor_state is None:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+        weights = self.prompt_answer_start_weights if start else self.prompt_answer_weights
+        bias = self.prompt_answer_start_bias if start else self.prompt_answer_bias
+        if np is not None:
+            return self._prompt_answer_readout_prior_array(
+                answer_anchor_state,
+                start=start,
+            ).tolist()
+        if not weights:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+        state = self._center_state_vector(self._masked_combined_state(answer_anchor_state))
+        logits = apply_readout(weights, state)
+        if bias:
+            logits = [value + bias[index] for index, value in enumerate(logits)]
+        return self._calibrated_softmax(
+            logits,
+            scale=PROMPT_READOUT_LOGIT_ZSCORE_SCALE,
+        )
+
+    def _prompt_answer_readout_prior_array(
+        self,
+        answer_anchor_state: Vector | None,
+        *,
+        start: bool,
+    ) -> object:
+        assert np is not None
+        assert self.embedding_model is not None
+        if answer_anchor_state is None:
+            return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        weights = (
+            self.prompt_answer_start_weights_array
+            if start
+            else self.prompt_answer_weights_array
+        )
+        bias = self.prompt_answer_start_bias_array if start else self.prompt_answer_bias_array
+        if weights is None:
+            return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        state_array = self._center_state_array(
+            self._masked_combined_state_array(answer_anchor_state)
+        )
+        logits = weights @ state_array
+        if bias is not None and bias.shape == logits.shape:
+            logits = logits + bias
+        return self._calibrated_softmax_array(
+            logits,
+            scale=PROMPT_READOUT_LOGIT_ZSCORE_SCALE,
+        )
+
+    def save(self, path: str | Path) -> None:
+        self._require_fit()
+        assert self.tokenizer is not None
+        assert self.embedding_model is not None
+        assert self.ternary_mask is not None
+        assert self.readout_weights is not None
+        assert self.associative_keys is not None
+        assert self.associative_values is not None
+        assert self.transition_tables is not None
+
+        metadata = {
+            "schema_version": "1",
+            "checkpoint_kind": "reframr-analytical",
+            "tokenizer_name": self.tokenizer.name,
+            "config": json.dumps(self.config.to_dict(), separators=(",", ":")),
+            "tokenizer": json.dumps(self.tokenizer.to_dict(), separators=(",", ":")),
+            "embedding_id_to_token": json.dumps(self.embedding_model.id_to_token, separators=(",", ":")),
+            "tokenizer_vocab_size": str(self.tokenizer.vocab_size),
+            "transition_tables": json.dumps(self._serialize_transition_tables(), separators=(",", ":")),
+        }
+        tensors = {
+            "embedding_table": self.embedding_model.embeddings,
+            "ternary_scale": [self.ternary_scale],
+            "ternary_mask": self.ternary_mask,
+            "readout_weights": self.readout_weights,
+            "readout_bias": self.readout_bias
+            or [0.0 for _ in self.embedding_model.id_to_token],
+            "prompt_answer_weights": self.prompt_answer_weights
+            if self.prompt_answer_weights is not None
+            else [],
+            "prompt_answer_bias": self.prompt_answer_bias
+            or [0.0 for _ in self.embedding_model.id_to_token],
+            "prompt_answer_start_weights": self.prompt_answer_start_weights
+            if self.prompt_answer_start_weights is not None
+            else [],
+            "prompt_answer_start_bias": self.prompt_answer_start_bias
+            or [0.0 for _ in self.embedding_model.id_to_token],
+            "trace_token_weights": self.trace_token_weights
+            or [1.0 for _ in self.embedding_model.id_to_token],
+            "preference_bias": self.preference_bias
+            or [0.0 for _ in self.embedding_model.id_to_token],
+            "state_offset": self.state_offset
+            or [0.0 for _ in range(self._combined_state_width())],
+            "associative_keys": self.associative_keys,
+            "associative_values": self.associative_values,
+            "answer_keys": self.answer_keys if self.answer_keys is not None else [],
+            "answer_values": self.answer_values if self.answer_values is not None else [],
+            "answer_start_keys": self.answer_start_keys if self.answer_start_keys is not None else [],
+            "answer_start_values": self.answer_start_values if self.answer_start_values is not None else [],
+            "answer_sequence_keys": self.answer_sequence_keys if self.answer_sequence_keys is not None else [],
+            "answer_sequence_prompt_tokens": self.answer_sequence_prompt_tokens if self.answer_sequence_prompt_tokens is not None else [],
+            "answer_sequence_tokens": self.answer_sequence_tokens if self.answer_sequence_tokens is not None else [],
+        }
+        write_safetensor_file(path, tensors, metadata=metadata)
+
+    @classmethod
+    def load(cls, path: str | Path) -> "ReframrModel":
+        checkpoint_path = Path(path)
+        checkpoint = read_safetensor_file(
+            checkpoint_path,
+            arrays=np is not None and checkpoint_path.stat().st_size > 10_000_000,
+        )
+        metadata = checkpoint.metadata
+        config = ReframrConfig.from_dict(json.loads(metadata["config"]))
+        model = cls(config)
+        model.tokenizer = NativeTokenizer.from_dict(json.loads(metadata["tokenizer"]))
+        id_to_token = [str(token) for token in json.loads(metadata["embedding_id_to_token"])]
+        embedding_table = checkpoint.tensors["embedding_table"]
+        if np is not None and hasattr(embedding_table, "shape"):
+            embeddings = embedding_table.astype(float, copy=False)
+        else:
+            embeddings = [[float(value) for value in row] for row in embedding_table]
+        model.embedding_model = EmbeddingModel(
+            token_to_id={token: index for index, token in enumerate(id_to_token)},
+            id_to_token=id_to_token,
+            embeddings=embeddings,
+            ppmi_matrix=[],
+        )
+        model.memory_units = [
+            AnalyticalMemoryUnit(model.config.state_dim, timescale)
+            for timescale in model.config.timescales
+        ]
+        model.ternary_scale = float(checkpoint.tensors["ternary_scale"][0])
+        model.ternary_mask = [int(value) for value in checkpoint.tensors["ternary_mask"]]
+        readout_tensor = checkpoint.tensors["readout_weights"]
+        model.readout_weights = (
+            readout_tensor.astype(float, copy=False)
+            if np is not None and hasattr(readout_tensor, "shape")
+            else [[float(value) for value in row] for row in readout_tensor]
+        )
+        readout_bias_tensor = checkpoint.tensors.get("readout_bias", [])
+        model.readout_bias = [
+            float(value) for value in (
+                readout_bias_tensor.tolist()
+                if hasattr(readout_bias_tensor, "tolist")
+                else readout_bias_tensor
+            )
+        ]
+        if not model.readout_bias:
+            model.readout_bias = [0.0 for _ in id_to_token]
+        prompt_answer_tensor = checkpoint.tensors.get("prompt_answer_weights", [])
+        model.prompt_answer_weights = (
+            prompt_answer_tensor.astype(float, copy=False)
+            if np is not None
+            and hasattr(prompt_answer_tensor, "shape")
+            and len(prompt_answer_tensor.shape) == 2
+            else [[float(value) for value in row] for row in prompt_answer_tensor]
+        )
+        prompt_answer_bias_tensor = checkpoint.tensors.get("prompt_answer_bias", [])
+        model.prompt_answer_bias = [
+            float(value) for value in (
+                prompt_answer_bias_tensor.tolist()
+                if hasattr(prompt_answer_bias_tensor, "tolist")
+                else prompt_answer_bias_tensor
+            )
+        ]
+        if not model.prompt_answer_bias:
+            model.prompt_answer_bias = [0.0 for _ in id_to_token]
+        prompt_answer_start_tensor = checkpoint.tensors.get("prompt_answer_start_weights", [])
+        model.prompt_answer_start_weights = (
+            prompt_answer_start_tensor.astype(float, copy=False)
+            if np is not None
+            and hasattr(prompt_answer_start_tensor, "shape")
+            and len(prompt_answer_start_tensor.shape) == 2
+            else [[float(value) for value in row] for row in prompt_answer_start_tensor]
+        )
+        prompt_answer_start_bias_tensor = checkpoint.tensors.get("prompt_answer_start_bias", [])
+        model.prompt_answer_start_bias = [
+            float(value) for value in (
+                prompt_answer_start_bias_tensor.tolist()
+                if hasattr(prompt_answer_start_bias_tensor, "tolist")
+                else prompt_answer_start_bias_tensor
+            )
+        ]
+        if not model.prompt_answer_start_bias:
+            model.prompt_answer_start_bias = [0.0 for _ in id_to_token]
+        trace_weight_tensor = checkpoint.tensors.get("trace_token_weights", [])
+        model.trace_token_weights = [
+            float(value) for value in (
+                trace_weight_tensor.tolist()
+                if hasattr(trace_weight_tensor, "tolist")
+                else trace_weight_tensor
+            )
+        ]
+        if not model.trace_token_weights:
+            model.trace_token_weights = [
+                0.0 if token in model.tokenizer.special_tokens else 1.0
+                for token in id_to_token
+            ]
+        preference_bias_tensor = checkpoint.tensors.get("preference_bias", [])
+        model.preference_bias = [
+            float(value) for value in (
+                preference_bias_tensor.tolist()
+                if hasattr(preference_bias_tensor, "tolist")
+                else preference_bias_tensor
+            )
+        ]
+        if not model.preference_bias:
+            model.preference_bias = [0.0 for _ in id_to_token]
+        state_offset_tensor = checkpoint.tensors.get("state_offset", [])
+        model.state_offset = [
+            float(value) for value in (
+                state_offset_tensor.tolist()
+                if hasattr(state_offset_tensor, "tolist")
+                else state_offset_tensor
+            )
+        ]
+        if not model.state_offset:
+            model.state_offset = [0.0 for _ in range(model._combined_state_width())]
+        associative_tensor = checkpoint.tensors.get("associative_keys", [])
+        model.associative_keys = (
+            associative_tensor.astype(float, copy=False)
+            if np is not None and hasattr(associative_tensor, "shape")
+            else [[float(value) for value in row] for row in associative_tensor]
+        )
+        if np is not None and hasattr(model.associative_keys, "shape"):
+            model.associative_key_norms = np.linalg.norm(model.associative_keys, axis=1).tolist()
+        else:
+            model.associative_key_norms = [norm(key) for key in model.associative_keys]
+        raw_associative_values = checkpoint.tensors.get("associative_values", [])
+        model.associative_values = [
+            int(value) for value in (
+                raw_associative_values.tolist()
+                if hasattr(raw_associative_values, "tolist")
+                else raw_associative_values
+            )
+        ]
+        answer_tensor = checkpoint.tensors.get("answer_keys", [])
+        if np is not None and hasattr(answer_tensor, "shape"):
+            model.answer_keys = (
+                answer_tensor.astype(float, copy=False)
+                if len(answer_tensor.shape) == 2
+                else []
+            )
+        else:
+            model.answer_keys = [[float(value) for value in row] for row in answer_tensor]
+        if (
+            np is not None
+            and hasattr(model.answer_keys, "shape")
+            and len(model.answer_keys.shape) == 2
+        ):
+            model.answer_key_norms = np.linalg.norm(model.answer_keys, axis=1).tolist()
+        else:
+            model.answer_key_norms = [norm(key) for key in model.answer_keys]
+        raw_answer_values = checkpoint.tensors.get("answer_values", [])
+        model.answer_values = [
+            int(value) for value in (
+                raw_answer_values.tolist()
+                if hasattr(raw_answer_values, "tolist")
+                else raw_answer_values
+            )
+        ]
+        answer_start_tensor = checkpoint.tensors.get("answer_start_keys", [])
+        if np is not None and hasattr(answer_start_tensor, "shape"):
+            model.answer_start_keys = (
+                answer_start_tensor.astype(float, copy=False)
+                if len(answer_start_tensor.shape) == 2
+                else []
+            )
+        else:
+            model.answer_start_keys = [
+                [float(value) for value in row] for row in answer_start_tensor
+            ]
+        if (
+            np is not None
+            and hasattr(model.answer_start_keys, "shape")
+            and len(model.answer_start_keys.shape) == 2
+        ):
+            model.answer_start_key_norms = np.linalg.norm(model.answer_start_keys, axis=1).tolist()
+        else:
+            model.answer_start_key_norms = [norm(key) for key in model.answer_start_keys]
+        raw_answer_start_values = checkpoint.tensors.get("answer_start_values", [])
+        model.answer_start_values = [
+            int(value) for value in (
+                raw_answer_start_values.tolist()
+                if hasattr(raw_answer_start_values, "tolist")
+                else raw_answer_start_values
+            )
+        ]
+        answer_sequence_tensor = checkpoint.tensors.get("answer_sequence_keys", [])
+        if np is not None and hasattr(answer_sequence_tensor, "shape"):
+            model.answer_sequence_keys = (
+                answer_sequence_tensor.astype(float, copy=False)
+                if len(answer_sequence_tensor.shape) == 2
+                else []
+            )
+        else:
+            model.answer_sequence_keys = [
+                [float(value) for value in row] for row in answer_sequence_tensor
+            ]
+        if (
+            np is not None
+            and hasattr(model.answer_sequence_keys, "shape")
+            and len(model.answer_sequence_keys.shape) == 2
+        ):
+            model.answer_sequence_key_norms = np.linalg.norm(
+                model.answer_sequence_keys,
+                axis=1,
+            ).tolist()
+        else:
+            model.answer_sequence_key_norms = [norm(key) for key in model.answer_sequence_keys]
+        raw_answer_sequence_prompt_tokens = checkpoint.tensors.get("answer_sequence_prompt_tokens", [])
+        if np is not None and hasattr(raw_answer_sequence_prompt_tokens, "shape"):
+            model.answer_sequence_prompt_tokens = raw_answer_sequence_prompt_tokens.astype(int, copy=False)
+        else:
+            model.answer_sequence_prompt_tokens = [
+                [int(value) for value in row] for row in raw_answer_sequence_prompt_tokens
+            ]
+        raw_answer_sequence_tokens = checkpoint.tensors.get("answer_sequence_tokens", [])
+        if np is not None and hasattr(raw_answer_sequence_tokens, "shape"):
+            model.answer_sequence_tokens = raw_answer_sequence_tokens.astype(int, copy=False)
+        else:
+            model.answer_sequence_tokens = [
+                [int(value) for value in row] for row in raw_answer_sequence_tokens
+            ]
+        model.transition_tables = model._deserialize_transition_tables(
+            json.loads(metadata.get("transition_tables", "{}"))
+        )
+        model._refresh_numeric_caches()
+        return model
+
+    def _collect_training_examples(
+        self,
+        tokens: list[str],
+    ) -> tuple[list[Vector], list[Vector], list[int]]:
+        assert self.embedding_model is not None
+        if np is not None:
+            hidden_states = [
+                np.zeros(self.config.state_dim, dtype=np.float64)
+                for _ in self.config.timescales
+            ]
+            context_traces = [
+                np.zeros(self.config.embedding_dim, dtype=np.float64)
+                for _ in self.config.timescales
+            ]
+            zero_embedding: Vector | object = np.zeros(self.config.embedding_dim, dtype=np.float64)
+        else:
+            hidden_states = [zeros_vector(self.config.state_dim) for _ in self.config.timescales]
+            context_traces = [zeros_vector(self.config.embedding_dim) for _ in self.config.timescales]
+            zero_embedding = zeros_vector(self.config.embedding_dim)
+        states: list[Vector] = []
+        labels: list[Vector] = []
+        label_ids: list[int] = []
+        token_ids = [
+            self.embedding_model.token_to_id.get(token, -1)
+            for token in tokens
+        ]
+        example_count = max(0, len(tokens) - 1)
+        stride = 1
+        if self.config.max_training_examples and example_count > self.config.max_training_examples:
+            stride = max(
+                1,
+                (example_count + self.config.max_training_examples - 1) // self.config.max_training_examples,
+            )
+
+        for index in range(len(tokens) - 1):
+            token = tokens[index]
+            token_id = token_ids[index]
+            embedding = (
+                self.embedding_model.embeddings[token_id]
+                if token_id >= 0
+                else zero_embedding
+            )
+            trace_embedding = self._trace_embedding_from_token_id(embedding, token_id)
+            hidden_states, context_traces, combined_state = self._step_hidden_states_from_embedding(
+                hidden_states,
+                context_traces,
+                embedding,
+                trace_embedding=trace_embedding,
+            )
+            if stride > 1 and index % stride != 0 and index != len(tokens) - 2:
+                continue
+            states.append(combined_state)
+            next_token_id = token_ids[index + 1]
+            labels.append(self._one_hot_from_id(next_token_id))
+            label_ids.append(next_token_id)
+
+        if self.config.max_training_examples and len(states) > self.config.max_training_examples:
+            states = states[: self.config.max_training_examples]
+            labels = labels[: self.config.max_training_examples]
+            label_ids = label_ids[: self.config.max_training_examples]
+        return states, labels, label_ids
+
+    def _is_punctuation_piece(self, piece: str) -> bool:
+        return bool(piece) and all(character in string.punctuation for character in piece)
+
+    def _encode_context(self, tokens: list[str]) -> Vector:
+        return self._masked_decode_state(self._build_decode_state(tokens))
+
+    def _build_decode_state(self, tokens: list[str]) -> DecodeState:
+        assert self.memory_units is not None
+
+        state = DecodeState(
+            hidden_states=(
+                [
+                    np.zeros(self.config.state_dim, dtype=np.float64)
+                    for _ in self.config.timescales
+                ]
+                if np is not None
+                else [zeros_vector(self.config.state_dim) for _ in self.config.timescales]
+            ),
+            context_traces=(
+                [
+                    np.zeros(self.config.embedding_dim, dtype=np.float64)
+                    for _ in self.config.timescales
+                ]
+                if np is not None
+                else [zeros_vector(self.config.embedding_dim) for _ in self.config.timescales]
+            ),
+            combined_state=self._zero_combined_state(),
+            context_tokens=[],
+        )
+        for token in tokens:
+            self._advance_decode_state(state, token)
+        return state
+
+    def _advance_decode_state(self, state: DecodeState, token: str) -> DecodeState:
+        next_hidden_states, next_context_traces, combined_state = self._step_hidden_states(
+            state.hidden_states,
+            state.context_traces,
+            token,
+        )
+        state.hidden_states = next_hidden_states
+        state.context_traces = next_context_traces
+        state.combined_state = combined_state
+        state.context_tokens.append(token)
+        if token == "<answer>":
+            state.answer_anchor_state = combined_state.copy() if hasattr(combined_state, "copy") else combined_state[:]
+            state.answer_matches = None
+            state.answer_start_matches = None
+            state.answer_sequence_matches = None
+            state.prompt_answer_prior = None
+            state.prompt_answer_start_prior = None
+        return state
+
+    def _masked_decode_state(self, state: DecodeState) -> Vector:
+        assert self.ternary_mask is not None
+        return apply_ternary_mask(state.combined_state, self.ternary_mask, self.ternary_scale)
+
+    def _masked_combined_state(self, combined_state: Vector) -> Vector:
+        assert self.ternary_mask is not None
+        return apply_ternary_mask(combined_state, self.ternary_mask, self.ternary_scale)
+
+    def _masked_decode_state_array(self, state: DecodeState) -> object:
+        assert np is not None
+        if self.ternary_mask_array is None:
+            return np.asarray(self._masked_decode_state(state), dtype=RUNTIME_ARRAY_DTYPE)
+        return (
+            np.asarray(state.combined_state, dtype=RUNTIME_ARRAY_DTYPE)
+            * self.ternary_scale
+            * self.ternary_mask_array
+        )
+
+    def _masked_combined_state_array(self, combined_state: Vector) -> object:
+        assert np is not None
+        if self.ternary_mask_array is None:
+            return np.asarray(self._masked_combined_state(combined_state), dtype=RUNTIME_ARRAY_DTYPE)
+        return (
+            np.asarray(combined_state, dtype=RUNTIME_ARRAY_DTYPE)
+            * self.ternary_scale
+            * self.ternary_mask_array
+        )
+
+    def _center_state_vector(self, state: Vector) -> Vector:
+        if not self.state_offset or len(self.state_offset) != len(state):
+            return state
+        return [value - self.state_offset[index] for index, value in enumerate(state)]
+
+    def _center_state_array(self, state: object) -> object:
+        assert np is not None
+        state_array = np.asarray(state, dtype=RUNTIME_ARRAY_DTYPE)
+        if self.state_offset_array is None or self.state_offset_array.shape != state_array.shape:
+            return state_array
+        return state_array - self.state_offset_array
+
+    def _zero_combined_state(self) -> Vector:
+        return [0.0 for _ in range(self._combined_state_width())]
+
+    def _combined_state_width(self) -> int:
+        return (self.config.state_dim + self.config.embedding_dim) * len(self.config.timescales)
+
+    def _derive_trace_token_weights_from_counts(self, token_counts: dict[str, float]) -> Vector:
+        assert self.embedding_model is not None
+        assert self.tokenizer is not None
+        counts = [
+            float(token_counts.get(token, 0.0))
+            for token in self.embedding_model.id_to_token
+        ]
+        positive_counts = sorted(value for value in counts if value > 0.0)
+        reference = (
+            positive_counts[len(positive_counts) // 2]
+            if positive_counts
+            else 1.0
+        )
+        weights: Vector = []
+        for token, count in zip(self.embedding_model.id_to_token, counts):
+            if token in self.tokenizer.special_tokens:
+                weights.append(0.0)
+            elif count <= 0.0:
+                weights.append(1.0)
+            else:
+                weight = (reference / count) ** 0.75
+                weights.append(max(0.08, min(4.8, weight)))
+        return weights
+
+    def _token_id_for_token(self, token: str) -> int:
+        assert self.embedding_model is not None
+        token_id = self.embedding_model.token_to_id.get(token)
+        if token_id is None and token.lower() != token:
+            token_id = self.embedding_model.token_to_id.get(token.lower())
+        return int(token_id) if token_id is not None else -1
+
+    def _trace_embedding_from_token_id(
+        self,
+        embedding: Vector | object,
+        token_id: int,
+    ) -> Vector | object:
+        if token_id < 0:
+            return embedding
+        if self.trace_embedding_table_array is not None:
+            return self.trace_embedding_table_array[token_id]
+        weight = self.trace_token_weights[token_id] if self.trace_token_weights is not None else 1.0
+        dimension = self.config.embedding_dim
+        if hasattr(embedding, "shape"):
+            trace_embedding = embedding * weight
+            for bucket_multiplier, bucket_offset, sign_multiplier, sign_offset in TRACE_IDENTITY_HASHES:
+                bucket = (token_id * bucket_multiplier + bucket_offset) % dimension
+                sign = 1.0 if ((token_id * sign_multiplier + sign_offset) & 1) == 0 else -1.0
+                trace_embedding[bucket] += weight * TRACE_IDENTITY_SCALE * sign
+            return trace_embedding
+        trace_values = [float(value) * weight for value in embedding]
+        for bucket_multiplier, bucket_offset, sign_multiplier, sign_offset in TRACE_IDENTITY_HASHES:
+            bucket = (token_id * bucket_multiplier + bucket_offset) % dimension
+            sign = 1.0 if ((token_id * sign_multiplier + sign_offset) & 1) == 0 else -1.0
+            trace_values[bucket] += weight * TRACE_IDENTITY_SCALE * sign
+        return trace_values
+
+    def _build_trace_embedding_table_array(self, embedding_array: object) -> object | None:
+        if np is None or self.trace_token_weights is None:
+            return None
+        values = np.asarray(embedding_array, dtype=np.float64)
+        if values.size == 0 or len(values.shape) != 2:
+            return None
+        weights = np.asarray(self.trace_token_weights, dtype=np.float64)
+        if weights.shape[0] != values.shape[0]:
+            return None
+        trace_values = values * weights[:, None]
+        if values.shape[1] <= 0:
+            return trace_values
+        token_ids = np.arange(values.shape[0], dtype=np.int64)
+        for bucket_multiplier, bucket_offset, sign_multiplier, sign_offset in TRACE_IDENTITY_HASHES:
+            buckets = ((token_ids * bucket_multiplier + bucket_offset) % values.shape[1]).astype(
+                np.int64,
+                copy=False,
+            )
+            signs = np.where(
+                ((token_ids * sign_multiplier + sign_offset) & 1) == 0,
+                1.0,
+                -1.0,
+            )
+            np.add.at(trace_values, (token_ids, buckets), weights * TRACE_IDENTITY_SCALE * signs)
+        return trace_values
+
+    def _refresh_numeric_caches(self) -> None:
+        if np is None:
+            self.ternary_mask_array = None
+            self.readout_weights_array = None
+            self.readout_bias_array = None
+            self.prompt_answer_weights_array = None
+            self.prompt_answer_bias_array = None
+            self.prompt_answer_start_weights_array = None
+            self.prompt_answer_start_bias_array = None
+            self.trace_token_weights_array = None
+            self.trace_embedding_table_array = None
+            self.preference_bias_array = None
+            self.preference_valid_mask_array = None
+            self.state_offset_array = None
+            self.associative_keys_array = None
+            self.associative_key_norms_array = None
+            self.associative_values_array = None
+            self.associative_valid_mask_array = None
+            self.answer_keys_array = None
+            self.answer_key_norms_array = None
+            self.answer_similarity_keys_array = None
+            self.answer_similarity_key_norms_array = None
+            self.answer_similarity_mask_array = None
+            self.answer_values_array = None
+            self.answer_valid_mask_array = None
+            self.answer_start_keys_array = None
+            self.answer_start_key_norms_array = None
+            self.answer_start_similarity_keys_array = None
+            self.answer_start_similarity_key_norms_array = None
+            self.answer_start_values_array = None
+            self.answer_start_valid_mask_array = None
+            self.answer_sequence_keys_array = None
+            self.answer_sequence_key_norms_array = None
+            self.answer_sequence_similarity_keys_array = None
+            self.answer_sequence_similarity_key_norms_array = None
+            self.answer_sequence_prompt_tokens_array = None
+            self.answer_sequence_tokens_array = None
+            self.answer_sequence_prompt_weight_maps = None
+            self.answer_sequence_prompt_weight_norms = None
+            self.answer_sequence_prompt_bigram_sets = None
+            self.answer_sequence_prompt_trigram_sets = None
+            self.answer_sequence_prompt_number_sets = None
+            self.answer_sequence_prompt_inverted_index = None
+            self._refresh_answer_sequence_prompt_overlap_cache()
+            return
+        self.ternary_mask_array = (
+            np.asarray(self.ternary_mask, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.ternary_mask is not None
+            else None
+        )
+        self.readout_weights_array = (
+            np.asarray(self.readout_weights, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.readout_weights is not None
+            else None
+        )
+        self.readout_bias_array = (
+            np.asarray(self.readout_bias, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.readout_bias is not None
+            else None
+        )
+        self.prompt_answer_weights_array = (
+            np.asarray(self.prompt_answer_weights, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.prompt_answer_weights is not None
+            and len(self.prompt_answer_weights) > 0
+            else None
+        )
+        self.prompt_answer_bias_array = (
+            np.asarray(self.prompt_answer_bias, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.prompt_answer_bias is not None
+            else None
+        )
+        self.prompt_answer_start_weights_array = (
+            np.asarray(self.prompt_answer_start_weights, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.prompt_answer_start_weights is not None
+            and len(self.prompt_answer_start_weights) > 0
+            else None
+        )
+        self.prompt_answer_start_bias_array = (
+            np.asarray(self.prompt_answer_start_bias, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.prompt_answer_start_bias is not None
+            else None
+        )
+        self.trace_token_weights_array = (
+            np.asarray(self.trace_token_weights, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.trace_token_weights is not None
+            else None
+        )
+        trace_embedding_table = (
+            self._build_trace_embedding_table_array(self.embedding_model.embeddings)
+            if self.embedding_model is not None and self.trace_token_weights is not None
+            else None
+        )
+        self.trace_embedding_table_array = (
+            trace_embedding_table.astype(RUNTIME_ARRAY_DTYPE, copy=False)
+            if trace_embedding_table is not None
+            else None
+        )
+        self.preference_bias_array = (
+            np.asarray(self.preference_bias, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.preference_bias is not None
+            else None
+        )
+        self.preference_valid_mask_array = (
+            np.asarray(
+                [
+                    self._eligible_preference_token(token)
+                    for token in self.embedding_model.id_to_token
+                ],
+                dtype=bool,
+            )
+            if self.embedding_model is not None and self.tokenizer is not None
+            else None
+        )
+        self.state_offset_array = (
+            np.asarray(self.state_offset, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.state_offset is not None
+            else None
+        )
+        self.associative_keys_array = (
+            np.asarray(self.associative_keys, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.associative_keys is not None and len(self.associative_keys) > 0
+            else None
+        )
+        self.associative_key_norms_array = (
+            np.asarray(self.associative_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.associative_key_norms is not None and len(self.associative_key_norms) > 0
+            else None
+        )
+        self.associative_values_array = (
+            np.asarray(self.associative_values, dtype=np.int64)
+            if self.associative_values is not None and len(self.associative_values) > 0
+            else None
+        )
+        self.associative_valid_mask_array = (
+            self.associative_values_array >= 0
+            if self.associative_values_array is not None
+            else None
+        )
+        self.answer_keys_array = (
+            np.asarray(self.answer_keys, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.answer_keys is not None and len(self.answer_keys) > 0
+            else None
+        )
+        self.answer_key_norms_array = (
+            np.asarray(self.answer_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.answer_key_norms is not None and len(self.answer_key_norms) > 0
+            else None
+        )
+        self.answer_similarity_keys_array = None
+        self.answer_similarity_key_norms_array = None
+        self.answer_similarity_mask_array = None
+        if self.answer_keys_array is not None and len(self.answer_keys_array.shape) == 2:
+            width = int(self.answer_keys_array.shape[1])
+            block_width = self.config.state_dim + self.config.embedding_dim
+            expected_width = block_width * len(self.config.timescales)
+            if block_width > 0 and width == expected_width:
+                mask = np.zeros(width, dtype=RUNTIME_ARRAY_DTYPE)
+                for scale_index in range(len(self.config.timescales)):
+                    start = scale_index * block_width + self.config.state_dim
+                    end = start + self.config.embedding_dim
+                    mask[start:end] = 1.0
+                self.answer_similarity_mask_array = mask
+                self.answer_similarity_keys_array = self.answer_keys_array * mask[None, :]
+                self.answer_similarity_key_norms_array = np.linalg.norm(
+                    self.answer_similarity_keys_array,
+                    axis=1,
+                ).astype(RUNTIME_ARRAY_DTYPE, copy=False)
+        self.answer_values_array = (
+            np.asarray(self.answer_values, dtype=np.int64)
+            if self.answer_values is not None and len(self.answer_values) > 0
+            else None
+        )
+        self.answer_valid_mask_array = (
+            self.answer_values_array >= 0
+            if self.answer_values_array is not None
+            else None
+        )
+        self.answer_start_keys_array = (
+            np.asarray(self.answer_start_keys, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.answer_start_keys is not None and len(self.answer_start_keys) > 0
+            else None
+        )
+        self.answer_start_key_norms_array = (
+            np.asarray(self.answer_start_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.answer_start_key_norms is not None and len(self.answer_start_key_norms) > 0
+            else None
+        )
+        self.answer_start_similarity_keys_array = None
+        self.answer_start_similarity_key_norms_array = None
+        if (
+            self.answer_start_keys_array is not None
+            and len(self.answer_start_keys_array.shape) == 2
+            and self.answer_similarity_mask_array is not None
+            and int(self.answer_start_keys_array.shape[1]) == int(self.answer_similarity_mask_array.shape[0])
+        ):
+            self.answer_start_similarity_keys_array = (
+                self.answer_start_keys_array * self.answer_similarity_mask_array[None, :]
+            )
+            self.answer_start_similarity_key_norms_array = np.linalg.norm(
+                self.answer_start_similarity_keys_array,
+                axis=1,
+            ).astype(RUNTIME_ARRAY_DTYPE, copy=False)
+        self.answer_start_values_array = (
+            np.asarray(self.answer_start_values, dtype=np.int64)
+            if self.answer_start_values is not None and len(self.answer_start_values) > 0
+            else None
+        )
+        self.answer_start_valid_mask_array = (
+            self.answer_start_values_array >= 0
+            if self.answer_start_values_array is not None
+            else None
+        )
+        self.answer_sequence_keys_array = (
+            np.asarray(self.answer_sequence_keys, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.answer_sequence_keys is not None and len(self.answer_sequence_keys) > 0
+            else None
+        )
+        self.answer_sequence_key_norms_array = (
+            np.asarray(self.answer_sequence_key_norms, dtype=RUNTIME_ARRAY_DTYPE)
+            if self.answer_sequence_key_norms is not None and len(self.answer_sequence_key_norms) > 0
+            else None
+        )
+        self.answer_sequence_similarity_keys_array = None
+        self.answer_sequence_similarity_key_norms_array = None
+        if (
+            self.answer_sequence_keys_array is not None
+            and len(self.answer_sequence_keys_array.shape) == 2
+            and self.answer_similarity_mask_array is not None
+            and int(self.answer_sequence_keys_array.shape[1]) == int(self.answer_similarity_mask_array.shape[0])
+        ):
+            self.answer_sequence_similarity_keys_array = (
+                self.answer_sequence_keys_array * self.answer_similarity_mask_array[None, :]
+            )
+            self.answer_sequence_similarity_key_norms_array = np.linalg.norm(
+                self.answer_sequence_similarity_keys_array,
+                axis=1,
+            ).astype(RUNTIME_ARRAY_DTYPE, copy=False)
+        self.answer_sequence_tokens_array = (
+            np.asarray(self.answer_sequence_tokens, dtype=np.int64)
+            if self.answer_sequence_tokens is not None and len(self.answer_sequence_tokens) > 0
+            else None
+        )
+        self.answer_sequence_prompt_tokens_array = (
+            np.asarray(self.answer_sequence_prompt_tokens, dtype=np.int64)
+            if self.answer_sequence_prompt_tokens is not None
+            and len(self.answer_sequence_prompt_tokens) > 0
+            else None
+        )
+        self._refresh_answer_sequence_prompt_overlap_cache()
+
+    def _refresh_answer_sequence_prompt_overlap_cache(self) -> None:
+        self.answer_sequence_prompt_weight_maps = None
+        self.answer_sequence_prompt_weight_norms = None
+        self.answer_sequence_prompt_bigram_sets = None
+        self.answer_sequence_prompt_trigram_sets = None
+        self.answer_sequence_prompt_number_sets = None
+        self.answer_sequence_prompt_inverted_index = None
+        self.answer_sequence_prompt_specificity = None
+        if self.answer_sequence_prompt_tokens is None or self.trace_token_weights is None:
+            return
+        inverted: dict[int, list[int]] = {}
+        row_id_lists: list[list[int]] = []
+        for row in self.answer_sequence_prompt_tokens:
+            row_values = row.tolist() if hasattr(row, "tolist") else row
+            row_ids: list[int] = []
+            for raw_token_id in row_values:
+                token_id = int(raw_token_id)
+                if token_id < 0 or token_id >= len(self.trace_token_weights):
+                    continue
+                row_ids.append(token_id)
+            sequence_index = len(row_id_lists)
+            for token_id in set(row_ids):
+                inverted.setdefault(token_id, []).append(sequence_index)
+            row_id_lists.append(row_ids)
+
+        total_rows = len(row_id_lists)
+        specificity = {
+            token_id: self._prompt_overlap_token_specificity(len(indices), total_rows)
+            for token_id, indices in inverted.items()
+        }
+        self.answer_sequence_prompt_inverted_index = inverted
+        self.answer_sequence_prompt_specificity = specificity
+
+        weight_maps: list[dict[int, float]] = []
+        weight_norms: list[float] = []
+        bigram_sets: list[set[tuple[int, int]]] = []
+        trigram_sets: list[set[tuple[int, int, int]]] = []
+        number_sets: list[set[str]] = []
+        for row_ids in row_id_lists:
+            row_weights: dict[int, float] = {}
+            for token_id in row_ids:
+                row_weights[token_id] = max(
+                    row_weights.get(token_id, 0.0),
+                    float(self.trace_token_weights[token_id]) * specificity.get(token_id, 1.0),
+                )
+            weight_maps.append(row_weights)
+            weight_norms.append(sum(value * value for value in row_weights.values()) ** 0.5)
+            bigram_sets.append(
+                {
+                    (row_ids[index], row_ids[index + 1])
+                    for index in range(len(row_ids) - 1)
+                }
+            )
+            trigram_sets.append(
+                {
+                    (row_ids[index], row_ids[index + 1], row_ids[index + 2])
+                    for index in range(len(row_ids) - 2)
+                }
+            )
+            number_sets.append(self._number_strings_from_token_ids(row_ids))
+        self.answer_sequence_prompt_weight_maps = weight_maps
+        self.answer_sequence_prompt_weight_norms = weight_norms
+        self.answer_sequence_prompt_bigram_sets = bigram_sets
+        self.answer_sequence_prompt_trigram_sets = trigram_sets
+        self.answer_sequence_prompt_number_sets = number_sets
+
+    @staticmethod
+    def _prompt_overlap_token_specificity(document_frequency: int, total_documents: int) -> float:
+        if document_frequency <= 0 or total_documents <= 0:
+            return 1.0
+        coverage = min(1.0, document_frequency / total_documents)
+        return max(0.02, 1.0 - (coverage ** 0.5))
+
+    def _number_strings_from_token_ids(self, token_ids: list[int]) -> set[str]:
+        assert self.embedding_model is not None
+        tokens = [
+            self.embedding_model.id_to_token[token_id]
+            for token_id in token_ids
+            if 0 <= token_id < len(self.embedding_model.id_to_token)
+        ]
+        return self._number_strings_from_tokens(tokens)
+
+    def _number_strings_from_tokens(self, tokens: list[str]) -> set[str]:
+        numbers: set[str] = set()
+        current = ""
+        for token in tokens:
+            if self.tokenizer is not None and token in self.tokenizer.special_tokens:
+                if current:
+                    numbers.add(current)
+                    current = ""
+                continue
+            rendered = self._render_token(token)
+            digits = "".join(character for character in rendered if character.isdigit())
+            starts_number = self._starts_new_word(token) if self.tokenizer is not None else True
+            if digits and starts_number:
+                if current:
+                    numbers.add(current)
+                current = digits
+            elif digits and current:
+                current += digits
+            else:
+                if current:
+                    numbers.add(current)
+                    current = ""
+        if current:
+            numbers.add(current)
+        return numbers
+
+    @staticmethod
+    def _numeric_prompt_can_match(query_numbers: set[str], row_numbers: set[str]) -> bool:
+        if not query_numbers:
+            return True
+        if not row_numbers:
+            return False
+        return query_numbers.issubset(row_numbers)
+
+    def _apply_readout_fast(self, state: Vector) -> Vector:
+        if self.readout_weights_array is None or np is None:
+            assert self.readout_weights is not None
+            centered_state = self._center_state_vector(state)
+            logits = apply_readout(self.readout_weights, centered_state)
+            if self.readout_bias:
+                logits = [
+                    value + self.readout_bias[index]
+                    for index, value in enumerate(logits)
+                ]
+            return logits
+        state_array = np.asarray(state, dtype=RUNTIME_ARRAY_DTYPE)
+        if self.state_offset_array is not None and self.state_offset_array.shape == state_array.shape:
+            state_array = state_array - self.state_offset_array
+        logits = self.readout_weights_array @ state_array
+        if self.readout_bias_array is not None and self.readout_bias_array.shape == logits.shape:
+            logits = logits + self.readout_bias_array
+        return logits.tolist()
+
+    def _apply_readout_array(self, state: object) -> object:
+        assert np is not None
+        assert self.readout_weights_array is not None
+        state_array = np.asarray(state, dtype=RUNTIME_ARRAY_DTYPE)
+        if self.state_offset_array is not None and self.state_offset_array.shape == state_array.shape:
+            state_array = state_array - self.state_offset_array
+        logits = self.readout_weights_array @ state_array
+        if self.readout_bias_array is not None and self.readout_bias_array.shape == logits.shape:
+            logits = logits + self.readout_bias_array
+        return logits
+
+    def _step_hidden_states(
+        self,
+        hidden_states: list[Vector],
+        context_traces: list[Vector],
+        token: str,
+    ) -> tuple[list[Vector], list[Vector], Vector]:
+        assert self.embedding_model is not None
+        assert self.tokenizer is not None
+        token_id = self._token_id_for_token(token)
+        embedding = self.embedding_model.vector(token)
+        trace_embedding = self._trace_embedding_from_token_id(embedding, token_id)
+        return self._step_hidden_states_from_embedding(
+            hidden_states,
+            context_traces,
+            embedding,
+            trace_embedding=trace_embedding,
+        )
+
+    def _step_hidden_states_from_embedding(
+        self,
+        hidden_states: list[Vector],
+        context_traces: list[Vector],
+        embedding: Vector | object,
+        *,
+        trace_embedding: Vector | object | None = None,
+    ) -> tuple[list[Vector], list[Vector], Vector]:
+        assert self.memory_units is not None
+        if trace_embedding is None:
+            trace_embedding = embedding
+
+        if np is not None and hidden_states and hasattr(hidden_states[0], "shape"):
+            embedding_array = (
+                embedding
+                if hasattr(embedding, "shape")
+                else np.asarray(embedding, dtype=np.float64)
+            )
+            trace_embedding_array = (
+                trace_embedding
+                if hasattr(trace_embedding, "shape")
+                else np.asarray(trace_embedding, dtype=np.float64)
+            )
+            drive = analytical_embedding_drive_fast(embedding_array, self.config.state_dim)
+            next_states: list[Vector] = []
+            next_traces: list[Vector] = []
+            combined_state: Vector = []
+            for unit, state, trace in zip(self.memory_units, hidden_states, context_traces):
+                next_state = unit.step_vector_fast(state, drive)
+                decay = 1.0 / (1.0 + unit.timescale)
+                next_trace = trace + ((1.0 - decay) * trace_embedding_array)
+                next_states.append(next_state)
+                next_traces.append(next_trace)
+                combined_state.extend(next_state.tolist())
+                combined_state.extend(next_trace.tolist())
+            return next_states, next_traces, combined_state
+
+        embedding_vector = embedding.tolist() if hasattr(embedding, "tolist") else embedding
+        trace_embedding_vector = (
+            trace_embedding.tolist()
+            if hasattr(trace_embedding, "tolist")
+            else trace_embedding
+        )
+        drive = analytical_embedding_drive(embedding_vector, self.config.state_dim)
+        next_states: list[Vector] = []
+        next_traces: list[Vector] = []
+        combined_state: Vector = []
+        for unit, state, trace in zip(self.memory_units, hidden_states, context_traces):
+            next_state = unit.step_vector(state, drive)
+            decay = 1.0 / (1.0 + unit.timescale)
+            next_trace = [
+                previous + ((1.0 - decay) * value)
+                for previous, value in zip(trace, trace_embedding_vector)
+            ]
+            next_states.append(next_state)
+            next_traces.append(next_trace)
+            combined_state.extend(next_state)
+            combined_state.extend(next_trace)
+        return next_states, next_traces, combined_state
+
+    def _one_hot(self, token: str) -> Vector:
+        assert self.embedding_model is not None
+        return self._one_hot_from_id(self.embedding_model.token_to_id.get(token, -1))
+
+    def _one_hot_from_id(self, token_id: int) -> Vector:
+        assert self.embedding_model is not None
+        vector = [0.0 for _ in self.embedding_model.id_to_token]
+        if token_id >= 0:
+            vector[token_id] = 1.0
+        return vector
+
+    def _blend_probabilities(
+        self,
+        base: Vector,
+        answer: Vector,
+        associative: Vector,
+        transition: Vector,
+        copy: Vector,
+        preference: Vector,
+        *,
+        transition_order: int | None,
+        generated_count: int = 0,
+        answer_locked: bool = False,
+        answer_guided_start: bool = False,
+    ) -> tuple[Vector, dict[str, float]]:
+        base_weight = FAST_BASE_BLEND
+        answer_weight = FAST_ANSWER_BLEND
+        associative_weight = FAST_ASSOCIATIVE_BLEND
+        transition_weight = FAST_TRANSITION_BLEND
+        copy_weight = FAST_COPY_BLEND
+        preference_weight = FAST_PREFERENCE_BLEND
+        if answer_locked:
+            base_weight *= 0.18
+            answer_weight *= 5.0
+            associative_weight *= 0.2
+            transition_weight *= 0.2
+            copy_weight *= 0.2
+            preference_weight *= 0.2
+        elif answer_guided_start:
+            base_weight *= 0.35
+            answer_weight *= 3.5
+            associative_weight *= 0.2
+            transition_weight *= 0.35
+            copy_weight *= 0.2
+            preference_weight *= 0.2
+        elif generated_count > 0:
+            answer_weight *= 0.32
+            transition_weight *= 2.0
+            copy_weight *= 0.75
+
+        if transition_order is None:
+            answer_weight *= 1.1
+            associative_weight *= 0.75
+            copy_weight += 0.02
+        elif transition_order <= 2:
+            answer_weight *= 1.15
+            associative_weight *= 0.65
+            transition_weight *= 0.55
+            copy_weight += 0.01
+        elif transition_order >= 5:
+            transition_weight *= 1.25
+
+        sources: list[tuple[str, float, Vector]] = [("base", base_weight, base)]
+        if any(value > 0.0 for value in answer):
+            sources.append(("answer", answer_weight, answer))
+        if any(value > 0.0 for value in associative):
+            sources.append(("associative", associative_weight, associative))
+        if any(value > 0.0 for value in transition):
+            sources.append(("transition", transition_weight, transition))
+        if any(value > 0.0 for value in copy):
+            sources.append(("copy", copy_weight, copy))
+        if any(value > 0.0 for value in preference):
+            sources.append(("preference", preference_weight, preference))
+
+        total_weight = sum(weight for _, weight, _ in sources)
+        blended = [0.0 for _ in base]
+        blend_weights: dict[str, float] = {}
+        for name, weight, source in sources:
+            normalized_weight = weight / total_weight if total_weight else 0.0
+            blend_weights[name] = normalized_weight
+            for index, value in enumerate(source):
+                blended[index] += normalized_weight * value
+        return _normalize_vector(blended), blend_weights
+
+    def _blend_probability_arrays(
+        self,
+        base: object,
+        answer: object,
+        associative: object,
+        transition: object,
+        copy: object,
+        preference: object,
+        *,
+        transition_order: int | None,
+        generated_count: int = 0,
+        answer_locked: bool = False,
+        answer_guided_start: bool = False,
+    ) -> tuple[object, dict[str, float]]:
+        assert np is not None
+
+        base_weight = FAST_BASE_BLEND
+        answer_weight = FAST_ANSWER_BLEND
+        associative_weight = FAST_ASSOCIATIVE_BLEND
+        transition_weight = FAST_TRANSITION_BLEND
+        copy_weight = FAST_COPY_BLEND
+        preference_weight = FAST_PREFERENCE_BLEND
+        if answer_locked:
+            base_weight *= 0.18
+            answer_weight *= 5.0
+            associative_weight *= 0.2
+            transition_weight *= 0.2
+            copy_weight *= 0.2
+            preference_weight *= 0.2
+        elif answer_guided_start:
+            base_weight *= 0.35
+            answer_weight *= 3.5
+            associative_weight *= 0.2
+            transition_weight *= 0.35
+            copy_weight *= 0.2
+            preference_weight *= 0.2
+        elif generated_count > 0:
+            answer_weight *= 0.32
+            transition_weight *= 2.0
+            copy_weight *= 0.75
+        if transition_order is None:
+            answer_weight *= 1.1
+            associative_weight *= 0.75
+            copy_weight += 0.02
+        elif transition_order <= 2:
+            answer_weight *= 1.15
+            associative_weight *= 0.65
+            transition_weight *= 0.55
+            copy_weight += 0.01
+        elif transition_order >= 5:
+            transition_weight *= 1.25
+
+        sources: list[tuple[str, float, object]] = [("base", base_weight, base)]
+        if np.any(answer > 0.0):
+            sources.append(("answer", answer_weight, answer))
+        if np.any(associative > 0.0):
+            sources.append(("associative", associative_weight, associative))
+        if np.any(transition > 0.0):
+            sources.append(("transition", transition_weight, transition))
+        if np.any(copy > 0.0):
+            sources.append(("copy", copy_weight, copy))
+        if np.any(preference > 0.0):
+            sources.append(("preference", preference_weight, preference))
+
+        total_weight = sum(weight for _, weight, _ in sources)
+        blended = np.zeros_like(base, dtype=np.float64)
+        blend_weights: dict[str, float] = {}
+        for name, weight, source in sources:
+            normalized_weight = weight / total_weight if total_weight else 0.0
+            blend_weights[name] = normalized_weight
+            blended += normalized_weight * source
+        total = float(blended.sum())
+        if total <= 0.0:
+            return base, blend_weights
+        return blended / total, blend_weights
+
+    def _score_associative_matches(
+        self,
+        state: Vector,
+        *,
+        limit: int = ASSOCIATIVE_TOP_K,
+    ) -> list[tuple[float, int, int]]:
+        if (
+            self.associative_keys is None
+            or self.associative_values is None
+            or self.associative_key_norms is None
+            or len(self.associative_keys) == 0
+            or len(self.associative_values) == 0
+            or len(self.associative_key_norms) == 0
+        ):
+            return []
+
+        if (
+            np is not None
+            and
+            self.associative_keys_array is not None
+            and self.associative_key_norms_array is not None
+            and self.associative_values_array is not None
+            and self.associative_valid_mask_array is not None
+            and limit > 0
+        ):
+            state_array = self._center_state_array(state).astype(self.associative_keys_array.dtype, copy=False)
+            state_norm = float(np.linalg.norm(state_array))
+            if state_norm == 0.0:
+                return []
+            numerators = self.associative_keys_array @ state_array
+            denominators = self.associative_key_norms_array * state_norm
+            valid_mask = self.associative_valid_mask_array & (denominators > 0.0)
+            if np.any(valid_mask):
+                scores = np.zeros_like(numerators, dtype=self.associative_keys_array.dtype)
+                np.divide(numerators, denominators, out=scores, where=valid_mask)
+                positive_positions = np.flatnonzero(valid_mask & (scores > 0.0))
+                if positive_positions.size:
+                    selected_positions = positive_positions
+                    if positive_positions.size > limit:
+                        partition = np.argpartition(scores[positive_positions], -limit)[-limit:]
+                        selected_positions = positive_positions[partition]
+                    ordered_positions = selected_positions[np.argsort(scores[selected_positions])[::-1]]
+                    return [
+                        (
+                            float(scores[position]),
+                            int(self.associative_values_array[position]),
+                            int(position),
+                        )
+                        for position in ordered_positions
+                    ]
+
+        state = self._center_state_vector(state)
+        state_norm = norm(state)
+        if state_norm == 0.0:
+            return []
+
+        scored: list[tuple[float, int, int]] = []
+        for example_index, (key, key_norm, token_id) in enumerate(
+            zip(self.associative_keys, self.associative_key_norms, self.associative_values)
+        ):
+            if token_id < 0:
+                continue
+            denominator = state_norm * key_norm
+            if denominator == 0.0:
+                continue
+            similarity = dot(state, key) / denominator
+            if similarity > 0.0:
+                scored.append((similarity, token_id, example_index))
+        scored.sort(key=lambda item: item[0], reverse=True)
+        return scored[:limit]
+
+    def _associative_prior_from_matches(
+        self,
+        matches: list[tuple[float, int, int]],
+    ) -> Vector:
+        assert self.embedding_model is not None
+        if not matches:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+
+        prior = [0.0 for _ in self.embedding_model.id_to_token]
+        for similarity, token_id, _ in matches[:ASSOCIATIVE_TOP_K]:
+            prior[token_id] += similarity
+        return _normalize_vector(prior)
+
+    def _associative_prior(self, state: Vector) -> Vector:
+        return self._associative_prior_from_matches(self._score_associative_matches(state))
+
+    def _score_answer_matches(
+        self,
+        answer_anchor_state: Vector | None,
+        *,
+        limit: int = ANSWER_TOP_K,
+    ) -> list[tuple[float, int, int]]:
+        return self._score_prompt_anchor_matches(
+            answer_anchor_state,
+            self.answer_keys,
+            self.answer_key_norms,
+            self.answer_values,
+            self.answer_keys_array,
+            self.answer_key_norms_array,
+            self.answer_values_array,
+            self.answer_valid_mask_array,
+            self.answer_similarity_keys_array,
+            self.answer_similarity_key_norms_array,
+            self.answer_similarity_mask_array,
+            limit=limit,
+        )
+
+    def _score_answer_start_matches(
+        self,
+        answer_anchor_state: Vector | None,
+        *,
+        limit: int = ANSWER_START_TOP_K,
+    ) -> list[tuple[float, int, int]]:
+        return self._score_prompt_anchor_matches(
+            answer_anchor_state,
+            self.answer_start_keys,
+            self.answer_start_key_norms,
+            self.answer_start_values,
+            self.answer_start_keys_array,
+            self.answer_start_key_norms_array,
+            self.answer_start_values_array,
+            self.answer_start_valid_mask_array,
+            self.answer_start_similarity_keys_array,
+            self.answer_start_similarity_key_norms_array,
+            self.answer_similarity_mask_array,
+            limit=limit,
+        )
+
+    def _score_answer_sequence_matches(
+        self,
+        answer_anchor_state: Vector | None,
+        context_tokens: list[str],
+        *,
+        limit: int = ANSWER_START_TOP_K,
+    ) -> list[tuple[float, int, int]]:
+        if (
+            answer_anchor_state is None
+            or self.answer_sequence_keys is None
+            or self.answer_sequence_key_norms is None
+            or self.answer_sequence_tokens is None
+        ):
+            return []
+        values = list(range(len(self.answer_sequence_tokens)))
+        values_array = np.arange(len(values), dtype=np.int64) if np is not None else None
+        anchor_matches = self._score_prompt_anchor_matches(
+            answer_anchor_state,
+            self.answer_sequence_keys,
+            self.answer_sequence_key_norms,
+            values,
+            self.answer_sequence_keys_array,
+            self.answer_sequence_key_norms_array,
+            values_array,
+            values_array >= 0 if values_array is not None else None,
+            self.answer_sequence_similarity_keys_array,
+            self.answer_sequence_similarity_key_norms_array,
+            self.answer_similarity_mask_array,
+            limit=max(limit * 4, limit),
+        )
+        overlap_scores = self._answer_sequence_prompt_overlap_scores(context_tokens)
+        if overlap_scores is None:
+            return anchor_matches[:limit]
+        if not overlap_scores:
+            return []
+        best_overlap = max(overlap_scores.values()) if overlap_scores else 0.0
+        overlap_floor = max(0.16, best_overlap * 0.90)
+        focused_overlap_scores = {
+            sequence_index: overlap
+            for sequence_index, overlap in overlap_scores.items()
+            if overlap >= overlap_floor
+        }
+        if not focused_overlap_scores:
+            focused_overlap_scores = overlap_scores
+        focused_indices = set(focused_overlap_scores)
+        merged: dict[int, float] = {}
+        for similarity, sequence_index, _ in anchor_matches:
+            if sequence_index not in focused_indices:
+                continue
+            merged[sequence_index] = max(merged.get(sequence_index, 0.0), 0.20 * similarity)
+        for sequence_index, overlap in focused_overlap_scores.items():
+            merged[sequence_index] = merged.get(sequence_index, 0.0) + (0.80 * overlap)
+        ranked = [
+            (score, sequence_index, sequence_index)
+            for sequence_index, score in merged.items()
+            if score > 0.0
+        ]
+        ranked.sort(key=lambda item: item[0], reverse=True)
+        return ranked[:limit]
+
+    def _answer_sequence_prompt_overlap_scores(
+        self,
+        context_tokens: list[str],
+    ) -> dict[int, float] | None:
+        if (
+            self.embedding_model is None
+            or self.answer_sequence_prompt_tokens is None
+            or self.trace_token_weights is None
+        ):
+            return None
+        answer_boundary = _last_index(context_tokens, "<answer>")
+        prompt_tokens = (
+            context_tokens[:answer_boundary]
+            if answer_boundary is not None
+            else context_tokens
+        )
+        if self.answer_sequence_prompt_specificity is None:
+            self._refresh_answer_sequence_prompt_overlap_cache()
+        specificity_map = self.answer_sequence_prompt_specificity or {}
+        query_weights: dict[int, float] = {}
+        query_specificity: dict[int, float] = {}
+        query_content_weight = 0.0
+        query_ids: list[int] = []
+        for token in prompt_tokens:
+            if self.tokenizer is not None and token in self.tokenizer.special_tokens:
+                continue
+            token_id = self.embedding_model.token_to_id.get(token)
+            if token_id is None:
+                continue
+            query_ids.append(token_id)
+            specificity = specificity_map.get(token_id, 1.0)
+            weight = specificity
+            query_weights[token_id] = max(
+                query_weights.get(token_id, 0.0),
+                weight,
+            )
+            query_specificity[token_id] = max(
+                query_specificity.get(token_id, 0.0),
+                specificity,
+            )
+            if specificity >= 0.20:
+                query_content_weight += weight
+        if not query_weights:
+            return None
+        query_norm = sum(value * value for value in query_weights.values()) ** 0.5
+        if query_norm <= 0.0:
+            return None
+
+        query_bigrams = {
+            (query_ids[index], query_ids[index + 1])
+            for index in range(len(query_ids) - 1)
+        }
+        query_trigrams = {
+            (query_ids[index], query_ids[index + 1], query_ids[index + 2])
+            for index in range(len(query_ids) - 2)
+        }
+        query_numbers = self._number_strings_from_tokens(prompt_tokens)
+
+        def ordered_ngram_score(
+            query_grams: set[tuple[int, ...]],
+            row_grams: set[tuple[int, ...]],
+        ) -> float:
+            if not query_grams or not row_grams:
+                return 0.0
+            overlap = len(query_grams & row_grams)
+            if overlap <= 0:
+                return 0.0
+            return overlap / ((len(query_grams) * len(row_grams)) ** 0.5)
+
+        cached_maps = self.answer_sequence_prompt_weight_maps
+        cached_norms = self.answer_sequence_prompt_weight_norms
+        cached_bigrams = self.answer_sequence_prompt_bigram_sets
+        cached_trigrams = self.answer_sequence_prompt_trigram_sets
+        cached_numbers = self.answer_sequence_prompt_number_sets
+        cached_index = self.answer_sequence_prompt_inverted_index
+        if (
+            cached_maps is not None
+            and cached_norms is not None
+            and cached_bigrams is not None
+            and cached_trigrams is not None
+            and cached_numbers is not None
+            and len(cached_maps) == len(self.answer_sequence_prompt_tokens)
+        ):
+            candidate_indices: set[int] | range
+            if cached_index is not None:
+                candidates: set[int] = set()
+                for token_id in query_weights:
+                    candidates.update(cached_index.get(token_id, ()))
+                candidate_indices = candidates if candidates else range(len(cached_maps))
+            else:
+                candidate_indices = range(len(cached_maps))
+            candidate_indices = list(candidate_indices)
+            if cached_index is not None and candidate_indices:
+                candidate_set = set(candidate_indices)
+                local_query_weights: dict[int, float] = {}
+                local_query_specificity: dict[int, float] = {}
+                local_query_content_weight = 0.0
+                for token_id in query_weights:
+                    local_frequency = len(candidate_set & set(cached_index.get(token_id, ())))
+                    if local_frequency <= 0:
+                        continue
+                    specificity = self._prompt_overlap_token_specificity(
+                        local_frequency,
+                        len(candidate_indices),
+                    )
+                    weight = specificity
+                    local_query_weights[token_id] = weight
+                    local_query_specificity[token_id] = specificity
+                    if specificity >= 0.20:
+                        local_query_content_weight += weight
+                local_query_norm = sum(value * value for value in local_query_weights.values()) ** 0.5
+                if local_query_norm > 0.0:
+                    query_weights = local_query_weights
+                    query_specificity = local_query_specificity
+                    if local_query_content_weight > 0.0:
+                        query_content_weight = local_query_content_weight
+                    query_norm = local_query_norm
+            scores: dict[int, float] = {}
+            for sequence_index in candidate_indices:
+                row_weights = cached_maps[sequence_index]
+                if not row_weights:
+                    continue
+                if not self._numeric_prompt_can_match(query_numbers, cached_numbers[sequence_index]):
+                    continue
+                matched_content_weight = sum(
+                    query_weights[token_id]
+                    for token_id in query_weights.keys() & row_weights.keys()
+                    if query_specificity.get(token_id, 0.0) >= 0.20
+                )
+                row_token_coverage = len(query_weights.keys() & row_weights.keys()) / max(
+                    1,
+                    len(row_weights),
+                )
+                if (
+                    query_content_weight > 0.0
+                    and matched_content_weight / query_content_weight < 0.40
+                    and row_token_coverage < 0.75
+                ):
+                    continue
+                query_coverage = (
+                    matched_content_weight / query_content_weight
+                    if query_content_weight > 0.0
+                    else row_token_coverage
+                )
+                numerator = sum(
+                    query_weights[token_id] * row_weights[token_id]
+                    for token_id in query_weights.keys() & row_weights.keys()
+                )
+                if numerator <= 0.0:
+                    continue
+                row_norm = cached_norms[sequence_index]
+                if row_norm <= 0.0:
+                    continue
+                token_score = numerator / (query_norm * row_norm)
+                bigram_score = ordered_ngram_score(
+                    query_bigrams,
+                    cached_bigrams[sequence_index],
+                )
+                trigram_score = ordered_ngram_score(
+                    query_trigrams,
+                    cached_trigrams[sequence_index],
+                )
+                scores[sequence_index] = (
+                    (0.35 * token_score)
+                    + (0.35 * query_coverage)
+                    + (0.15 * bigram_score)
+                    + (0.15 * trigram_score)
+                )
+            return scores
+
+        if cached_index is not None:
+            candidate_set: set[int] = set()
+            for token_id in query_weights:
+                candidate_set.update(cached_index.get(token_id, ()))
+            if not candidate_set:
+                return {}
+            candidate_indices: list[int] | range = sorted(candidate_set)
+            local_query_weights: dict[int, float] = {}
+            local_query_specificity: dict[int, float] = {}
+            local_query_content_weight = 0.0
+            candidate_count = len(candidate_indices)
+            for token_id in query_weights:
+                local_frequency = len(candidate_set & set(cached_index.get(token_id, ())))
+                if local_frequency <= 0:
+                    continue
+                specificity = self._prompt_overlap_token_specificity(
+                    local_frequency,
+                    candidate_count,
+                )
+                local_query_weights[token_id] = specificity
+                local_query_specificity[token_id] = specificity
+                if specificity >= 0.20:
+                    local_query_content_weight += specificity
+            local_query_norm = sum(value * value for value in local_query_weights.values()) ** 0.5
+            if local_query_norm > 0.0:
+                query_weights = local_query_weights
+                query_specificity = local_query_specificity
+                if local_query_content_weight > 0.0:
+                    query_content_weight = local_query_content_weight
+                query_norm = local_query_norm
+        else:
+            candidate_indices = range(len(self.answer_sequence_prompt_tokens))
+
+        scores: dict[int, float] = {}
+        for sequence_index in candidate_indices:
+            row = self.answer_sequence_prompt_tokens[sequence_index]
+            row_values = row.tolist() if hasattr(row, "tolist") else row
+            row_weights: dict[int, float] = {}
+            row_ids: list[int] = []
+            for raw_token_id in row_values:
+                token_id = int(raw_token_id)
+                if token_id < 0 or token_id >= len(self.trace_token_weights):
+                    continue
+                row_ids.append(token_id)
+                row_weights[token_id] = max(
+                    row_weights.get(token_id, 0.0),
+                    specificity_map.get(token_id, 1.0),
+                )
+            if not row_weights:
+                continue
+            if not self._numeric_prompt_can_match(
+                query_numbers,
+                self._number_strings_from_token_ids(row_ids),
+            ):
+                continue
+            matched_content_weight = sum(
+                query_weights[token_id]
+                for token_id in query_weights.keys() & row_weights.keys()
+                if query_specificity.get(token_id, 0.0) >= 0.20
+            )
+            row_token_coverage = len(query_weights.keys() & row_weights.keys()) / max(
+                1,
+                len(row_weights),
+            )
+            if (
+                query_content_weight > 0.0
+                and matched_content_weight / query_content_weight < 0.40
+                and row_token_coverage < 0.75
+            ):
+                continue
+            query_coverage = (
+                matched_content_weight / query_content_weight
+                if query_content_weight > 0.0
+                else row_token_coverage
+            )
+            numerator = sum(
+                query_weights[token_id] * row_weights[token_id]
+                for token_id in query_weights.keys() & row_weights.keys()
+            )
+            if numerator <= 0.0:
+                continue
+            row_norm = sum(value * value for value in row_weights.values()) ** 0.5
+            if row_norm > 0.0:
+                token_score = numerator / (query_norm * row_norm)
+                row_bigrams = {
+                    (row_ids[index], row_ids[index + 1])
+                    for index in range(len(row_ids) - 1)
+                }
+                row_trigrams = {
+                    (row_ids[index], row_ids[index + 1], row_ids[index + 2])
+                    for index in range(len(row_ids) - 2)
+                }
+                bigram_score = ordered_ngram_score(query_bigrams, row_bigrams)
+                trigram_score = ordered_ngram_score(query_trigrams, row_trigrams)
+                scores[sequence_index] = (
+                    (0.35 * token_score)
+                    + (0.35 * query_coverage)
+                    + (0.15 * bigram_score)
+                    + (0.15 * trigram_score)
+                )
+        return scores
+
+    def _score_prompt_anchor_matches(
+        self,
+        answer_anchor_state: Vector | None,
+        keys: object | None,
+        key_norms_list: object | None,
+        values: object | None,
+        keys_array: object | None,
+        key_norms_array: object | None,
+        values_array: object | None,
+        valid_mask_array: object | None,
+        similarity_keys_array: object | None,
+        similarity_key_norms_array: object | None,
+        similarity_mask_array: object | None,
+        *,
+        limit: int,
+    ) -> list[tuple[float, int, int]]:
+        if (
+            answer_anchor_state is None
+            or keys is None
+            or key_norms_list is None
+            or values is None
+        ):
+            return []
+
+        if (
+            np is not None
+            and keys_array is not None
+            and key_norms_array is not None
+            and values_array is not None
+            and valid_mask_array is not None
+            and limit > 0
+        ):
+            state_array = self._center_state_array(
+                self._masked_combined_state_array(answer_anchor_state)
+            ).astype(keys_array.dtype, copy=False)
+            key_array = keys_array
+            key_norms = key_norms_array
+            if (
+                similarity_keys_array is not None
+                and similarity_key_norms_array is not None
+                and similarity_mask_array is not None
+            ):
+                state_array = state_array * similarity_mask_array
+                key_array = similarity_keys_array
+                key_norms = similarity_key_norms_array
+            state_norm = float(np.linalg.norm(state_array))
+            if state_norm == 0.0:
+                return []
+            numerators = key_array @ state_array
+            denominators = key_norms * state_norm
+            valid_mask = valid_mask_array & (denominators > 0.0)
+            if np.any(valid_mask):
+                scores = np.zeros_like(numerators, dtype=key_array.dtype)
+                np.divide(numerators, denominators, out=scores, where=valid_mask)
+                positive_positions = np.flatnonzero(valid_mask & (scores > 0.0))
+                if positive_positions.size:
+                    selected_positions = positive_positions
+                    if positive_positions.size > limit:
+                        partition = np.argpartition(scores[positive_positions], -limit)[-limit:]
+                        selected_positions = positive_positions[partition]
+                    ordered_positions = selected_positions[np.argsort(scores[selected_positions])[::-1]]
+                    return [
+                        (
+                            float(scores[position]),
+                            int(values_array[position]),
+                            int(position),
+                        )
+                        for position in ordered_positions
+                    ]
+
+        state = self._center_state_vector(self._masked_combined_state(answer_anchor_state))
+        state_norm = norm(state)
+        if state_norm == 0.0:
+            return []
+
+        scored: list[tuple[float, int, int]] = []
+        for example_index, (key, key_norm, token_id) in enumerate(
+            zip(keys, key_norms_list, values)
+        ):
+            if token_id < 0:
+                continue
+            denominator = state_norm * key_norm
+            if denominator == 0.0:
+                continue
+            similarity = dot(state, key) / denominator
+            if similarity > 0.0:
+                scored.append((similarity, token_id, example_index))
+        scored.sort(key=lambda item: item[0], reverse=True)
+        return scored[:limit]
+
+    def _answer_prior_from_matches(
+        self,
+        matches: list[tuple[float, int, int]],
+        generated_tokens: list[str],
+    ) -> Vector:
+        assert self.embedding_model is not None
+        if not matches:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+
+        prior = [0.0 for _ in self.embedding_model.id_to_token]
+        generated_ids = {
+            self.embedding_model.token_to_id[token]
+            for token in generated_tokens
+            if token in self.embedding_model.token_to_id
+        }
+        for similarity, token_id, _ in matches[:ANSWER_TOP_K]:
+            token = self.embedding_model.id_to_token[token_id]
+            if not self._allowed_generation_token(token, generated_tokens):
+                continue
+            if token_id in generated_ids:
+                prior[token_id] += similarity * 0.35
+            else:
+                prior[token_id] += similarity
+        return _normalize_vector(prior)
+
+    def _answer_sequence_prior_from_matches(
+        self,
+        matches: list[tuple[float, int, int]],
+        generated_tokens: list[str],
+    ) -> Vector:
+        assert self.embedding_model is not None
+        if not matches or self.answer_sequence_tokens is None:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+
+        generated_ids = [
+            self.embedding_model.token_to_id[token]
+            for token in generated_tokens
+            if token in self.embedding_model.token_to_id
+        ]
+        prior = [0.0 for _ in self.embedding_model.id_to_token]
+        best_similarity = matches[0][0]
+        match_floor = best_similarity - 0.02 if best_similarity >= 0.9 else 0.0
+        for similarity, sequence_index, _ in matches[:ANSWER_START_TOP_K]:
+            if similarity < match_floor:
+                continue
+            row = self.answer_sequence_tokens[sequence_index]
+            token_ids = [
+                int(value)
+                for value in (row.tolist() if hasattr(row, "tolist") else row)
+                if int(value) >= 0
+            ]
+            if not token_ids:
+                continue
+            next_token_id = self._next_sequence_token_id(token_ids, generated_ids)
+            if next_token_id is None:
+                continue
+            token = self.embedding_model.id_to_token[next_token_id]
+            if self._allowed_generation_token(token, generated_tokens):
+                prior[next_token_id] += max(1e-9, similarity - match_floor)
+        return _normalize_vector(prior)
+
+    def _should_stop_answer_sequence(
+        self,
+        decode_state: DecodeState,
+        generated_tokens: list[str],
+    ) -> bool:
+        matches = decode_state.answer_sequence_matches
+        if matches is None:
+            matches = self._score_answer_sequence_matches(
+                decode_state.answer_anchor_state,
+                decode_state.context_tokens,
+            )
+        return self._answer_sequence_is_complete(generated_tokens, matches)
+
+    def _answer_decode_has_continuation(
+        self,
+        decode_state: DecodeState,
+        generated_tokens: list[str],
+    ) -> bool:
+        matches = decode_state.answer_sequence_matches
+        if matches is None:
+            matches = self._score_answer_sequence_matches(
+                decode_state.answer_anchor_state,
+                decode_state.context_tokens,
+            )
+        return self._answer_sequence_has_continuation(generated_tokens, matches)
+
+    def _answer_sequence_is_complete(
+        self,
+        generated_tokens: list[str],
+        matches: list[tuple[float, int, int]],
+    ) -> bool:
+        if (
+            self.embedding_model is None
+            or self.answer_sequence_tokens is None
+            or not generated_tokens
+            or not matches
+        ):
+            return False
+        generated_ids = [
+            self.embedding_model.token_to_id[token]
+            for token in generated_tokens
+            if token in self.embedding_model.token_to_id
+        ]
+        if not generated_ids:
+            return False
+        for similarity, sequence_index, _ in matches[:ANSWER_START_TOP_K]:
+            if similarity < ANSWER_SEQUENCE_MATCH_FLOOR or sequence_index >= len(self.answer_sequence_tokens):
+                continue
+            row = self.answer_sequence_tokens[sequence_index]
+            token_ids = [
+                int(value)
+                for value in (row.tolist() if hasattr(row, "tolist") else row)
+                if int(value) >= 0
+            ]
+            if not token_ids or len(generated_ids) < len(token_ids):
+                continue
+            if generated_ids[: len(token_ids)] == token_ids:
+                return True
+        return False
+
+    def _answer_sequence_has_continuation(
+        self,
+        generated_tokens: list[str],
+        matches: list[tuple[float, int, int]],
+    ) -> bool:
+        if (
+            self.embedding_model is None
+            or self.answer_sequence_tokens is None
+            or not generated_tokens
+            or not matches
+        ):
+            return False
+        generated_ids = [
+            self.embedding_model.token_to_id[token]
+            for token in generated_tokens
+            if token in self.embedding_model.token_to_id
+        ]
+        if not generated_ids:
+            return False
+        for similarity, sequence_index, _ in matches[:ANSWER_START_TOP_K]:
+            if similarity < ANSWER_SEQUENCE_MATCH_FLOOR or sequence_index >= len(self.answer_sequence_tokens):
+                continue
+            row = self.answer_sequence_tokens[sequence_index]
+            token_ids = [
+                int(value)
+                for value in (row.tolist() if hasattr(row, "tolist") else row)
+                if int(value) >= 0
+            ]
+            if not token_ids:
+                continue
+            next_token_id = self._next_sequence_token_id(token_ids, generated_ids)
+            if next_token_id is None:
+                continue
+            token = self.embedding_model.id_to_token[next_token_id]
+            if self._allowed_generation_token(token, generated_tokens):
+                return True
+        return False
+
+    def _next_sequence_token_id(
+        self,
+        token_ids: list[int],
+        generated_ids: list[int],
+    ) -> int | None:
+        if not generated_ids:
+            return token_ids[0]
+        if len(generated_ids) >= len(token_ids):
+            return None
+        if token_ids[: len(generated_ids)] != generated_ids:
+            return None
+        return token_ids[len(generated_ids)]
+
+    def _transition_prior(self, context_tokens: list[str]) -> Vector:
+        prior, _ = self._transition_prior_with_order(context_tokens)
+        return prior
+
+    def _transition_prior_with_order(
+        self,
+        context_tokens: list[str],
+    ) -> tuple[Vector, int | None]:
+        assert self.embedding_model is not None
+        if not self.transition_tables:
+            return [0.0 for _ in self.embedding_model.id_to_token], None
+
+        for order in TRANSITION_ORDERS:
+            if len(context_tokens) < order:
+                continue
+            key = tuple(context_tokens[-order:])
+            transitions = self.transition_tables.get(order, {}).get(key)
+            if not transitions:
+                continue
+            prior = [0.0 for _ in self.embedding_model.id_to_token]
+            for token, probability in transitions.items():
+                token_id = self.embedding_model.token_to_id.get(token)
+                if token_id is not None:
+                    prior[token_id] = probability
+            return _normalize_vector(prior), order
+        return [0.0 for _ in self.embedding_model.id_to_token], None
+
+    def _transition_prior_array_with_order(
+        self,
+        context_tokens: list[str],
+    ) -> tuple[object, int | None]:
+        assert np is not None
+        assert self.embedding_model is not None
+        prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        if not self.transition_tables:
+            return prior, None
+
+        for order in TRANSITION_ORDERS:
+            if len(context_tokens) < order:
+                continue
+            key = tuple(context_tokens[-order:])
+            transitions = self.transition_tables.get(order, {}).get(key)
+            if not transitions:
+                continue
+            for token, probability in transitions.items():
+                token_id = self.embedding_model.token_to_id.get(token)
+                if token_id is not None:
+                    prior[token_id] = probability
+            total = float(prior.sum())
+            if total > 0.0:
+                prior /= total
+            return prior, order
+        return prior, None
+
+    def _copy_prior(self, context_tokens: list[str]) -> Vector:
+        assert self.embedding_model is not None
+        assert self.tokenizer is not None
+
+        prior = [0.0 for _ in self.embedding_model.id_to_token]
+        decay = 0.82
+        answer_start = None
+        for index in range(len(context_tokens) - 1, -1, -1):
+            if context_tokens[index] == "<answer>":
+                answer_start = index + 1
+                break
+        source_tokens = context_tokens[answer_start:] if answer_start is not None else context_tokens
+        if not source_tokens:
+            return prior
+        for distance, token in enumerate(reversed(source_tokens[-8:])):
+            if token in self.tokenizer.special_tokens:
+                continue
+            if not self._eligible_copy_token(token):
+                continue
+            token_id = self.embedding_model.token_to_id.get(token)
+            if token_id is None:
+                continue
+            prior[token_id] += decay**distance
+        return _normalize_vector(prior)
+
+    def _copy_prior_array(self, context_tokens: list[str]) -> object:
+        assert np is not None
+        assert self.embedding_model is not None
+        assert self.tokenizer is not None
+
+        prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        decay = 0.82
+        answer_start = None
+        for index in range(len(context_tokens) - 1, -1, -1):
+            if context_tokens[index] == "<answer>":
+                answer_start = index + 1
+                break
+        source_tokens = context_tokens[answer_start:] if answer_start is not None else context_tokens
+        for distance, token in enumerate(reversed(source_tokens[-8:])):
+            if token in self.tokenizer.special_tokens:
+                continue
+            if not self._eligible_copy_token(token):
+                continue
+            token_id = self.embedding_model.token_to_id.get(token)
+            if token_id is None:
+                continue
+            prior[token_id] += decay**distance
+        total = float(prior.sum())
+        if total > 0.0:
+            prior /= total
+        return prior
+
+    def _preference_prior(self) -> Vector:
+        assert self.embedding_model is not None
+        if not self.preference_bias or not any(value != 0.0 for value in self.preference_bias):
+            return [0.0 for _ in self.embedding_model.id_to_token]
+        eligible_indices = [
+            index
+            for index, token in enumerate(self.embedding_model.id_to_token)
+            if self.preference_bias[index] > 0.0 and self._eligible_preference_token(token)
+        ]
+        if not eligible_indices:
+            return [0.0 for _ in self.embedding_model.id_to_token]
+        eligible_probabilities = self._calibrated_softmax(
+            [self.preference_bias[index] for index in eligible_indices]
+        )
+        prior = [0.0 for _ in self.embedding_model.id_to_token]
+        for index, probability in zip(eligible_indices, eligible_probabilities):
+            prior[index] = probability
+        return prior
+
+    def _preference_prior_array(self) -> object:
+        assert np is not None
+        assert self.embedding_model is not None
+        if self.preference_bias_array is None or not np.any(self.preference_bias_array != 0.0):
+            return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        if self.preference_valid_mask_array is None or not np.any(self.preference_valid_mask_array):
+            return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        positive_mask = self.preference_bias_array > 0.0
+        active_mask = self.preference_valid_mask_array & positive_mask
+        if not np.any(active_mask):
+            return np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        prior = np.zeros(len(self.embedding_model.id_to_token), dtype=np.float64)
+        prior[active_mask] = self._calibrated_softmax_array(
+            self.preference_bias_array[active_mask]
+        )
+        return prior
+
+    def _eligible_preference_token(self, token: str) -> bool:
+        assert self.tokenizer is not None
+        if token == self.tokenizer.unk_token or token in self.tokenizer.special_tokens:
+            return False
+        if not self._starts_new_word(token):
+            return False
+        rendered = self._render_token(token)
+        if not rendered.strip() or self._is_punctuation_piece(rendered):
+            return False
+        alphanumeric = "".join(character for character in rendered if character.isalnum())
+        return len(alphanumeric) >= 1
+
+    def _build_transition_tables(
+        self,
+        tokens: list[str],
+    ) -> dict[int, dict[tuple[str, ...], dict[str, float]]]:
+        counts: dict[int, dict[tuple[str, ...], dict[str, int]]] = {
+            order: {} for order in sorted(TRANSITION_ORDERS)
+        }
+        for order in sorted(TRANSITION_ORDERS):
+            for index in range(order - 1, len(tokens) - 1):
+                key = tuple(tokens[index - order + 1 : index + 1])
+                nxt = tokens[index + 1]
+                bucket = counts[order].setdefault(key, {})
+                bucket[nxt] = bucket.get(nxt, 0) + 1
+
+        probabilities: dict[int, dict[tuple[str, ...], dict[str, float]]] = {
+            order: {} for order in sorted(TRANSITION_ORDERS)
+        }
+        for order, mapping in counts.items():
+            items = list(mapping.items())
+            items.sort(key=lambda item: (-sum(item[1].values()), item[0]))
+            if (
+                self.config.max_transition_contexts_per_order is not None
+                and self.config.max_transition_contexts_per_order >= 0
+            ):
+                items = items[: self.config.max_transition_contexts_per_order]
+            for key, bucket in items:
+                next_items = sorted(bucket.items(), key=lambda item: (-item[1], item[0]))
+                if self.config.max_transition_next_tokens > 0:
+                    next_items = next_items[: self.config.max_transition_next_tokens]
+                total = sum(value for _, value in next_items)
+                if total <= 0:
+                    continue
+                probabilities[order][key] = {
+                    token: value / total
+                    for token, value in next_items
+                }
+        return probabilities
+
+    def _serialize_transition_tables(self) -> dict[str, dict[str, dict[str, float]]]:
+        assert self.transition_tables is not None
+        return {
+            str(order): {
+                _encode_ngram_key(key): value
+                for key, value in mapping.items()
+            }
+            for order, mapping in self.transition_tables.items()
+        }
+
+    def _deserialize_transition_tables(
+        self,
+        payload: dict[str, dict[str, dict[str, float]]],
+    ) -> dict[int, dict[tuple[str, ...], dict[str, float]]]:
+        tables: dict[int, dict[tuple[str, ...], dict[str, float]]] = {
+            order: {} for order in sorted(TRANSITION_ORDERS)
+        }
+        for order_text, mapping in payload.items():
+            order = int(order_text)
+            tables[order] = {
+                _decode_ngram_key(key): {
+                    str(token): float(probability)
+                    for token, probability in value.items()
+                }
+                for key, value in mapping.items()
+            }
+        return tables
+
+    def _eligible_copy_token(self, token: str) -> bool:
+        rendered = self._render_token(token)
+        if not rendered.strip():
+            return False
+        if self._is_punctuation_piece(rendered):
+            return False
+        if not self._starts_new_word(token):
+            return False
+        alphanumeric = "".join(character for character in rendered if character.isalnum())
+        return len(alphanumeric) >= 2
+
+    def _allowed_generation_token(self, token: str, generated_tokens: list[str]) -> bool:
+        assert self.embedding_model is not None
+        if len(self.embedding_model.id_to_token) < 1024:
+            return True
+        if token == self.tokenizer.unk_token or token in self.tokenizer.special_tokens:
+            return False
+        rendered = self._render_token(token)
+        if rendered == "\n":
+            return bool(generated_tokens)
+        if not rendered.strip():
+            return False
+        if self._is_word_joiner_token(token):
+            return (
+                self._can_attach_word_joiner(generated_tokens)
+                or self._can_start_line_with_word_joiner(token, generated_tokens)
+            )
+        if self._is_structural_punctuation_token(token):
+            return bool(generated_tokens) or self._can_start_answer_with_structural_punctuation(token)
+        if self._is_structural_symbol_token(token):
+            return bool(generated_tokens) or self._starts_new_word(token)
+        if not self._starts_new_word(token):
+            return False
+        alphanumeric = "".join(character for character in rendered if character.isalnum())
+        return len(alphanumeric) >= 1 or not self._is_punctuation_piece(rendered)
+
+    def _would_repeat_recent_pattern(
+        self,
+        candidate: str,
+        generated_tokens: list[str],
+        recent_rendered_words: list[str] | None = None,
+    ) -> bool:
+        if len(generated_tokens) >= 2 and generated_tokens[-1] == candidate and generated_tokens[-2] == candidate:
+            return True
+
+        if len(generated_tokens) >= 2:
+            trigram = tuple(generated_tokens[-2:] + [candidate])
+            recent_tokens = generated_tokens[-12:]
+            for index in range(max(0, len(recent_tokens) - 4)):
+                if tuple(recent_tokens[index : index + 3]) == trigram:
+                    return True
+
+        rendered_words = recent_rendered_words
+        if rendered_words is None:
+            rendered_words = self._recent_rendered_words(generated_tokens)
+        candidate_word = self._render_token(candidate).casefold()
+        if (
+            rendered_words
+            and self._starts_new_word(candidate)
+            and any(character.isalnum() for character in candidate_word)
+        ):
+            candidate_bigram = (rendered_words[-1], candidate_word)
+            recent_window = rendered_words[-10:]
+            recent_bigrams = {
+                (recent_window[index], recent_window[index + 1])
+                for index in range(len(recent_window) - 1)
+            }
+            if candidate_bigram in recent_bigrams:
+                return True
+            if (
+                len(candidate_word) > 2
+                and rendered_words[-10:].count(candidate_word) >= 2
+                and not self._is_common_connector_token(candidate)
+            ):
+                return True
+
+        return False
+
+    def _recent_rendered_words(self, generated_tokens: list[str]) -> list[str]:
+        rendered_words: list[str] = []
+        for token in generated_tokens:
+            if not self._starts_new_word(token):
+                continue
+            rendered = self._render_token(token).casefold()
+            if any(character.isalnum() for character in rendered):
+                rendered_words.append(rendered)
+        return rendered_words
+
+    def _select_generation_token(
+        self,
+        distribution: dict[str, float],
+        *,
+        context_tokens: list[str] | None = None,
+        generated_tokens: list[str] | None = None,
+        temperature: float = DEFAULT_GENERATION_TEMPERATURE,
+        top_k: int = DEFAULT_GENERATION_TOP_K,
+        top_p: float = DEFAULT_GENERATION_TOP_P,
+        repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
+        preserve_dominant_candidates: bool = False,
+    ) -> str:
+        assert self.tokenizer is not None
+        generated_tokens = generated_tokens or []
+        candidates = self._prepare_generation_candidates(
+            distribution,
+            generated_tokens=generated_tokens,
+            temperature=temperature,
+            top_k=top_k,
+            top_p=top_p,
+            repetition_penalty=repetition_penalty,
+            preserve_dominant_candidates=preserve_dominant_candidates,
+        )
+        if candidates:
+            return self._sample_generation_candidate(
+                candidates,
+                context_tokens=context_tokens or [],
+                generated_tokens=generated_tokens,
+                stochastic=temperature > 0.0,
+            )
+
+        for token, _ in sorted(distribution.items(), key=lambda item: item[1], reverse=True):
+            if token in self.tokenizer.special_tokens:
+                continue
+            if token == self.tokenizer.unk_token:
+                continue
+            if not self._allowed_generation_token(token, generated_tokens):
+                continue
+            return token
+        return ""
+
+    def _select_generation_token_from_array(
+        self,
+        probabilities: object,
+        *,
+        context_tokens: list[str],
+        generated_tokens: list[str],
+        temperature: float = DEFAULT_GENERATION_TEMPERATURE,
+        top_k: int = DEFAULT_GENERATION_TOP_K,
+        top_p: float = DEFAULT_GENERATION_TOP_P,
+        repetition_penalty: float = DEFAULT_REPETITION_PENALTY,
+        preserve_dominant_candidates: bool = False,
+    ) -> str:
+        assert np is not None
+        assert self.tokenizer is not None
+        assert self.embedding_model is not None
+
+        values = np.asarray(probabilities, dtype=np.float64)
+        if values.size == 0:
+            return ""
+        pool_size = min(values.size, max(top_k * 4, 64))
+        if pool_size <= 0:
+            pool_size = min(values.size, 64)
+        if pool_size < values.size:
+            candidate_indices = np.argpartition(values, -pool_size)[-pool_size:]
+            candidate_indices = candidate_indices[np.argsort(values[candidate_indices])[::-1]]
+        else:
+            candidate_indices = np.argsort(values)[::-1]
+
+        distribution: dict[str, float] = {}
+        for raw_index in candidate_indices:
+            index = int(raw_index)
+            score = float(values[index])
+            if score <= 0.0:
+                continue
+            token = self.embedding_model.id_to_token[index]
+            if token in self.tokenizer.special_tokens or token == self.tokenizer.unk_token:
+                continue
+            distribution[token] = score
+        return self._select_generation_token(
+            distribution,
+            context_tokens=context_tokens,
+            generated_tokens=generated_tokens,
+            temperature=temperature,
+            top_k=top_k,
+            top_p=top_p,
+            repetition_penalty=repetition_penalty,
+            preserve_dominant_candidates=preserve_dominant_candidates,
+        )
+
+    def _prepare_generation_candidates(
+        self,
+        distribution: dict[str, float],
+        *,
+        generated_tokens: list[str],
+        temperature: float,
+        top_k: int,
+        top_p: float,
+        repetition_penalty: float,
+        preserve_dominant_candidates: bool = False,
+    ) -> list[tuple[str, float]]:
+        assert self.tokenizer is not None
+        assert self.embedding_model is not None
+
+        generated_word_count = self._generated_word_count(generated_tokens)
+        clause_words = self._words_since_clause_break(generated_tokens)
+        recent_rendered_words = self._recent_rendered_words(generated_tokens)
+        best_probability = max(distribution.values(), default=0.0)
+        adjusted: list[tuple[str, float]] = []
+        for token, probability in sorted(distribution.items(), key=lambda item: item[1], reverse=True):
+            if token in self.tokenizer.special_tokens:
+                continue
+            if token == self.tokenizer.unk_token or probability <= 0.0:
+                continue
+            if not self._allowed_generation_token(token, generated_tokens):
+                continue
+            repeats_recent_pattern = self._would_repeat_recent_pattern(
+                token,
+                generated_tokens,
+                recent_rendered_words=recent_rendered_words,
+            )
+            if (
+                repeats_recent_pattern
+                and not (
+                    preserve_dominant_candidates
+                    and best_probability > 0.0
+                    and probability >= best_probability * 0.80
+                )
+            ):
+                continue
+
+            score = probability
+            rendered = self._render_token(token)
+            punctuation_token = self._is_structural_punctuation_token(token)
+            starts_new_word = self._starts_new_word(token)
+            alphanumeric = "".join(character for character in rendered if character.isalnum())
+            if generated_tokens and starts_new_word and alphanumeric:
+                previous_rendered = self._render_token(generated_tokens[-1])
+                previous_alphanumeric = "".join(
+                    character for character in previous_rendered if character.isalnum()
+                )
+                if previous_alphanumeric.casefold() == alphanumeric.casefold():
+                    continue
+            common_connector = self._is_common_connector_token(token)
+            if (
+                starts_new_word
+                and len(alphanumeric) == 1
+                and not common_connector
+            ):
+                score *= 0.08
+            recent_count = generated_tokens[-12:].count(token)
+            if recent_count > 0 and not common_connector:
+                score /= repetition_penalty ** (2 * recent_count)
+            if generated_tokens and token == generated_tokens[-1]:
+                score /= repetition_penalty**3
+            if generated_tokens and token in generated_tokens[-4:] and not common_connector:
+                score *= 0.35
+            if generated_tokens and not starts_new_word and self._starts_new_word(generated_tokens[-1]):
+                score *= 0.08
+            if not generated_tokens and punctuation_token:
+                if best_probability <= 0.0 or probability < best_probability * 0.80:
+                    score *= 0.01
+            elif not generated_tokens and not starts_new_word:
+                score *= 0.02
+            if punctuation_token:
+                if generated_tokens and self._is_structural_punctuation_token(generated_tokens[-1]):
+                    score *= 0.05
+                if clause_words >= 6:
+                    score *= 1.0 + min(1.4, 0.18 * (clause_words - 5))
+                elif generated_word_count >= 12:
+                    score *= 1.1
+            if score > 0.0:
+                adjusted.append((token, score))
+
+        if not adjusted:
+            return []
+        adjusted.sort(key=lambda item: item[1], reverse=True)
+        if top_k > 0:
+            adjusted = adjusted[:top_k]
+        if 0.0 < top_p < 1.0:
+            kept: list[tuple[str, float]] = []
+            cumulative = 0.0
+            total = sum(score for _, score in adjusted)
+            for token, score in adjusted:
+                normalized = score / total if total else 0.0
+                kept.append((token, score))
+                cumulative += normalized
+                if cumulative >= top_p:
+                    break
+            adjusted = kept
+
+        if temperature <= 0.0:
+            return [(adjusted[0][0], 1.0)]
+
+        exponent = 1.0 / temperature
+        tempered = [
+            (token, score**exponent)
+            for token, score in adjusted
+            if score > 0.0
+        ]
+        total = sum(score for _, score in tempered)
+        if total <= 0.0:
+            return []
+        return [(token, score / total) for token, score in tempered]
+
+    def _sample_generation_candidate(
+        self,
+        candidates: list[tuple[str, float]],
+        *,
+        context_tokens: list[str],
+        generated_tokens: list[str],
+        stochastic: bool = False,
+    ) -> str:
+        if not candidates:
+            return ""
+        if len(candidates) == 1:
+            return candidates[0][0]
+        top_probability = candidates[0][1]
+        second_probability = candidates[1][1]
+        top_has_clear_half_majority = top_probability >= 0.5 and (
+            second_probability <= 0.0
+            or top_probability - second_probability >= 0.02
+        )
+        if top_has_clear_half_majority or (
+            second_probability > 0.0 and top_probability >= second_probability * 2.5
+        ) or (
+            top_probability >= 0.08
+            and second_probability > 0.0
+            and top_probability >= second_probability * 1.35
+        ):
+            return candidates[0][0]
+        if stochastic:
+            threshold = random.random()
+        else:
+            seed_payload = "\u0002".join([*context_tokens, "<generated>", *generated_tokens, str(len(candidates))])
+            seed = int.from_bytes(hashlib.sha256(seed_payload.encode("utf-8")).digest()[:8], "big")
+            threshold = random.Random(seed).random()
+        cumulative = 0.0
+        for token, probability in candidates:
+            cumulative += probability
+            if threshold <= cumulative:
+                return token
+        return candidates[-1][0]
+
+    def _top_entries_from_vector(
+        self,
+        values: Vector,
+        limit: int,
+    ) -> list[dict[str, object]]:
+        if limit <= 0:
+            return []
+        ranked = sorted(
+            enumerate(values),
+            key=lambda item: item[1],
+            reverse=True,
+        )
+        return [
+            self._token_entry(index, probability)
+            for index, probability in ranked[:limit]
+            if probability > 0.0
+        ]
+
+    def _token_entry(
+        self,
+        index: int,
+        probability: float,
+    ) -> dict[str, object]:
+        assert self.embedding_model is not None
+        token = self.embedding_model.id_to_token[index]
+        return {
+            "token": token,
+            "text": self._render_token(token),
+            "probability": probability,
+        }
+
+    def _build_reasoning_summary(
+        self,
+        transition_order: int | None,
+        blend_weights: dict[str, float],
+    ) -> str:
+        dominant_source = max(blend_weights.items(), key=lambda item: item[1])[0] if blend_weights else "base"
+        if transition_order is not None:
+            transition_message = f" Transition prior is using order-{transition_order} context."
+        else:
+            transition_message = " Transition prior found no matching n-gram."
+
+        return (
+            "Generation is running on analytical state, recurrent traces, and corpus-derived token transitions."
+            f"{transition_message}"
+            f" Dominant blend source: {dominant_source}."
+        )
+
+    def _generated_word_count(self, tokens: list[str]) -> int:
+        return len(self._decode_tokens(tokens).split())
+
+    def _is_structural_punctuation_text(self, text: str) -> bool:
+        if len(text) != 1:
+            return False
+        if self._is_word_joiner_text(text):
+            return False
+        category = unicodedata.category(text)
+        return category.startswith("P")
+
+    def _is_structural_punctuation_token(self, token: str) -> bool:
+        return self._is_structural_punctuation_text(self._render_token(token))
+
+    def _is_structural_symbol_token(self, token: str) -> bool:
+        rendered = self._render_token(token)
+        return len(rendered) == 1 and unicodedata.category(rendered).startswith("S")
+
+    def _is_word_joiner_token(self, token: str) -> bool:
+        return self._is_word_joiner_text(self._render_token(token))
+
+    def _is_word_joiner_text(self, text: str) -> bool:
+        if len(text) != 1:
+            return False
+        category = unicodedata.category(text)
+        if category in ("Pc", "Pd", "Lm"):
+            return True
+        name = unicodedata.name(text, "")
+        return "APOSTROPHE" in name or (
+            "SINGLE" in name and "QUOTATION MARK" in name
+        )
+
+    def _can_start_line_with_word_joiner(self, token: str, generated_tokens: list[str]) -> bool:
+        rendered = self._render_token(token)
+        if len(rendered) != 1 or unicodedata.category(rendered) != "Pd":
+            return False
+        if not self._starts_new_word(token):
+            return False
+        return not generated_tokens or self._render_token(generated_tokens[-1]) == "\n"
+
+    def _can_start_answer_with_structural_punctuation(self, token: str) -> bool:
+        rendered = self._render_token(token)
+        if len(rendered) != 1 or not self._starts_new_word(token):
+            return False
+        return unicodedata.category(rendered) in ("Ps", "Pi")
+
+    def _is_common_connector_token(self, token: str) -> bool:
+        rendered = self._render_token(token)
+        return rendered.isalpha() and len(rendered) <= 3
+
+    def _can_attach_word_joiner(self, generated_tokens: list[str]) -> bool:
+        if not generated_tokens:
+            return False
+        rendered = self._render_token(generated_tokens[-1])
+        if not rendered:
+            return False
+        if any(character.isalnum() for character in rendered):
+            return True
+        if len(rendered) != 1:
+            return False
+        return unicodedata.category(rendered) in ("Ps", "Pi")
+
+    def _words_since_clause_break(self, tokens: list[str]) -> int:
+        assert self.tokenizer is not None
+
+        words = 0
+        for token in reversed(tokens):
+            if token in self.tokenizer.special_tokens:
+                continue
+            rendered = self._render_token(token)
+            if self._is_structural_punctuation_text(rendered):
+                break
+            if self._starts_new_word(token) and not self._is_punctuation_piece(rendered):
+                words += 1
+        return words
+
+    def _should_stop_generation(self, generated_tokens: list[str]) -> bool:
+        if not generated_tokens:
+            return False
+        if not self._is_terminal_punctuation_text(self._render_token(generated_tokens[-1])):
+            return False
+        return self._generated_word_count(generated_tokens) >= 14
+
+    def _is_terminal_punctuation_text(self, text: str) -> bool:
+        if not self._is_structural_punctuation_text(text):
+            return False
+        name = unicodedata.name(text, "")
+        return (
+            "FULL STOP" in name
+            or "QUESTION MARK" in name
+            or "EXCLAMATION MARK" in name
+        )
+
+    def _starts_new_word(self, token: str) -> bool:
+        assert self.tokenizer is not None
+        if token in self.tokenizer.special_tokens:
+            return True
+        if token.startswith(self.tokenizer.word_prefix):
+            return True
+        return len(token) == 1 and not token.isalnum() and not self._is_word_joiner_token(token)
+
+    def _decode_tokens(self, tokens: list[str]) -> str:
+        assert self.tokenizer is not None
+        return self.tokenizer.decode(tokens)
+
+    def _render_token(self, token: str) -> str:
+        assert self.tokenizer is not None
+        if token.startswith(self.tokenizer.word_prefix):
+            return token[len(self.tokenizer.word_prefix) :]
+        return token
+
+    def _require_fit(self) -> None:
+        if (
+            self.tokenizer is None
+            or self.embedding_model is None
+            or self.memory_units is None
+            or self.readout_weights is None
+            or self.ternary_mask is None
+            or self.associative_keys is None
+            or self.associative_key_norms is None
+            or self.associative_values is None
+            or self.transition_tables is None
+        ):
+            raise RuntimeError("Call fit() before using the REFRAMR model.")
+
+    def _ensure_numeric_caches(self) -> None:
+        if np is None:
+            return
+        if self.readout_weights_array is None:
+            self._refresh_numeric_caches()