chess-aj-split / model.py

Upload folder using huggingface_hub

db9c3ab verified about 1 month ago

26.6 kB

	# """
	# SOTA Chess Transformer (Llama/DeepSeek Style)
	# Updated for the 1M Parameter Challenge.

	# Improvements over baseline:
	# 1. RoPE (Rotary Positional Embeddings) - Saves ~32k params, better context.
	# 2. RMSNorm - More stable than LayerNorm.
	# 3. SwiGLU - Better activation function for reasoning.
	# 4. QK-Norm - (From OLMo 2) Stabilizes attention.
	# """

	# from __future__ import annotations

	# import math
	# from dataclasses import dataclass
	# from typing import Optional, Tuple, Union

	# import torch
	# import torch.nn as nn
	# import torch.nn.functional as F
	# from transformers import PretrainedConfig, PreTrainedModel
	# from transformers.modeling_outputs import CausalLMOutputWithPast
	# from transformers import LogitsProcessor, LogitsProcessorList
	# from transformers.generation import GenerationMixin


	# class ChessConfig(PretrainedConfig):
	# model_type = "chess_transformer"

	# def __init__(
	# self,
	# vocab_size: int = 1200,
	# n_embd: int = 128,
	# n_layer: int = 8, # Increased default depth since RoPE saves params
	# n_head: int = 4,
	# n_ctx: int = 256,
	# n_inner: Optional[int] = None,
	# dropout: float = 0.0, # Modern LLMs often use 0 dropout
	# rms_norm_eps: float = 1e-6,
	# tie_weights: bool = True,
	# pad_token_id: int = 0,
	# bos_token_id: int = 1,
	# eos_token_id: int = 2,
	# **kwargs,
	# ):
	# super().__init__(
	# pad_token_id=pad_token_id,
	# bos_token_id=bos_token_id,
	# eos_token_id=eos_token_id,
	# is_decoder=True,
	# **kwargs,
	# )
	# self.vocab_size = vocab_size
	# self.n_embd = n_embd
	# self.n_layer = n_layer
	# self.n_head = n_head
	# # Mapping for Hugging Face compatibility
	# self.num_hidden_layers = n_layer
	# self.hidden_size = n_embd
	# self.num_attention_heads = n_head

	# self.n_ctx = n_ctx
	# # SwiGLU needs a different inner dimension to match parameter count.
	# # Usually 2/3 of 4d, but we can tune this.
	# self.n_inner = n_inner if n_inner is not None else int(8/3 * n_embd)
	# self.dropout = dropout
	# self.rms_norm_eps = rms_norm_eps
	# self.tie_weights = tie_weights
	# self.tie_word_embeddings = bool(tie_weights)


	# class RMSNorm(nn.Module):
	# """Root Mean Square Layer Normalization (Llama style)."""
	# def __init__(self, dim: int, eps: float = 1e-6):
	# super().__init__()
	# self.eps = eps
	# self.weight = nn.Parameter(torch.ones(dim))

	# def _norm(self, x):
	# return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

	# def forward(self, x):
	# output = self._norm(x.float()).type_as(x)
	# return output * self.weight


	# def apply_rotary_pos_emb(q, k, cos, sin):
	# """Apply Rotary Positional Embeddings (RoPE)."""
	# # Reshape cos/sin to match q/k: [batch, 1, seq_len, head_dim]
	# # Note: This is a simplified implementation for the challenge
	# cos = cos.unsqueeze(1)
	# sin = sin.unsqueeze(1)

	# q_embed = (q * cos) + (rotate_half(q) * sin)
	# k_embed = (k * cos) + (rotate_half(k) * sin)
	# return q_embed, k_embed

	# def rotate_half(x):
	# """Rotates half the hidden dims of the input."""
	# x1 = x[..., : x.shape[-1] // 2]
	# x2 = x[..., x.shape[-1] // 2 :]
	# return torch.cat((-x2, x1), dim=-1)


	# class SOTAMultiHeadAttention(nn.Module):
	# def __init__(self, config: ChessConfig):
	# super().__init__()
	# self.n_head = config.n_head
	# self.n_embd = config.n_embd
	# self.head_dim = config.n_embd // config.n_head

	# # QKV Projections
	# self.q_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)
	# self.k_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)
	# self.v_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)
	# self.o_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)

	# # QK-Norm (from OLMo 2) - Stabilizes training
	# self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
	# self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)

	# # RoPE cache
	# self.register_buffer("inv_freq", 1.0 / (10000 ** (torch.arange(0, self.head_dim, 2).float() / self.head_dim)), persistent=False)

	# def get_rope_embeddings(self, seq_len, device):
	# t = torch.arange(seq_len, device=device, dtype=self.inv_freq.dtype)
	# freqs = torch.einsum("i,j->ij", t, self.inv_freq)
	# emb = torch.cat((freqs, freqs), dim=-1)
	# return emb.cos(), emb.sin()

	# def forward(self, x, attention_mask=None):
	# batch_size, seq_len, _ = x.size()

	# # 1. Project
	# q = self.q_proj(x).view(batch_size, seq_len, self.n_head, self.head_dim)
	# k = self.k_proj(x).view(batch_size, seq_len, self.n_head, self.head_dim)
	# v = self.v_proj(x).view(batch_size, seq_len, self.n_head, self.head_dim)

	# # 2. QK-Norm (OLMo style) - Normalize BEFORE RoPE
	# q = self.q_norm(q)
	# k = self.k_norm(k)

	# # 3. Apply RoPE
	# # Transpose to [batch, head, seq, dim] for easier math
	# q = q.transpose(1, 2)
	# k = k.transpose(1, 2)
	# v = v.transpose(1, 2)

	# cos, sin = self.get_rope_embeddings(seq_len, x.device)
	# # Match dimensions for broadcasting
	# cos = cos.unsqueeze(0).unsqueeze(0) # [1, 1, seq, dim]
	# sin = sin.unsqueeze(0).unsqueeze(0)

	# q = (q * cos) + (rotate_half(q) * sin)
	# k = (k * cos) + (rotate_half(k) * sin)

	# # 4. Attention
	# # Efficient Flash Attention if available (or standard)
	# attn_output = F.scaled_dot_product_attention(
	# q, k, v,
	# attn_mask=None,
	# dropout_p=0.0,
	# is_causal=True
	# )

	# # 5. Output Projection
	# attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, seq_len, self.n_embd)
	# return self.o_proj(attn_output)


	# class SwiGLUFeedForward(nn.Module):
	# """SwiGLU FFN (Llama/DeepSeek style)."""
	# def __init__(self, config: ChessConfig):
	# super().__init__()
	# # SwiGLU has 3 projections: Gate, Value, Output
	# self.gate_proj = nn.Linear(config.n_embd, config.n_inner, bias=False)
	# self.up_proj = nn.Linear(config.n_embd, config.n_inner, bias=False)
	# self.down_proj = nn.Linear(config.n_inner, config.n_embd, bias=False)

	# def forward(self, x):
	# # SwiGLU: (Swish(Gate) * Up) -> Down
	# return self.down_proj(F.silu(self.gate_proj(x)) * self.up_proj(x))


	# class SOTATransformerBlock(nn.Module):
	# def __init__(self, config: ChessConfig):
	# super().__init__()
	# self.input_layernorm = RMSNorm(config.n_embd, eps=config.rms_norm_eps)
	# self.self_attn = SOTAMultiHeadAttention(config)
	# self.post_attention_layernorm = RMSNorm(config.n_embd, eps=config.rms_norm_eps)
	# self.mlp = SwiGLUFeedForward(config)

	# def forward(self, x, attention_mask=None):
	# # Pre-norm architecture
	# x = x + self.self_attn(self.input_layernorm(x), attention_mask)
	# x = x + self.mlp(self.post_attention_layernorm(x))
	# return x


	# class FourStepConsistency(LogitsProcessor):
	# """
	# Enforces the 4-step rhythm: [Piece] -> [From] -> [To] -> [Suffix]
	# """
	# def __init__(self, tokenizer, start_len):
	# self.tokenizer = tokenizer
	# self.start_len = start_len

	# all_ids = set(range(tokenizer.vocab_size))

	# # 1. Piece IDs
	# self.piece_ids = {tokenizer.convert_tokens_to_ids(t) for t in tokenizer.PIECES if t in tokenizer.get_vocab()}
	# # 2. Square IDs (Used for both From and To)
	# self.square_ids = {tokenizer.convert_tokens_to_ids(t) for t in tokenizer.SQUARES if t in tokenizer.get_vocab()}
	# # 3. Suffix IDs
	# self.suffix_ids = {tokenizer.convert_tokens_to_ids(t) for t in tokenizer.SUFFIXES if t in tokenizer.get_vocab()}

	# def __call__(self, input_ids, scores):
	# cur_len = input_ids.shape[1]
	# relative_pos = (cur_len - self.start_len) % 4

	# mask_ids = set()

	# if relative_pos == 0: # Step 1: Piece
	# mask_ids = self.piece_ids
	# elif relative_pos == 1: # Step 2: From Square
	# mask_ids = self.square_ids
	# elif relative_pos == 2: # Step 3: To Square
	# mask_ids = self.square_ids
	# else: # Step 4: Suffix
	# mask_ids = self.suffix_ids

	# # Mask out disallowed tokens
	# for i in range(scores.shape[1]):
	# if i not in mask_ids and i != self.tokenizer.eos_token_id:
	# scores[:, i] = float("-inf")

	# return scores


	# class ChessForCausalLM(PreTrainedModel, GenerationMixin):
	# config_class = ChessConfig

	# def __init__(self, config: ChessConfig):
	# super().__init__(config)

	# # 1. Embeddings (No Position Embeddings needed, RoPE handles it!)
	# self.embed_tokens = nn.Embedding(config.vocab_size, config.n_embd)

	# # 2. Layers
	# self.layers = nn.ModuleList([
	# SOTATransformerBlock(config) for _ in range(config.n_layer)
	# ])

	# # 3. Final Norm
	# self.norm = RMSNorm(config.n_embd, eps=config.rms_norm_eps)

	# # 4. Head
	# self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)

	# # Tie weights
	# if config.tie_weights:
	# self.lm_head.weight = self.embed_tokens.weight
	# self._tied_weights_keys = ["lm_head.weight"]

	# self.post_init()

	# def get_input_embeddings(self):
	# return self.embed_tokens

	# def set_input_embeddings(self, value):
	# self.embed_tokens = value

	# def get_output_embeddings(self):
	# return self.lm_head

	# def set_output_embeddings(self, new_embeddings):
	# self.lm_head = new_embeddings

	# def forward(
	# self,
	# input_ids: torch.LongTensor = None,
	# attention_mask: Optional[torch.Tensor] = None,
	# labels: Optional[torch.LongTensor] = None,
	# return_dict: Optional[bool] = None,
	# **kwargs,
	# ) -> Union[Tuple, CausalLMOutputWithPast]:

	# batch_size, seq_len = input_ids.shape
	# hidden_states = self.embed_tokens(input_ids)

	# for layer in self.layers:
	# hidden_states = layer(hidden_states, attention_mask)

	# hidden_states = self.norm(hidden_states)
	# logits = self.lm_head(hidden_states)

	# loss = None
	# if labels is not None:
	# shift_logits = logits[..., :-1, :].contiguous()
	# shift_labels = labels[..., 1:].contiguous()
	# loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
	# loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))

	# return_dict = return_dict if return_dict is not None else self.config.use_return_dict
	# if not return_dict:
	# output = (logits,)
	# return ((loss,) + output) if loss is not None else output

	# return CausalLMOutputWithPast(
	# loss=loss,
	# logits=logits,
	# past_key_values=None,
	# hidden_states=None,
	# attentions=None,
	# )

	# def prepare_inputs_for_generation(self, input_ids, past_key_values=None, **kwargs):
	# # 1. Handle Cache (Past Key Values)
	# # If we have a cache, we only need to process the very last token we generated
	# if past_key_values:
	# input_ids = input_ids[:, -1:]

	# # 2. Handle Position IDs
	# # If the user didn't provide position_ids, we might need to create them from the attention_mask
	# position_ids = kwargs.get("position_ids", None)

	# # FIX: Explicitly check 'is not None' to avoid the ambiguous Tensor error
	# attention_mask = kwargs.get("attention_mask", None)
	# if attention_mask is not None:
	# # Create position_ids based on the mask (0, 1, 2... ignoring padding)
	# if position_ids is None:
	# position_ids = attention_mask.long().cumsum(-1) - 1
	# position_ids.masked_fill_(attention_mask == 0, 1)

	# # If using cache, we only need the position ID for the last token
	# if past_key_values:
	# position_ids = position_ids[:, -1].unsqueeze(-1)

	# return {
	# "input_ids": input_ids,
	# "past_key_values": past_key_values,
	# "use_cache": kwargs.get("use_cache"),
	# "position_ids": position_ids,
	# "attention_mask": attention_mask,
	# }

	# def generate(self, input_ids, **kwargs):
	# tokenizer = kwargs.pop("tokenizer", None)
	# if tokenizer is not None:
	# # Use the 4-step synthesizer
	# synthesizer = FourStepConsistency(tokenizer, input_ids.shape[1])
	# logits_processor = kwargs.get("logits_processor", LogitsProcessorList())
	# logits_processor.append(synthesizer)
	# kwargs["logits_processor"] = logits_processor

	# # Call GenerationMixin directly to bypass any PreTrainedModel ambiguity
	# return GenerationMixin.generate(self, input_ids, **kwargs)

	# # Register
	# from transformers import AutoConfig, AutoModelForCausalLM
	# AutoConfig.register("chess_transformer", ChessConfig)
	# AutoModelForCausalLM.register(ChessConfig, ChessForCausalLM)


	"""
	SOTA Chess Transformer (Llama/DeepSeek Style)
	Updated for the 1M Parameter Challenge.
	"""
	from __future__ import annotations

	import math
	from dataclasses import dataclass
	from typing import Optional, Tuple, Union

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from transformers import PretrainedConfig, PreTrainedModel
	from transformers.modeling_outputs import CausalLMOutputWithPast
	from transformers import LogitsProcessor, LogitsProcessorList
	from transformers.generation import GenerationMixin

	class ChessConfig(PretrainedConfig):
	model_type = "chess_transformer"

	def __init__(
	self,
	vocab_size: int = 1200,
	n_embd: int = 128,
	n_layer: int = 8,
	n_head: int = 4,
	n_ctx: int = 256,
	n_inner: Optional[int] = None,
	dropout: float = 0.0,
	rms_norm_eps: float = 1e-6,
	tie_weights: bool = True,
	pad_token_id: int = 0,
	bos_token_id: int = 1,
	eos_token_id: int = 2,
	**kwargs,
	):
	super().__init__(
	pad_token_id=pad_token_id,
	bos_token_id=bos_token_id,
	eos_token_id=eos_token_id,
	is_decoder=True,
	**kwargs,
	)
	self.vocab_size = vocab_size
	self.n_embd = n_embd
	self.n_layer = n_layer
	self.n_head = n_head
	self.n_ctx = n_ctx
	self.n_inner = n_inner if n_inner is not None else int(8/3 * n_embd)
	self.dropout = dropout
	self.rms_norm_eps = rms_norm_eps
	self.tie_weights = tie_weights
	self.tie_word_embeddings = bool(tie_weights)

	self.num_hidden_layers = n_layer
	self.hidden_size = n_embd
	self.num_attention_heads = n_head


	class RMSNorm(nn.Module):
	def __init__(self, dim: int, eps: float = 1e-6):
	super().__init__()
	self.eps = eps
	self.weight = nn.Parameter(torch.ones(dim))

	def _norm(self, x):
	return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

	def forward(self, x):
	output = self._norm(x.float()).type_as(x)
	return output * self.weight

	def rotate_half(x):
	x1 = x[..., : x.shape[-1] // 2]
	x2 = x[..., x.shape[-1] // 2 :]
	return torch.cat((-x2, x1), dim=-1)

	class SOTAMultiHeadAttention(nn.Module):
	def __init__(self, config: ChessConfig):
	super().__init__()
	self.n_head = config.n_head
	self.n_embd = config.n_embd
	self.head_dim = config.n_embd // config.n_head

	self.q_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)
	self.k_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)
	self.v_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)
	self.o_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)

	self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
	self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)

	self.register_buffer("inv_freq", 1.0 / (10000 ** (torch.arange(0, self.head_dim, 2).float() / self.head_dim)), persistent=False)

	def get_rope_embeddings(self, position_ids, device):
	# FIX: Use explicit position_ids instead of arange(seq_len)
	# position_ids: [batch, seq_len]
	inv_freq = self.inv_freq.to(device)

	# Outer product: [batch, seq_len, head_dim/2]
	# We need to flatten batch/seq to simplify, or use broadcasting
	# freqs = (pos * freq)

	# position_ids is [batch, seq], inv_freq is [dim]
	# Output should be [batch, seq, dim]
	freqs = torch.einsum("bs,d->bsd", position_ids.float(), inv_freq)
	emb = torch.cat((freqs, freqs), dim=-1)
	return emb.cos(), emb.sin()

	def forward(self, x, attention_mask=None, position_ids=None):
	batch_size, seq_len, _ = x.size()

	q = self.q_proj(x).view(batch_size, seq_len, self.n_head, self.head_dim)
	k = self.k_proj(x).view(batch_size, seq_len, self.n_head, self.head_dim)
	v = self.v_proj(x).view(batch_size, seq_len, self.n_head, self.head_dim)

	q = self.q_norm(q)
	k = self.k_norm(k)

	# Transpose for RoPE [batch, head, seq, dim]
	q = q.transpose(1, 2)
	k = k.transpose(1, 2)
	v = v.transpose(1, 2)

	if position_ids is None:
	position_ids = torch.arange(seq_len, device=x.device).unsqueeze(0).expand(batch_size, -1)

	cos, sin = self.get_rope_embeddings(position_ids, x.device)
	cos = cos.unsqueeze(1)
	sin = sin.unsqueeze(1)

	q = (q * cos) + (rotate_half(q) * sin)
	k = (k * cos) + (rotate_half(k) * sin)

	# --- FIX: Resolve Conflict between attn_mask and is_causal ---
	if attention_mask is not None:
	# 1. Expand to 4D for broadcasting if needed
	if attention_mask.dim() == 2:
	attention_mask = attention_mask.unsqueeze(1).unsqueeze(1)

	# 2. Convert Int to Bool if needed (PyTorch SDPA prefers this)
	if attention_mask.dtype in [torch.long, torch.int64, torch.int32]:
	attention_mask = (attention_mask == 0) # True for masked, False for keep?
	# Wait, usually 1=Keep, 0=Mask.
	# If using bool mask in SDPA: True = Masked Out (Ignore).
	# So if input is 1 (Keep), we want False (Don't Mask).
	# If input is 0 (Pad), we want True (Mask).
	# So (mask == 0) gives us True for Padding. Correct.

	# 3. CRITICAL: If the mask is "Empty" (all False = keep everything),
	# drop it so we can use is_causal=True without error.
	# (Note: In boolean mask, 'False' means 'Keep')
	if not attention_mask.any():
	attention_mask = None
	# -------------------------------------------------------------

	attn_output = F.scaled_dot_product_attention(
	q, k, v,
	attn_mask=attention_mask,
	dropout_p=0.0,
	is_causal=True
	)

	attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, seq_len, self.n_embd)
	return self.o_proj(attn_output)


	class SwiGLUFeedForward(nn.Module):
	def __init__(self, config: ChessConfig):
	super().__init__()
	self.gate_proj = nn.Linear(config.n_embd, config.n_inner, bias=False)
	self.up_proj = nn.Linear(config.n_embd, config.n_inner, bias=False)
	self.down_proj = nn.Linear(config.n_inner, config.n_embd, bias=False)

	def forward(self, x):
	return self.down_proj(F.silu(self.gate_proj(x)) * self.up_proj(x))


	class SOTATransformerBlock(nn.Module):
	def __init__(self, config: ChessConfig):
	super().__init__()
	self.input_layernorm = RMSNorm(config.n_embd, eps=config.rms_norm_eps)
	self.self_attn = SOTAMultiHeadAttention(config)
	self.post_attention_layernorm = RMSNorm(config.n_embd, eps=config.rms_norm_eps)
	self.mlp = SwiGLUFeedForward(config)

	def forward(self, x, attention_mask=None, position_ids=None):
	# FIX: Pass position_ids down
	x = x + self.self_attn(self.input_layernorm(x), attention_mask, position_ids)
	x = x + self.mlp(self.post_attention_layernorm(x))
	return x


	class FourStepConsistency(LogitsProcessor):
	def __init__(self, tokenizer, start_len):
	self.tokenizer = tokenizer
	self.start_len = start_len
	self.piece_ids = {tokenizer.convert_tokens_to_ids(t) for t in tokenizer.PIECES if t in tokenizer.get_vocab()}
	self.square_ids = {tokenizer.convert_tokens_to_ids(t) for t in tokenizer.SQUARES if t in tokenizer.get_vocab()}
	self.suffix_ids = {tokenizer.convert_tokens_to_ids(t) for t in tokenizer.SUFFIXES if t in tokenizer.get_vocab()}

	def __call__(self, input_ids, scores):
	cur_len = input_ids.shape[1]
	relative_pos = (cur_len - self.start_len) % 4
	mask_ids = set()
	if relative_pos == 0: mask_ids = self.piece_ids
	elif relative_pos == 1: mask_ids = self.square_ids
	elif relative_pos == 2: mask_ids = self.square_ids
	else: mask_ids = self.suffix_ids

	for i in range(scores.shape[1]):
	if i not in mask_ids and i != self.tokenizer.eos_token_id:
	scores[:, i] = float("-inf")
	return scores


	class ChessForCausalLM(PreTrainedModel, GenerationMixin):
	config_class = ChessConfig

	def __init__(self, config: ChessConfig):
	super().__init__(config)
	self.embed_tokens = nn.Embedding(config.vocab_size, config.n_embd)
	self.layers = nn.ModuleList([SOTATransformerBlock(config) for _ in range(config.n_layer)])
	self.norm = RMSNorm(config.n_embd, eps=config.rms_norm_eps)
	self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)

	if config.tie_weights:
	self.lm_head.weight = self.embed_tokens.weight
	self._tied_weights_keys = ["lm_head.weight"]
	self.post_init()

	def get_input_embeddings(self): return self.embed_tokens
	def set_input_embeddings(self, value): self.embed_tokens = value
	def get_output_embeddings(self): return self.lm_head
	def set_output_embeddings(self, new_embeddings): self.lm_head = new_embeddings

	def forward(self, input_ids: torch.LongTensor = None, attention_mask: Optional[torch.Tensor] = None, position_ids: Optional[torch.LongTensor] = None, labels: Optional[torch.LongTensor] = None, return_dict: Optional[bool] = None, **kwargs):
	batch_size, seq_len = input_ids.shape
	hidden_states = self.embed_tokens(input_ids)

	# FIX: Ensure position_ids exist
	if position_ids is None:
	position_ids = torch.arange(seq_len, device=input_ids.device).unsqueeze(0).expand(batch_size, -1)

	# FIX: Pass position_ids to layers
	for layer in self.layers:
	hidden_states = layer(hidden_states, attention_mask, position_ids)

	hidden_states = self.norm(hidden_states)
	logits = self.lm_head(hidden_states)

	loss = None
	if labels is not None:
	shift_logits = logits[..., :-1, :].contiguous()
	shift_labels = labels[..., 1:].contiguous()
	loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
	loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))

	return_dict = return_dict if return_dict is not None else self.config.use_return_dict
	if not return_dict:
	output = (logits,)
	return ((loss,) + output) if loss is not None else output
	return CausalLMOutputWithPast(loss=loss, logits=logits, past_key_values=None, hidden_states=None, attentions=None)

	def prepare_inputs_for_generation(self, input_ids, past_key_values=None, **kwargs):
	# FORCE NO CACHE: Always process the full sequence.
	# This matches our SOTAMultiHeadAttention which handles the full history every time.

	position_ids = kwargs.get("position_ids", None)
	attention_mask = kwargs.get("attention_mask", None)

	if attention_mask is not None and position_ids is None:
	# Create position_ids from the mask
	position_ids = attention_mask.long().cumsum(-1) - 1
	position_ids.masked_fill_(attention_mask == 0, 1)

	return {
	"input_ids": input_ids, # Return FULL input_ids (do not slice)
	"past_key_values": None, # Force None so the model doesn't expect cache
	"use_cache": False, # Explicitly disable cache flag
	"position_ids": position_ids,
	"attention_mask": attention_mask,
	}

	def generate(self, input_ids, **kwargs):
	tokenizer = kwargs.pop("tokenizer", None)
	if tokenizer is not None:
	synthesizer = FourStepConsistency(tokenizer, input_ids.shape[1])
	logits_processor = kwargs.get("logits_processor", LogitsProcessorList())
	logits_processor.append(synthesizer)
	kwargs["logits_processor"] = logits_processor
	return GenerationMixin.generate(self, input_ids, **kwargs)

	# Register
	from transformers import AutoConfig, AutoModelForCausalLM
	AutoConfig.register("chess_transformer", ChessConfig)
	AutoModelForCausalLM.register(ChessConfig, ChessForCausalLM)