Chess Challenge submission by MaximeMuhlethaler

Browse files

Files changed (5) hide show

README.md +1 -4
config.json +6 -5
model.py +210 -0
pytorch_model.bin +3 -0
tokenizer.py +75 -60

README.md CHANGED Viewed

@@ -12,15 +12,12 @@ license: mit
 Chess model submitted to the LLM Course Chess Challenge.
 ## Submission Info
 - **Submitted by**: [MaximeMuhlethaler](https://huggingface.co/MaximeMuhlethaler)
 - **Parameters**: 924,000
 - **Organization**: LLM-course
 ## Model Details
-- **Architecture**: Chess Transformer (GPT-style)
 - **Vocab size**: 1200
-- **Embedding dim**: 112
 - **Layers**: 6
 - **Heads**: 8

 Chess model submitted to the LLM Course Chess Challenge.
 ## Submission Info
 - **Submitted by**: [MaximeMuhlethaler](https://huggingface.co/MaximeMuhlethaler)
 - **Parameters**: 924,000
 - **Organization**: LLM-course
+- **Architecture**: Custom Chess Transformer (Regex Tokenizer + EOS Protection)
 ## Model Details
 - **Vocab size**: 1200
 - **Layers**: 6
 - **Heads**: 8

config.json CHANGED Viewed

@@ -1,7 +1,4 @@
 {
-  "architectures": [
-    "ChessForCausalLM"
-  ],
   "bos_token_id": 1,
   "dropout": 0.1,
   "dtype": "float32",
@@ -16,5 +13,9 @@
   "pad_token_id": 0,
   "tie_weights": true,
   "transformers_version": "4.57.3",
-  "vocab_size": 1200
-}

 {
   "bos_token_id": 1,
   "dropout": 0.1,
   "dtype": "float32",
   "pad_token_id": 0,
   "tie_weights": true,
   "transformers_version": "4.57.3",
+  "vocab_size": 1200,
+  "auto_map": {
+    "AutoModelForCausalLM": "model.ChessForCausalLM",
+    "AutoConfig": "model.ChessConfig"
+  }
+}

model.py ADDED Viewed

	@@ -0,0 +1,210 @@

+"""
+Chess Transformer Model - Final Stable Version with Inference Patch
+"""
+from __future__ import annotations
+import math
+from dataclasses import dataclass
+from typing import Optional, Tuple, Union
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import PretrainedConfig, PreTrainedModel
+from transformers.modeling_outputs import CausalLMOutputWithPast
+class ChessConfig(PretrainedConfig):
+    model_type = "chess_transformer"
+    def __init__(
+        self,
+        vocab_size: int = 1200,
+        n_embd: int = 128,
+        n_layer: int = 6,
+        n_head: int = 4,
+        n_ctx: int = 256,
+        n_inner: Optional[int] = None,
+        dropout: float = 0.1,
+        layer_norm_epsilon: float = 1e-5,
+        tie_weights: bool = True,
+        pad_token_id: int = 0,
+        bos_token_id: int = 1,
+        eos_token_id: int = 2,
+        **kwargs,
+    ):
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            **kwargs,
+        )
+        self.vocab_size = vocab_size
+        self.n_embd = n_embd
+        self.n_layer = n_layer
+        self.n_head = n_head
+        self.n_ctx = n_ctx
+        self.n_inner = n_inner if n_inner is not None else 3 * n_embd
+        self.dropout = dropout
+        self.layer_norm_epsilon = layer_norm_epsilon
+        self.tie_weights = tie_weights
+        self.tie_word_embeddings = bool(tie_weights)
+class MultiHeadAttention(nn.Module):
+    def __init__(self, config: ChessConfig):
+        super().__init__()
+        assert config.n_embd % config.n_head == 0
+        self.n_head = config.n_head
+        self.n_embd = config.n_embd
+        self.head_dim = config.n_embd // config.n_head
+        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
+        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
+        self.dropout = nn.Dropout(config.dropout)
+        self.register_buffer(
+            "bias",
+            torch.tril(torch.ones(config.n_ctx, config.n_ctx)).view(1, 1, config.n_ctx, config.n_ctx),
+            persistent=False,
+        )
+    def forward(self, x, attention_mask=None):
+        B, T, C = x.size()
+        qkv = self.c_attn(x)
+        q, k, v = qkv.split(self.n_embd, dim=2)
+        q = q.view(B, T, self.n_head, self.head_dim).transpose(1, 2)
+        k = k.view(B, T, self.n_head, self.head_dim).transpose(1, 2)
+        v = v.view(B, T, self.n_head, self.head_dim).transpose(1, 2)
+        att = (q @ k.transpose(-2, -1)) * (1.0 / math.sqrt(k.size(-1)))
+        att = att.masked_fill(self.bias[:,:,:T,:T] == 0, float("-inf"))
+        if attention_mask is not None:
+            att = att.masked_fill(attention_mask.view(B, 1, 1, T) == 0, float("-inf"))
+        att = F.softmax(att, dim=-1)
+        att = self.dropout(att)
+        y = att @ v
+        y = y.transpose(1, 2).contiguous().view(B, T, C)
+        return self.c_proj(y)
+class FeedForward(nn.Module):
+    def __init__(self, config: ChessConfig):
+        super().__init__()
+        self.c_fc = nn.Linear(config.n_embd, config.n_inner)
+        self.c_proj = nn.Linear(config.n_inner, config.n_embd)
+        self.dropout = nn.Dropout(config.dropout)
+    def forward(self, x):
+        return self.dropout(self.c_proj(F.gelu(self.c_fc(x))))
+class TransformerBlock(nn.Module):
+    def __init__(self, config: ChessConfig):
+        super().__init__()
+        self.ln_1 = nn.LayerNorm(config.n_embd, eps=config.layer_norm_epsilon)
+        self.attn = MultiHeadAttention(config)
+        self.ln_2 = nn.LayerNorm(config.n_embd, eps=config.layer_norm_epsilon)
+        self.mlp = FeedForward(config)
+    def forward(self, x, attention_mask=None):
+        x = x + self.attn(self.ln_1(x), attention_mask=attention_mask)
+        x = x + self.mlp(self.ln_2(x))
+        return x
+class ChessForCausalLM(PreTrainedModel):
+    config_class = ChessConfig
+    base_model_prefix = "transformer"
+    supports_gradient_checkpointing = True
+    keys_to_ignore_on_load_missing = ["lm_head.weight"]
+    def __init__(self, config: ChessConfig):
+        super().__init__(config)
+        self.wte = nn.Embedding(config.vocab_size, config.n_embd)
+        self.wpe = nn.Embedding(config.n_ctx, config.n_embd)
+        self.drop = nn.Dropout(config.dropout)
+        self.h = nn.ModuleList([TransformerBlock(config) for _ in range(config.n_layer)])
+        self.ln_f = nn.LayerNorm(config.n_embd, eps=config.layer_norm_epsilon)
+        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
+        if config.tie_weights:
+            self.post_init()
+            self.tie_weights()
+    def get_input_embeddings(self): return self.wte
+    def set_input_embeddings(self, new_embeddings): self.wte = new_embeddings
+    def get_output_embeddings(self): return self.lm_head
+    def set_output_embeddings(self, new_embeddings): self.lm_head = new_embeddings
+    def tie_weights(self):
+        if getattr(self.config, "tie_weights", False):
+            self._tie_or_clone_weights(self.lm_head, self.wte)
+    def forward(
+        self,
+        input_ids: torch.LongTensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        return_dict: Optional[bool] = None,
+        **kwargs,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        device = input_ids.device
+        b, t = input_ids.size()
+        if position_ids is None:
+            position_ids = torch.arange(t, device=device).unsqueeze(0).expand(b, -1)
+        x = self.wte(input_ids) + self.wpe(position_ids)
+        x = self.drop(x)
+        for block in self.h:
+            x = block(x, attention_mask)
+        x = self.ln_f(x)
+        logits = self.lm_head(x)
+        if labels is None:
+            bad_tokens = [
+                self.config.eos_token_id,
+                self.config.pad_token_id,
+                self.config.bos_token_id
+            ]
+            if hasattr(self.config, "unk_token_id") and self.config.unk_token_id is not None:
+                bad_tokens.append(self.config.unk_token_id)
+            bad_tokens = [t for t in bad_tokens if t is not None]
+            if len(bad_tokens) > 0:
+                logits[:, :, bad_tokens] = float("-inf")
+        loss = None
+        if labels is not None:
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            loss_fct = nn.CrossEntropyLoss(ignore_index=self.config.pad_token_id)
+            loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
+        if not return_dict:
+            output = (logits,)
+            return ((loss,) + output) if loss is not None else output
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=None,
+            hidden_states=None,
+            attentions=None,
+        )
+from transformers import AutoConfig, AutoModelForCausalLM
+AutoConfig.register("chess_transformer", ChessConfig)
+AutoModelForCausalLM.register(ChessConfig, ChessForCausalLM)

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d638adc2fb527d4c06e3a92895c9d10523d568048b92991aa434b6bbbe3ef338
+size 3719211

tokenizer.py CHANGED Viewed

@@ -1,32 +1,52 @@
 """
-Custom Chess Tokenizer - Final Fix
 """
 from __future__ import annotations
 import json
 import os
-import shutil
-import re
 from typing import Dict, List, Optional
 from transformers import PreTrainedTokenizer
-# --- REGEX (Pour nettoyer les coups) ---
 MOVE_RE = re.compile(r"([a-h][1-8])([a-h][1-8])")
 PROMO_RE = re.compile(r"=([NBRQ])")
 def normalize_move(tok: str) -> str:
-    if tok.startswith("["): return tok
     m = MOVE_RE.search(tok)
-    if not m: return tok
     fr, to = m.group(1), m.group(2)
     promo = ""
     pm = PROMO_RE.search(tok)
-    if pm: promo = "=" + pm.group(1)
     prefix = tok[:2] if len(tok) >= 2 else "WP"
     return f"{prefix}{fr}{to}{promo}"
 class ChessTokenizer(PreTrainedTokenizer):
     model_input_names = ["input_ids", "attention_mask"]
-    vocab_files_names = {"vocab_file": "vocab.json"}
     PAD_TOKEN = "[PAD]"
     BOS_TOKEN = "[BOS]"
@@ -38,74 +58,69 @@ class ChessTokenizer(PreTrainedTokenizer):
         self._bos_token = self.BOS_TOKEN
         self._eos_token = self.EOS_TOKEN
         self._unk_token = self.UNK_TOKEN
-        for t in ["pad_token", "bos_token", "eos_token", "unk_token"]: kwargs.pop(t, None)
-        # FIX CHEMIN
-        if vocab is None:
-            if vocab_file is None:
-                vocab_file = os.path.join(os.path.dirname(__file__), "vocab.json")
-            self.vocab_file = vocab_file
-            if os.path.exists(vocab_file):
-                with open(vocab_file, "r", encoding="utf-8") as f: self._vocab = json.load(f)
-            else: self._vocab = self._create_default_vocab()
-        else:
             self._vocab = vocab
-            self.vocab_file = vocab_file
         self._ids_to_tokens = {v: k for k, v in self._vocab.items()}
         super().__init__(pad_token=self.PAD_TOKEN, bos_token=self.BOS_TOKEN, eos_token=self.EOS_TOKEN, unk_token=self.UNK_TOKEN, **kwargs)
-    # AUTO-COPIE (Vital pour le submit)
-    def save_pretrained(self, save_directory: str, **kwargs):
-        super().save_pretrained(save_directory, **kwargs)
-        src_path = os.path.abspath(__file__)
-        dst_path = os.path.join(save_directory, "tokenizer.py")
-        if src_path != dst_path: shutil.copy(src_path, dst_path)
-        config_path = os.path.join(save_directory, "tokenizer_config.json")
-        if os.path.exists(config_path):
-            with open(config_path, "r") as f: cfg = json.load(f)
-            cfg["auto_map"] = {"AutoTokenizer": "tokenizer.ChessTokenizer"}
-            with open(config_path, "w") as f: json.dump(cfg, f, indent=2)
-    def _create_default_vocab(self):
-        return {t: i for i, t in enumerate([self.PAD_TOKEN, self.BOS_TOKEN, self.EOS_TOKEN, self.UNK_TOKEN])}
-    # LA FONCTION QUI GERE LA TAILLE FIXE
     @classmethod
-    def build_vocab_from_dataset(cls, dataset_name, split="train", column="text", min_frequency=2, max_vocab_size=1700, max_samples=100000):
         from datasets import load_dataset
         from collections import Counter
-        ds = load_dataset(dataset_name, split=split, streaming=True)
-        ds = ds.take(max_samples)
         counter = Counter()
         for ex in ds:
-            # On normalise
-            moves = [normalize_move(t) for t in ex[column].split()]
             counter.update(moves)
-        # ON FORCE LA TAILLE MAXIMALE ICI
         special = [cls.PAD_TOKEN, cls.BOS_TOKEN, cls.EOS_TOKEN, cls.UNK_TOKEN]
-        # On prend les N plus fréquents pour remplir jusqu'à max_vocab_size
         most_common = counter.most_common(max_vocab_size - len(special))
         vocab = {t: i for i, t in enumerate(special + [t for t, c in most_common])}
-        return cls(vocab=vocab)
-    @property
-    def vocab_size(self): return len(self._vocab)
-    def get_vocab(self): return dict(self._vocab)
-    def _tokenize(self, text): return [normalize_move(t) for t in text.strip().split()]
-    def _convert_token_to_id(self, token): return self._vocab.get(token, self._vocab.get(self.UNK_TOKEN))
-    def _convert_id_to_token(self, index): return self._ids_to_tokens.get(index, self.UNK_TOKEN)
-    def convert_tokens_to_string(self, tokens): return " ".join(t for t in tokens if t not in [self.PAD_TOKEN, self.BOS_TOKEN, self.EOS_TOKEN, self.UNK_TOKEN])
-    def save_vocabulary(self, save_directory, filename_prefix=None):
-        if not os.path.isdir(save_directory): os.makedirs(save_directory, exist_ok=True)
-        path = os.path.join(save_directory, (filename_prefix + "-" if filename_prefix else "") + "vocab.json")
-        with open(path, "w", encoding="utf-8") as f: json.dump(self._vocab, f, ensure_ascii=False, indent=2)
-        return (path,)

 """
+Custom Chess Tokenizer for the Chess Challenge.
+This tokenizer treats each move as a single token using the extended UCI notation
+from the Lichess dataset (e.g., WPe2e4, BNg8f6).
+The dataset format uses:
+- W/B prefix for White/Black
+- Piece letter: P=Pawn, N=Knight, B=Bishop, R=Rook, Q=Queen, K=King
+- Source and destination squares (e.g., e2e4)
+- Special suffixes: (x)=capture, (+)=check, (+*)=checkmate, (o)/(O)=castling
 """
 from __future__ import annotations
 import json
 import os
+from pathlib import Path
 from typing import Dict, List, Optional
 from transformers import PreTrainedTokenizer
+"""
+Custom Chess Tokenizer - Normalized Version
+"""
+import re
 MOVE_RE = re.compile(r"([a-h][1-8])([a-h][1-8])")
 PROMO_RE = re.compile(r"=([NBRQ])")
 def normalize_move(tok: str) -> str:
+    """Transforme 'WPe2e4(x)' en 'WPe2e4' pour réduire le vocabulaire."""
     m = MOVE_RE.search(tok)
+    if not m:
+        return tok
     fr, to = m.group(1), m.group(2)
     promo = ""
     pm = PROMO_RE.search(tok)
+    if pm:
+        promo = "=" + pm.group(1)
     prefix = tok[:2] if len(tok) >= 2 else "WP"
     return f"{prefix}{fr}{to}{promo}"
 class ChessTokenizer(PreTrainedTokenizer):
     model_input_names = ["input_ids", "attention_mask"]
     PAD_TOKEN = "[PAD]"
     BOS_TOKEN = "[BOS]"
         self._bos_token = self.BOS_TOKEN
         self._eos_token = self.EOS_TOKEN
         self._unk_token = self.UNK_TOKEN
+        # Nettoyage kwargs
+        for t in ["pad_token", "bos_token", "eos_token", "unk_token"]:
+            kwargs.pop(t, None)
+        if vocab:
             self._vocab = vocab
+        elif vocab_file:
+            with open(vocab_file, "r", encoding="utf-8") as f:
+                self._vocab = json.load(f)
+        else:
+            self._vocab = {t: i for i, t in enumerate([self.PAD_TOKEN, self.BOS_TOKEN, self.EOS_TOKEN, self.UNK_TOKEN])}
         self._ids_to_tokens = {v: k for k, v in self._vocab.items()}
         super().__init__(pad_token=self.PAD_TOKEN, bos_token=self.BOS_TOKEN, eos_token=self.EOS_TOKEN, unk_token=self.UNK_TOKEN, **kwargs)
+    @property
+    def vocab_size(self):
+        return len(self._vocab)
+    def get_vocab(self):
+        return dict(self._vocab)
+    def _tokenize(self, text):
+        return [normalize_move(t) for t in text.strip().split()]
+    def _convert_token_to_id(self, token):
+        return self._vocab.get(token, self._vocab.get(self.UNK_TOKEN))
+    def _convert_id_to_token(self, index):
+        return self._ids_to_tokens.get(index, self.UNK_TOKEN)
+    def convert_tokens_to_string(self, tokens):
+        return " ".join(t for t in tokens if t not in [self.PAD_TOKEN, self.BOS_TOKEN, self.EOS_TOKEN, self.UNK_TOKEN])
+    def save_vocabulary(self, save_directory, filename_prefix=None):
+        if not os.path.exists(save_directory):
+            os.makedirs(save_directory)
+        path = os.path.join(save_directory, (filename_prefix + "-" if filename_prefix else "") + "vocab.json")
+        with open(path, "w") as f:
+            json.dump(self._vocab, f, indent=2)
+        return (path,)
     @classmethod
+    def build_vocab_from_dataset(cls, dataset_name, min_frequency=2, max_vocab_size=1200, **kwargs):
+        """Construit un vocabulaire compact et dense."""
         from datasets import load_dataset
         from collections import Counter
+        # On charge en streaming pour aller vite
+        ds = load_dataset(dataset_name, split="train", streaming=True)
+        ds = ds.take(50000) # 50k parties suffisent pour voir tous les coups possibles
         counter = Counter()
         for ex in ds:
+            # On normalise avant de compter !
+            moves = [normalize_move(t) for t in ex["text"].split()]
             counter.update(moves)
+        # On garde les tokens spéciaux + les N plus fréquents
         special = [cls.PAD_TOKEN, cls.BOS_TOKEN, cls.EOS_TOKEN, cls.UNK_TOKEN]
         most_common = counter.most_common(max_vocab_size - len(special))
         vocab = {t: i for i, t in enumerate(special + [t for t, c in most_common])}
+        return cls(vocab=vocab)