LLM-course
/

chess-stonkfish

   "architectures": [
     "ChessForCausalLM"
   ],
+  "auto_map": {
+    "AutoConfig": "model.ChessConfig",
+    "AutoModelForCausalLM": "model.ChessForCausalLM"
+  },
   "bos_token_id": 1,
   "dropout": 0.1,
   "dtype": "float32",

model.py CHANGED Viewed

@@ -353,16 +353,12 @@ class ChessForCausalLM(PreTrainedModel):
         # Compute loss if labels are provided
         loss = None
         if labels is not None:
             # Shift logits and labels for next-token prediction
             shift_logits = logits[..., :-1, :].contiguous()
             shift_labels = labels[..., 1:].contiguous()
-            #print(shift_labels[0, 32].item(), torch.argmax(shift_logits[0, 33]).item())
             # Flatten for cross-entropy
-            #loss_fct = nn.CrossEntropyLoss(ignore_index=self.config.pad_token_id)
             loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
             loss = loss_fct(
                 shift_logits.view(-1, shift_logits.size(-1)),

         # Compute loss if labels are provided
         loss = None
         if labels is not None:
             # Shift logits and labels for next-token prediction
             shift_logits = logits[..., :-1, :].contiguous()
             shift_labels = labels[..., 1:].contiguous()
             # Flatten for cross-entropy
             loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
             loss = loss_fct(
                 shift_logits.view(-1, shift_logits.size(-1)),