LLM-course
/

chess_clarelec_1

@@ -21,172 +21,6 @@ from typing import Dict, List, Optional
 from transformers import PreTrainedTokenizer
-def all_moves():
-    """Generate all possible chess moves in UCI extended format."""
-    pieces = ['P', 'N', 'B', 'R', 'Q', 'K']
-    files = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
-    ranks = ['1', '2', '3', '4', '5', '6', '7', '8']
-    all_extended_moves = []
-    # pions
-    for file in files:
-        for rank in ranks[1:-1]:
-            #white pawns
-            if rank == '2':
-                move = f'WP{file}2{file}3'
-                all_extended_moves.append(move)
-                move = f'WP{file}2{file}4'
-                all_extended_moves.append(move)
-            else:
-                move = f'WP{file}{rank}{file}{str(int(rank)+1)}'
-                all_extended_moves.append(move)
-            #take moves for white pawns
-            if file != 'a':
-                move = f'WP'
-                move += f'{file}{rank}{chr(ord(file)-1)}{str(int(rank)+1)}'
-                all_extended_moves.append(move)
-            if file != 'h':
-                move = f'WP'
-                move += f'{file}{rank}{chr(ord(file)+1)}{str(int(rank)+1)}'
-                all_extended_moves.append(move)
-            #black pawns
-            if rank == '7':
-                move = f'BP{file}7{file}6'
-                all_extended_moves.append(move)
-                move = f'BP{file}7{file}5'
-                all_extended_moves.append(move)
-            else:
-                move = f'BP{file}{rank}{file}{str(int(rank)-1)}'
-                all_extended_moves.append(move)
-            #take moves for black pawns
-            if file != 'a':
-                move = f'BP'
-                move += f'{file}{rank}{chr(ord(file)-1)}{str(int(rank)-1)}'
-                all_extended_moves.append(move)
-            if file != 'h':
-                move = f'BP'
-                move += f'{file}{rank}{chr(ord(file)+1)}{str(int(rank)-1)}'
-                all_extended_moves.append(move)
-    nb_pion_moves = len(all_extended_moves)
-    # Knights,
-    for file_from in files:
-        for rank_from in ranks:
-            for file_to in files:
-                for rank_to in ranks:
-                    file_diff = abs(ord(file_from) - ord(file_to))
-                    rank_diff = abs(int(rank_from) - int(rank_to))
-                    if (file_diff == 2 and rank_diff == 1) or (file_diff == 1 and rank_diff == 2):
-                        move_white = f'WN{file_from}{rank_from}{file_to}{rank_to}'
-                        move_black = f'BN{file_from}{rank_from}{file_to}{rank_to}'
-                        all_extended_moves.append(move_white)
-                        all_extended_moves.append(move_black)
-    #bishops
-    for file_from in files:
-        for rank_from in ranks:
-            for file_to in files:
-                for rank_to in ranks:
-                    file_diff = abs(ord(file_from) - ord(file_to))
-                    rank_diff = abs(int(rank_from) - int(rank_to))
-                    if file_diff == rank_diff and file_diff != 0:
-                        move_white = f'WB{file_from}{rank_from}{file_to}{rank_to}'
-                        move_black = f'BB{file_from}{rank_from}{file_to}{rank_to}'
-                        all_extended_moves.append(move_white)
-                        all_extended_moves.append(move_black)
-    # rooks
-    for file_from in files:
-        for rank_from in ranks:
-            for file_to in files:
-                for rank_to in ranks:
-                    if (file_from == file_to and rank_from != rank_to) or (rank_from == rank_to and file_from != file_to):
-                        move_white = f'WR{file_from}{rank_from}{file_to}{rank_to}'
-                        move_black = f'BR{file_from}{rank_from}{file_to}{rank_to}'
-                        all_extended_moves.append(move_white)
-                        all_extended_moves.append(move_black)
-    # queens
-    for file_from in files:
-        for rank_from in ranks:
-            for file_to in files:
-                for rank_to in ranks:
-                    file_diff = abs(ord(file_from) - ord(file_to))
-                    rank_diff = abs(int(rank_from) - int(rank_to))
-                    if (file_diff == rank_diff and file_diff != 0) or (file_from == file_to and rank_from != rank_to) or (rank_from == rank_to and file_from != file_to):
-                        move_white = f'WQ{file_from}{rank_from}{file_to}{rank_to}'
-                        move_black = f'BQ{file_from}{rank_from}{file_to}{rank_to}'
-                        all_extended_moves.append(move_white)
-                        all_extended_moves.append(move_black)
-    # kings
-    for file_from in files:
-        for rank_from in ranks:
-            for file_to in files:
-                for rank_to in ranks:
-                    file_diff = abs(ord(file_from) - ord(file_to))
-                    rank_diff = abs(int(rank_from) - int(rank_to))
-                    if (file_diff <= 1 and rank_diff <= 1) and not (file_diff == 0 and rank_diff == 0):
-                        move_white = f'WK{file_from}{rank_from}{file_to}{rank_to}'
-                        move_black = f'BK{file_from}{rank_from}{file_to}{rank_to}'
-                        all_extended_moves.append(move_white)
-                        all_extended_moves.append(move_black)
-    print(f"Total number of moves before extensions: {len(all_extended_moves)}")
-    #adding taking moves for all pieces except pawns
-    moves_not_pawns = all_extended_moves[nb_pion_moves:]
-    taking_moves = [move + '(x)' for move in moves_not_pawns]
-    # adding check moves
-    moves_with_check = [move + '(+)' for move in all_extended_moves]
-    moves_with_mate = [move + '(+*)' for move in all_extended_moves]
-    all_extended_moves.extend(taking_moves)
-    all_extended_moves.extend(moves_with_check)
-    all_extended_moves.extend(moves_with_mate)
-    # adding castling moves
-    all_extended_moves.append('WKe1g1(o)')  # White kingside castling
-    all_extended_moves.append('WKe1c1(O)')  # White queenside castling
-    all_extended_moves.append('BKe8g8(o)')  # Black kingside castling
-    all_extended_moves.append('BKe8c8(0)')  # Black queenside castling
-    return all_extended_moves
 class ChessTokenizer(PreTrainedTokenizer):
     """
@@ -439,12 +273,13 @@ class ChessTokenizer(PreTrainedTokenizer):
         grouped_tokens = ["".join(tokens[i:i+3]) for i in range(0, len(tokens), 3)]
         # mettre une fois sur deux B avant les coups noirs sinon W
-        final_tokens = []
         for i, token in enumerate(grouped_tokens):
             if i % 2 == 0:
                 final_tokens.append('W' + token)
             else:
-                final_tokens.append('B' + token)
         return " ".join(final_tokens)

 from transformers import PreTrainedTokenizer
 class ChessTokenizer(PreTrainedTokenizer):
     """
         grouped_tokens = ["".join(tokens[i:i+3]) for i in range(0, len(tokens), 3)]
         # mettre une fois sur deux B avant les coups noirs sinon W
+        final_tokens = grouped_tokens.copy()
+        """
         for i, token in enumerate(grouped_tokens):
             if i % 2 == 0:
                 final_tokens.append('W' + token)
             else:
+                final_tokens.append('B' + token)"""
         return " ".join(final_tokens)

tokenizer_config.json CHANGED Viewed

@@ -1,46 +1,50 @@
-{
-  "auto_map": {
-    "AutoTokenizer": ["tokenizer.ChessTokenizer", null]},
-  "added_tokens_decoder": {
-    "0": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "[BOS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "[EOS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "[UNK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "bos_token": "[BOS]",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "[EOS]",
-  "extra_special_tokens": {},
-  "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "[PAD]",
-  "tokenizer_class": "ChessTokenizer",
-  "unk_token": "[UNK]"
-}

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[BOS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[EOS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[BOS]",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "[EOS]",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "tokenizer_class": "ChessTokenizer",
+  "unk_token": "[UNK]",
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenizer.ChessTokenizer",
+      null
+    ]
+  }
+}