Spaces:

lucalp
/

blt-entropy-patcher

Running on Zero

par-meta commited on Feb 24

Commit

ff36aa8

unverified ·

1 Parent(s): a6ed14f

Add vocab and seq len abstract fields (#66)

Files changed (6) hide show

bytelatent/base_transformer.py CHANGED Viewed

@@ -1,4 +1,5 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 import logging
 import os
 from enum import Enum
@@ -572,7 +573,13 @@ class TransformerBlock(nn.Module):
         self.ffn_norm.reset_parameters()
-class BaseTransformer(nn.Module):
     def __init__(self, args: BaseTransformerArgs):
         super().__init__()
         self.dim = args.dim
@@ -593,6 +600,9 @@ class BaseTransformer(nn.Module):
         for _ in range(args.n_layers):
             self.layers.append(TransformerBlock(args))
     def forward(
         self,
         h,

 # Copyright (c) Meta Platforms, Inc. and affiliates.
+import abc
 import logging
 import os
 from enum import Enum
         self.ffn_norm.reset_parameters()
+class SequenceModelWithOutput(abc.ABC):
+    @abc.abstractmethod
+    def get_output_seq_len(self) -> int:
+        pass
+class BaseTransformer(nn.Module, SequenceModelWithOutput):
     def __init__(self, args: BaseTransformerArgs):
         super().__init__()
         self.dim = args.dim
         for _ in range(args.n_layers):
             self.layers.append(TransformerBlock(args))
+    def get_output_seq_len(self):
+        return self.max_seqlen
     def forward(
         self,
         h,

bytelatent/model/blt.py CHANGED Viewed

@@ -12,6 +12,7 @@ from typing_extensions import Self
 from bytelatent.base_transformer import (
     BaseTransformerArgs,
     InitStdFactor,
     TransformerBlock,
 )
 from bytelatent.data.patcher import Patcher, PatcherArgs
@@ -766,7 +767,7 @@ def compute_hash_embeddings(
     return local_encoder_embeds
-class ByteLatentTransformer(nn.Module):
     """
     The ByteLatentTransformer (BLT) is a byte-level language model architecture that processes byte sequences
     by dynamically segmenting them into patches. It uses a combination of local encoders, global transformers,
@@ -856,6 +857,9 @@ class ByteLatentTransformer(nn.Module):
                 )
             )
     def forward(
         self,
         tokens: torch.Tensor,

 from bytelatent.base_transformer import (
     BaseTransformerArgs,
     InitStdFactor,
+    SequenceModelWithOutput,
     TransformerBlock,
 )
 from bytelatent.data.patcher import Patcher, PatcherArgs
     return local_encoder_embeds
+class ByteLatentTransformer(nn.Module, SequenceModelWithOutput):
     """
     The ByteLatentTransformer (BLT) is a byte-level language model architecture that processes byte sequences
     by dynamically segmenting them into patches. It uses a combination of local encoders, global transformers,
                 )
             )
+    def get_output_seq_len(self):
+        return self.max_seqlen
     def forward(
         self,
         tokens: torch.Tensor,

bytelatent/tokenizers/abstract_tokenizer.py CHANGED Viewed

@@ -17,3 +17,7 @@ class Tokenizer(abc.ABC):
     ) -> tuple[list[str], list[int]]:
         """Return the offsets of the tokens in the original text. Only used for evaluation."""
         pass

     ) -> tuple[list[str], list[int]]:
         """Return the offsets of the tokens in the original text. Only used for evaluation."""
         pass
+    @abc.abstractmethod
+    def get_vocab_size(self) -> int:
+        pass

bytelatent/tokenizers/blt_tokenizer.py CHANGED Viewed

@@ -101,6 +101,9 @@ class BltTokenizer(Tokenizer):
         self.vocab_size_unit_1 = vocab_size_unit_1
         self.n_words = vocab_size_unit_1 + self.offsetting_special_char
     def encode(
         self, text: str, add_bos: bool | None = None, add_eos: bool | None = None
     ):

         self.vocab_size_unit_1 = vocab_size_unit_1
         self.n_words = vocab_size_unit_1 + self.offsetting_special_char
+    def get_vocab_size(self) -> int:
+        return self.n_words
     def encode(
         self, text: str, add_bos: bool | None = None, add_eos: bool | None = None
     ):

bytelatent/tokenizers/sentence_piece_tokenizer.py CHANGED Viewed

@@ -35,6 +35,9 @@ class SentencePieceTokenizer(Tokenizer):
         )
         assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()
     def encode(self, s: str, add_bos: bool | None = None, add_eos: bool | None = None):
         if add_bos is None:
             add_bos = self.add_bos

         )
         assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()
+    def get_vocab_size(self) -> int:
+        return self.n_words
     def encode(self, s: str, add_bos: bool | None = None, add_eos: bool | None = None):
         if add_bos is None:
             add_bos = self.add_bos

bytelatent/tokenizers/tiktoken_tokenizer.py CHANGED Viewed

@@ -53,6 +53,9 @@ class TikTokenTokenizer(Tokenizer):
             f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
         )
     def encode(self, s: str, add_bos: bool, add_eos: bool):
         assert isinstance(s, str)

             f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
         )
+    def get_vocab_size(self) -> int:
+        return self.n_words
     def encode(self, s: str, add_bos: bool, add_eos: bool):
         assert isinstance(s, str)