jinaai
/

jina-bert-implementation

Model card Files Files and versions

Truncate to 8k by default

#5

by Jackmin108 - opened Oct 26, 2023

base: refs/heads/main

←

from: refs/pr/5

Discussion Files changed

Files changed (1) hide show

modeling_bert.py +3 -2

modeling_bert.py CHANGED Viewed

@@ -1195,7 +1195,9 @@ class JinaBertModel(JinaBertPreTrainedModel):
         inverse_permutation = np.argsort(permutation)
         sentences = [sentences[idx] for idx in permutation]
-        padding = tokenizer_kwargs.pop('padding', True)
         all_embeddings = []
@@ -1214,7 +1216,6 @@ class JinaBertModel(JinaBertPreTrainedModel):
             encoded_input = self.tokenizer(
                 sentences[i : i + batch_size],
                 return_tensors='pt',
-                padding=padding,
                 **tokenizer_kwargs,
             ).to(self.device)
             token_embs = self.forward(**encoded_input)[0]

         inverse_permutation = np.argsort(permutation)
         sentences = [sentences[idx] for idx in permutation]
+        tokenizer_kwargs['padding'] = tokenizer_kwargs.get('padding', True)
+        tokenizer_kwargs['max_length'] = tokenizer_kwargs.get('max_length', 8192)
+        tokenizer_kwargs['truncation'] = tokenizer_kwargs.get('truncation', True)
         all_embeddings = []
             encoded_input = self.tokenizer(
                 sentences[i : i + batch_size],
                 return_tensors='pt',
                 **tokenizer_kwargs,
             ).to(self.device)
             token_embs = self.forward(**encoded_input)[0]