Spaces:

FireRedTeam
/

FireRedASR2S

Running on Zero

FireRed Team commited on Mar 13

Commit

15addad

verified ·

1 Parent(s): 034000c

Update fireredasr2s/fireredasr2/tokenizer/llm_tokenizer.py

Files changed (1) hide show

fireredasr2s/fireredasr2/tokenizer/llm_tokenizer.py CHANGED Viewed

@@ -75,7 +75,7 @@ class LlmTokenizerWrapper:
         max_len_texts = max([len(text) for text in texts])
         if tokenizer.padding_side == "right":
             texts = [
-                list(text) + [tokenizer.pad_token_id] * (max_len_texts - len(text))
                 for text in texts
             ]
         else:
@@ -83,6 +83,7 @@ class LlmTokenizerWrapper:
                 [tokenizer.pad_token_id] * (max_len_texts - len(text)) + text
                 for text in texts
             ]
         input_ids = torch.tensor(texts, dtype=torch.int)
         target_ids = input_ids.clone()

         max_len_texts = max([len(text) for text in texts])
         if tokenizer.padding_side == "right":
             texts = [
+                text + [tokenizer.pad_token_id] * (max_len_texts - len(text))
                 for text in texts
             ]
         else:
                 [tokenizer.pad_token_id] * (max_len_texts - len(text)) + text
                 for text in texts
             ]
+        print(texts)
         input_ids = torch.tensor(texts, dtype=torch.int)
         target_ids = input_ids.clone()