Spaces:

FireRedTeam
/

FireRedASR2S

Running on Zero

FireRed Team commited on Mar 13

Commit

5de5744

verified ·

1 Parent(s): 15addad

Update fireredasr2s/fireredasr2/tokenizer/llm_tokenizer.py

Files changed (1) hide show

fireredasr2s/fireredasr2/tokenizer/llm_tokenizer.py CHANGED Viewed

@@ -72,10 +72,11 @@ class LlmTokenizerWrapper:
             )
         # Padding texts
         max_len_texts = max([len(text) for text in texts])
         if tokenizer.padding_side == "right":
             texts = [
-                text + [tokenizer.pad_token_id] * (max_len_texts - len(text))
                 for text in texts
             ]
         else:
@@ -83,7 +84,7 @@ class LlmTokenizerWrapper:
                 [tokenizer.pad_token_id] * (max_len_texts - len(text)) + text
                 for text in texts
             ]
-        print(texts)
         input_ids = torch.tensor(texts, dtype=torch.int)
         target_ids = input_ids.clone()

             )
         # Padding texts
+        print(1, texts)
         max_len_texts = max([len(text) for text in texts])
         if tokenizer.padding_side == "right":
             texts = [
+                list(text) + [tokenizer.pad_token_id] * (max_len_texts - len(text))
                 for text in texts
             ]
         else:
                 [tokenizer.pad_token_id] * (max_len_texts - len(text)) + text
                 for text in texts
             ]
+        print(2, texts)
         input_ids = torch.tensor(texts, dtype=torch.int)
         target_ids = input_ids.clone()