tim1900
/

bert-chunker-3

Token Classification

Model card Files Files and versions

tim1900 commited on Aug 9, 2025

Commit

563c4f6

·

verified ·

1 Parent(s): e36c2ab

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -248,8 +248,8 @@ def chunk_text_with_max_chunk_size(model, text, tokenizer, prob_threshold=0.5,ma
         best_logits = torch.finfo(torch.float32).min
         STEP = round(((MAX_TOKENS - 2)//2)*1.75 )
         print(f"Processing {input_ids.shape[1]} tokens...")
-        # while windows_end <= input_ids.shape[1]:#记得改成windstart
-        while windows_start < input_ids.shape[1]:#记得改成windstart
             windows_end = windows_start + MAX_TOKENS - 2
             ids = torch.cat((CLS, input_ids[:, windows_start:windows_end], SEP), 1)
             ids = ids.to(model.device)

         best_logits = torch.finfo(torch.float32).min
         STEP = round(((MAX_TOKENS - 2)//2)*1.75 )
         print(f"Processing {input_ids.shape[1]} tokens...")
+        # while windows_end <= input_ids.shape[1]:
+        while windows_start < input_ids.shape[1]:
             windows_end = windows_start + MAX_TOKENS - 2
             ids = torch.cat((CLS, input_ids[:, windows_start:windows_end], SEP), 1)
             ids = ids.to(model.device)