guymorlan
/

levanti_arabic2diacritics

Token Classification

Model card Files Files and versions

guymorlan commited on Jul 10, 2024

Commit

9de7328

·

verified ·

1 Parent(s): 4eafff8

Update README.md

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -30,16 +30,17 @@ label2diacritic = {0: 'ّ', 1: 'َ', 2: 'ِ', 3: 'ُ', 4: ''}
 def arabic2diacritics(text, model, tokenizer):
     tokens = tokenizer(text, return_tensors="pt")
-    preds = (model(**tokens).logits.sigmoid() > 0.5)[0]
     new_text = []
     for p, c in zip(preds, text):
         for i in range(1, 5):
             if p[i]:
                 new_text.append(label2diacritic[i])
         # check shadda last
         if p[0]:
             new_text.append(label2diacritic[0])
-        new_text.append(c)
     new_text = "".join(new_text)
     return new_text

 def arabic2diacritics(text, model, tokenizer):
     tokens = tokenizer(text, return_tensors="pt")
+    preds = (model(**tokens).logits.sigmoid() > 0.5)[0][1:-1] # remove CLS and SEP
     new_text = []
     for p, c in zip(preds, text):
+        new_text.append(c)
         for i in range(1, 5):
             if p[i]:
                 new_text.append(label2diacritic[i])
         # check shadda last
         if p[0]:
             new_text.append(label2diacritic[0])
     new_text = "".join(new_text)
     return new_text