ArthaLabs
/

panini-tokenizer

@@ -86,7 +86,7 @@ class PaniniTokenizerHF(PreTrainedTokenizer):
             if self._splitter:
                 # Use morphological splitting
-                split_result = self._splitter.split(word)
                 if split_result.is_compound and len(split_result.components) > 1:
                     for j, comp in enumerate(split_result.components):
                         if j == 0:

             if self._splitter:
                 # Use morphological splitting
+                split_result = self._splitter.split_v4(word)  # V1.5: Sandhi expansion
                 if split_result.is_compound and len(split_result.components) > 1:
                     for j, comp in enumerate(split_result.components):
                         if j == 0: