deshanksuman
/

romanized-sinhala-tokenizer

romanized-sinhala

Model card Files Files and versions

deshanksuman commited on Sep 14, 2025

Commit

2bb431c

·

verified ·

1 Parent(s): 2681e31

Update README.md

Files changed (1) hide show

README.md +13 -5

README.md CHANGED Viewed

@@ -25,13 +25,21 @@ This tokenizer is specifically trained for Romanized Sinhala text (Sinhala writt
 ```python
 from transformers import PreTrainedTokenizerFast
-tokenizer = PreTrainedTokenizerFast.from_pretrained("deshanksuman/romanized-sinhala-tokenizer")
-# Set language for encoding
-tokenizer.src_lang = "si_rom"
-# Encode text
-encoded = tokenizer("Romanized Sinhala text goes here", return_tensors="pt")
 ```
 ## Citation

 ```python
 from transformers import PreTrainedTokenizerFast
+from transformers import PreTrainedTokenizerFast
+tokenizer = PreTrainedTokenizerFast.from_pretrained(
+    "deshanksuman/romanized-sinhala-tokenizer",
+    token="hf Token"
+)
+# Just tokenize and get tensors
+encoded = tokenizer("api ada mkda krnne", return_tensors="pt")
+print(encoded)
+# To see tokens in text form
+print(tokenizer.convert_ids_to_tokens(encoded["input_ids"][0]))
 ```
 ## Citation