tspersian
/

mana_tokenizer

Model card Files Files and versions

tspersian commited on Nov 6, 2024

Commit

bb4f97c

·

1 Parent(s): be6798e

Benchmark

Files changed (1) hide show

README.md +14 -7

README.md CHANGED Viewed

@@ -40,6 +40,13 @@ Batch encode:
 tokenizer.batch_encode(["یک متن طولانی"])
 ```
 ## Special Tokens
 - **user Token:** `<|user|>`
@@ -52,16 +59,16 @@ tokenizer.batch_encode(["یک متن طولانی"])
 - **Model Type:** BPE
 - **Vocabulary Size:** 265,703
 - **Character Coverage:** 99.9%
-- **Total Number of Text Samples: 1,147,036
-- **Total Number of Tokens: 1,490,338
-- **Average Token Length: 4.51
-- **Corpus Size (in bytes): 1,792,210,410
 ## Training Details
-- **Training Data: Mana Persian corpus
-- **Training Script: Mana Trainer
-- **Script Version: 1.2
 ## License

 tokenizer.batch_encode(["یک متن طولانی"])
 ```
+## Benchmark
+- **Current Date and Time:** 2024-11-06 16:12:50
+- **Mana Batch Encode Time:** 0.10711932182312012 seconds
+- **Mana Batch Encode Memory Usage:** 13.203125 KB
+- **Total characters in large_texts:** 131000
 ## Special Tokens
 - **user Token:** `<|user|>`
 - **Model Type:** BPE
 - **Vocabulary Size:** 265,703
 - **Character Coverage:** 99.9%
+- **Total Number of Text Samples:** 1,147,036
+- **Total Number of Tokens:** 1,490,338
+- **Average Token Length:** 4.51
+- **Corpus Size (in bytes):** 1,792,210,410
 ## Training Details
+- **Training Data:** Mana Persian corpus
+- **Training Script:** Mana Trainer
+- **Script Version:** 1.2
 ## License