File size: 5,033 Bytes

---
library_name: transformers
license: apache-2.0
---


**WE are COOKED**

# Test Log 08 March 2025

### First Test:
Mean Perplexity : tested on `wikitext-2-raw-v1`, ~2k English samples was `1420.7414870547489`

### Second Test
Evaluated the tokenizer's performance on:
- Unicode coverage.
- Token distribution.
- Tokenization complexity across different scripts.
- Encoding and decoding capabilities &
- Edge cases e.g., special characters, numbers, etc.
- 1k samples: 500 Hindi, 500 English

### 1. Edge Case Handling

| **Language** | **Test Type**      | **Token Count** | **Unique Tokens** |
|--------------|--------------------|-----------------|-------------------|
| **Hindi**    | Script Test        | 14              | 13                |
|              | Unicode Test       | 21              | 21                |
|              | Special Characters | 19              | 19                |
| **English**  | Script Test        | 16              | 15                |
|              | Unicode Test       | 14              | 14                |
|              | Special Characters | 18              | 18                |

### 2. Unicode Coverage

| **Language** | **Coverage Ratio** | **Token Count** | **Unique Tokens** |
|--------------|--------------------|-----------------|-------------------|
| **Hindi**    | 100%               | 21              | 21                |
| **English**  | 100%               | 14              | 14                |

### 3. Complexity

| **Language** | **Original Length** | **Token Count** | **Avg Token Length** | **Token Diversity** |
|--------------|---------------------|-----------------|----------------------|---------------------|
| **Hindi**    | 49                  | 14              | 9.07                 | 0.928               |
| **English**  | 65                  | 16              | 4.06                 | 0.937               |

### 4. Encoding-Decoding Capabilities
```

Hindi Analysis:
Original Text: नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।
Token IDs Count: 14
Token Strings: ['à¤¨à¤®', 'à¤¸à¥įà¤¤à¥ĩ', ',', 'Ġà¤®à¥Īà¤Ĥ', 'Ġà¤Ńà¤¾à¤°à¤¤', 'Ġà¤¸à¥ĩ', 'Ġà¤¹à¥Ĥà¤ģ', 'à¥¤', 'Ġà¤¦à¤¿à¤²à¥įà¤²à¥Ģ', 'Ġà¤¬à¤¹à¥ģà¤¤', 'Ġà¤¬à¤¡à¤¼à¤¾', 'Ġà¤¶à¤¹à¤°', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।
Text Reconstruction: True

Hindi Analysis:
Original Text: हिंदी भाषा बहुत सुंदर है।
Token IDs Count: 7
Token Strings: ['à¤¹', 'à¤¿à¤Ĥà¤¦à¥Ģ', 'Ġà¤Ńà¤¾à¤·à¤¾', 'Ġà¤¬à¤¹à¥ģà¤¤', 'Ġà¤¸à¥ģà¤Ĥà¤¦à¤°', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: हिंदी भाषा बहुत सुंदर है।
Text Reconstruction: True

Hindi Analysis:
Original Text: मुझे किताबें पढ़ना पसंद है।
Token IDs Count: 7
Token Strings: ['à¤®', 'à¥ģà¤Ŀà¥ĩ', 'Ġà¤ķà¤¿à¤¤à¤¾à¤¬à¥ĩà¤Ĥ', 'Ġà¤ªà¤¢à¤¼à¤¨à¤¾', 'Ġà¤ªà¤¸à¤Ĥà¤¦', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: मुझे किताबें पढ़ना पसंद है।
Text Reconstruction: True

Hindi Analysis:
Original Text: यह एक उदाहरण वाक्य है।
Token IDs Count: 6
Token Strings: ['à¤¯à¤¹', 'Ġà¤ıà¤ķ', 'Ġà¤īà¤¦à¤¾à¤¹à¤°à¤£', 'Ġà¤µà¤¾à¤ķà¥įà¤¯', 'Ġà¤¹à¥Ī', 'à¥¤']
Decoded Text: यह एक उदाहरण वाक्य है।
Text Reconstruction: True

English Analysis:
Original Text: Hello, I am from India. Delhi is a big city.
Token IDs Count: 13
Token Strings: ['Hello', ',', 'ĠI', 'Ġam', 'Ġfrom', 'ĠIndia', '.', 'ĠDelhi', 'Ġis', 'Ġa', 'Ġbig', 'Ġcity', '.']
Decoded Text: Hello, I am from India. Delhi is a big city.
Text Reconstruction: True

English Analysis:
Original Text: The English language is widely spoken.
Token IDs Count: 7
Token Strings: ['The', 'ĠEnglish', 'Ġlanguage', 'Ġis', 'Ġwidely', 'Ġspoken', '.']
Decoded Text: The English language is widely spoken.
Text Reconstruction: True

English Analysis:
Original Text: I enjoy reading books.
Token IDs Count: 5
Token Strings: ['I', 'Ġenjoy', 'Ġreading', 'Ġbooks', '.']
Decoded Text: I enjoy reading books.
Text Reconstruction: True

English Analysis:
Original Text: This is an example sentence.
Token IDs Count: 6
Token Strings: ['This', 'Ġis', 'Ġan', 'Ġexample', 'Ġsentence', '.']
Decoded Text: This is an example sentence.
Text Reconstruction: True
```

![image/png](https://cdn-uploads.huggingface.co/production/uploads/650a93c23449d9a49c356aab/QDI1ZPXPzQNARatnQkLmU.png)

![image/png](https://cdn-uploads.huggingface.co/production/uploads/650a93c23449d9a49c356aab/Ppn4fCMqhc9Oy5_zxgpkn.png)