Upload all models and assets for ary (20251201)
Browse files
README.md
CHANGED
|
@@ -17,6 +17,9 @@ library_name: wikilangs
|
|
| 17 |
pipeline_tag: feature-extraction
|
| 18 |
datasets:
|
| 19 |
- omarkamali/wikipedia-monthly
|
|
|
|
|
|
|
|
|
|
| 20 |
metrics:
|
| 21 |
- name: best_compression_ratio
|
| 22 |
type: compression
|
|
@@ -36,10 +39,71 @@ generated: 2025-12-27
|
|
| 36 |
This report presents a comprehensive evaluation of language models trained on **Moroccan Arabic** Wikipedia data.
|
| 37 |
We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
|
| 38 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 39 |
---
|
| 40 |
## 1. Tokenizer Evaluation
|
| 41 |
|
| 42 |
-
 :
|
| 197 |
-
3. `. مصادر تصنيف :
|
| 198 |
|
| 199 |
|
| 200 |
### Key Findings
|
|
@@ -207,11 +282,11 @@ Below are text samples generated from each Markov chain model:
|
|
| 207 |
---
|
| 208 |
## 4. Vocabulary Analysis
|
| 209 |
|
| 210 |
-

|
| 91 |
+
|
| 92 |
+
### Quick Links
|
| 93 |
+
|
| 94 |
+
- [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
|
| 95 |
+
- [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
|
| 96 |
+
- [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
|
| 97 |
+
- [4. Vocabulary Analysis](#4-vocabulary-analysis)
|
| 98 |
+
- [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
|
| 99 |
+
- [6. Summary & Recommendations](#6-summary--recommendations)
|
| 100 |
+
- [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
|
| 101 |
+
- [Visualizations Index](#visualizations-index)
|
| 102 |
+
|
| 103 |
---
|
| 104 |
## 1. Tokenizer Evaluation
|
| 105 |
|
| 106 |
+

|
| 107 |
|
| 108 |
### Results
|
| 109 |
|
|
|
|
| 118 |
|
| 119 |
Below are sample sentences tokenized with each vocabulary size:
|
| 120 |
|
| 121 |
+
**Sample 1:** `باراج سيدي محمد بن عبد الله هو باراج ف لمغريب ف الرباط تيصب فيه واد بورݣراݣ.
|
| 122 |
+
|
| 123 |
+
ش...`
|
| 124 |
|
| 125 |
| Vocab | Tokens | Count |
|
| 126 |
|-------|--------|-------|
|
| 127 |
+
| 8k | `▁بار اج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁بار اج ... (+26 more)` | 36 |
|
| 128 |
+
| 16k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+22 more)` | 32 |
|
| 129 |
+
| 32k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+20 more)` | 30 |
|
| 130 |
+
| 64k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+19 more)` | 29 |
|
| 131 |
+
|
| 132 |
+
**Sample 2:** `أسيل عمران (مزيودة ف 1989) هي مغنية و ممتلة سعودية كتعيش ف لإمارات.
|
| 133 |
|
| 134 |
+
مصادر
|
| 135 |
+
|
| 136 |
+
تص...`
|
| 137 |
|
| 138 |
| Vocab | Tokens | Count |
|
| 139 |
|-------|--------|-------|
|
| 140 |
+
| 8k | `▁أس يل ▁عمر ان ▁( مزيودة ��ف ▁ 1 9 ... (+36 more)` | 46 |
|
| 141 |
+
| 16k | `▁أس يل ▁عمر ان ▁( مزيودة ▁ف ▁ 1 9 ... (+32 more)` | 42 |
|
| 142 |
+
| 32k | `▁أس يل ▁عمران ▁( مزيودة ▁ف ▁ 1 9 8 ... (+28 more)` | 38 |
|
| 143 |
+
| 64k | `▁أس يل ▁عمران ▁( مزيودة ▁ف ▁ 1 9 8 ... (+28 more)` | 38 |
|
| 144 |
+
|
| 145 |
+
**Sample 3:** `لجدوال ديال الترتيب
|
| 146 |
+
|
| 147 |
+
شوف حتى
|
| 148 |
|
| 149 |
+
بوطولا 1
|
| 150 |
+
بوطولا 2
|
| 151 |
+
لهيكلة لهرمية د لبوطولات د...`
|
| 152 |
|
| 153 |
| Vocab | Tokens | Count |
|
| 154 |
|-------|--------|-------|
|
| 155 |
+
| 8k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
|
| 156 |
+
| 16k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
|
| 157 |
+
| 32k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
|
| 158 |
+
| 64k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
|
| 159 |
|
| 160 |
|
| 161 |
### Key Findings
|
|
|
|
| 168 |
---
|
| 169 |
## 2. N-gram Model Evaluation
|
| 170 |
|
| 171 |
+

|
| 172 |
|
| 173 |
+

|
| 174 |
|
| 175 |
### Results
|
| 176 |
|
|
|
|
| 226 |
---
|
| 227 |
## 3. Markov Chain Evaluation
|
| 228 |
|
| 229 |
+

|
| 230 |
|
| 231 |
+

|
| 232 |
|
| 233 |
### Results
|
| 234 |
|
|
|
|
| 249 |
|
| 250 |
**Context Size 1:**
|
| 251 |
|
| 252 |
+
1. `. مصادر تصنيف : lux 1908 ف ضومينات معينين ، نسبة د لأمية واصلة ل 1`
|
| 253 |
+
2. `، مادام لغالبية د د فصل اللخرين فيرمات لببور د لعمر عند لعيالات ) . هو`
|
| 254 |
+
3. `ف لإيرا لعامة ؤ 2755 ف أميريكا أنتاركتيكا : سلطان ، واللي هوما لأمنيوطات ولاو كا`
|
| 255 |
|
| 256 |
**Context Size 2:**
|
| 257 |
|
| 258 |
+
1. `تصنيف : مقالات زادهوم داريجابوت تصنيف : شخصيات عندها كتر من لمناضير ط ّ بيعية ( natural`
|
| 259 |
+
2. `، و ݣال بلي الدرية ديالو ، حتا عاود رجع ف ماتش واحد حتى ل21 يوم من`
|
| 260 |
+
3. `ن ّ اس اللي خدامين ف د ّ وار كينتامي ل مشيخة أيت تونرت لي كتضم 12`
|
| 261 |
|
| 262 |
**Context Size 3:**
|
| 263 |
|
| 264 |
+
1. `مصادر تصنيف : شركة متعددة الجنسيات تصنيف : إيلون ماسك`
|
| 265 |
+
2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : ناس د بركان تصنيف : بلايص مسكونين ف`
|
| 266 |
+
3. `ن ّ اس اللي خدامين ف لپريڤي ( ولا لبيطاليين اللي سبق ليهوم خدمو ) : 0 %`
|
| 267 |
|
| 268 |
**Context Size 4:**
|
| 269 |
|
| 270 |
+
1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم لحوز تصنيف : مقالات`
|
| 271 |
+
2. `نسبة ن ّ اس ن ّ شيطين ( ل ّ ي يقدرو يخدمو ) : 47 , 7 %`
|
| 272 |
+
3. `. مصادر تصنيف : زيادة 1921 تصنيف : وفيات 1951 تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف`
|
| 273 |
|
| 274 |
|
| 275 |
### Key Findings
|
|
|
|
| 282 |
---
|
| 283 |
## 4. Vocabulary Analysis
|
| 284 |
|
| 285 |
+

|
| 286 |
|
| 287 |
+

|
| 288 |
|
| 289 |
+

|
| 290 |
|
| 291 |
### Statistics
|
| 292 |
|
|
|
|
| 354 |
---
|
| 355 |
## 5. Word Embeddings Evaluation
|
| 356 |
|
| 357 |
+

|
| 358 |
|
| 359 |
+

|
| 360 |
|
| 361 |
+

|
| 362 |
|
| 363 |
+

|
| 364 |
|
| 365 |
### Model Comparison
|
| 366 |
|
|
|
|
| 381 |
---
|
| 382 |
## 6. Summary & Recommendations
|
| 383 |
|
| 384 |
+

|
| 385 |
|
| 386 |
### Production Recommendations
|
| 387 |
|
|
|
|
| 530 |
|
| 531 |
### Visualizations Index
|
| 532 |
|
| 533 |
+
| Visualization | Description |
|
| 534 |
+
|---------------|-------------|
|
| 535 |
+
| Tokenizer Compression | Compression ratios by vocabulary size |
|
| 536 |
+
| Tokenizer Fertility | Average token length by vocabulary |
|
| 537 |
+
| Tokenizer OOV | Unknown token rates |
|
| 538 |
+
| Tokenizer Total Tokens | Total tokens by vocabulary |
|
| 539 |
+
| N-gram Perplexity | Perplexity by n-gram size |
|
| 540 |
+
| N-gram Entropy | Entropy by n-gram size |
|
| 541 |
+
| N-gram Coverage | Top pattern coverage |
|
| 542 |
+
| N-gram Unique | Unique n-gram counts |
|
| 543 |
+
| Markov Entropy | Entropy by context size |
|
| 544 |
+
| Markov Branching | Branching factor by context |
|
| 545 |
+
| Markov Contexts | Unique context counts |
|
| 546 |
+
| Zipf's Law | Frequency-rank distribution with fit |
|
| 547 |
+
| Vocab Frequency | Word frequency distribution |
|
| 548 |
+
| Top 20 Words | Most frequent words |
|
| 549 |
+
| Vocab Coverage | Cumulative coverage curve |
|
| 550 |
+
| Embedding Isotropy | Vector space uniformity |
|
| 551 |
+
| Embedding Norms | Vector magnitude distribution |
|
| 552 |
+
| Embedding Similarity | Word similarity heatmap |
|
| 553 |
+
| Nearest Neighbors | Similar words for key terms |
|
| 554 |
+
| t-SNE Words | 2D word embedding visualization |
|
| 555 |
+
| t-SNE Sentences | 2D sentence embedding visualization |
|
| 556 |
+
| Position Encoding | Encoding method comparison |
|
| 557 |
+
| Model Sizes | Storage requirements |
|
| 558 |
+
| Performance Dashboard | Comprehensive performance overview |
|
| 559 |
|
| 560 |
---
|
| 561 |
## About This Project
|
|
|
|
| 599 |
---
|
| 600 |
*Generated by Wikilangs Models Pipeline*
|
| 601 |
|
| 602 |
+
*Report Date: 2025-12-27 04:11:56*
|