Upload all models and assets for ary (20251201)
Browse files
README.md
CHANGED
|
@@ -45,48 +45,15 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
|
|
| 45 |
|
| 46 |
```
|
| 47 |
models/
|
| 48 |
-
|
| 49 |
-
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
│ └── 3gram.pkl
|
| 56 |
-
│ └── 4gram.pkl
|
| 57 |
-
└── subword_ngram/
|
| 58 |
-
└── 2gram.pkl
|
| 59 |
-
└── 3gram.pkl
|
| 60 |
-
└── 4gram.pkl
|
| 61 |
-
├── word_markov/
|
| 62 |
-
│ └── context_1.pkl
|
| 63 |
-
│ └── context_2.pkl
|
| 64 |
-
│ └── context_3.pkl
|
| 65 |
-
│ └── context_4.pkl
|
| 66 |
-
└── subword_markov/
|
| 67 |
-
└── context_1.pkl
|
| 68 |
-
└── context_2.pkl
|
| 69 |
-
└── context_3.pkl
|
| 70 |
-
└── context_4.pkl
|
| 71 |
-
├── vocabulary/
|
| 72 |
-
│ ├── vocab.txt
|
| 73 |
-
│ └── frequencies.json
|
| 74 |
-
└── embeddings/
|
| 75 |
-
└── embeddings_enhanced.bin
|
| 76 |
-
└── mono_128d.bin
|
| 77 |
-
└── mono_32d.bin
|
| 78 |
-
└── mono_64d.bin
|
| 79 |
```
|
| 80 |
|
| 81 |
-
### Documentation & Visualizations
|
| 82 |
-
|
| 83 |
-
- **README.md** - This comprehensive report
|
| 84 |
-
- **visualizations/** - 24+ evaluation figures and charts
|
| 85 |
-
- Tokenizer compression, fertility, OOV rates
|
| 86 |
-
- N-gram perplexity, entropy, coverage
|
| 87 |
-
- Markov chain analysis and text generation samples
|
| 88 |
-
- Vocabulary statistics and Zipf's law analysis
|
| 89 |
-
- Embedding isotropy, similarity, and t-SNE visualizations
|
| 90 |

|
| 91 |
|
| 92 |
### Quick Links
|
|
@@ -118,44 +85,41 @@ models/
|
|
| 118 |
|
| 119 |
Below are sample sentences tokenized with each vocabulary size:
|
| 120 |
|
| 121 |
-
**Sample 1:**
|
| 122 |
-
|
| 123 |
-
|
| 124 |
|
| 125 |
| Vocab | Tokens | Count |
|
| 126 |
|-------|--------|-------|
|
| 127 |
-
| 8k |
|
| 128 |
-
| 16k |
|
| 129 |
-
| 32k |
|
| 130 |
-
| 64k |
|
| 131 |
|
| 132 |
-
**Sample 2:**
|
| 133 |
|
| 134 |
مصادر
|
| 135 |
|
| 136 |
-
|
|
|
|
| 137 |
|
| 138 |
| Vocab | Tokens | Count |
|
| 139 |
|-------|--------|-------|
|
| 140 |
-
| 8k |
|
| 141 |
-
| 16k |
|
| 142 |
-
| 32k |
|
| 143 |
-
| 64k |
|
| 144 |
-
|
| 145 |
-
**Sample 3:** `لجدوال ديال الترتيب
|
| 146 |
-
|
| 147 |
-
شوف حتى
|
| 148 |
|
| 149 |
-
|
| 150 |
-
|
| 151 |
-
|
| 152 |
|
| 153 |
| Vocab | Tokens | Count |
|
| 154 |
|-------|--------|-------|
|
| 155 |
-
| 8k |
|
| 156 |
-
| 16k |
|
| 157 |
-
| 32k |
|
| 158 |
-
| 64k |
|
| 159 |
|
| 160 |
|
| 161 |
### Key Findings
|
|
@@ -249,27 +213,27 @@ Below are text samples generated from each Markov chain model:
|
|
| 249 |
|
| 250 |
**Context Size 1:**
|
| 251 |
|
| 252 |
-
1. `.
|
| 253 |
-
2. `،
|
| 254 |
-
3. `ف
|
| 255 |
|
| 256 |
**Context Size 2:**
|
| 257 |
|
| 258 |
-
1. `تصنيف :
|
| 259 |
-
2. `، و
|
| 260 |
-
3. `ن ّ اس
|
| 261 |
|
| 262 |
**Context Size 3:**
|
| 263 |
|
| 264 |
-
1. `مصادر تصنيف :
|
| 265 |
-
2. `تصنيف : مقالات
|
| 266 |
-
3. `ن ّ اس اللي خدامين ف لپريڤي
|
| 267 |
|
| 268 |
**Context Size 4:**
|
| 269 |
|
| 270 |
-
1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف
|
| 271 |
-
2. `نسبة ن ّ اس
|
| 272 |
-
3. `. مصادر تصنيف :
|
| 273 |
|
| 274 |
|
| 275 |
### Key Findings
|
|
@@ -599,4 +563,4 @@ MIT License - Free for academic and commercial use.
|
|
| 599 |
---
|
| 600 |
*Generated by Wikilangs Models Pipeline*
|
| 601 |
|
| 602 |
-
*Report Date: 2025-12-27 04:
|
|
|
|
| 45 |
|
| 46 |
```
|
| 47 |
models/
|
| 48 |
+
- Tokenizers (8k, 16k, 32k, 64k)
|
| 49 |
+
- N-gram models (2, 3, 4-gram)
|
| 50 |
+
- Markov chains (context of 1, 2, 3 and 4)
|
| 51 |
+
- Subword N-gram and Markov chains
|
| 52 |
+
- Embeddings in various sizes and dimensions
|
| 53 |
+
- Language Vocabulary
|
| 54 |
+
- Language Statistics
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 55 |
```
|
| 56 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 57 |

|
| 58 |
|
| 59 |
### Quick Links
|
|
|
|
| 85 |
|
| 86 |
Below are sample sentences tokenized with each vocabulary size:
|
| 87 |
|
| 88 |
+
**Sample 1:** `لوغة تماجق كاتعني إمّا:
|
| 89 |
+
لوغة تاولامت
|
| 90 |
+
لوغة تايرت`
|
| 91 |
|
| 92 |
| Vocab | Tokens | Count |
|
| 93 |
|-------|--------|-------|
|
| 94 |
+
| 8k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
|
| 95 |
+
| 16k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
|
| 96 |
+
| 32k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+5 more)` | 15 |
|
| 97 |
+
| 64k | `▁لوغة ▁تماجق ▁كاتعني ▁إمّا : ▁لوغة ▁تاول امت ▁لوغة ▁تايرت` | 10 |
|
| 98 |
|
| 99 |
+
**Sample 2:** `تلاتين (رّمز ف نّماري لغبارية 30) نمرة ؤ عاداد جا مورا 29 ؤ قبل 31.
|
| 100 |
|
| 101 |
مصادر
|
| 102 |
|
| 103 |
+
|
| 104 |
+
ت...`
|
| 105 |
|
| 106 |
| Vocab | Tokens | Count |
|
| 107 |
|-------|--------|-------|
|
| 108 |
+
| 8k | `▁تلات ين ▁( ر ّم ز ▁ف ▁نّ ماري ▁لغ ... (+30 more)` | 40 |
|
| 109 |
+
| 16k | `▁تلات ين ▁( رّمز ▁ف ▁نّماري ▁لغبارية ▁ 3 0 ... (+23 more)` | 33 |
|
| 110 |
+
| 32k | `▁تلاتين ▁( رّمز ▁ف ▁نّماري ▁لغبارية ▁ 3 0 ) ... (+22 more)` | 32 |
|
| 111 |
+
| 64k | `▁تلاتين ▁( رّمز ▁ف ▁نّماري ▁لغبارية ▁ 3 0 ) ... (+22 more)` | 32 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 112 |
|
| 113 |
+
**Sample 3:** `هادي صفحة د التوضيح، كلمة خان يمكن يكونو عندها هاد لمعاني:
|
| 114 |
+
جينكيز خان
|
| 115 |
+
شاه روخ ...`
|
| 116 |
|
| 117 |
| Vocab | Tokens | Count |
|
| 118 |
|-------|--------|-------|
|
| 119 |
+
| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خ ان ▁يمكن ▁يكونو ... (+19 more)` | 29 |
|
| 120 |
+
| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+16 more)` | 26 |
|
| 121 |
+
| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+14 more)` | 24 |
|
| 122 |
+
| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+12 more)` | 22 |
|
| 123 |
|
| 124 |
|
| 125 |
### Key Findings
|
|
|
|
| 213 |
|
| 214 |
**Context Size 1:**
|
| 215 |
|
| 216 |
+
1. `. " ) هي واحد ( ليسي و لإتحاد الرياضي الفاسي كرمتها منظمة لكاس ( ن`
|
| 217 |
+
2. `، فين لمتماكنين ( لفلامانية ) : لمعمار ، 30 د لكتابة ؤ ݣاري كاسپاروڤ وغلب`
|
| 218 |
+
3. `ف 29 . الشكال ف 2017 : دوار ف لوسط د الناس النشيطين ف 1994 تصنيف`
|
| 219 |
|
| 220 |
**Context Size 2:**
|
| 221 |
|
| 222 |
+
1. `تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات فيها مصدر و علاين 3000 بايت تصنيف :`
|
| 223 |
+
2. `، و كتعتمد ف بزاف ديال العولاما الآخرين . خمس قصايد سومرية قديمة على حساب لبلاد تصنيف`
|
| 224 |
+
3. `ن ّ اس ن ّ شيطين ( ل ّ ي ف اللخر د عصر ت ّ قويم`
|
| 225 |
|
| 226 |
**Context Size 3:**
|
| 227 |
|
| 228 |
+
1. `مصادر تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات فيها مصدر و`
|
| 229 |
+
2. `تصنيف : مقالات زادهوم داريجابوت تصنيف : لقرن 18 ذكر سفير لمغريبي الزياني ف لمذكرات ديالو فاش كان`
|
| 230 |
+
3. `ن ّ اس اللي خدامين ف لپريڤي : 35 % مصادر تصنيف : جهة طنجة تطوان الحسيمة ،`
|
| 231 |
|
| 232 |
**Context Size 4:**
|
| 233 |
|
| 234 |
+
1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف`
|
| 235 |
+
2. `نسبة ن ّ اس اللي خدامين ف د ّ ولة : 5 , 1 % نسبة ن ّ اس`
|
| 236 |
+
3. `. مصادر تصنيف : عوام د تقويم لميلادي تصنيف : مقالات زادهوم داريجابوت تصنيف : سيسطيم تاع سميات الضومي...`
|
| 237 |
|
| 238 |
|
| 239 |
### Key Findings
|
|
|
|
| 563 |
---
|
| 564 |
*Generated by Wikilangs Models Pipeline*
|
| 565 |
|
| 566 |
+
*Report Date: 2025-12-27 04:21:06*
|