omarkamali commited on
Commit
c7cbde2
·
verified ·
1 Parent(s): c3c01f8

Upload all models and assets for ary (20251201)

Browse files
Files changed (1) hide show
  1. README.md +143 -68
README.md CHANGED
@@ -17,6 +17,9 @@ library_name: wikilangs
17
  pipeline_tag: feature-extraction
18
  datasets:
19
  - omarkamali/wikipedia-monthly
 
 
 
20
  metrics:
21
  - name: best_compression_ratio
22
  type: compression
@@ -36,10 +39,71 @@ generated: 2025-12-27
36
  This report presents a comprehensive evaluation of language models trained on **Moroccan Arabic** Wikipedia data.
37
  We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
38
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
39
  ---
40
  ## 1. Tokenizer Evaluation
41
 
42
- ![Tokenizer Compression](visualizations/01_tokenizer_compression.png)
43
 
44
  ### Results
45
 
@@ -54,33 +118,44 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
54
 
55
  Below are sample sentences tokenized with each vocabulary size:
56
 
57
- **Sample 1:** `لّبسة لْجوية د لْغطيس نݣليزية Atmospheric diving suit) هوّا لبسة ل شخص واحد ك...`
 
 
58
 
59
  | Vocab | Tokens | Count |
60
  |-------|--------|-------|
61
- | 8k | `▁لّ ب سة ▁لْ ج وية ▁د ▁لْ غط يس ... (+44 more)` | 54 |
62
- | 16k | `▁لّ ب سة ▁لْ ج وية ▁د ▁لْ غط يس ... (+38 more)` | 48 |
63
- | 32k | `▁لّ ب سة ▁لْ ج وية ▁د ▁لْ غط يس ... (+35 more)` | 45 |
64
- | 64k | `▁لّبسة ▁لْج وية ▁د ▁لْ غط يس ▁( ب ▁نݣليزية ... (+30 more)` | 40 |
 
 
65
 
66
- **Sample 2:** `هادي صفحة د التوضيح، ناصر عربية سمية د دكر. هادو شخصيات سميتهوم ناصر:
67
- ناصر لارݣ...`
 
68
 
69
  | Vocab | Tokens | Count |
70
  |-------|--------|-------|
71
- | 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ن اصر ▁عربية ▁سمية ▁د ... (+33 more)` | 43 |
72
- | 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ناصر ▁عربية ▁سمية ▁د ▁دكر ... (+24 more)` | 34 |
73
- | 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ناصر ▁عربية ▁سمية ▁د ▁دكر ... (+19 more)` | 29 |
74
- | 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ناصر ▁عربية ▁سمية ▁د ▁دكر ... (+19 more)` | 29 |
 
 
 
 
75
 
76
- **Sample 3:** `اتحاد سلا هي فرقة مغريبية من مدينة سلا. تأسسات فـ1937، وكتلعب فتيران حي الرحمة ا...`
 
 
77
 
78
  | Vocab | Tokens | Count |
79
  |-------|--------|-------|
80
- | 8k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+30 more)` | 40 |
81
- | 16k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+28 more)` | 38 |
82
- | 32k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+28 more)` | 38 |
83
- | 64k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+27 more)` | 37 |
84
 
85
 
86
  ### Key Findings
@@ -93,9 +168,9 @@ Below are sample sentences tokenized with each vocabulary size:
93
  ---
94
  ## 2. N-gram Model Evaluation
95
 
96
- ![N-gram Perplexity](visualizations/05_ngram_perplexity.png)
97
 
98
- ![N-gram Coverage](visualizations/07_ngram_coverage.png)
99
 
100
  ### Results
101
 
@@ -151,9 +226,9 @@ Below are sample sentences tokenized with each vocabulary size:
151
  ---
152
  ## 3. Markov Chain Evaluation
153
 
154
- ![Markov Entropy](visualizations/09_markov_entropy.png)
155
 
156
- ![Markov Branching](visualizations/10_markov_branching.png)
157
 
158
  ### Results
159
 
@@ -174,27 +249,27 @@ Below are text samples generated from each Markov chain model:
174
 
175
  **Context Size 1:**
176
 
177
- 1. `. والفيلم لاخر ف جماعة قروية ف الدور د أدالت سويم " . a . بمعنى`
178
- 2. `، و الجاج و 3000 بايت تصنيف : جهة سوس تصنيف : منتج ؤ بني ملال`
179
- 3. `ف خمس سنين ، gallagher , blaine d ݣروپ c . ديليم د لعمر عند الجواج`
180
 
181
  **Context Size 2:**
182
 
183
- 1. `تصنيف : بلايص مسكونين ف إقليم تاونات تصنيف : زيادة 1564 تصنيف : عوام د تقويم لميلادي`
184
- 2. `، و نسبة د الناس النشيطين ( اللي سموها العرب بـالنكبة . الدعم الجوي : تم ختيارو`
185
- 3. `ن ّ اس ل ّ خر د لعام تصنيف : سياسي مغريبي ، من بعد ، مشا`
186
 
187
  **Context Size 3:**
188
 
189
- 1. `مصادر تصنيف : فيلسوف روماني قديم تصنيف : كاتب ألماني تصنيف : رياضيين من أصل مغريبي تصنيف :`
190
- 2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : ناس حيين تصنيف : سياسي لامنتامي تصنيف :`
191
- 3. `ن ّ اس اللي خدامين ف لپريڤي ( أولا البيطاليين اللي سبق ليهوم خدمو ) : 2 ,`
192
 
193
  **Context Size 4:**
194
 
195
- 1. `تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات زادهوم داريجابوت تصنيف : تاريخ ديال دابا تصنيف : لقرون`
196
- 2. `نسبة ن ّ اس ن ّ شيطين ( ل ّ ي يقدرو يخدمو ) : 48 % نسبة لبطالة`
197
- 3. `. مصادر تصنيف : تقويم تصنيف : لقرون تصنيف : لألفيات تصنيف : مقالات فيها مصدر و 3000 بايت`
198
 
199
 
200
  ### Key Findings
@@ -207,11 +282,11 @@ Below are text samples generated from each Markov chain model:
207
  ---
208
  ## 4. Vocabulary Analysis
209
 
210
- ![Zipf's Law](visualizations/12_zipf_law.png)
211
 
212
- ![Top Words](visualizations/14_top20_words.png)
213
 
214
- ![Coverage Curve](visualizations/15_vocab_coverage.png)
215
 
216
  ### Statistics
217
 
@@ -279,13 +354,13 @@ Below are text samples generated from each Markov chain model:
279
  ---
280
  ## 5. Word Embeddings Evaluation
281
 
282
- ![Embedding Isotropy](visualizations/16_embedding_isotropy.png)
283
 
284
- ![Similarity Matrix](visualizations/18_embedding_similarity.png)
285
 
286
- ![t-SNE Words](visualizations/20_tsne_words.png)
287
 
288
- ![t-SNE Sentences](visualizations/21_tsne_sentences.png)
289
 
290
  ### Model Comparison
291
 
@@ -306,7 +381,7 @@ Below are text samples generated from each Markov chain model:
306
  ---
307
  ## 6. Summary & Recommendations
308
 
309
- ![Performance Dashboard](visualizations/24_performance_dashboard.png)
310
 
311
  ### Production Recommendations
312
 
@@ -455,32 +530,32 @@ This section provides definitions, intuitions, and guidance for interpreting the
455
 
456
  ### Visualizations Index
457
 
458
- | # | Visualization | Description |
459
- |---|---------------|-------------|
460
- | 01 | Tokenizer Compression | Compression ratios by vocabulary size |
461
- | 02 | Tokenizer Fertility | Average token length by vocabulary |
462
- | 03 | Tokenizer OOV | Unknown token rates |
463
- | 04 | Tokenizer Tokens | Total tokens by vocabulary |
464
- | 05 | N-gram Perplexity | Perplexity by n-gram size |
465
- | 06 | N-gram Entropy | Entropy by n-gram size |
466
- | 07 | N-gram Coverage | Top pattern coverage |
467
- | 08 | N-gram Unique | Unique n-gram counts |
468
- | 09 | Markov Entropy | Entropy by context size |
469
- | 10 | Markov Branching | Branching factor by context |
470
- | 11 | Markov Contexts | Unique context counts |
471
- | 12 | Zipf's Law | Frequency-rank distribution with fit |
472
- | 13 | Vocab Frequency | Word frequency distribution |
473
- | 14 | Top 20 Words | Most frequent words |
474
- | 15 | Vocab Coverage | Cumulative coverage curve |
475
- | 16 | Embedding Isotropy | Vector space uniformity |
476
- | 17 | Embedding Norms | Vector magnitude distribution |
477
- | 18 | Similarity Matrix | Word similarity heatmap |
478
- | 19 | Nearest Neighbors | Similar words for key terms |
479
- | 20 | t-SNE Words | 2D word embedding visualization |
480
- | 21 | t-SNE Sentences | 2D sentence embedding visualization |
481
- | 22 | Position Encoding | Encoding method comparison |
482
- | 23 | Model Sizes | Storage requirements |
483
- | 24 | Dashboard | Comprehensive performance overview |
484
 
485
  ---
486
  ## About This Project
@@ -524,4 +599,4 @@ MIT License - Free for academic and commercial use.
524
  ---
525
  *Generated by Wikilangs Models Pipeline*
526
 
527
- *Report Date: 2025-12-27 04:02:58*
 
17
  pipeline_tag: feature-extraction
18
  datasets:
19
  - omarkamali/wikipedia-monthly
20
+ dataset_info:
21
+ name: wikipedia-monthly
22
+ description: Monthly snapshots of Wikipedia articles across 300+ languages
23
  metrics:
24
  - name: best_compression_ratio
25
  type: compression
 
39
  This report presents a comprehensive evaluation of language models trained on **Moroccan Arabic** Wikipedia data.
40
  We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
41
 
42
+ ## 📋 Repository Contents
43
+
44
+ ### Models & Assets
45
+
46
+ ```
47
+ models/
48
+ ├── tokenizer/
49
+ │ └── 8k.model
50
+ │ └── 16k.model
51
+ │ └── 32k.model
52
+ │ └── 64k.model
53
+ ├── word_ngram/
54
+ │ └── 2gram.pkl
55
+ │ └── 3gram.pkl
56
+ │ └── 4gram.pkl
57
+ └── subword_ngram/
58
+ └── 2gram.pkl
59
+ └── 3gram.pkl
60
+ └── 4gram.pkl
61
+ ├── word_markov/
62
+ │ └── context_1.pkl
63
+ │ └── context_2.pkl
64
+ │ └── context_3.pkl
65
+ │ └── context_4.pkl
66
+ └── subword_markov/
67
+ └── context_1.pkl
68
+ └── context_2.pkl
69
+ └── context_3.pkl
70
+ └── context_4.pkl
71
+ ├── vocabulary/
72
+ │ ├── vocab.txt
73
+ │ └── frequencies.json
74
+ └── embeddings/
75
+ └── embeddings_enhanced.bin
76
+ └── mono_128d.bin
77
+ └── mono_32d.bin
78
+ └── mono_64d.bin
79
+ ```
80
+
81
+ ### Documentation & Visualizations
82
+
83
+ - **README.md** - This comprehensive report
84
+ - **visualizations/** - 24+ evaluation figures and charts
85
+ - Tokenizer compression, fertility, OOV rates
86
+ - N-gram perplexity, entropy, coverage
87
+ - Markov chain analysis and text generation samples
88
+ - Vocabulary statistics and Zipf's law analysis
89
+ - Embedding isotropy, similarity, and t-SNE visualizations
90
+ ![Performance Dashboard](visualizations/performance_dashboard.png)
91
+
92
+ ### Quick Links
93
+
94
+ - [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
95
+ - [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
96
+ - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
97
+ - [4. Vocabulary Analysis](#4-vocabulary-analysis)
98
+ - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
99
+ - [6. Summary & Recommendations](#6-summary--recommendations)
100
+ - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
101
+ - [Visualizations Index](#visualizations-index)
102
+
103
  ---
104
  ## 1. Tokenizer Evaluation
105
 
106
+ ![Tokenizer Compression](visualizations/tokenizer_compression.png)
107
 
108
  ### Results
109
 
 
118
 
119
  Below are sample sentences tokenized with each vocabulary size:
120
 
121
+ **Sample 1:** `باراج سيدي محمد بن عبد الله هو باراج ف لمغريب ف الرباط تيصب فيه واد بورݣراݣ.
122
+
123
+ ش...`
124
 
125
  | Vocab | Tokens | Count |
126
  |-------|--------|-------|
127
+ | 8k | `▁بار اج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁بار اج ... (+26 more)` | 36 |
128
+ | 16k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+22 more)` | 32 |
129
+ | 32k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+20 more)` | 30 |
130
+ | 64k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+19 more)` | 29 |
131
+
132
+ **Sample 2:** `أسيل عمران (مزيودة ف 1989) هي مغنية و ممتلة سعودية كتعيش ف لإمارات.
133
 
134
+ مصادر
135
+
136
+ تص...`
137
 
138
  | Vocab | Tokens | Count |
139
  |-------|--------|-------|
140
+ | 8k | `▁أس يل ▁عمر ان ▁( مزيودة ��ف 1 9 ... (+36 more)` | 46 |
141
+ | 16k | `▁أس يل ▁عمر ان ▁( مزيودة ▁ف 1 9 ... (+32 more)` | 42 |
142
+ | 32k | `▁أس يل ▁عمران ▁( مزيودة ▁ف 1 9 8 ... (+28 more)` | 38 |
143
+ | 64k | `▁أس يل ▁عمران ▁( مزيودة ▁ف 1 9 8 ... (+28 more)` | 38 |
144
+
145
+ **Sample 3:** `لجدوال ديال الترتيب
146
+
147
+ شوف حتى
148
 
149
+ بوطولا 1
150
+ بوطولا 2
151
+ لهيكلة لهرمية د لبوطولات د...`
152
 
153
  | Vocab | Tokens | Count |
154
  |-------|--------|-------|
155
+ | 8k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
156
+ | 16k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
157
+ | 32k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
158
+ | 64k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
159
 
160
 
161
  ### Key Findings
 
168
  ---
169
  ## 2. N-gram Model Evaluation
170
 
171
+ ![N-gram Perplexity](visualizations/ngram_perplexity.png)
172
 
173
+ ![N-gram Coverage](visualizations/ngram_coverage.png)
174
 
175
  ### Results
176
 
 
226
  ---
227
  ## 3. Markov Chain Evaluation
228
 
229
+ ![Markov Entropy](visualizations/markov_entropy.png)
230
 
231
+ ![Markov Branching](visualizations/markov_branching.png)
232
 
233
  ### Results
234
 
 
249
 
250
  **Context Size 1:**
251
 
252
+ 1. `. مصادر تصنيف : lux 1908 ف ضومينات معينين ، نسبة د لأمية واصلة ل 1`
253
+ 2. `، مادام لغالبية د د فصل اللخرين فيرمات لببور د لعمر عند لعيالات ) . هو`
254
+ 3. `ف لإيرا لعامة ؤ 2755 ف أميريكا أنتاركتيكا : سلطان ، واللي هوما لأمنيوطات ولاو كا`
255
 
256
  **Context Size 2:**
257
 
258
+ 1. `تصنيف : مقالات زادهوم داريجابوت تصنيف : شخصيات عندها كتر من لمناضير ط ّ بيعية ( natural`
259
+ 2. `، و ݣال بلي الدرية ديالو ، حتا عاود رجع ف ماتش واحد حتى ل21 يوم من`
260
+ 3. `ن ّ اس اللي خدامين ف د ّ وار كينتامي ل مشيخة أيت تونرت لي كتضم 12`
261
 
262
  **Context Size 3:**
263
 
264
+ 1. `مصادر تصنيف : شركة متعددة الجنسيات تصنيف : إيلون ماسك`
265
+ 2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : ناس د بركان تصنيف : بلايص مسكونين ف`
266
+ 3. `ن ّ اس اللي خدامين ف لپريڤي ( ولا لبيطاليين اللي سبق ليهوم خدمو ) : 0 %`
267
 
268
  **Context Size 4:**
269
 
270
+ 1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم لحوز تصنيف : مقالات`
271
+ 2. `نسبة ن ّ اس ن ّ شيطين ( ل ّ ي يقدرو يخدمو ) : 47 , 7 %`
272
+ 3. `. مصادر تصنيف : زيادة 1921 تصنيف : وفيات 1951 تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف`
273
 
274
 
275
  ### Key Findings
 
282
  ---
283
  ## 4. Vocabulary Analysis
284
 
285
+ ![Zipf's Law](visualizations/zipf_law.png)
286
 
287
+ ![Top Words](visualizations/top20_words.png)
288
 
289
+ ![Coverage Curve](visualizations/vocab_coverage.png)
290
 
291
  ### Statistics
292
 
 
354
  ---
355
  ## 5. Word Embeddings Evaluation
356
 
357
+ ![Embedding Isotropy](visualizations/embedding_isotropy.png)
358
 
359
+ ![Similarity Matrix](visualizations/embedding_similarity.png)
360
 
361
+ ![t-SNE Words](visualizations/tsne_words.png)
362
 
363
+ ![t-SNE Sentences](visualizations/tsne_sentences.png)
364
 
365
  ### Model Comparison
366
 
 
381
  ---
382
  ## 6. Summary & Recommendations
383
 
384
+ ![Performance Dashboard](visualizations/performance_dashboard.png)
385
 
386
  ### Production Recommendations
387
 
 
530
 
531
  ### Visualizations Index
532
 
533
+ | Visualization | Description |
534
+ |---------------|-------------|
535
+ | Tokenizer Compression | Compression ratios by vocabulary size |
536
+ | Tokenizer Fertility | Average token length by vocabulary |
537
+ | Tokenizer OOV | Unknown token rates |
538
+ | Tokenizer Total Tokens | Total tokens by vocabulary |
539
+ | N-gram Perplexity | Perplexity by n-gram size |
540
+ | N-gram Entropy | Entropy by n-gram size |
541
+ | N-gram Coverage | Top pattern coverage |
542
+ | N-gram Unique | Unique n-gram counts |
543
+ | Markov Entropy | Entropy by context size |
544
+ | Markov Branching | Branching factor by context |
545
+ | Markov Contexts | Unique context counts |
546
+ | Zipf's Law | Frequency-rank distribution with fit |
547
+ | Vocab Frequency | Word frequency distribution |
548
+ | Top 20 Words | Most frequent words |
549
+ | Vocab Coverage | Cumulative coverage curve |
550
+ | Embedding Isotropy | Vector space uniformity |
551
+ | Embedding Norms | Vector magnitude distribution |
552
+ | Embedding Similarity | Word similarity heatmap |
553
+ | Nearest Neighbors | Similar words for key terms |
554
+ | t-SNE Words | 2D word embedding visualization |
555
+ | t-SNE Sentences | 2D sentence embedding visualization |
556
+ | Position Encoding | Encoding method comparison |
557
+ | Model Sizes | Storage requirements |
558
+ | Performance Dashboard | Comprehensive performance overview |
559
 
560
  ---
561
  ## About This Project
 
599
  ---
600
  *Generated by Wikilangs Models Pipeline*
601
 
602
+ *Report Date: 2025-12-27 04:11:56*