wikilangs
/

ary

@@ -17,6 +17,9 @@ library_name: wikilangs
 pipeline_tag: feature-extraction
 datasets:
   - omarkamali/wikipedia-monthly
 metrics:
   - name: best_compression_ratio
     type: compression
@@ -36,10 +39,71 @@ generated: 2025-12-27
 This report presents a comprehensive evaluation of language models trained on **Moroccan Arabic** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ---
 ## 1. Tokenizer Evaluation
-![Tokenizer Compression](visualizations/01_tokenizer_compression.png)
 ### Results
@@ -54,33 +118,44 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `لّبسة لْجوية د لْغطيس (ب نݣليزية Atmospheric diving suit) هوّا لبسة ل شخص واحد ك...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁لّ ب سة ▁لْ ج وية ▁د ▁لْ غط يس ... (+44 more)` | 54 |
-| 16k | `▁لّ ب سة ▁لْ ج وية ▁د ▁لْ غط يس ... (+38 more)` | 48 |
-| 32k | `▁لّ ب سة ▁لْ ج وية ▁د ▁لْ غط يس ... (+35 more)` | 45 |
-| 64k | `▁لّبسة ▁لْج وية ▁د ▁لْ غط يس ▁( ب ▁نݣليزية ... (+30 more)` | 40 |
-**Sample 2:** `هادي صفحة د التوضيح، ناصر عربية سمية د دكر. هادو شخصيات سميتهوم ناصر:
- ناصر لارݣ...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ن اصر ▁عربية ▁سمية ▁د ... (+33 more)` | 43 |
-| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ناصر ▁عربية ▁سمية ▁د ▁دكر ... (+24 more)` | 34 |
-| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ناصر ▁عربية ▁سمية ▁د ▁دكر ... (+19 more)` | 29 |
-| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁ناصر ▁عربية ▁سمية ▁د ▁دكر ... (+19 more)` | 29 |
-**Sample 3:** `اتحاد سلا هي فرقة مغريبية من مدينة سلا. تأسسات فـ1937، وكتلعب فتيران حي الرحمة ا...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+30 more)` | 40 |
-| 16k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+28 more)` | 38 |
-| 32k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+28 more)` | 38 |
-| 64k | `▁اتحاد ▁سلا ▁هي ▁فرقة ▁مغريبية ▁من ▁مدينة ▁سلا . ▁تأسسات ... (+27 more)` | 37 |
 ### Key Findings
@@ -93,9 +168,9 @@ Below are sample sentences tokenized with each vocabulary size:
 ---
 ## 2. N-gram Model Evaluation
-![N-gram Perplexity](visualizations/05_ngram_perplexity.png)
-![N-gram Coverage](visualizations/07_ngram_coverage.png)
 ### Results
@@ -151,9 +226,9 @@ Below are sample sentences tokenized with each vocabulary size:
 ---
 ## 3. Markov Chain Evaluation
-![Markov Entropy](visualizations/09_markov_entropy.png)
-![Markov Branching](visualizations/10_markov_branching.png)
 ### Results
@@ -174,27 +249,27 @@ Below are text samples generated from each Markov chain model:
 **Context Size 1:**
-1. `. والفيلم لاخر ف جماعة قروية ف الدور د أدالت سويم " . a . بمعنى`
-2. `، و الجاج و 3000 بايت تصنيف : جهة سوس تصنيف : منتج ؤ بني ملال`
-3. `ف خمس سنين ، gallagher , blaine d ݣروپ c . ديليم د لعمر عند الجواج`
 **Context Size 2:**
-1. `تصنيف : بلايص مسكونين ف إقليم تاونات تصنيف : زيادة 1564 تصنيف : عوام د تقويم لميلادي`
-2. `، و نسبة د الناس النشيطين ( اللي سموها العرب بـالنكبة . الدعم الجوي : تم ختيارو`
-3. `ن ّ اس ل ّ خر د لعام تصنيف : سياسي مغريبي ، من بعد ، مشا`
 **Context Size 3:**
-1. `مصادر تصنيف : فيلسوف روماني قديم تصنيف : كاتب ألماني تصنيف : رياضيين من أصل مغريبي تصنيف :`
-2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : ناس حيين تصنيف : سياسي لامنتامي تصنيف :`
-3. `ن ّ اس اللي خدامين ف لپريڤي ( أولا البيطاليين اللي سبق ليهوم خدمو ) : 2 ,`
 **Context Size 4:**
-1. `تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات زادهوم داريجابوت تصنيف : تاريخ ديال دابا تصنيف : لقرون`
-2. `نسبة ن ّ اس ن ّ شيطين ( ل ّ ي يقدرو يخدمو ) : 48 % نسبة لبطالة`
-3. `. مصادر تصنيف : تقويم تصنيف : لقرون تصنيف : لألفيات تصنيف : مقالات فيها مصدر و 3000 بايت`
 ### Key Findings
@@ -207,11 +282,11 @@ Below are text samples generated from each Markov chain model:
 ---
 ## 4. Vocabulary Analysis
-![Zipf's Law](visualizations/12_zipf_law.png)
-![Top Words](visualizations/14_top20_words.png)
-![Coverage Curve](visualizations/15_vocab_coverage.png)
 ### Statistics
@@ -279,13 +354,13 @@ Below are text samples generated from each Markov chain model:
 ---
 ## 5. Word Embeddings Evaluation
-![Embedding Isotropy](visualizations/16_embedding_isotropy.png)
-![Similarity Matrix](visualizations/18_embedding_similarity.png)
-![t-SNE Words](visualizations/20_tsne_words.png)
-![t-SNE Sentences](visualizations/21_tsne_sentences.png)
 ### Model Comparison
@@ -306,7 +381,7 @@ Below are text samples generated from each Markov chain model:
 ---
 ## 6. Summary & Recommendations
-![Performance Dashboard](visualizations/24_performance_dashboard.png)
 ### Production Recommendations
@@ -455,32 +530,32 @@ This section provides definitions, intuitions, and guidance for interpreting the
 ### Visualizations Index
-| # | Visualization | Description |
-|---|---------------|-------------|
-| 01 | Tokenizer Compression | Compression ratios by vocabulary size |
-| 02 | Tokenizer Fertility | Average token length by vocabulary |
-| 03 | Tokenizer OOV | Unknown token rates |
-| 04 | Tokenizer Tokens | Total tokens by vocabulary |
-| 05 | N-gram Perplexity | Perplexity by n-gram size |
-| 06 | N-gram Entropy | Entropy by n-gram size |
-| 07 | N-gram Coverage | Top pattern coverage |
-| 08 | N-gram Unique | Unique n-gram counts |
-| 09 | Markov Entropy | Entropy by context size |
-| 10 | Markov Branching | Branching factor by context |
-| 11 | Markov Contexts | Unique context counts |
-| 12 | Zipf's Law | Frequency-rank distribution with fit |
-| 13 | Vocab Frequency | Word frequency distribution |
-| 14 | Top 20 Words | Most frequent words |
-| 15 | Vocab Coverage | Cumulative coverage curve |
-| 16 | Embedding Isotropy | Vector space uniformity |
-| 17 | Embedding Norms | Vector magnitude distribution |
-| 18 | Similarity Matrix | Word similarity heatmap |
-| 19 | Nearest Neighbors | Similar words for key terms |
-| 20 | t-SNE Words | 2D word embedding visualization |
-| 21 | t-SNE Sentences | 2D sentence embedding visualization |
-| 22 | Position Encoding | Encoding method comparison |
-| 23 | Model Sizes | Storage requirements |
-| 24 | Dashboard | Comprehensive performance overview |
 ---
 ## About This Project
@@ -524,4 +599,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2025-12-27 04:02:58*

 pipeline_tag: feature-extraction
 datasets:
   - omarkamali/wikipedia-monthly
+dataset_info:
+  name: wikipedia-monthly
+  description: Monthly snapshots of Wikipedia articles across 300+ languages
 metrics:
   - name: best_compression_ratio
     type: compression
 This report presents a comprehensive evaluation of language models trained on **Moroccan Arabic** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
+## 📋 Repository Contents
+### Models & Assets
+```
+models/
+├── tokenizer/
+│   └── 8k.model
+│   └── 16k.model
+│   └── 32k.model
+│   └── 64k.model
+├── word_ngram/
+│   └── 2gram.pkl
+│   └── 3gram.pkl
+│   └── 4gram.pkl
+└── subword_ngram/
+    └── 2gram.pkl
+    └── 3gram.pkl
+    └── 4gram.pkl
+├── word_markov/
+│   └── context_1.pkl
+│   └── context_2.pkl
+│   └── context_3.pkl
+│   └── context_4.pkl
+└── subword_markov/
+    └── context_1.pkl
+    └── context_2.pkl
+    └── context_3.pkl
+    └── context_4.pkl
+├── vocabulary/
+│   ├── vocab.txt
+│   └── frequencies.json
+└── embeddings/
+    └── embeddings_enhanced.bin
+    └── mono_128d.bin
+    └── mono_32d.bin
+    └── mono_64d.bin
+```
+### Documentation & Visualizations
+- **README.md** - This comprehensive report
+- **visualizations/** - 24+ evaluation figures and charts
+  - Tokenizer compression, fertility, OOV rates
+  - N-gram perplexity, entropy, coverage
+  - Markov chain analysis and text generation samples
+  - Vocabulary statistics and Zipf's law analysis
+  - Embedding isotropy, similarity, and t-SNE visualizations
+![Performance Dashboard](visualizations/performance_dashboard.png)
+### Quick Links
+- [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
+- [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
+- [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
+- [4. Vocabulary Analysis](#4-vocabulary-analysis)
+- [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
+- [6. Summary & Recommendations](#6-summary--recommendations)
+- [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
+- [Visualizations Index](#visualizations-index)
 ---
 ## 1. Tokenizer Evaluation
+![Tokenizer Compression](visualizations/tokenizer_compression.png)
 ### Results
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `باراج سيدي محمد بن عبد الله هو باراج ف لمغريب ف الرباط تيصب فيه واد بورݣراݣ.
+ ش...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁بار اج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁بار اج ... (+26 more)` | 36 |
+| 16k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+22 more)` | 32 |
+| 32k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+20 more)` | 30 |
+| 64k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+19 more)` | 29 |
+**Sample 2:** `أسيل عمران (مزيودة ف 1989) هي مغنية و ممتلة سعودية كتعيش ف لإمارات.
+ مصادر
+تص...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁أس يل ▁عمر ان ▁( مزيودة ��ف ▁ 1 9 ... (+36 more)` | 46 |
+| 16k | `▁أس يل ▁عمر ان ▁( مزيودة ▁ف ▁ 1 9 ... (+32 more)` | 42 |
+| 32k | `▁أس يل ▁عمران ▁( مزيودة ▁ف ▁ 1 9 8 ... (+28 more)` | 38 |
+| 64k | `▁أس يل ▁عمران ▁( مزيودة ▁ف ▁ 1 9 8 ... (+28 more)` | 38 |
+**Sample 3:** `لجدوال ديال الترتيب
+ شوف حتى
+ بوطولا 1
+ بوطولا 2
+ لهيكلة لهرمية د لبوطولات د...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
+| 16k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
+| 32k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
+| 64k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+15 more)` | 25 |
 ### Key Findings
 ---
 ## 2. N-gram Model Evaluation
+![N-gram Perplexity](visualizations/ngram_perplexity.png)
+![N-gram Coverage](visualizations/ngram_coverage.png)
 ### Results
 ---
 ## 3. Markov Chain Evaluation
+![Markov Entropy](visualizations/markov_entropy.png)
+![Markov Branching](visualizations/markov_branching.png)
 ### Results
 **Context Size 1:**
+1. `. مصادر تصنيف : lux 1908 ف ضومينات معينين ، نسبة د لأمية واصلة ل 1`
+2. `، مادام لغالبية د د فصل اللخرين فيرمات لببور د لعمر عند لعيالات ) . هو`
+3. `ف لإيرا لعامة ؤ 2755 ف أميريكا أنتاركتيكا : سلطان ، واللي هوما لأمنيوطات ولاو كا`
 **Context Size 2:**
+1. `تصنيف : مقالات زادهوم داريجابوت تصنيف : شخصيات عندها كتر من لمناضير ط ّ بيعية ( natural`
+2. `، و ݣال بلي الدرية ديالو ، حتا عاود رجع ف ماتش واحد حتى ل21 يوم من`
+3. `ن ّ اس اللي خدامين ف د ّ وار كينتامي ل مشيخة أيت تونرت لي كتضم 12`
 **Context Size 3:**
+1. `مصادر تصنيف : شركة متعددة الجنسيات تصنيف : إيلون ماسك`
+2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : ناس د بركان تصنيف : بلايص مسكونين ف`
+3. `ن ّ اس اللي خدامين ف لپريڤي ( ولا لبيطاليين اللي سبق ليهوم خدمو ) : 0 %`
 **Context Size 4:**
+1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم لحوز تصنيف : مقالات`
+2. `نسبة ن ّ اس ن ّ شيطين ( ل ّ ي يقدرو يخدمو ) : 47 , 7 %`
+3. `. مصادر تصنيف : زيادة 1921 تصنيف : وفيات 1951 تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف`
 ### Key Findings
 ---
 ## 4. Vocabulary Analysis
+![Zipf's Law](visualizations/zipf_law.png)
+![Top Words](visualizations/top20_words.png)
+![Coverage Curve](visualizations/vocab_coverage.png)
 ### Statistics
 ---
 ## 5. Word Embeddings Evaluation
+![Embedding Isotropy](visualizations/embedding_isotropy.png)
+![Similarity Matrix](visualizations/embedding_similarity.png)
+![t-SNE Words](visualizations/tsne_words.png)
+![t-SNE Sentences](visualizations/tsne_sentences.png)
 ### Model Comparison
 ---
 ## 6. Summary & Recommendations
+![Performance Dashboard](visualizations/performance_dashboard.png)
 ### Production Recommendations
 ### Visualizations Index
+| Visualization | Description |
+|---------------|-------------|
+| Tokenizer Compression | Compression ratios by vocabulary size |
+| Tokenizer Fertility | Average token length by vocabulary |
+| Tokenizer OOV | Unknown token rates |
+| Tokenizer Total Tokens | Total tokens by vocabulary |
+| N-gram Perplexity | Perplexity by n-gram size |
+| N-gram Entropy | Entropy by n-gram size |
+| N-gram Coverage | Top pattern coverage |
+| N-gram Unique | Unique n-gram counts |
+| Markov Entropy | Entropy by context size |
+| Markov Branching | Branching factor by context |
+| Markov Contexts | Unique context counts |
+| Zipf's Law | Frequency-rank distribution with fit |
+| Vocab Frequency | Word frequency distribution |
+| Top 20 Words | Most frequent words |
+| Vocab Coverage | Cumulative coverage curve |
+| Embedding Isotropy | Vector space uniformity |
+| Embedding Norms | Vector magnitude distribution |
+| Embedding Similarity | Word similarity heatmap |
+| Nearest Neighbors | Similar words for key terms |
+| t-SNE Words | 2D word embedding visualization |
+| t-SNE Sentences | 2D sentence embedding visualization |
+| Position Encoding | Encoding method comparison |
+| Model Sizes | Storage requirements |
+| Performance Dashboard | Comprehensive performance overview |
 ---
 ## About This Project
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2025-12-27 04:11:56*