omarkamali commited on Jan 3

Commit

7106321

verified ·

1 Parent(s): a13b387

Upload all models and assets for ary (latest)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
README.md +215 -175
models/embeddings/aligned/ary_128d.bin +3 -0
models/embeddings/aligned/ary_128d.meta.json +1 -0
models/embeddings/aligned/ary_128d.projection.npy +3 -0
models/embeddings/aligned/ary_128d_metadata.json +8 -0
models/embeddings/aligned/ary_32d.bin +3 -0
models/embeddings/aligned/ary_32d.meta.json +1 -0
models/embeddings/aligned/ary_32d.projection.npy +3 -0
models/embeddings/aligned/ary_32d_metadata.json +8 -0
models/embeddings/aligned/ary_64d.bin +3 -0
models/embeddings/aligned/ary_64d.meta.json +1 -0
models/embeddings/aligned/ary_64d.projection.npy +3 -0
models/embeddings/aligned/ary_64d_metadata.json +8 -0
models/embeddings/monolingual/ary_128d.bin +2 -2
models/embeddings/monolingual/ary_128d_metadata.json +1 -1
models/embeddings/monolingual/ary_32d.bin +2 -2
models/embeddings/monolingual/ary_32d_metadata.json +1 -1
models/embeddings/monolingual/ary_64d.bin +2 -2
models/embeddings/monolingual/ary_64d_metadata.json +1 -1
models/subword_markov/ary_markov_ctx1_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx1_subword_metadata.json +2 -2
models/subword_markov/ary_markov_ctx2_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx2_subword_metadata.json +2 -2
models/subword_markov/ary_markov_ctx3_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx3_subword_metadata.json +2 -2
models/subword_markov/ary_markov_ctx4_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx4_subword_metadata.json +2 -2
models/subword_ngram/ary_2gram_subword.parquet +2 -2
models/subword_ngram/ary_2gram_subword_metadata.json +2 -2
models/subword_ngram/ary_3gram_subword.parquet +2 -2
models/subword_ngram/ary_3gram_subword_metadata.json +2 -2
models/subword_ngram/ary_4gram_subword.parquet +2 -2
models/subword_ngram/ary_4gram_subword_metadata.json +2 -2
models/subword_ngram/ary_5gram_subword.parquet +3 -0
models/subword_ngram/ary_5gram_subword_metadata.json +7 -0
models/tokenizer/ary_tokenizer_16k.model +2 -2
models/tokenizer/ary_tokenizer_16k.vocab +0 -0
models/tokenizer/ary_tokenizer_32k.model +2 -2
models/tokenizer/ary_tokenizer_32k.vocab +0 -0
models/tokenizer/ary_tokenizer_64k.model +2 -2
models/tokenizer/ary_tokenizer_64k.vocab +0 -0
models/tokenizer/ary_tokenizer_8k.model +2 -2
models/tokenizer/ary_tokenizer_8k.vocab +0 -0
models/vocabulary/ary_vocabulary.parquet +2 -2
models/vocabulary/ary_vocabulary_metadata.json +9 -9
models/word_markov/ary_markov_ctx1_word.parquet +2 -2
models/word_markov/ary_markov_ctx1_word_metadata.json +2 -2
models/word_markov/ary_markov_ctx2_word.parquet +2 -2
models/word_markov/ary_markov_ctx2_word_metadata.json +2 -2

.gitattributes CHANGED Viewed

@@ -39,3 +39,4 @@ visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text
 visualizations/position_encoding_comparison.png filter=lfs diff=lfs merge=lfs -text

 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text
 visualizations/position_encoding_comparison.png filter=lfs diff=lfs merge=lfs -text
+visualizations/embedding_tsne_multilingual.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -10,11 +10,21 @@ tags:
   - n-gram
   - markov
   - wikipedia
   - monolingual
   - family-arabic
 license: mit
 library_name: wikilangs
-pipeline_tag: feature-extraction
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
@@ -23,10 +33,10 @@ dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
-    value: 4.180
   - name: best_isotropy
     type: isotropy
-    value: 0.8384
   - name: vocabulary_size
     type: vocab
     value: 0
@@ -60,7 +70,7 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
-- [6. Morphological Analysis (Experimental)](#6-morphological-analysis)
 - [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
@@ -80,47 +90,47 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
-| **8k** | 3.512x | 3.52 | 0.0922% | 278,716 |
-| **16k** | 3.778x | 3.78 | 0.0992% | 259,059 |
-| **32k** | 4.002x | 4.01 | 0.1051% | 244,561 |
-| **64k** | 4.180x 🏆 | 4.18 | 0.1098% | 234,163 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `مصادر شوف تا داريجة تاريخ لكتابة ب داريجة ليستة د لمكتوبات ب داريجة ليستة د لكتو...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁مصادر ▁شوف ▁تا ▁داريجة ▁تاريخ ▁لكتابة ▁ب ▁داريجة ▁ليستة ▁د ... (+22 more)` | 32 |
-| 16k | `▁مصادر ▁شوف ▁تا ▁داريجة ▁تاريخ ▁لكتابة ▁ب ▁داريجة ▁ليستة ▁د ... (+20 more)` | 30 |
-| 32k | `▁مصادر ▁شوف ▁تا ▁داريجة ▁تاريخ ▁لكتابة ▁ب ▁داريجة ▁ليستة ▁د ... (+20 more)` | 30 |
-| 64k | `▁مصادر ▁شوف ▁تا ▁داريجة ▁تاريخ ▁لكتابة ▁ب ▁داريجة ▁ليستة ▁د ... (+20 more)` | 30 |
-**Sample 2:** `أمين رباطي (مزيود ف يوليوز هو كوايري مغريبي. مصادر مغريبي د رجال حيين`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁أمين ▁رباط ي ▁( مزيود ▁ف ▁يوليوز ▁هو ▁كوايري ▁مغريبي ... (+6 more)` | 16 |
-| 16k | `▁أمين ▁رباط ي ▁( مزيود ▁ف ▁يوليوز ▁هو ▁كوايري ▁مغريبي ... (+6 more)` | 16 |
-| 32k | `▁أمين ▁رباطي ▁( مزيود ▁ف ▁يوليوز ▁هو ▁كوايري ▁مغريبي . ... (+5 more)` | 15 |
-| 64k | `▁أمين ▁رباطي ▁( مزيود ▁ف ▁يوليوز ▁هو ▁كوايري ▁مغريبي . ... (+5 more)` | 15 |
-**Sample 3:** `هادي صفحة د التوضيح، كلمة دوري يمكن يكونو عندها هاد لمعاني: طابلو دوري دوري أبطا...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁دوري ▁يمكن ▁يكونو ▁عندها ... (+10 more)` | 20 |
-| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁دوري ▁يمكن ▁يكونو ▁عندها ... (+9 more)` | 19 |
-| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁دوري ▁يمكن ▁يكونو ▁عندها ... (+9 more)` | 19 |
-| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁دوري ▁يمكن ▁يكونو ▁عندها ... (+9 more)` | 19 |
 ### Key Findings
-- **Best Compression:** 64k achieves 4.180x compression
-- **Lowest UNK Rate:** 8k with 0.0922% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
@@ -137,12 +147,14 @@ Below are sample sentences tokenized with each vocabulary size:
 | N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
 |--------|---------|------------|---------|----------------|------------------|-------------------|
-| **2-gram** | Word | 6,129 | 12.58 | 35,218 | 24.5% | 53.4% |
-| **2-gram** | Subword | 415 🏆 | 8.70 | 5,585 | 58.6% | 96.6% |
-| **3-gram** | Word | 4,994 | 12.29 | 39,702 | 28.5% | 58.9% |
-| **3-gram** | Subword | 3,624 | 11.82 | 41,944 | 23.5% | 61.8% |
-| **4-gram** | Word | 6,987 | 12.77 | 63,706 | 28.4% | 55.4% |
-| **4-gram** | Subword | 18,675 | 14.19 | 204,568 | 12.3% | 37.2% |
 ### Top 5 N-grams by Size
@@ -152,8 +164,8 @@ Below are sample sentences tokenized with each vocabulary size:
 |------|--------|-------|
 | 1 | `واصلة ل` | 8,540 |
 | 2 | `نسبة د` | 7,170 |
-| 3 | `ف لمغريب` | 6,247 |
-| 4 | `ف إقليم` | 6,016 |
 | 5 | `ف نسبة` | 4,265 |
 **3-grams (Word):**
@@ -164,7 +176,7 @@ Below are sample sentences tokenized with each vocabulary size:
 | 2 | `فيها مصدر و` | 3,236 |
 | 3 | `و نسبة د` | 2,894 |
 | 4 | `مصدر و بايت` | 2,856 |
-| 5 | `اللي خدامين ف` | 2,759 |
 **4-grams (Word):**
@@ -172,46 +184,66 @@ Below are sample sentences tokenized with each vocabulary size:
 |------|--------|-------|
 | 1 | `فيها مصدر و بايت` | 2,856 |
 | 2 | `نسبة نّاس اللي خدامين` | 2,705 |
-| 3 | `نّاس اللي خدامين ف` | 2,593 |
 | 4 | `على حساب لإحصاء الرسمي` | 2,501 |
-| 5 | `لعاداد د سّكان ديالو` | 2,500 |
 **2-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `ا ل` | 293,281 |
-| 2 | `_ ل` | 265,615 |
-| 3 | `ة _` | 209,034 |
-| 4 | `_ ا` | 180,710 |
-| 5 | `_ م` | 141,509 |
 **3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `_ ا ل` | 176,897 |
-| 2 | `_ ف _` | 80,240 |
-| 3 | `_ د _` | 57,749 |
-| 4 | `_ و _` | 57,033 |
-| 5 | `ا ت _` | 56,985 |
 **4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `_ د ي ا` | 43,807 |
-| 2 | `د ي ا ل` | 43,597 |
-| 3 | `ي ا ل _` | 30,362 |
-| 4 | `د _ ا ل` | 29,177 |
-| 5 | `_ م ن _` | 25,265 |
 ### Key Findings
-- **Best Perplexity:** 2-gram (subword) with 415
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
-- **Coverage:** Top-1000 patterns cover ~37% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
@@ -227,14 +259,14 @@ Below are sample sentences tokenized with each vocabulary size:
 | Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
 |---------|---------|-------------|------------|------------------|-----------------|----------------|
-| **1** | Word | 0.8416 | 1.792 | 5.23 | 162,378 | 15.8% |
-| **1** | Subword | 1.1133 | 2.163 | 8.05 | 2,149 | 0.0% |
-| **2** | Word | 0.2252 | 1.169 | 1.49 | 849,251 | 77.5% |
-| **2** | Subword | 0.8048 | 1.747 | 4.99 | 17,291 | 19.5% |
-| **3** | Word | 0.0625 | 1.044 | 1.10 | 1,262,316 | 93.8% |
-| **3** | Subword | 0.8001 | 1.741 | 4.09 | 86,361 | 20.0% |
-| **4** | Word | 0.0215 🏆 | 1.015 | 1.04 | 1,391,141 | 97.9% |
-| **4** | Subword | 0.6559 | 1.576 | 2.83 | 352,807 | 34.4% |
 ### Generated Text Samples (Word-based)
@@ -242,27 +274,27 @@ Below are text samples generated from each word-based Markov chain model:
 **Context Size 1:**
-1. `ف لجولة اللولة ديالو ماسك ب الريحة فاميلة ديال لوغات الأمازيغية هويتنا الوطنية بحال بنادم بشكل`
-2. `د الشوماج واصلة ل كانت وحدة من جيهت بّاه إيرول ماسك أسس جمعية الشرف هو اللعاب`
-3. `و بايت زادهوم داريجابوت 19 فاش كانو كايطراو ف نسبة لبطالة نّاس نّشيطين لّي يقدرو يخدمو`
 **Context Size 2:**
-1. `واصلة ل 5 و عدد لفاميلات تزاد ب 12 2 لمشاركات ف كأس افريقيا في البطولة ديال`
-2. `نسبة د الناس النشيطين ف دوار أمرس واصلة ل 96 3 و نسبة د الجواج ف امزرو`
-3. `ف لمغريب ف إقليم تارودانت جهة سوس ماسة ف لمغريب ف إقليم وارزازات جهة درعا تافيلالت ساكنين`
 **Context Size 3:**
-1. `ف نسبة د الناس النشيطين ف دوار تامكونسي واصلة ل 49 7 و لموعدّال د لعمر عند الجواج`
-2. `فيها مصدر و علاين بايت د الصويرة`
-3. `و نسبة د الشوماج واصلة ل 14 7 نوطات مصادر ف لمغريب ف إقليم لحوز زادهوم داريجابوت`
 **Context Size 4:**
-1. `نسبة نّاس اللي خدامين ف دّولة ولا لبيطاليين اللي سبق ليهوم مصادر طنجة تطوان الحسيمة قروية ف إقليم لح...`
-2. `نّاس اللي خدامين ف دّولة ولا لبيطاليين اللي سبق ليهوم خدمو 6 7 نسبة نّاس اللي خدامين ف لپريڤي`
-3. `على حساب لإحصاء الرسمي د عام إحصائيات إحصائيات عامة عدد السكان ديال تمزاوروت تزاد ب 18 6 و عدد`
 ### Generated Text Samples (Subword-based)
@@ -271,34 +303,34 @@ Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
-1. `_"أكابي_مناتحسن_`
-2. `ايلممرسية_اهة،_ل`
-3. `لم"ليعن_لنف_لميم`
 **Context Size 2:**
-1. `ال_لليزنيز،_إسلة_`
-2. `_لعام_نخب_ور_تقرو`
-3. `ة_سويسها_كولا_بحو`
 **Context Size 3:**
-1. `_اللات،_سورين._لڭر`
-2. `_ف_نسبة_شبه_ولكرور`
-3. `_د_لعالمغريب._هوّ_و`
 **Context Size 4:**
-1. `_ديال_على_حساب_لإحص`
-2. `ديالو،_(a)_–_bringe`
-3. `يال_التاني_توفى_عوا`
 ### Key Findings
 - **Best Predictability:** Context-4 (word) with 97.9% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
-- **Memory Trade-off:** Larger contexts require more storage (352,807 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
@@ -314,64 +346,64 @@ Below are text samples generated from each subword-based Markov chain model:
 | Metric | Value |
 |--------|-------|
-| Vocabulary Size | 70,940 |
-| Total Tokens | 1,845,717 |
-| Mean Frequency | 26.02 |
 | Median Frequency | 4 |
-| Frequency Std Dev | 518.94 |
 ### Most Common Words
 | Rank | Word | Frequency |
 |------|------|-----------|
-| 1 | ف | 80,525 |
-| 2 | د | 57,913 |
-| 3 | و | 57,274 |
-| 4 | ديال | 29,978 |
-| 5 | من | 25,568 |
-| 6 | ل | 23,006 |
-| 7 | على | 17,625 |
-| 8 | لي | 17,540 |
-| 9 | نسبة | 16,376 |
-| 10 | ب | 16,161 |
 ### Least Common Words (from vocabulary)
 | Rank | Word | Frequency |
 |------|------|-----------|
-| 1 | تعاونيات | 2 |
-| 2 | خواني | 2 |
-| 3 | والمصطلحات | 2 |
-| 4 | والنقدية | 2 |
-| 5 | شرقًا | 2 |
-| 6 | غربًا | 2 |
-| 7 | المتري | 2 |
-| 8 | بالمدّ | 2 |
-| 9 | والعبارات | 2 |
-| 10 | الكرم | 2 |
 ### Zipf's Law Analysis
 | Metric | Value |
 |--------|-------|
-| Zipf Coefficient | 1.0352 |
-| R² (Goodness of Fit) | 0.998696 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
-| Top 100 | 40.4% |
-| Top 1,000 | 64.9% |
-| Top 5,000 | 79.3% |
-| Top 10,000 | 85.4% |
 ### Key Findings
-- **Zipf Compliance:** R²=0.9987 indicates excellent adherence to Zipf's law
-- **High Frequency Dominance:** Top 100 words cover 40.4% of corpus
-- **Long Tail:** 60,940 words needed for remaining 14.6% coverage
 ---
 ## 5. Word Embeddings Evaluation
@@ -387,37 +419,40 @@ Below are text samples generated from each subword-based Markov chain model:
 ### 5.1 Cross-Lingual Alignment
-> *Note: Multilingual alignment visualization not available for this language.*
 ### 5.2 Model Comparison
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
-| **mono_32d** | 32 | 0.8384 🏆 | 0.3320 | N/A | N/A |
-| **mono_64d** | 64 | 0.8149 | 0.2519 | N/A | N/A |
-| **mono_128d** | 128 | 0.6695 | 0.2114 | N/A | N/A |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.8384 (more uniform distribution)
-- **Semantic Density:** Average pairwise similarity of 0.2651. Lower values indicate better semantic separation.
-- **Alignment Quality:** No aligned models evaluated in this run.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 ## 6.  Morphological Analysis (Experimental)
-> ⚠️ **Warning:** This language shows low morphological productivity. The statistical signals used for this analysis may be noisy or less reliable than for morphologically rich languages.
 This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
 ### 6.1 Productivity & Complexity
 | Metric | Value | Interpretation | Recommendation |
 |--------|-------|----------------|----------------|
-| Productivity Index | **0.000** | Low morphological productivity | ⚠️ Likely unreliable |
-| Idiomaticity Gap | **-1.000** | Low formulaic content | - |
 ### 6.2 Affix Inventory (Productive Units)
@@ -426,16 +461,17 @@ These are the most productive prefixes and suffixes identified by sampling the v
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
-| `-ال` | التار, العادات, الواري |
-| `-لم` | لموتقافين, لمحمية, لموتيفات |
-| `-كا` | كايعطيهوم, كايتبناو, كايلمح |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
-| `-ات` | العادات, باللوغات, وزّعات |
-| `-ية` | حيمائية, لافريقية, ليدارية |
-| `-ين` | نّازيين, فالميادين, لموتقافين |
 ### 6.3 Bound Stems (Lexical Roots)
@@ -443,18 +479,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
-| `انية` | 1.82x | 63 contexts | تانية, كانية, دانية |
-| `الات` | 1.79x | 57 contexts | تالات, صالات, سالات |
-| `جماع` | 1.93x | 37 contexts | تجماع, إجماع, جماعة |
-| `لمغر` | 2.01x | 28 contexts | لمغرب, لمغربي, دلمغرب |
-| `اللو` | 1.65x | 57 contexts | اللوت, اللوز, اللوح |
-| `النا` | 1.64x | 55 contexts | النار, الناس, الناتو |
-| `دهوم` | 2.21x | 16 contexts | ضدهوم, جهدهوم, بعدهو�� |
-| `مغري` | 2.02x | 18 contexts | مغرية, مغريب, مغريبي |
-| `قليم` | 2.06x | 15 contexts | اقليم, فقليم, إقليم |
-| `لجوا` | 1.76x | 24 contexts | لجواب, الجوا, لجوائر |
-| `اميل` | 1.78x | 23 contexts | كاميل, عاميل, ݣاميلة |
-| `إحصا` | 2.08x | 14 contexts | لإحصا, إحصاء, إحصائي |
 ### 6.4 Affix Compatibility (Co-occurrence)
@@ -462,14 +498,16 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
-| `-ال` | `-ية` | 126 words | الكوانتية, الشهية |
-| `-ال` | `-ات` | 123 words | العقوبات, الدبانيات |
-| `-ال` | `-ين` | 70 words | الرينين, الثلاثين |
-| `-لم` | `-ات` | 41 words | لمسراحيات, لمانيفولضات |
-| `-لم` | `-ين` | 37 words | لمعروفين, لموليكيين |
-| `-لم` | `-ية` | 18 words | لماركسية, لمرساوية |
-| `-كا` | `-ين` | 2 words | كاتبيين, كالكيريين |
-| `-كا` | `-ات` | 2 words | كارنيڤورات, كاريكاتورات |
 ### 6.5 Recursive Morpheme Segmentation
@@ -477,26 +515,28 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
-| لمعلوماتية | **`لم-علوم-ات-ية`** | 7.5 | `علوم` |
-| الثلاثينات | **`ال-ثلاث-ين-ات`** | 7.5 | `ثلاث` |
-| التأريخية | **`ال-تأريخ-ية`** | 6.0 | `تأريخ` |
-| المهندسين | **`ال-مهندس-ين`** | 6.0 | `مهندس` |
-| التيليفونات | **`ال-تيليفون-ات`** | 6.0 | `تيليفون` |
-| السيشيلية | **`ال-سيشيل-ية`** | 6.0 | `سيشيل` |
-| المجتمعين | **`ال-مجتمع-ين`** | 6.0 | `مجتمع` |
-| التجهيزات | **`ال-تجهيز-ات`** | 6.0 | `تجهيز` |
-| العثمانية | **`ال-عثمان-ية`** | 6.0 | `عثمان` |
-| المعتقدات | **`ال-معتقد-ات`** | 6.0 | `معتقد` |
-| البوليسية | **`ال-بوليس-ية`** | 6.0 | `بوليس` |
-| التشكالات | **`ال-تشكال-ات`** | 6.0 | `تشكال` |
-| المستشارين | **`ال-مستشار-ين`** | 6.0 | `مستشار` |
-| السيركويات | **`ال-سيركوي-ات`** | 6.0 | `سيركوي` |
-| التحضيرية | **`ال-تحضير-ية`** | 6.0 | `تحضير` |
 ### 6.6 Linguistic Interpretation
 > **Automated Insight:**
-The language Moroccan Arabic appears to be more isolating or has a highly fixed vocabulary. Word-level models perform nearly as well as subword models, indicating fewer productive morphological processes.
 ---
 ## 7. Summary & Recommendations
@@ -507,8 +547,8 @@ The language Moroccan Arabic appears to be more isolating or has a highly fixed
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
-| Tokenizer | **64k BPE** | Best compression (4.18x) |
-| N-gram | **2-gram** | Lowest perplexity (415) |
 | Markov | **Context-4** | Highest predictability (97.9%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
@@ -723,4 +763,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2026-01-03 05:20:40*

   - n-gram
   - markov
   - wikipedia
+  - feature-extraction
+  - sentence-similarity
+  - tokenization
+  - n-grams
+  - markov-chain
+  - text-mining
+  - fasttext
+  - babelvec
+  - vocabulous
+  - vocabulary
   - monolingual
   - family-arabic
 license: mit
 library_name: wikilangs
+pipeline_tag: text-generation
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
+    value: 4.171
   - name: best_isotropy
     type: isotropy
+    value: 0.8303
   - name: vocabulary_size
     type: vocab
     value: 0
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
+- [6. Morphological Analysis (Experimental)](#6--morphological-analysis-experimental)
 - [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
+| **8k** | 3.480x | 3.48 | 0.0910% | 300,099 |
+| **16k** | 3.753x | 3.76 | 0.0981% | 278,271 |
+| **32k** | 3.983x | 3.99 | 0.1041% | 262,209 |
+| **64k** | 4.171x 🏆 | 4.18 | 0.1090% | 250,397 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `لجدوال ديال الترتيب شوف حتى بوطولا 1 بوطولا 2 لهيكلة لهرمية د لبوطولات ديال كورة...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
+| 16k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
+| 32k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
+| 64k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
+**Sample 2:** `هادي صفحة د التوضيح، كلمة أنفا يمكن يكونو عندها هاد لمعاني: مقاطعة أنفا: حي كاين...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أن فا ▁يمكن ▁يكونو ... (+27 more)` | 37 |
+| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أنفا ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
+| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أنفا ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
+| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أنفا ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
+**Sample 3:** `هادي صفحة د التوضيح، كلمة منى يمكن يكونو عندها هاد لمعاني: منى صابر منى أمرشا من...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁من ى ▁يمكن ▁يكونو ... (+17 more)` | 27 |
+| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁منى ▁يمكن ▁يكونو ▁عندها ... (+13 more)` | 23 |
+| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁منى ▁يمكن ▁يكونو ▁عندها ... (+12 more)` | 22 |
+| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁منى ▁يمكن ▁يكونو ▁عندها ... (+10 more)` | 20 |
 ### Key Findings
+- **Best Compression:** 64k achieves 4.171x compression
+- **Lowest UNK Rate:** 8k with 0.0910% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
 | N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
 |--------|---------|------------|---------|----------------|------------------|-------------------|
+| **2-gram** | Word | 7,228 | 12.82 | 39,512 | 23.0% | 50.8% |
+| **2-gram** | Subword | 424 🏆 | 8.73 | 5,903 | 58.0% | 96.4% |
+| **3-gram** | Word | 5,655 | 12.47 | 43,555 | 27.5% | 57.1% |
+| **3-gram** | Subword | 3,784 | 11.89 | 44,651 | 23.1% | 60.7% |
+| **4-gram** | Word | 7,985 | 12.96 | 70,559 | 27.5% | 53.6% |
+| **4-gram** | Subword | 20,064 | 14.29 | 220,807 | 12.0% | 36.0% |
+| **5-gram** | Word | 7,565 | 12.89 | 58,964 | 28.5% | 52.9% |
+| **5-gram** | Subword | 62,379 | 15.93 | 527,725 | 7.3% | 25.0% |
 ### Top 5 N-grams by Size
 |------|--------|-------|
 | 1 | `واصلة ل` | 8,540 |
 | 2 | `نسبة د` | 7,170 |
+| 3 | `ف لمغريب` | 6,305 |
+| 4 | `ف إقليم` | 6,018 |
 | 5 | `ف نسبة` | 4,265 |
 **3-grams (Word):**
 | 2 | `فيها مصدر و` | 3,236 |
 | 3 | `و نسبة د` | 2,894 |
 | 4 | `مصدر و بايت` | 2,856 |
+| 5 | `اللي خدامين ف` | 2,760 |
 **4-grams (Word):**
 |------|--------|-------|
 | 1 | `فيها مصدر و بايت` | 2,856 |
 | 2 | `نسبة نّاس اللي خدامين` | 2,705 |
+| 3 | `نّاس اللي خدامين ف` | 2,594 |
 | 4 | `على حساب لإحصاء الرسمي` | 2,501 |
+| 5 | `لإحصاء الرسمي د عام` | 2,500 |
+**5-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `نسبة نّاس اللي خدامين ف` | 2,593 |
+| 2 | `هاد دّوار كينتامي ل مشيخة` | 2,500 |
+| 3 | `حساب لإحصاء الرسمي د عام` | 2,500 |
+| 4 | `لمغريب هاد دّوار كينتامي ل` | 2,500 |
+| 5 | `ف لمغريب هاد دّوار كينتامي` | 2,500 |
 **2-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `ا ل` | 347,466 |
+| 2 | `_ ل` | 278,371 |
+| 3 | `ة _` | 229,442 |
+| 4 | `_ ا` | 220,960 |
+| 5 | `_ م` | 156,801 |
 **3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `_ ا ل` | 216,048 |
+| 2 | `_ ف _` | 83,146 |
+| 3 | `ا ت _` | 63,800 |
+| 4 | `ي ة _` | 60,271 |
+| 5 | `_ د _` | 59,563 |
 **4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `_ د ي ا` | 47,798 |
+| 2 | `د ي ا ل` | 47,559 |
+| 3 | `ي ا ل _` | 33,039 |
+| 4 | `د _ ا ل` | 32,831 |
+| 5 | `_ م ن _` | 28,909 |
+**5-grams (Subword):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `_ د ي ا ل` | 47,427 |
+| 2 | `د ي ا ل _` | 32,608 |
+| 3 | `_ ع ل ى _` | 19,473 |
+| 4 | `_ ا ل ل ي` | 18,967 |
+| 5 | `ا ل ل ي _` | 18,744 |
 ### Key Findings
+- **Best Perplexity:** 2-gram (subword) with 424
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
+- **Coverage:** Top-1000 patterns cover ~25% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
 | Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
 |---------|---------|-------------|------------|------------------|-----------------|----------------|
+| **1** | Word | 0.8561 | 1.810 | 5.38 | 178,865 | 14.4% |
+| **1** | Subword | 1.1236 | 2.179 | 8.36 | 2,156 | 0.0% |
+| **2** | Word | 0.2259 | 1.169 | 1.49 | 962,233 | 77.4% |
+| **2** | Subword | 0.8160 | 1.761 | 5.10 | 18,029 | 18.4% |
+| **3** | Word | 0.0618 | 1.044 | 1.10 | 1,431,084 | 93.8% |
+| **3** | Subword | 0.8022 | 1.744 | 4.13 | 91,858 | 19.8% |
+| **4** | Word | 0.0208 🏆 | 1.015 | 1.04 | 1,574,083 | 97.9% |
+| **4** | Subword | 0.6604 | 1.581 | 2.86 | 379,445 | 34.0% |
 ### Generated Text Samples (Word-based)
 **Context Size 1:**
+1. `ف دور السفير اللول تبعوه كتر من أبسط تعريف من chinese medicinal herbs plants biological reviews`
+2. `و واخا تايقولو بلي مفكرين وصحافيين من الريف الشرقي د الناس والقرع بفلوسو لخاصة د تقويم`
+3. `د لمنتجات د الناس اللي كتب بزاف ديال عوام كيوافق 676 233 1 نسبة د لأمية`
 **Context Size 2:**
+1. `واصلة ل 40 1 و نسبة د لأمية واصلة ل 43 43 25 39 عام 25 83`
+2. `نسبة د الناس النشيطين ف دوار اكرنو معاد تزاد ب 25 6 و نسبة د الناس النشيطين`
+3. `ف لمغريب هاد دّوار كينتامي ل مشيخة أيت قضني لي كتضم 7 د دّواور لعاداد د سّكان`
 **Context Size 3:**
+1. `ف نسبة د الناس النشيطين ف دوار أيت بلقاس واصلة ل 39 06 و نسبة د الشوماج واصلة`
+2. `فيها مصدر و بايت زادهوم داريجابوت مسكونين ف إقليم سيدي قاسم جهة رّباط سلا قنيطرة ساكنين فيها واحد`
+3. `و نسبة د الشوماج واصلة ل 10 45 نوطات مصادر ف لمغريب ف إقليم تارودانت زادهوم داريجابوت`
 **Context Size 4:**
+1. `نسبة نّاس اللي خدامين ف مصادر درعة تافيلالت قروية ف إقليم ميدلت مسكونين ف إقليم ميدلت قروية ف إقليم`
+2. `نّاس اللي خدامين ف لپريڤي 64 5 مصادر درعة تافيلالت قروية ف إقليم تينغير مسكونين ف إقليم تينغير قروية`
+3. `على حساب لإحصاء الرسمي د عام نوطات مصادر ف لمغريب ف إقليم تارودانت زادهوم داريجابوت`
 ### Generated Text Samples (Subword-based)
 **Context Size 1:**
+1. `_-_دو،_ب_خبّقصوان`
+2. `انزالتسوبومشية_ف`
+3. `لإف_كمة_داللوغر_`
 **Context Size 2:**
+1. `الصحيزية_نّاسة_:_4`
+2. `_لبيات_ف_حيواح_بز`
+3. `ة_عاواع_كتسمة_تحيّ`
 **Context Size 3:**
+1. `_الروما_ؤروپ_د_إيز`
+2. `_ف_لعالمغريب_دوا_ك`
+3. `ات_عام._اللي_ل_لما`
 **Context Size 4:**
+1. `_ديال_أفلام_مكبّس)._`
+2. `ديال_الزايير_ديال_ت`
+3. `يال_شي_قضيب_على_الط`
 ### Key Findings
 - **Best Predictability:** Context-4 (word) with 97.9% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
+- **Memory Trade-off:** Larger contexts require more storage (379,445 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
 | Metric | Value |
 |--------|-------|
+| Vocabulary Size | 78,779 |
+| Total Tokens | 2,032,841 |
+| Mean Frequency | 25.80 |
 | Median Frequency | 4 |
+| Frequency Std Dev | 515.92 |
 ### Most Common Words
 | Rank | Word | Frequency |
 |------|------|-----------|
+| 1 | ف | 83,458 |
+| 2 | و | 59,829 |
+| 3 | د | 59,731 |
+| 4 | ديال | 32,565 |
+| 5 | من | 29,236 |
+| 6 | ل | 23,572 |
+| 7 | على | 19,570 |
+| 8 | لي | 18,402 |
+| 9 | اللي | 17,442 |
+| 10 | ب | 17,233 |
 ### Least Common Words (from vocabulary)
 | Rank | Word | Frequency |
 |------|------|-----------|
+| 1 | بوفوار | 2 |
+| 2 | بيتسي | 2 |
+| 3 | وصانعي | 2 |
+| 4 | وأهميتها | 2 |
+| 5 | بورديو | 2 |
+| 6 | بلومر | 2 |
+| 7 | مقترحة | 2 |
+| 8 | anchor | 2 |
+| 9 | بعصبة | 2 |
+| 10 | ماڭي | 2 |
 ### Zipf's Law Analysis
 | Metric | Value |
 |--------|-------|
+| Zipf Coefficient | 1.0213 |
+| R² (Goodness of Fit) | 0.998918 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
+| Top 100 | 38.6% |
+| Top 1,000 | 62.9% |
+| Top 5,000 | 77.8% |
+| Top 10,000 | 84.2% |
 ### Key Findings
+- **Zipf Compliance:** R²=0.9989 indicates excellent adherence to Zipf's law
+- **High Frequency Dominance:** Top 100 words cover 38.6% of corpus
+- **Long Tail:** 68,779 words needed for remaining 15.8% coverage
 ---
 ## 5. Word Embeddings Evaluation
 ### 5.1 Cross-Lingual Alignment
+![Alignment Quality](visualizations/embedding_alignment_quality.png)
+![Multilingual t-SNE](visualizations/embedding_tsne_multilingual.png)
 ### 5.2 Model Comparison
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.8303 🏆 | 0.3306 | N/A | N/A |
+| **mono_64d** | 64 | 0.8186 | 0.2546 | N/A | N/A |
+| **mono_128d** | 128 | 0.6893 | 0.2062 | N/A | N/A |
+| **aligned_32d** | 32 | 0.8303 | 0.3293 | 0.0120 | 0.1380 |
+| **aligned_64d** | 64 | 0.8186 | 0.2507 | 0.0360 | 0.1920 |
+| **aligned_128d** | 128 | 0.6893 | 0.2101 | 0.0580 | 0.2760 |
 ### Key Findings
+- **Best Isotropy:** mono_32d with 0.8303 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.2636. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 5.8% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 ## 6.  Morphological Analysis (Experimental)
 This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
 ### 6.1 Productivity & Complexity
 | Metric | Value | Interpretation | Recommendation |
 |--------|-------|----------------|----------------|
+| Productivity Index | **5.000** | High morphological productivity | Reliable analysis |
+| Idiomaticity Gap | **1.114** | High formulaic/idiomatic content | - |
 ### 6.2 Affix Inventory (Productive Units)
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
+| `-ال` | العزابة, التيستات, البخارية |
+| `-لم` | لمهرجان, لمدارس, لموناخ |
+| `-كا` | كاليدونيا, كايتعلّقو, كاتنفخ |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
+| `-ة` | العزابة, البخارية, صيفية |
+| `-ات` | بلافوايديات, التيستات, طرات |
+| `-ية` | البخارية, صيفية, الشقرونية |
+| `-ين` | احساين, للعين, الأوكسجين |
 ### 6.3 Bound Stems (Lexical Roots)
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
+| `اللو` | 1.86x | 61 contexts | اللوز, اللور, اللول |
+| `انية` | 1.80x | 68 contexts | كانية, سانية, دانية |
+| `الات` | 1.71x | 65 contexts | سالات, صالات, حالات |
+| `جماع` | 1.94x | 38 contexts | جماعي, إجماع, تجماع |
+| `لمغر` | 1.94x | 30 contexts | لمغرب, لمغربي, فلمغرب |
+| `النا` | 1.58x | 63 contexts | الناي, الناس, النار |
+| `حصاء` | 2.26x | 14 contexts | إحصاء, ليحصاء, لإحصاء |
+| `مغري` | 2.07x | 18 contexts | مغرية, مغريب, لمغريب |
+| `دهوم` | 2.15x | 16 contexts | ضدهوم, بعدهوم, زادهوم |
+| `إحصا` | 2.07x | 17 contexts | إحصاء, لإحصا, إحصائي |
+| `لجوا` | 1.81x | 26 contexts | الجوا, لجواد, لجواب |
+| `قليم` | 2.06x | 17 contexts | إقليم, اقليم, فقليم |
 ### 6.4 Affix Compatibility (Co-occurrence)
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
+| `-ال` | `-ة` | 275 words | المقبرة, السيارة |
+| `-ال` | `-ات` | 133 words | الفقريات, الزمانات |
+| `-ال` | `-ية` | 132 words | الأوروپية, الجنية |
+| `-ال` | `-ين` | 73 words | السلاڤيين, النيوزيلانضيين |
+| `-لم` | `-ة` | 57 words | لممكنة, لمناسبة |
+| `-لم` | `-ات` | 30 words | لماوات, لمغريبيات |
+| `-لم` | `-ين` | 29 words | لمحمّلين, لمغنّيين |
+| `-لم` | `-ية` | 22 words | لمورفولوجية, لمنصورية |
+| `-كا` | `-ات` | 1 words | كاربونات, كائنات |
+| `-كا` | `-ين` | 1 words | كاترين, كالكيريين |
 ### 6.5 Recursive Morpheme Segmentation
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
+| المباشرين | **`ال-مباشر-ين`** | 6.0 | `مباشر` |
+| السلاڤيين | **`ال-سلاڤي-ين`** | 6.0 | `سلاڤي` |
+| لمرتابطين | **`لم-رتابط-ين`** | 6.0 | `رتابط` |
+| المساهمات | **`ال-مساهم-ات`** | 6.0 | `مساهم` |
+| الطاكسونات | **`ال-طاكسون-ات`** | 6.0 | `طاكسون` |
+| المتفوقين | **`ال-متفوق-ين`** | 6.0 | `متفوق` |
+| الإتفاقية | **`ال-إتفاق-ية`** | 6.0 | `إتفاق` |
+| النتيهازيين | **`ال-نتيهازي-ين`** | 6.0 | `نتيهازي` |
+| النهاريين | **`ال-نهاري-ين`** | 6.0 | `نهاري` |
+| الجتيماعية | **`ال-جتيماع-ية`** | 6.0 | `جتيماع` |
+| المستقبلية | **`ال-مستقبل-ية`** | 6.0 | `مستقبل` |
+| السبيطارات | **`ال-سبيطار-ات`** | 6.0 | `سبيطار` |
+| اللولانيات | **`ال-لولاني-ات`** | 6.0 | `لولاني` |
+| السيناريوات | **`ال-سيناريو-ات`** | 6.0 | `سيناريو` |
+| المستخدمين | **`ال-مستخدم-ين`** | 6.0 | `مستخدم` |
 ### 6.6 Linguistic Interpretation
 > **Automated Insight:**
+The language Moroccan Arabic shows high morphological productivity. The subword models are significantly more efficient than word models, suggesting a rich system of affixation or compounding.
+> **Note on Idiomaticity:** The high Idiomaticity Gap suggests a large number of frequent multi-word expressions or formulaic sequences that are statistically distinct from their component parts.
 ---
 ## 7. Summary & Recommendations
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
+| Tokenizer | **64k BPE** | Best compression (4.17x) |
+| N-gram | **2-gram** | Lowest perplexity (424) |
 | Markov | **Context-4** | Highest predictability (97.9%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-03 14:22:25*

models/embeddings/aligned/ary_128d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbfeb46b5666c8d64122bd217a3ab907c0c21862e928add63b11988411f58bd1
+size 1060912662

models/embeddings/aligned/ary_128d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ary", "dim": 128, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ary_128d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02fef87bfc59c1f707a33d4e4f466b2425514a6aae0c6378fe22046746622e86
+size 65664

models/embeddings/aligned/ary_128d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ary",
+  "dimension": 128,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 3796,
+  "vocab_size": 35328
+}

models/embeddings/aligned/ary_32d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a06bb9ccf33412e88b0c6b296b5b85b834eee4b8d499102c47bd83e67febc5c
+size 265780758

models/embeddings/aligned/ary_32d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ary", "dim": 32, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ary_32d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb886167c81ee7c8dc1d46d989d761b84ea11a83290c26d66b2e1dc1aac5fbac
+size 4224

models/embeddings/aligned/ary_32d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ary",
+  "dimension": 32,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 3796,
+  "vocab_size": 35328
+}

models/embeddings/aligned/ary_64d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8ea049910ca1cbe494ecfa4887bb1fe2c54a8fedd0e092181cf1830e949581c
+size 530824726

models/embeddings/aligned/ary_64d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ary", "dim": 64, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ary_64d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ddcb0a862b77d47360178cb10c0adf1ebea1b53686716f62119200c0028beff
+size 16512

models/embeddings/aligned/ary_64d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ary",
+  "dimension": 64,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 3796,
+  "vocab_size": 35328
+}

models/embeddings/monolingual/ary_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec0c8ea941d4e589712d1341927459bcf79927b09c35a78a960c9f6d7e10e2d9
-size 1056923528

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbfeb46b5666c8d64122bd217a3ab907c0c21862e928add63b11988411f58bd1
+size 1060912662

models/embeddings/monolingual/ary_128d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 128
   },
-  "vocab_size": 31513
 }

     "encoding_method": "rope",
     "dim": 128
   },
+  "vocab_size": 35328
 }

models/embeddings/monolingual/ary_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeac1e5f452245ffe93038f0b7258b2f1f16a3bbf65b19fe05b1a6db4fae8474
-size 264721544

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a06bb9ccf33412e88b0c6b296b5b85b834eee4b8d499102c47bd83e67febc5c
+size 265780758

models/embeddings/monolingual/ary_32d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 32
   },
-  "vocab_size": 31513
 }

     "encoding_method": "rope",
     "dim": 32
   },
+  "vocab_size": 35328
 }

models/embeddings/monolingual/ary_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b01a57a7d1b52d182e7b0bb4f504588432f74b447abf3627c5c7314bbffab5f2
-size 528788872

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ea049910ca1cbe494ecfa4887bb1fe2c54a8fedd0e092181cf1830e949581c
+size 530824726

models/embeddings/monolingual/ary_64d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 64
   },
-  "vocab_size": 31513
 }

     "encoding_method": "rope",
     "dim": 64
   },
+  "vocab_size": 35328
 }

models/subword_markov/ary_markov_ctx1_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:459fa6b743dbcf395519af9bf18ba67b777ddd0e0cc864ac3bb6a7bf3189d793
-size 133878

 version https://git-lfs.github.com/spec/v1
+oid sha256:55514cae207966a8d7941bc6bb156381590fb5450034766506d063720af59bbd
+size 139719

models/subword_markov/ary_markov_ctx1_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "subword",
   "language": "ary",
-  "unique_contexts": 2149,
-  "total_transitions": 10496838
 }

   "context_size": 1,
   "variant": "subword",
   "language": "ary",
+  "unique_contexts": 2156,
+  "total_transitions": 11674521
 }

models/subword_markov/ary_markov_ctx2_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:552c831bedb22d7f7b1c00d88c34681f2f3325dd23a3f89d85c02eb0c4ac3281
-size 749221

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdab4267cc7d278b8413758b9477e5cf1a89f1d231f8007c5be62d51c38175bf
+size 800589

models/subword_markov/ary_markov_ctx2_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "subword",
   "language": "ary",
-  "unique_contexts": 17291,
-  "total_transitions": 10486078
 }

   "context_size": 2,
   "variant": "subword",
   "language": "ary",
+  "unique_contexts": 18029,
+  "total_transitions": 11663613
 }

models/subword_markov/ary_markov_ctx3_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a0e7a2836b00fdfdf3ecab6fd3ff4f39a94e43eeb24ea7dfa6bbdea5ac77430
-size 2667571

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab02a96e6f353bae3406898971d59327277b5f77ca5ecaa7af3558d3d4267e33
+size 2871565

models/subword_markov/ary_markov_ctx3_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 3,
   "variant": "subword",
   "language": "ary",
-  "unique_contexts": 86361,
-  "total_transitions": 10475318
 }

   "context_size": 3,
   "variant": "subword",
   "language": "ary",
+  "unique_contexts": 91858,
+  "total_transitions": 11652705
 }

models/subword_markov/ary_markov_ctx4_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85296dab212dcfcc7a9ab757176cd9fbd76a93f9401830d56004280e4a7377f8
-size 8465099

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ea7ed36e08017627aac4cc8835eea513a82ec11c7be675a5928dd3f8519dc4a
+size 9275191

models/subword_markov/ary_markov_ctx4_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 4,
   "variant": "subword",
   "language": "ary",
-  "unique_contexts": 352807,
-  "total_transitions": 10464558
 }

   "context_size": 4,
   "variant": "subword",
   "language": "ary",
+  "unique_contexts": 379445,
+  "total_transitions": 11641797
 }

models/subword_ngram/ary_2gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78ea13aba22c9b182dee2ab8bd64573851cedf52939c98249335191a3f23f274
-size 80021

 version https://git-lfs.github.com/spec/v1
+oid sha256:7298aadecd73d04e9b7a4e3152c422afe282ef437eb416072ff772fc3c1dd431
+size 83975

models/subword_ngram/ary_2gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 2,
   "variant": "subword",
   "language": "ary",
-  "unique_ngrams": 5585,
-  "total_ngrams": 10496838
 }

   "n": 2,
   "variant": "subword",
   "language": "ary",
+  "unique_ngrams": 5903,
+  "total_ngrams": 11674521
 }

models/subword_ngram/ary_3gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24b08ece7a38c3125e70f5a75f6ead1fd500f694cb05ad5c6248ba7b85fd5634
-size 573468

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e04cb0f3f2a3712d267658842c70d1c1627ee29126f4da41b291573c910be00
+size 604438

models/subword_ngram/ary_3gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 3,
   "variant": "subword",
   "language": "ary",
-  "unique_ngrams": 41944,
-  "total_ngrams": 10486078
 }

   "n": 3,
   "variant": "subword",
   "language": "ary",
+  "unique_ngrams": 44651,
+  "total_ngrams": 11663613
 }

models/subword_ngram/ary_4gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1dd4f7cdfe642d380522ea08b1e34ceadbe57558bcccafcd2c10d5783f15f75
-size 2617929

 version https://git-lfs.github.com/spec/v1
+oid sha256:bea49a185c99f23829a987f8811565f84a2bf7bb939dd49da26296a7f133d3e0
+size 2817173

models/subword_ngram/ary_4gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 4,
   "variant": "subword",
   "language": "ary",
-  "unique_ngrams": 204568,
-  "total_ngrams": 10475318
 }

   "n": 4,
   "variant": "subword",
   "language": "ary",
+  "unique_ngrams": 220807,
+  "total_ngrams": 11652705
 }

models/subword_ngram/ary_5gram_subword.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83d654927713562a4a35f18a74435eddd9a4bdb3826398b5c97645d1d54e5586
+size 7203019

models/subword_ngram/ary_5gram_subword_metadata.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "n": 5,
+  "variant": "subword",
+  "language": "ary",
+  "unique_ngrams": 527725,
+  "total_ngrams": 11641797
+}

models/tokenizer/ary_tokenizer_16k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b2380e695c2c3ff7f9eec16ecc69d1a82452d80f0c0884635d764801141b6e5
-size 559353

 version https://git-lfs.github.com/spec/v1
+oid sha256:166276d42d772567739af90c69d0c0c3d3bfb356b5dc2ec54a6cfd604bc980ba
+size 559287

models/tokenizer/ary_tokenizer_16k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ary_tokenizer_32k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:334ec9fb02ebfd6451b7961710b7f94c763275ce5022015434501d439ac06ad4
-size 894340

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cf5ee359c6c39652a55a46a80cdb073224a2ef37eb4ba1e16b72ea8f0a28c93
+size 891778

models/tokenizer/ary_tokenizer_32k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ary_tokenizer_64k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:228ac76778adf794a1d8de7ed6648a2bbfd80b7498be5530f090627f915c0436
-size 1593462

 version https://git-lfs.github.com/spec/v1
+oid sha256:62198000b383c4624da36e526abdec55d4335749afe544b9c02a5a2e5005311c
+size 1592960

models/tokenizer/ary_tokenizer_64k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ary_tokenizer_8k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa0d6cbad79ebc5208a11f4bc61982c6584a2f87a08a41d8c2c90d8c0941ea81
-size 396437

 version https://git-lfs.github.com/spec/v1
+oid sha256:b311f5925653a8b93f64537886e776038c09e252ffaf68d3c837d169fc2ce5ca
+size 396519

models/tokenizer/ary_tokenizer_8k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/vocabulary/ary_vocabulary.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6a100896fb6a926f24685f0b974ea8144580d8025c46f0451fa0eb2a1cccb88
-size 1278866

 version https://git-lfs.github.com/spec/v1
+oid sha256:06972d02fe5edd7023b3c7da816f69a17e6b3e79183317908fa5f435bcd3fe0b
+size 1396990

models/vocabulary/ary_vocabulary_metadata.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
   "language": "ary",
-  "vocabulary_size": 70940,
   "variant": "full",
   "statistics": {
-    "type_token_ratio": 0.08383333066622203,
     "coverage": {
-      "top_100": 0.38467935557772986,
-      "top_1000": 0.6186641695622032,
-      "top_5000": 0.7558627838344147,
-      "top_10000": 0.8141512107566836
     },
-    "hapax_count": 91460,
-    "hapax_ratio": 0.5631773399014778,
-    "total_documents": 10760
   }
 }

 {
   "language": "ary",
+  "vocabulary_size": 78779,
   "variant": "full",
   "statistics": {
+    "type_token_ratio": 0.0838713972533892,
     "coverage": {
+      "top_100": 0.36742576968301266,
+      "top_1000": 0.5995843327288514,
+      "top_5000": 0.7413866015051412,
+      "top_10000": 0.8022598684642346
     },
+    "hapax_count": 100115,
+    "hapax_ratio": 0.5596330788064441,
+    "total_documents": 10908
   }
 }

models/word_markov/ary_markov_ctx1_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c9d4b1eb5fe667ef9075fa89ad5a4ea4ea33df8dba16dd4243bd25ca92d4926
-size 9279588

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e482ecf3d5961f6adc3f0517998d923d016dd4049af100ca43da1d4f5714507
+size 10606246

models/word_markov/ary_markov_ctx1_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "word",
   "language": "ary",
-  "unique_contexts": 162378,
-  "total_transitions": 1926417
 }

   "context_size": 1,
   "variant": "word",
   "language": "ary",
+  "unique_contexts": 178865,
+  "total_transitions": 2122048
 }

models/word_markov/ary_markov_ctx2_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29a939f97ef93392311582b9ad3f3b729f547581513acb58fd36113bf5b295e2
-size 23360695

 version https://git-lfs.github.com/spec/v1
+oid sha256:8099e9348247ef07140e6a4819679ee44e17e70727a77d4336c59f14eac55086
+size 26663466

models/word_markov/ary_markov_ctx2_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "word",
   "language": "ary",
-  "unique_contexts": 849251,
-  "total_transitions": 1915657
 }

   "context_size": 2,
   "variant": "word",
   "language": "ary",
+  "unique_contexts": 962233,
+  "total_transitions": 2111140
 }