omarkamali commited on Jan 3

Commit

64913e5

verified ·

1 Parent(s): 7106321

Upload all models and assets for ary (latest)

Browse files

Files changed (39) hide show

README.md +97 -98
models/embeddings/aligned/ary_128d.bin +1 -1
models/embeddings/aligned/ary_128d.projection.npy +1 -1
models/embeddings/aligned/ary_32d.bin +1 -1
models/embeddings/aligned/ary_32d.projection.npy +1 -1
models/embeddings/aligned/ary_64d.bin +1 -1
models/embeddings/aligned/ary_64d.projection.npy +1 -1
models/embeddings/monolingual/ary_128d.bin +1 -1
models/embeddings/monolingual/ary_32d.bin +1 -1
models/embeddings/monolingual/ary_64d.bin +1 -1
models/subword_markov/ary_markov_ctx1_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx2_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx3_subword.parquet +2 -2
models/subword_markov/ary_markov_ctx4_subword.parquet +2 -2
models/subword_ngram/ary_2gram_subword.parquet +2 -2
models/subword_ngram/ary_3gram_subword.parquet +2 -2
models/subword_ngram/ary_4gram_subword.parquet +2 -2
models/subword_ngram/ary_5gram_subword.parquet +2 -2
models/tokenizer/ary_tokenizer_16k.model +1 -1
models/tokenizer/ary_tokenizer_32k.model +1 -1
models/tokenizer/ary_tokenizer_64k.model +1 -1
models/tokenizer/ary_tokenizer_8k.model +1 -1
models/word_markov/ary_markov_ctx1_word.parquet +2 -2
models/word_markov/ary_markov_ctx2_word.parquet +2 -2
models/word_markov/ary_markov_ctx3_word.parquet +2 -2
models/word_markov/ary_markov_ctx4_word.parquet +2 -2
models/word_ngram/ary_2gram_word.parquet +2 -2
models/word_ngram/ary_3gram_word.parquet +2 -2
models/word_ngram/ary_4gram_word.parquet +2 -2
models/word_ngram/ary_5gram_word.parquet +2 -2
visualizations/embedding_alignment_quality.png +0 -0
visualizations/embedding_isotropy.png +0 -0
visualizations/embedding_norms.png +0 -0
visualizations/embedding_similarity.png +2 -2
visualizations/embedding_tsne_multilingual.png +2 -2
visualizations/performance_dashboard.png +2 -2
visualizations/position_encoding_comparison.png +2 -2
visualizations/tsne_sentences.png +2 -2
visualizations/tsne_words.png +2 -2

README.md CHANGED Viewed

@@ -36,7 +36,7 @@ metrics:
     value: 4.171
   - name: best_isotropy
     type: isotropy
-    value: 0.8303
   - name: vocabulary_size
     type: vocab
     value: 0
@@ -99,32 +99,32 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `لجدوال ديال الترتيب شوف حتى بوطولا 1 بوطولا 2 لهيكلة لهرمية د لبوطولات ديال كورة...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
-| 16k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
-| 32k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
-| 64k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا ▁ 1 ▁بوطولا ▁ ... (+17 more)` | 27 |
-**Sample 2:** `هادي صفحة د التوضيح، كلمة أنفا يمكن يكونو عندها هاد لمعاني: مقاطعة أنفا: حي كاين...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أن فا ▁يمكن ▁يكونو ... (+27 more)` | 37 |
-| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أنفا ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
-| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أنفا ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
-| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁أنفا ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
-**Sample 3:** `هادي صفحة د التوضيح، كلمة منى يمكن يكونو عندها هاد لمعاني: منى صابر منى أمرشا من...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁من ى ▁يمكن ▁يكونو ... (+17 more)` | 27 |
-| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁منى ▁يمكن ▁يكونو ▁عندها ... (+13 more)` | 23 |
-| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁منى ▁يمكن ▁يكونو ▁عندها ... (+12 more)` | 22 |
-| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁منى ▁يمكن ▁يكونو ▁عندها ... (+10 more)` | 20 |
 ### Key Findings
@@ -186,17 +186,17 @@ Below are sample sentences tokenized with each vocabulary size:
 | 2 | `نسبة نّاس اللي خدامين` | 2,705 |
 | 3 | `نّاس اللي خدامين ف` | 2,594 |
 | 4 | `على حساب لإحصاء الرسمي` | 2,501 |
-| 5 | `لإحصاء الرسمي د عام` | 2,500 |
 **5-grams (Word):**
 | Rank | N-gram | Count |
 |------|--------|-------|
 | 1 | `نسبة نّاس اللي خدامين ف` | 2,593 |
-| 2 | `هاد دّوار كينتامي ل مشيخة` | 2,500 |
-| 3 | `حساب لإحصاء الرسمي د عام` | 2,500 |
 | 4 | `لمغريب هاد دّوار كينتامي ل` | 2,500 |
-| 5 | `ف لمغريب هاد دّوار كينتامي` | 2,500 |
 **2-grams (Subword):**
@@ -274,27 +274,27 @@ Below are text samples generated from each word-based Markov chain model:
 **Context Size 1:**
-1. `ف دور السفير اللول تبعوه كتر من أبسط تعريف من chinese medicinal herbs plants biological reviews`
-2. `و واخا تايقولو بلي مفكرين وصحافيين من الريف الشرقي د الناس والقرع بفلوسو لخاصة د تقويم`
-3. `د لمنتجات د الناس اللي كتب بزاف ديال عوام كيوافق 676 233 1 نسبة د لأمية`
 **Context Size 2:**
-1. `واصلة ل 40 1 و نسبة د لأمية واصلة ل 43 43 25 39 عام 25 83`
-2. `نسبة د الناس النشيطين ف دوار اكرنو معاد تزاد ب 25 6 و نسبة د الناس النشيطين`
-3. `ف لمغريب هاد دّوار كينتامي ل مشيخة أيت قضني لي كتضم 7 د دّواور لعاداد د سّكان`
 **Context Size 3:**
-1. `ف نسبة د الناس النشيطين ف دوار أيت بلقاس واصلة ل 39 06 و نسبة د الشوماج واصلة`
-2. `فيها مصدر و بايت زادهوم داريجابوت مسكونين ف إقليم سيدي قاسم جهة رّباط سلا قنيطرة ساكنين فيها واحد`
-3. `و نسبة د الشوماج واصلة ل 10 45 نوطات مصادر ف لمغريب ف إقليم تارودانت زادهوم داريجابوت`
 **Context Size 4:**
-1. `نسبة نّاس اللي خدامين ف مصادر درعة تافيلالت قروية ف إقليم ميدلت مسكونين ف إقليم ميدلت قروية ف إقليم`
-2. `نّاس اللي خدامين ف لپريڤي 64 5 مصادر درعة تافيلالت قروية ف إقليم تينغير مسكونين ف إقليم تينغير قروية`
-3. `على حساب لإحصاء الرسمي د عام نوطات مصادر ف لمغريب ف إقليم تارودانت زادهوم داريجابوت`
 ### Generated Text Samples (Subword-based)
@@ -303,27 +303,27 @@ Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
-1. `_-_دو،_ب_خبّقصوان`
-2. `انزالتسوبومشية_ف`
-3. `لإف_كمة_داللوغر_`
 **Context Size 2:**
-1. `الصحيزية_نّاسة_:_4`
-2. `_لبيات_ف_حيواح_بز`
-3. `ة_عاواع_كتسمة_تحيّ`
 **Context Size 3:**
-1. `_الروما_ؤروپ_د_إيز`
-2. `_ف_لعالمغريب_دوا_ك`
-3. `ات_عام._اللي_ل_لما`
 **Context Size 4:**
-1. `_ديال_أفلام_مكبّس)._`
-2. `ديال_الزايير_ديال_ت`
-3. `يال_شي_قضيب_على_الط`
 ### Key Findings
@@ -428,18 +428,18 @@ Below are text samples generated from each subword-based Markov chain model:
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
-| **mono_32d** | 32 | 0.8303 🏆 | 0.3306 | N/A | N/A |
-| **mono_64d** | 64 | 0.8186 | 0.2546 | N/A | N/A |
-| **mono_128d** | 128 | 0.6893 | 0.2062 | N/A | N/A |
-| **aligned_32d** | 32 | 0.8303 | 0.3293 | 0.0120 | 0.1380 |
-| **aligned_64d** | 64 | 0.8186 | 0.2507 | 0.0360 | 0.1920 |
-| **aligned_128d** | 128 | 0.6893 | 0.2101 | 0.0580 | 0.2760 |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.8303 (more uniform distribution)
-- **Semantic Density:** Average pairwise similarity of 0.2636. Lower values indicate better semantic separation.
-- **Alignment Quality:** Aligned models achieve up to 5.8% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
@@ -461,17 +461,17 @@ These are the most productive prefixes and suffixes identified by sampling the v
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
-| `-ال` | العزابة, التيستات, البخارية |
-| `-لم` | لمهرجان, لمدارس, لموناخ |
-| `-كا` | كاليدونيا, كايتعلّقو, كاتنفخ |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
-| `-ة` | العزابة, البخارية, صيفية |
-| `-ات` | بلافوايديات, التيستات, طرات |
-| `-ية` | البخارية, صيفية, الشقرونية |
-| `-ين` | احساين, للعين, الأوكسجين |
 ### 6.3 Bound Stems (Lexical Roots)
@@ -479,18 +479,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
-| `اللو` | 1.86x | 61 contexts | اللوز, اللور, اللول |
-| `انية` | 1.80x | 68 contexts | كانية, سانية, دانية |
-| `الات` | 1.71x | 65 contexts | سالات, صالات, حالات |
-| `جماع` | 1.94x | 38 contexts | جماعي, إجماع, تجماع |
-| `لمغر` | 1.94x | 30 contexts | لمغرب, لمغربي, فلمغرب |
-| `النا` | 1.58x | 63 contexts | الناي, الناس, النار |
-| `حصاء` | 2.26x | 14 contexts | إحصاء, ليحصاء, لإحصاء |
-| `مغري` | 2.07x | 18 contexts | مغرية, مغريب, لمغريب |
-| `دهوم` | 2.15x | 16 contexts | ضدهوم, بعدهوم, زادهوم |
-| `إحصا` | 2.07x | 17 contexts | إحصاء, لإحصا, إحصائي |
-| `لجوا` | 1.81x | 26 contexts | الجوا, لجواد, لجواب |
-| `قليم` | 2.06x | 17 contexts | إقليم, اقليم, فقليم |
 ### 6.4 Affix Compatibility (Co-occurrence)
@@ -498,16 +498,15 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
-| `-ال` | `-ة` | 275 words | المقبرة, السيارة |
-| `-ال` | `-ات` | 133 words | الفقريات, الزمانات |
-| `-ال` | `-ية` | 132 words | الأوروپية, الجنية |
-| `-ال` | `-ين` | 73 words | السلاڤيين, النيوزيلانضيين |
-| `-لم` | `-ة` | 57 words | لممكنة, لمناسبة |
-| `-لم` | `-ات` | 30 words | لماوات, لمغريبيات |
-| `-لم` | `-ين` | 29 words | لمحمّلين, لمغنّيين |
-| `-لم` | `-ية` | 22 words | لمورفولوجية, لمنصورية |
-| `-كا` | `-ات` | 1 words | كاربونات, كائنات |
-| `-كا` | `-ين` | 1 words | كاترين, كالكيريين |
 ### 6.5 Recursive Morpheme Segmentation
@@ -515,21 +514,21 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
-| المباشرين | **`ال-مباشر-ين`** | 6.0 | `مباشر` |
-| السلاڤيين | **`ال-سلاڤي-ين`** | 6.0 | `سلاڤي` |
-| لمرتابطين | **`لم-رتابط-ين`** | 6.0 | `رتابط` |
-| المساهمات | **`ال-مساهم-ات`** | 6.0 | `مساهم` |
-| الطاكسونات | **`ال-طاكسون-ات`** | 6.0 | `طاكسون` |
-| المتفوقين | **`ال-متفوق-ين`** | 6.0 | `متفوق` |
-| الإتفاقية | **`ال-إتفاق-ية`** | 6.0 | `إتفاق` |
-| النتيهازيين | **`ال-نتيهازي-ين`** | 6.0 | `نتيهازي` |
-| النهاريين | **`ال-نهاري-ين`** | 6.0 | `نهاري` |
-| الجتيماعية | **`ال-جتيماع-ية`** | 6.0 | `جتيماع` |
-| المستقبلية | **`ال-مستقبل-ية`** | 6.0 | `مستقبل` |
-| السبيطارات | **`ال-سبيطار-ات`** | 6.0 | `سبيطار` |
-| اللولانيات | **`ال-لولاني-ات`** | 6.0 | `لولاني` |
-| السيناريوات | **`ال-سيناريو-ات`** | 6.0 | `سيناريو` |
-| المستخدمين | **`ال-مستخدم-ين`** | 6.0 | `مستخدم` |
 ### 6.6 Linguistic Interpretation
@@ -763,4 +762,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2026-01-03 14:22:25*

     value: 4.171
   - name: best_isotropy
     type: isotropy
+    value: 0.8284
   - name: vocabulary_size
     type: vocab
     value: 0
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `هادي صفحة د التوضيح، كلمة بركان يمكن يكونو عندها هاد لمعاني: بْرْكان: مدينة مغري...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁بركان ▁يمكن ▁يكونو ▁عندها ... (+23 more)` | 33 |
+| 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁بركان ▁يمكن ▁يكونو ▁عندها ... (+21 more)` | 31 |
+| 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁بركان ▁يمكن ▁يكونو ▁عندها ... (+19 more)` | 29 |
+| 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁بركان ▁يمكن ▁يكونو ▁عندها ... (+18 more)` | 28 |
+**Sample 2:** `لْفزضاض ؤلا أفزضاض (سمية لعلمية Microcosmus sabatieri) حيوان لاسنسولي كيعيش ف لب...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁لْ ف ز ضاض ▁ؤلا ▁أف ز ضاض ▁( سمية ... (+31 more)` | 41 |
+| 16k | `▁لْ ف ز ضاض ▁ؤلا ▁أف ز ضاض ▁( سمية ... (+28 more)` | 38 |
+| 32k | `▁لْف ز ضاض ▁ؤلا ▁أف ز ضاض ▁( سمية ▁لعلمية ... (+25 more)` | 35 |
+| 64k | `▁لْف زضاض ▁ؤلا ▁أف زضاض ▁( سمية ▁لعلمية ▁microcos mus ... (+17 more)` | 27 |
+**Sample 3:** `نيلز أبراهام لانݣليت (مزيود ف 9 يوليوز - مات ف 30 مارس هوّا عالم د شّيمي سويدي. ...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁نيل ز ▁أب راهام ▁ل انݣ ليت ▁( مزيود ▁ف ... (+19 more)` | 29 |
+| 16k | `▁نيل ز ▁أبراهام ▁ل انݣ ليت ▁( مزيود ▁ف ▁ ... (+16 more)` | 26 |
+| 32k | `▁نيلز ▁أبراهام ▁لانݣ ليت ▁( مزيود ▁ف ▁ 9 ▁يوليوز ... (+14 more)` | 24 |
+| 64k | `▁نيلز ▁أبراهام ▁لانݣليت ▁( مزيود ▁ف ▁ 9 ▁يوليوز ▁- ... (+13 more)` | 23 |
 ### Key Findings
 | 2 | `نسبة نّاس اللي خدامين` | 2,705 |
 | 3 | `نّاس اللي خدامين ف` | 2,594 |
 | 4 | `على حساب لإحصاء الرسمي` | 2,501 |
+| 5 | `حساب لإحصاء الرسمي د` | 2,500 |
 **5-grams (Word):**
 | Rank | N-gram | Count |
 |------|--------|-------|
 | 1 | `نسبة نّاس اللي خدامين ف` | 2,593 |
+| 2 | `ف لمغريب هاد دّوار كينتامي` | 2,500 |
+| 3 | `هاد دّوار كينتامي ل مشيخة` | 2,500 |
 | 4 | `لمغريب هاد دّوار كينتامي ل` | 2,500 |
+| 5 | `حساب لإحصاء الرسمي د عام` | 2,500 |
 **2-grams (Subword):**
 **Context Size 1:**
+1. `ف لمغريب فيها 5 463 462 461 كم من غير ب شبه منقّر مكررعبد المسيح في`
+2. `و أداب روسيا ف لمغريب ف وقت مابين اللغات الرسمية ديال حيزب لإستقلال تا سينيما ليها`
+3. `د الناس فليبيا اكتشفو أنه يتقتل ولكن بقات كتلعب فالتيران ديال هاد الريحلة معا لمونتاخاب و`
 **Context Size 2:**
+1. `واصلة ل 98 6 و عدد لفاميلات تزاد ب 81 6 و نسبة د الناس و لمحيط`
+2. `نسبة د الشوماج واصلة ل 21 12 نوطات مصادر ف لمغريب جّبل معروف عند الصامويين حتال ليوم`
+3. `ف لمغريب هاد دّوار كينتامي ل مشيخة سدي حمد الدغوغي لي كتضم 14 د دّواور لعاداد د`
 **Context Size 3:**
+1. `ف نسبة د التسكويل واصلة ل 91 89 و نسبة د الشوماج واصلة ل 7 6 و لخصوبة`
+2. `فيها مصدر و بايت زادهوم داريجابوت حيين مغاربا د لقرن 21 مغاربا مغاربا فيها مصدر و بايت زادهوم`
+3. `و نسبة د لأمية واصلة ل 53 4 و نسبة د لأمية واصلة ل 92 5 و نسبة`
 **Context Size 4:**
+1. `نسبة نّاس اللي خدامين ف دّولة ولا لبيطاليين اللي سبق ليهوم خدمو 44 3 نسبة نّاس اللي خدامين ف`
+2. `نّاس اللي خدامين ف لپريڤي ولا لبيطاليين اللي سبق ليهوم مصادر الدار البيضاء سطات قروية ف إقليم سطات ق...`
+3. `على حساب لإحصاء الرسمي د عام إحصائيات إحصائيات عامة عدد السكان ديال أورسفان نقص ب 30 7 و عدد`
 ### Generated Text Samples (Subword-based)
 **Context Size 1:**
+1. `_دّرى_لجالب_لتالع`
+2. `اكترن_لعاميلة_ن_`
+3. `لت_پرومدي_و_ماتم`
 **Context Size 2:**
+1. `الرجل_بين_ماعة_لخ`
+2. `_لكينو_العرفوقعوه`
+3. `ة_27_نت،_خري_د_لج`
 **Context Size 3:**
+1. `_الروس_و_هي_ماية_ك`
+2. `_ف_موقريب._الدفايي`
+3. `ات_ف_البالشخصياتول`
 **Context Size 4:**
+1. `_ديالو._ميامينش_و_ت`
+2. `ديال_أسباب_الغرب_6_`
+3. `يال_تعرّض_للحزب_الوه`
 ### Key Findings
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.8284 🏆 | 0.3330 | N/A | N/A |
+| **mono_64d** | 64 | 0.8181 | 0.2588 | N/A | N/A |
+| **mono_128d** | 128 | 0.7036 | 0.2093 | N/A | N/A |
+| **aligned_32d** | 32 | 0.8284 | 0.3345 | 0.0180 | 0.1360 |
+| **aligned_64d** | 64 | 0.8181 | 0.2550 | 0.0380 | 0.1760 |
+| **aligned_128d** | 128 | 0.7036 | 0.2072 | 0.0620 | 0.2760 |
 ### Key Findings
+- **Best Isotropy:** mono_32d with 0.8284 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.2663. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 6.2% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
+| `-ال` | الأمني, اللحظة, الفيرمات |
+| `-لم` | لمتعصبين, لمحافض, لمونضامة |
+| `-كا` | كاتدير, كايتحلو, كايقممو |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
+| `-ة` | سميّة, رقصة, اللحظة |
+| `-ات` | سطراتيجيات, الفيرمات, لحتيفالات |
+| `-ية` | الشرقية, اللاجنسية, ولوسطانية |
+| `-ين` | لمتعصبين, ثنين, لمالحين |
 ### 6.3 Bound Stems (Lexical Roots)
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
+| `انية` | 1.80x | 68 contexts | غانية, ثانية, سانية |
+| `اللو` | 1.74x | 61 contexts | اللوه, اللور, اللول |
+| `الات` | 1.71x | 65 contexts | تالات, حالات, صالات |
+| `جماع` | 1.90x | 38 contexts | جماعي, تجماع, إجماع |
+| `النا` | 1.63x | 63 contexts | الناي, النار, الناس |
+| `لمغر` | 1.92x | 30 contexts | لمغرب, لمغربب, للمغرب |
+| `إحصا` | 2.13x | 17 contexts | إحصاء, لإحصا, إحصائي |
+| `مغري` | 2.08x | 18 contexts | مغريب, مغرية, مغريبي |
+| `حصاء` | 2.24x | 14 contexts | إحصاء, لإحصاء, ليحصاء |
+| `دهوم` | 2.14x | 16 contexts | ضدهوم, يردهوم, زادهوم |
+| `قليم` | 2.06x | 17 contexts | فقليم, اقليم, إقليم |
+| `لجوا` | 1.77x | 26 contexts | لجواب, لجواد, الجوا |
 ### 6.4 Affix Compatibility (Co-occurrence)
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
+| `-ال` | `-ة` | 280 words | الراكوبة, العمدة |
+| `-ال` | `-ات` | 163 words | الشلالات, العبرات |
+| `-ال` | `-ية` | 152 words | الزراعية, الطباشيرية |
+| `-ال` | `-ين` | 76 words | الموحدين, الاثنين |
+| `-لم` | `-ة` | 66 words | لمملكة, لمُحمدية |
+| `-لم` | `-ين` | 45 words | لموناضيلين, لمعتقلين |
+| `-لم` | `-ات` | 25 words | لمونضّامات, لممرات |
+| `-لم` | `-ية` | 21 words | لمُحمدية, لمراكشية |
+| `-كا` | `-ين` | 2 words | كايسين, كاتبين |
 ### 6.5 Recursive Morpheme Segmentation
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
+| التوجيهات | **`ال-توجيه-ات`** | 6.0 | `توجيه` |
+| الصومالية | **`ال-صومال-ية`** | 6.0 | `صومال` |
+| الپاكستانية | **`ال-پاكستان-ية`** | 6.0 | `پاكستان` |
+| الدوّازات | **`ال-دوّاز-ات`** | 6.0 | `دوّاز` |
+| الصالونات | **`ال-صالون-ات`** | 6.0 | `صالون` |
+| التعبيرية | **`ال-تعبير-ية`** | 6.0 | `تعبير` |
+| الانقلابية | **`ال-انقلاب-ية`** | 6.0 | `انقلاب` |
+| لمنقارضين | **`لم-نقارض-ين`** | 6.0 | `نقارض` |
+| التقليديين | **`ال-تقليدي-ين`** | 6.0 | `تقليدي` |
+| لمنتاشرين | **`لم-نتاشر-ين`** | 6.0 | `نتاشر` |
+| الماكينات | **`ال-ماكين-ات`** | 6.0 | `ماكين` |
+| البرونزية | **`ال-برونز-ية`** | 6.0 | `برونز` |
+| التكوينية | **`ال-تكوين-ية`** | 6.0 | `تكوين` |
+| التعليمية | **`ال-تعليم-ية`** | 6.0 | `تعليم` |
+| التلفزيونية | **`ال-تلفزيون-ية`** | 6.0 | `تلفزيون` |
 ### 6.6 Linguistic Interpretation
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-03 16:42:17*

models/embeddings/aligned/ary_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbfeb46b5666c8d64122bd217a3ab907c0c21862e928add63b11988411f58bd1
 size 1060912662

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec09f2d29ccb3090249f3738f6068e825d70e537decf94ac5428ed8f1bc41e8f
 size 1060912662

models/embeddings/aligned/ary_128d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02fef87bfc59c1f707a33d4e4f466b2425514a6aae0c6378fe22046746622e86
 size 65664

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d5d793e55a655ac0900c665a7dd2b25bfb2c721388f369f0c888b532aab2b2d
 size 65664

models/embeddings/aligned/ary_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a06bb9ccf33412e88b0c6b296b5b85b834eee4b8d499102c47bd83e67febc5c
 size 265780758

 version https://git-lfs.github.com/spec/v1
+oid sha256:8540a7a08f8241b60423dc69caaee169822f093e1cf6353b8295063122a7e4bf
 size 265780758

models/embeddings/aligned/ary_32d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb886167c81ee7c8dc1d46d989d761b84ea11a83290c26d66b2e1dc1aac5fbac
 size 4224

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce8e1e863fb9c4375db9cffb22d2a2c951ffc80e15e09b06bf6aebee82431cd7
 size 4224

models/embeddings/aligned/ary_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8ea049910ca1cbe494ecfa4887bb1fe2c54a8fedd0e092181cf1830e949581c
 size 530824726

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c1abedc8bbe33e113c64455d6fd411194e4a7ddb5e0a3c659df8c08962758d
 size 530824726

models/embeddings/aligned/ary_64d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ddcb0a862b77d47360178cb10c0adf1ebea1b53686716f62119200c0028beff
 size 16512

 version https://git-lfs.github.com/spec/v1
+oid sha256:468aba2325cf26abc86b89cccca9a63ff95115fe381081eceafadf68a2846d6b
 size 16512

models/embeddings/monolingual/ary_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbfeb46b5666c8d64122bd217a3ab907c0c21862e928add63b11988411f58bd1
 size 1060912662

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec09f2d29ccb3090249f3738f6068e825d70e537decf94ac5428ed8f1bc41e8f
 size 1060912662

models/embeddings/monolingual/ary_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a06bb9ccf33412e88b0c6b296b5b85b834eee4b8d499102c47bd83e67febc5c
 size 265780758

 version https://git-lfs.github.com/spec/v1
+oid sha256:8540a7a08f8241b60423dc69caaee169822f093e1cf6353b8295063122a7e4bf
 size 265780758

models/embeddings/monolingual/ary_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8ea049910ca1cbe494ecfa4887bb1fe2c54a8fedd0e092181cf1830e949581c
 size 530824726

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c1abedc8bbe33e113c64455d6fd411194e4a7ddb5e0a3c659df8c08962758d
 size 530824726

models/subword_markov/ary_markov_ctx1_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55514cae207966a8d7941bc6bb156381590fb5450034766506d063720af59bbd
-size 139719

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aa85613e52f70b5400e89d68121d9f314136f411cc3b9ddb727f1a18275c75b
+size 139539

models/subword_markov/ary_markov_ctx2_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdab4267cc7d278b8413758b9477e5cf1a89f1d231f8007c5be62d51c38175bf
-size 800589

 version https://git-lfs.github.com/spec/v1
+oid sha256:b46ebfbdafda98e2adad1319ead7fedc44d9204d2776cf2e3205c3bd5f5afebe
+size 797041

models/subword_markov/ary_markov_ctx3_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab02a96e6f353bae3406898971d59327277b5f77ca5ecaa7af3558d3d4267e33
-size 2871565

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b4192f99a87bb45ced2563948e266621a565af8ac63ce8f4bde28a93144d756
+size 2874859

models/subword_markov/ary_markov_ctx4_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ea7ed36e08017627aac4cc8835eea513a82ec11c7be675a5928dd3f8519dc4a
-size 9275191

 version https://git-lfs.github.com/spec/v1
+oid sha256:aadd6890898708013a847b49d511a4f98c3b4ee57283f361bdeaeedfa6653f41
+size 9246973

models/subword_ngram/ary_2gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7298aadecd73d04e9b7a4e3152c422afe282ef437eb416072ff772fc3c1dd431
-size 83975

 version https://git-lfs.github.com/spec/v1
+oid sha256:85362146166777b9bcdb0f05aa64508022ee248e5e3f69964e1de614c03e7699
+size 83835

models/subword_ngram/ary_3gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e04cb0f3f2a3712d267658842c70d1c1627ee29126f4da41b291573c910be00
-size 604438

 version https://git-lfs.github.com/spec/v1
+oid sha256:40969977a99672eecdb27448421f16a3f187d65f3c0dc151cea853e070cbadb7
+size 604436

models/subword_ngram/ary_4gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bea49a185c99f23829a987f8811565f84a2bf7bb939dd49da26296a7f133d3e0
-size 2817173

 version https://git-lfs.github.com/spec/v1
+oid sha256:2378e1e2d64b3df9e93427a1a78bcd5faaf6ed666409f9219472f778c7c03606
+size 2807017

models/subword_ngram/ary_5gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83d654927713562a4a35f18a74435eddd9a4bdb3826398b5c97645d1d54e5586
-size 7203019

 version https://git-lfs.github.com/spec/v1
+oid sha256:faf8ee4ec12ef42cd5e3558d66ad4aeff0631f166fba66070e4e84f08a774416
+size 7211281

models/tokenizer/ary_tokenizer_16k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:166276d42d772567739af90c69d0c0c3d3bfb356b5dc2ec54a6cfd604bc980ba
 size 559287

 version https://git-lfs.github.com/spec/v1
+oid sha256:1180ec148decdb3ef68cab243d4b164e40e6f3a9cd004c5a4a6675974d1751d6
 size 559287

models/tokenizer/ary_tokenizer_32k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cf5ee359c6c39652a55a46a80cdb073224a2ef37eb4ba1e16b72ea8f0a28c93
 size 891778

 version https://git-lfs.github.com/spec/v1
+oid sha256:62ead2fffa727c9fa33838adbab2d6cfe8e11b224486009a2df8900f2a79d842
 size 891778

models/tokenizer/ary_tokenizer_64k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62198000b383c4624da36e526abdec55d4335749afe544b9c02a5a2e5005311c
 size 1592960

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cc3477018e21f222e7e79316e39de3e66d54eaa975a1b19e66cb19ef807cd23
 size 1592960

models/tokenizer/ary_tokenizer_8k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b311f5925653a8b93f64537886e776038c09e252ffaf68d3c837d169fc2ce5ca
 size 396519

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c9d36c71b1333556ef6580bcbbd43671c35b88296320664be74ffda2b47642c
 size 396519

models/word_markov/ary_markov_ctx1_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e482ecf3d5961f6adc3f0517998d923d016dd4049af100ca43da1d4f5714507
-size 10606246

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a010a2fee1638b81b95efa703c67ec669457295da9be4b0fd98080b9fa5269b
+size 10613710

models/word_markov/ary_markov_ctx2_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8099e9348247ef07140e6a4819679ee44e17e70727a77d4336c59f14eac55086
-size 26663466

 version https://git-lfs.github.com/spec/v1
+oid sha256:712f90109dc88d6441f66e51cbe823ae8692297f944de4a533056a1db4fd292f
+size 26628986

models/word_markov/ary_markov_ctx3_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93cb9f162c2dbcfb5065666e88f0099f764c1b0f3b93e7046ec6027cee7a21df
-size 36685799

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f27df8a6b3c1b3e0c9195f59edb4203d0589a76026e8e82991c554cda82d38f
+size 36690145

models/word_markov/ary_markov_ctx4_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c57a096a14c42e651f3baca9e5e831cede2fe0f7d68f56e2ea129b7a7108f7e7
-size 43867234

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ef1279d7ad2a47057f8d0bf6e4f5d77d61c37b5959fd2a7d151825361e35b07
+size 43890388

models/word_ngram/ary_2gram_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93c05e55121495a211a8eb1050f3ca2d58cf3d8bd982e602173dba20e5948d85
-size 763334

 version https://git-lfs.github.com/spec/v1
+oid sha256:b98d7209f16b65cc7fc1451b153c7385335b01f64114429d12ae9fc216d45517
+size 762878

models/word_ngram/ary_3gram_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba28aff4ae59c0d3aafeaeeabbb744dbf8455d4a6b3fd7128098fe5128a82766
-size 945482

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e72d04a4c7e230b99474a0984526661b31850682960d936fbac94206078e207
+size 933708

models/word_ngram/ary_4gram_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3051f37bd8f2c416d04b60629b799a5bd1006e638060fb6664a08ab9ea2ccd0a
-size 1670936

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c6480b4d3d6aa998d37591d185d676d50cd65bddddabb425217bbafef0318f8
+size 1672666

models/word_ngram/ary_5gram_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8daaaa0e5bbca1ab7960bc21e516fa85b5d7ccc3707fae37a65a17e9bf7f39f5
-size 1493911