omarkamali commited on Jan 4

Commit

bf5a127

verified ·

1 Parent(s): d637a00

Upload all models and assets for ckb (latest)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
README.md +345 -151
models/embeddings/aligned/ckb_128d.bin +3 -0
models/embeddings/aligned/ckb_128d.meta.json +1 -0
models/embeddings/aligned/ckb_128d.projection.npy +3 -0
models/embeddings/aligned/ckb_128d_metadata.json +8 -0
models/embeddings/aligned/ckb_32d.bin +3 -0
models/embeddings/aligned/ckb_32d.meta.json +1 -0
models/embeddings/aligned/ckb_32d.projection.npy +3 -0
models/embeddings/aligned/ckb_32d_metadata.json +8 -0
models/embeddings/aligned/ckb_64d.bin +3 -0
models/embeddings/aligned/ckb_64d.meta.json +1 -0
models/embeddings/aligned/ckb_64d.projection.npy +3 -0
models/embeddings/aligned/ckb_64d_metadata.json +8 -0
models/embeddings/monolingual/ckb_128d.bin +2 -2
models/embeddings/monolingual/ckb_128d_metadata.json +5 -3
models/embeddings/monolingual/ckb_32d.bin +2 -2
models/embeddings/monolingual/ckb_32d_metadata.json +5 -3
models/embeddings/monolingual/ckb_64d.bin +2 -2
models/embeddings/monolingual/ckb_64d_metadata.json +5 -3
models/subword_markov/ckb_markov_ctx1_subword.parquet +2 -2
models/subword_markov/ckb_markov_ctx1_subword_metadata.json +2 -2
models/subword_markov/ckb_markov_ctx2_subword.parquet +2 -2
models/subword_markov/ckb_markov_ctx2_subword_metadata.json +2 -2
models/subword_markov/ckb_markov_ctx3_subword.parquet +2 -2
models/subword_markov/ckb_markov_ctx3_subword_metadata.json +2 -2
models/subword_markov/ckb_markov_ctx4_subword.parquet +2 -2
models/subword_markov/ckb_markov_ctx4_subword_metadata.json +2 -2
models/subword_ngram/ckb_2gram_subword.parquet +2 -2
models/subword_ngram/ckb_2gram_subword_metadata.json +2 -2
models/subword_ngram/ckb_3gram_subword.parquet +2 -2
models/subword_ngram/ckb_3gram_subword_metadata.json +2 -2
models/subword_ngram/ckb_4gram_subword.parquet +2 -2
models/subword_ngram/ckb_4gram_subword_metadata.json +2 -2
models/subword_ngram/ckb_5gram_subword.parquet +3 -0
models/subword_ngram/ckb_5gram_subword_metadata.json +7 -0
models/tokenizer/ckb_tokenizer_16k.model +2 -2
models/tokenizer/ckb_tokenizer_16k.vocab +0 -0
models/tokenizer/ckb_tokenizer_32k.model +2 -2
models/tokenizer/ckb_tokenizer_32k.vocab +0 -0
models/tokenizer/ckb_tokenizer_64k.model +2 -2
models/tokenizer/ckb_tokenizer_64k.vocab +0 -0
models/tokenizer/ckb_tokenizer_8k.model +2 -2
models/tokenizer/ckb_tokenizer_8k.vocab +0 -0
models/vocabulary/ckb_vocabulary.parquet +2 -2
models/vocabulary/ckb_vocabulary_metadata.json +10 -9
models/word_markov/ckb_markov_ctx1_word.parquet +2 -2
models/word_markov/ckb_markov_ctx1_word_metadata.json +2 -2
models/word_markov/ckb_markov_ctx2_word.parquet +2 -2
models/word_markov/ckb_markov_ctx2_word_metadata.json +2 -2

.gitattributes CHANGED Viewed

@@ -39,3 +39,4 @@ visualizations/position_encoding_comparison.png filter=lfs diff=lfs merge=lfs -t
 visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text

 visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text
+visualizations/embedding_tsne_multilingual.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 language: ckb
-language_name: CKB
 language_family: iranian_western
 tags:
   - wikilangs
@@ -10,11 +10,21 @@ tags:
   - n-gram
   - markov
   - wikipedia
   - monolingual
   - family-iranian_western
 license: mit
 library_name: wikilangs
-pipeline_tag: feature-extraction
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
@@ -23,20 +33,20 @@ dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
-    value: 4.743
   - name: best_isotropy
     type: isotropy
-    value: 0.7972
   - name: vocabulary_size
     type: vocab
-    value: 267929
-generated: 2025-12-28
 ---
-# CKB - Wikilangs Models
 ## Comprehensive Research Report & Full Ablation Study
-This repository contains NLP models trained and evaluated by Wikilangs, specifically on **CKB** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ## 📋 Repository Contents
@@ -44,12 +54,13 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 ### Models & Assets
 - Tokenizers (8k, 16k, 32k, 64k)
-- N-gram models (2, 3, 4-gram)
-- Markov chains (context of 1, 2, 3 and 4)
 - Subword N-gram and Markov chains
-- Embeddings in various sizes and dimensions
 - Language Vocabulary
 - Language Statistics
 ![Performance Dashboard](visualizations/performance_dashboard.png)
 ### Analysis and Evaluation
@@ -59,7 +70,8 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
-- [6. Summary & Recommendations](#6-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
@@ -68,71 +80,57 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 ![Tokenizer Compression](visualizations/tokenizer_compression.png)
 ### Results
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
-| **8k** | 3.683x | 3.65 | 0.0660% | 975,730 |
-| **16k** | 4.093x | 4.06 | 0.0733% | 878,011 |
-| **32k** | 4.448x | 4.41 | 0.0797% | 808,075 |
-| **64k** | 4.743x 🏆 | 4.70 | 0.0850% | 757,838 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `شارێکی ویلایەتی جۆرجیایە لە ویلایەتە یەکگرتووەکانی ئەمریکا.
- بەستەرە دەرکییەکان`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁شارێکی ▁ویلایەتی ▁جۆر جی ایە ▁لە ▁ویلایەتە ▁یەکگرتووەکانی ▁ئەمریکا . ... (+4 more)` | 14 |
-| 16k | `▁شارێکی ▁ویلایەتی ▁جۆرجی ایە ▁لە ▁ویلایەتە ▁یەکگرتووەکانی ▁ئەمریکا . ▁بەستەرە ... (+2 more)` | 12 |
-| 32k | `▁شارێکی ▁ویلایەتی ▁جۆرجی ایە ▁لە ▁ویلایەتە ▁یەکگرتووەکانی ▁ئەمریکا . ▁بەستەرە ... (+2 more)` | 12 |
-| 64k | `▁شارێکی ▁ویلایەتی ▁جۆرجی ایە ▁لە ▁ویلایەتە ▁یەکگرتووەکانی ▁ئەمریکا . ▁بەستەرە ... (+2 more)` | 12 |
-**Sample 2:** `ڕووداوەکان
- لەدایکبوونەکان
- مردنەکان
- سەرچاوەکان
-پۆل:ساڵەکان`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-| 16k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-| 32k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-| 64k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-**Sample 3:** `ڕووداوەکان
- لەدایکبوونەکان
- مردنەکان
- سەرچاوەکان
-پۆل:ساڵەکان`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-| 16k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-| 32k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
-| 64k | `▁ڕووداوەکان ▁لەدایکبوونەکان ▁مردنەکان ▁سەرچاوەکان ▁پۆل : ساڵەکان` | 7 |
 ### Key Findings
-- **Best Compression:** 64k achieves 4.743x compression
-- **Lowest UNK Rate:** 8k with 0.0660% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
@@ -141,57 +139,111 @@ Below are sample sentences tokenized with each vocabulary size:
 ![N-gram Perplexity](visualizations/ngram_perplexity.png)
 ![N-gram Coverage](visualizations/ngram_coverage.png)
 ### Results
-| N-gram | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
-|--------|------------|---------|----------------|------------------|-------------------|
-| **2-gram** | 35,123 🏆 | 15.10 | 297,076 | 15.8% | 33.2% |
-| **2-gram** | 381 🏆 | 8.57 | 15,002 | 62.1% | 96.1% |
-| **3-gram** | 68,724 | 16.07 | 466,780 | 12.3% | 28.4% |
-| **3-gram** | 3,034 | 11.57 | 125,615 | 27.5% | 67.3% |
-| **4-gram** | 110,939 | 16.76 | 754,916 | 10.4% | 25.7% |
-| **4-gram** | 15,538 | 13.92 | 641,521 | 13.6% | 40.6% |
 ### Top 5 N-grams by Size
-**2-grams:**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `پۆل :` | 315,394 |
-| 2 | `. لە` | 57,144 |
-| 3 | `لە ساڵی` | 47,235 |
-| 4 | `. سەرچاوەکان` | 43,826 |
-| 5 | `سەرچاوەکان پۆل` | 31,612 |
-**3-grams:**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `سەرچاوەکان پۆل :` | 31,612 |
-| 2 | `: / /` | 24,968 |
-| 3 | `پۆل : ئەکتەرەکانی` | 22,109 |
-| 4 | `پۆل : لەدایکبووانی` | 22,019 |
-| 5 | `ئەمریکییەکان پۆل :` | 18,941 |
-**4-grams:**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `. سەرچاوەکان پۆل :` | 17,589 |
-| 2 | `بەستەرە دەرەکییەکان پۆل :` | 16,063 |
-| 3 | `سەرچاوەکان بەستەرە دەرەکییەکان پۆل` | 15,316 |
-| 4 | `. سەرچاوەکان بەستەرە دەرەکییەکان` | 14,823 |
-| 5 | `http : / /` | 12,552 |
 ### Key Findings
-- **Best Perplexity:** 2-gram with 381
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
-- **Coverage:** Top-1000 patterns cover ~41% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
@@ -199,55 +251,86 @@ Below are sample sentences tokenized with each vocabulary size:
 ![Markov Entropy](visualizations/markov_entropy.png)
 ![Markov Branching](visualizations/markov_branching.png)
 ### Results
-| Context | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
-|---------|-------------|------------|------------------|-----------------|----------------|
-| **1** | 0.7236 | 1.651 | 6.62 | 684,303 | 27.6% |
-| **1** | 1.3292 | 2.513 | 9.41 | 4,993 | 0.0% |
-| **2** | 0.3062 | 1.236 | 1.94 | 4,525,451 | 69.4% |
-| **2** | 0.8890 | 1.852 | 6.06 | 46,978 | 11.1% |
-| **3** | 0.1145 | 1.083 | 1.24 | 8,778,035 | 88.5% |
-| **3** | 0.8191 | 1.764 | 4.27 | 284,820 | 18.1% |
-| **4** | 0.0429 🏆 | 1.030 | 1.08 | 10,844,509 | 95.7% |
-| **4** | 0.6245 🏆 | 1.542 | 2.80 | 1,215,545 | 37.5% |
-### Generated Text Samples
-Below are text samples generated from each Markov chain model:
 **Context Size 1:**
-1. `لە ١٩٩٤ وەک کانگ ھون ( ١٧٣ ڕۆژ بوو لە پارتی دیموکراتی لەو ئامێرانە دەبنەهۆی کەمکردنەوەی`
-2. `. کۆمارەکە لە ئاستی عێراق بکات وا بیر و ناودارەکان و پەرە بە گراڤ ئەوە ،`
-3. `، سوپەر فلودی ھیلێۆم وایە پێویستە بۆ ئەو بڕە داھاتێکی باشیش بوو لە تاراوگە زۆرەملێکان لە`
 **Context Size 2:**
-1. `پۆل : فیلمە بەرھەمھێنراوەکان لەلایەن بیو فلین پۆل : فیلمە ئەنیمەیشنەکانی سۆنی پیکچەرز ، ڤۆگێل لە ساڵ...`
-2. `. لە ڕێکەوتی ١٠ی کانوونی دووەمی ١٩١٩ ، بادە لە ساڵی ١٩٣٧ وەک « ئەگەر ناچار بێت`
-3. `لە ساڵی ١٩٨١ پەنای بردووەتە ویلایەتە یەکگرتووەکانی ئەمریکا . سەنتەرەکە نزیکەی ٢٥٠ کارمەندی تێدابوو ک...`
 **Context Size 3:**
-1. `سەرچاوەکان پۆل : خۆراک و ژینگە پۆل : پێشەکییەکانی ساڵی ١٩٧٢ پۆل : ئیسرائیل لە ١٩٤٨ پۆل :`
-2. `: / / kurdipedia . org / web / 20090302175610 / http : / / web . archive`
-3. `پۆل : ئەکتەرەکانی تەلەڤیزیۆنی پیاوی ئەمریکی پۆل : ئەو فیلمانەی لە نیویۆرک داندراون پۆل : فیلمە کەنەد...`
 **Context Size 4:**
-1. `. سەرچاوەکان پۆل : شوێنە ئاوەدانەکانی پارێز��ای سلێمانی پۆل : گوندەکانی باشووری کوردستان پۆل : نیشتەج...`
-2. `بەستەرە دەرەکییەکان پۆل : لەدایکبووانی ١٩١٧ پۆل : مردووانی ١٩٩٧ پۆل : ئەکتەرە پیاوە ئەمریکییەکانی سە...`
-3. `سەرچاوەکان بەستەرە دەرەکییەکان پۆل : لەدایکبووانی ١٩٥٧ پۆل : نووسەرە پیاوە ئەمریکییەکانی سەدەی ٢٠ەم ...`
 ### Key Findings
-- **Best Predictability:** Context-4 with 95.7% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
-- **Memory Trade-off:** Larger contexts require more storage (1,215,545 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
@@ -263,26 +346,26 @@ Below are text samples generated from each Markov chain model:
 | Metric | Value |
 |--------|-------|
-| Vocabulary Size | 267,929 |
-| Total Tokens | 12,273,016 |
-| Mean Frequency | 45.81 |
 | Median Frequency | 4 |
-| Frequency Std Dev | 1797.49 |
 ### Most Common Words
 | Rank | Word | Frequency |
 |------|------|-----------|
-| 1 | لە | 634,045 |
-| 2 | و | 445,997 |
-| 3 | پۆل | 315,758 |
-| 4 | بە | 217,465 |
-| 5 | کە | 180,742 |
-| 6 | بۆ | 132,391 |
-| 7 | ساڵی | 84,816 |
-| 8 | سەرچاوەکان | 65,009 |
-| 9 | بوو | 61,528 |
-| 10 | لەگەڵ | 54,424 |
 ### Least Common Words (from vocabulary)
@@ -290,10 +373,10 @@ Below are text samples generated from each Markov chain model:
 |------|------|-----------|
 | 1 | microarchitecture | 2 |
 | 2 | gigabit | 2 |
-| 3 | سوپەرکۆمپیوتەرەکە | 2 |
-| 4 | تایوانیا | 2 |
-| 5 | بایۆمۆلیکولەر | 2 |
-| 6 | gimps | 2 |
 | 7 | principatele | 2 |
 | 8 | دۆمنیتۆر | 2 |
 | 9 | باربو | 2 |
@@ -303,24 +386,24 @@ Below are text samples generated from each Markov chain model:
 | Metric | Value |
 |--------|-------|
-| Zipf Coefficient | 1.0351 |
-| R² (Goodness of Fit) | 0.990570 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
-| Top 100 | 31.0% |
-| Top 1,000 | 55.5% |
-| Top 5,000 | 74.1% |
-| Top 10,000 | 80.8% |
 ### Key Findings
-- **Zipf Compliance:** R²=0.9906 indicates excellent adherence to Zipf's law
-- **High Frequency Dominance:** Top 100 words cover 31.0% of corpus
-- **Long Tail:** 257,929 words needed for remaining 19.2% coverage
 ---
 ## 5. Word Embeddings Evaluation
@@ -333,24 +416,132 @@ Below are text samples generated from each Markov chain model:
 ![t-SNE Sentences](visualizations/tsne_sentences.png)
-### Model Comparison
-| Model | Vocab Size | Dimension | Avg Norm | Std Norm | Isotropy |
-|-------|------------|-----------|----------|----------|----------|
-| **mono_32d** | 129,587 | 32 | 3.467 | 1.190 | 0.7972 🏆 |
-| **mono_64d** | 129,587 | 64 | 3.957 | 1.135 | 0.7842 |
-| **mono_128d** | 129,587 | 128 | 4.525 | 1.098 | 0.7539 |
-| **embeddings_enhanced** | 0 | 0 | 0.000 | 0.000 | 0.0000 |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.7972 (more uniform distribution)
-- **Dimension Trade-off:** Higher dimensions capture more semantics but reduce isotropy
-- **Vocabulary Coverage:** All models cover 129,587 words
-- **Recommendation:** 100d for balanced semantic capture and efficiency
 ---
-## 6. Summary & Recommendations
 ![Performance Dashboard](visualizations/performance_dashboard.png)
@@ -358,11 +549,12 @@ Below are text samples generated from each Markov chain model:
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
-| Tokenizer | **32k BPE** | Best compression (4.74x) with low UNK rate |
-| N-gram | **5-gram** | Lowest perplexity (381) |
-| Markov | **Context-4** | Highest predictability (95.7%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
 ---
 ## Appendix: Metrics Glossary & Interpretation Guide
@@ -552,7 +744,8 @@ If you use these models in your research, please cite:
   author = {Kamali, Omar},
   title = {Wikilangs: Open NLP Models for Wikipedia Languages},
   year = {2025},
-  publisher = {HuggingFace},
   url = {https://huggingface.co/wikilangs}
   institution = {Omneity Labs}
 }
@@ -568,7 +761,8 @@ MIT License - Free for academic and commercial use.
 - 🤗 Models: [huggingface.co/wikilangs](https://huggingface.co/wikilangs)
 - 📊 Data: [wikipedia-monthly](https://huggingface.co/datasets/omarkamali/wikipedia-monthly)
 - 👤 Author: [Omar Kamali](https://huggingface.co/omarkamali)
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2025-12-28 23:07:50*

 ---
 language: ckb
+language_name: Central Kurdish
 language_family: iranian_western
 tags:
   - wikilangs
   - n-gram
   - markov
   - wikipedia
+  - feature-extraction
+  - sentence-similarity
+  - tokenization
+  - n-grams
+  - markov-chain
+  - text-mining
+  - fasttext
+  - babelvec
+  - vocabulous
+  - vocabulary
   - monolingual
   - family-iranian_western
 license: mit
 library_name: wikilangs
+pipeline_tag: text-generation
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
+    value: 4.804
   - name: best_isotropy
     type: isotropy
+    value: 0.8085
   - name: vocabulary_size
     type: vocab
+    value: 0
+generated: 2026-01-04
 ---
+# Central Kurdish - Wikilangs Models
 ## Comprehensive Research Report & Full Ablation Study
+This repository contains NLP models trained and evaluated by Wikilangs, specifically on **Central Kurdish** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ## 📋 Repository Contents
 ### Models & Assets
 - Tokenizers (8k, 16k, 32k, 64k)
+- N-gram models (2, 3, 4, 5-gram)
+- Markov chains (context of 1, 2, 3, 4 and 5)
 - Subword N-gram and Markov chains
+- Embeddings in various sizes and dimensions (aligned and unaligned)
 - Language Vocabulary
 - Language Statistics
 ![Performance Dashboard](visualizations/performance_dashboard.png)
 ### Analysis and Evaluation
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
+- [6. Morphological Analysis (Experimental)](#6--morphological-analysis-experimental)
+- [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
 ![Tokenizer Compression](visualizations/tokenizer_compression.png)
+![Tokenizer Fertility](visualizations/tokenizer_fertility.png)
+![Tokenizer OOV](visualizations/tokenizer_oov.png)
+![Total Tokens](visualizations/tokenizer_total_tokens.png)
 ### Results
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
+| **8k** | 3.742x | 3.74 | 0.0597% | 899,331 |
+| **16k** | 4.157x | 4.16 | 0.0663% | 809,551 |
+| **32k** | 4.517x | 4.52 | 0.0721% | 745,101 |
+| **64k** | 4.804x 🏆 | 4.80 | 0.0766% | 700,630 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `پیشوا () شارێکە لە پارێزگای تاران، ئێران. ئەمانەش ببینە پێڕستی شارەکانی ئێران پێ...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁پیش وا ▁() ▁شارێکە ▁لە ▁پارێزگای ▁تاران ، ▁ئێران . ... (+12 more)` | 22 |
+| 16k | `▁پیش وا ▁() ▁شارێکە ▁لە ▁پارێزگای ▁تاران ، ▁ئێران . ... (+12 more)` | 22 |
+| 32k | `▁پیش وا ▁() ▁شارێکە ▁لە ▁پارێزگای ▁تاران ، ▁ئێران . ... (+12 more)` | 22 |
+| 64k | `▁پیش وا ▁() ▁شارێکە ▁لە ▁پارێزگای ▁تاران ، ▁ئێران . ... (+12 more)` | 22 |
+**Sample 2:** `پەنەما نەتەوەیەکی بەشداربووی ئۆڵۆمپیادی ھاوینەی بوو کە لە ١٧ی ئایار تا ١٢ی ئابی ...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁پەن ەم ا ▁نەتەوەیەکی ▁بەشداربووی ▁ئۆڵۆمپیادی ▁ھاوینەی ▁بوو ▁کە ▁لە ... (+20 more)` | 30 |
+| 16k | `▁پەنەما ▁نەتەوەیەکی ▁بەشداربووی ▁ئۆڵۆمپیادی ▁ھاوینەی ▁بوو ▁کە ▁لە ▁١٧ی ▁ئایار ... (+14 more)` | 24 |
+| 32k | `▁پەنەما ▁نەتەوەیەکی ▁بەشداربووی ▁ئۆڵۆمپیادی ▁ھاوینەی ▁بوو ▁کە ▁لە ▁١٧ی ▁ئایار ... (+14 more)` | 24 |
+| 64k | `▁پەنەما ▁نەتەوەیەکی ▁بەشداربووی ▁ئۆڵۆمپیادی ▁ھاوینەی ▁بوو ▁کە ▁لە ▁١٧ی ▁ئایار ... (+14 more)` | 24 |
+**Sample 3:** `بێثێل () شارێکە دەکەوێتە ویلایەتی ئالاسکا، ئەمریکا. ژمارەی دانیشتووانی بەپێی سەر...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁بێ ث ێل ▁() ▁شارێکە ▁دەکەوێتە ▁ویلایەتی ▁ئالاسکا ، ▁ئەمریکا ... (+18 more)` | 28 |
+| 16k | `▁بێ ث ێل ▁() ▁شارێکە ▁دەکەوێتە ▁ویلایەتی ▁ئالاسکا ، ▁ئەمریکا ... (+18 more)` | 28 |
+| 32k | `▁بێ ث ێل ▁() ▁شارێکە ▁دەکەوێتە ▁ویلایەتی ▁ئالاسکا ، ▁ئەمریکا ... (+18 more)` | 28 |
+| 64k | `▁بێ ث ێل ▁() ▁شارێکە ▁دەکەوێتە ▁ویلایەتی ▁ئالاسکا ، ▁ئەمریکا ... (+18 more)` | 28 |
 ### Key Findings
+- **Best Compression:** 64k achieves 4.804x compression
+- **Lowest UNK Rate:** 8k with 0.0597% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
 ![N-gram Perplexity](visualizations/ngram_perplexity.png)
+![N-gram Unique](visualizations/ngram_unique.png)
 ![N-gram Coverage](visualizations/ngram_coverage.png)
 ### Results
+| N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
+|--------|---------|------------|---------|----------------|------------------|-------------------|
+| **2-gram** | Word | 43,391 | 15.41 | 224,985 | 11.6% | 28.8% |
+| **2-gram** | Subword | 307 🏆 | 8.26 | 12,264 | 66.4% | 97.8% |
+| **3-gram** | Word | 66,250 | 16.02 | 298,666 | 10.5% | 25.9% |
+| **3-gram** | Subword | 2,476 | 11.27 | 92,875 | 29.2% | 70.6% |
+| **4-gram** | Word | 100,774 | 16.62 | 472,614 | 10.7% | 24.7% |
+| **4-gram** | Subword | 13,099 | 13.68 | 482,188 | 14.0% | 42.0% |
+| **5-gram** | Word | 72,668 | 16.15 | 353,585 | 11.8% | 27.3% |
+| **5-gram** | Subword | 47,108 | 15.52 | 1,228,808 | 7.9% | 26.8% |
 ### Top 5 N-grams by Size
+**2-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `لە ساڵی` | 47,065 |
+| 2 | `کە لە` | 28,992 |
+| 3 | `و لە` | 26,652 |
+| 4 | `بەستەرە دەرەکییەکان` | 19,291 |
+| 5 | `سەرچاوەکان بەستەرە` | 17,555 |
+**3-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `سەرچاوەکان بەستەرە دەرەکییەکان` | 17,516 |
+| 2 | `دەستی بە چالاکی` | 7,882 |
+| 3 | `لە دەستی بە` | 7,873 |
+| 4 | `بە چالاکی کردووە` | 7,857 |
+| 5 | `ئەمریکییەکانی سەدەی ٢٠ەم` | 7,760 |
+**4-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `دەستی بە چالاکی کردووە` | 7,857 |
+| 2 | `لە دەستی بە چالاکی` | 7,838 |
+| 3 | `کردووە سەرچاوەکان بەستەرە دەرەکییەکان` | 6,699 |
+| 4 | `پیاوە ئەمریکییەکانی سەدەی ٢٠ەم` | 6,045 |
+| 5 | `ئەمریکییە لە دەستی بە` | 5,227 |
+**5-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `لە دەستی بە چالاکی کردووە` | 7,827 |
+| 2 | `ئەمریکییە لە دەستی بە چالاکی` | 5,227 |
+| 3 | `ئەکتەرێکی ئەمریکییە لە دەستی بە` | 5,224 |
+| 4 | `چالاکی کردووە سەرچاوەکان بەستەرە دەرەکییەکان` | 4,624 |
+| 5 | `دەستی بە چالاکی کردووە سەرچاوەکان` | 4,624 |
+**2-grams (Subword):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `ی _` | 3,411,049 |
+| 2 | `ە _` | 1,937,601 |
+| 3 | `ا ن` | 1,774,322 |
+| 4 | `_ ب` | 1,264,353 |
+| 5 | `ە ک` | 1,085,531 |
+**3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `_ ل ە` | 875,397 |
+| 2 | `ن ی _` | 698,413 |
+| 3 | `ل ە _` | 639,579 |
+| 4 | `ا ن ی` | 592,978 |
+| 5 | `_ ب ە` | 565,735 |
+**4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `_ ل ە _` | 625,605 |
+| 2 | `ە ک ا ن` | 467,335 |
+| 3 | `ا ن ی _` | 454,442 |
+| 4 | `ک ا ن _` | 226,640 |
+| 5 | `ک ا ن ی` | 214,980 |
+**5-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `ە ک ا ن _` | 217,466 |
+| 2 | `ک ا ن ی _` | 198,040 |
+| 3 | `ە ک ا ن ی` | 193,300 |
+| 4 | `ی ە ک ا ن` | 146,991 |
+| 5 | `ی ی ە ک ا` | 135,823 |
 ### Key Findings
+- **Best Perplexity:** 2-gram (subword) with 307
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
+- **Coverage:** Top-1000 patterns cover ~27% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
 ![Markov Entropy](visualizations/markov_entropy.png)
+![Markov Contexts](visualizations/markov_contexts.png)
 ![Markov Branching](visualizations/markov_branching.png)
 ### Results
+| Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
+|---------|---------|-------------|------------|------------------|-----------------|----------------|
+| **1** | Word | 0.8150 | 1.759 | 7.19 | 625,283 | 18.5% |
+| **1** | Subword | 1.1771 | 2.261 | 7.84 | 5,867 | 0.0% |
+| **2** | Word | 0.2642 | 1.201 | 1.74 | 4,486,871 | 73.6% |
+| **2** | Subword | 0.7063 | 1.632 | 4.63 | 46,011 | 29.4% |
+| **3** | Word | 0.0868 | 1.062 | 1.16 | 7,800,583 | 91.3% |
+| **3** | Subword | 0.7560 | 1.689 | 4.12 | 212,847 | 24.4% |
+| **4** | Word | 0.0293 🏆 | 1.021 | 1.05 | 9,049,668 | 97.1% |
+| **4** | Subword | 0.6434 | 1.562 | 2.94 | 877,504 | 35.7% |
+### Generated Text Samples (Word-based)
+Below are text samples generated from each word-based Markov chain model:
+**Context Size 1:**
+1. `لە ئۆڵۆمپیادی زستانەی پێکھاتووە لە ساڵی لەلایەن ھێربێرت بێرگ لە ڕۆژھەڵاتی ویلایەتە یەکگرتووەکان کە پ...`
+2. `و تا ٤ی حوزەیرانی لە ١٩ی ئەیلوولی لە بەردەم ماڵەکەی دەسووتێ و بەم شێوەیەن و بنچینەکانی`
+3. `بە ڕەچەڵەک هەنگاری یانۆس پرۆھاسکا ١٠ی ئەیلوولی بەنەخۆشی لە سەر ڕێڕەوەکە لە ڕێشە وشەی بە زمانی`
+**Context Size 2:**
+1. `لە ساڵی مەحموود پاشا ناردی بۆ لای خوا ڕاکێشێت پیاوێک ھەبوو کە لە ئەڵمانیا دانراون فیلمانەی لە`
+2. `کە لە ئاشەکاندا بۆ ھاڕینەوەی گەنم بە کار دەھێنن ئەمەش سوود لە باروودۆخی کوژرانی خۆپیشاندەرانی کورد ک...`
+3. `و لە ساڵی دروستکراوە و کارەکتەری ھونەریەکەی بە جەنەڕاڵی شانۆی کوردی سقز یەکێک لە خودایانی ھیندووەکان...`
+**Context Size 3:**
+1. `سەرچاوەکان بەستەرە دەرەکییەکان فیلمە پیاوە ئەمریکییەکان تەلەڤیزیۆنی پیاوی ئەمریکی نێرەکانی کۆلۆرادۆ ...`
+2. `دەستی بە چالاکی کردووە بەشداریی لە فیلمی ٣٠ ڕۆژ لە شەو و ڕۆژێکدا تەنھا ٢ کاتژمێر خەوتووە زۆرینەی`
+3. `لە دەستی بە چالاکی کردووە بەشداریی لە زنجیرەی ھاوسدا کردووە سەرچاوەکان بەستەرە دەرەکییەکان پیاوە ئەم...`
+**Context Size 4:**
+1. `دەستی بە چالاکی کردووە سەرچاوەکان بەستەرە دەرەکییەکان پیاوە ئەمریکییەکانی سەدەی ٢٠ەم فیلمە پیاوە ئەم...`
+2. `لە دەستی بە چالاکی کردووە و تا بەردەوام بووە سەرچاوەکان بەستەرە دەرەکییەکان پیاوە ئەمریکییەکانی سەدە...`
+3. `کردووە سەرچاوەکان بەستەرە دەرەکییەکان پیاوە ئەمریکییەکانی سەدەی ٢٠ەم مافەکانی کۆمەڵگەی پەلکەزێڕینە ل...`
+### Generated Text Samples (Subword-based)
+Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
+1. `_خصعە_ڕشدەکدیلە_`
+2. `ەوەری_بانگەتی_بی`
+3. `ی_تری_خانۆ_باموی`
 **Context Size 2:**
+1. `ی_جیادارەندادەی_ب`
+2. `ە_پێ_کانە_ئامەزەک`
+3. `انی_پەی_بۆ_گەکانی`
 **Context Size 3:**
+1. `_لە_بڕیاری_موونی_ئ`
+2. `نی_ژمار_ناو_ھەبوو.`
+3. `لە_ھاوی_و_لەسەنگی_`
 **Context Size 4:**
+1. `_لە_بەکار_و_دانوستا`
+2. `انی_جینگ،_مایکل_٣_ئ`
+3. `ەکان_بۆ_نیشتووان_ئە`
 ### Key Findings
+- **Best Predictability:** Context-4 (word) with 97.1% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
+- **Memory Trade-off:** Larger contexts require more storage (877,504 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
 | Metric | Value |
 |--------|-------|
+| Vocabulary Size | 254,727 |
+| Total Tokens | 10,896,559 |
+| Mean Frequency | 42.78 |
 | Median Frequency | 4 |
+| Frequency Std Dev | 1719.93 |
 ### Most Common Words
 | Rank | Word | Frequency |
 |------|------|-----------|
+| 1 | لە | 632,400 |
+| 2 | و | 442,707 |
+| 3 | بە | 216,191 |
+| 4 | کە | 179,841 |
+| 5 | بۆ | 132,098 |
+| 6 | ساڵی | 84,358 |
+| 7 | سەرچاوەکان | 63,400 |
+| 8 | بوو | 61,016 |
+| 9 | لەگەڵ | 54,346 |
+| 10 | ئەم | 49,216 |
 ### Least Common Words (from vocabulary)
 |------|------|-----------|
 | 1 | microarchitecture | 2 |
 | 2 | gigabit | 2 |
+| 3 | ethernet | 2 |
+| 4 | سوپەرکۆمپیوتەرەکە | 2 |
+| 5 | تایوانیا | 2 |
+| 6 | بایۆمۆلیکولەر | 2 |
 | 7 | principatele | 2 |
 | 8 | دۆمنیتۆر | 2 |
 | 9 | باربو | 2 |
 | Metric | Value |
 |--------|-------|
+| Zipf Coefficient | 1.0274 |
+| R² (Goodness of Fit) | 0.992430 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
+| Top 100 | 31.2% |
+| Top 1,000 | 55.6% |
+| Top 5,000 | 73.7% |
+| Top 10,000 | 80.5% |
 ### Key Findings
+- **Zipf Compliance:** R²=0.9924 indicates excellent adherence to Zipf's law
+- **High Frequency Dominance:** Top 100 words cover 31.2% of corpus
+- **Long Tail:** 244,727 words needed for remaining 19.5% coverage
 ---
 ## 5. Word Embeddings Evaluation
 ![t-SNE Sentences](visualizations/tsne_sentences.png)
+### 5.1 Cross-Lingual Alignment
+![Alignment Quality](visualizations/embedding_alignment_quality.png)
+![Multilingual t-SNE](visualizations/embedding_tsne_multilingual.png)
+### 5.2 Model Comparison
+| Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
+|-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.8085 | 0.3591 | N/A | N/A |
+| **mono_64d** | 64 | 0.8061 | 0.2799 | N/A | N/A |
+| **mono_128d** | 128 | 0.7738 | 0.2134 | N/A | N/A |
+| **aligned_32d** | 32 | 0.8085 🏆 | 0.3647 | 0.0280 | 0.1960 |
+| **aligned_64d** | 64 | 0.8061 | 0.2755 | 0.0680 | 0.3020 |
+| **aligned_128d** | 128 | 0.7738 | 0.2095 | 0.0960 | 0.3920 |
 ### Key Findings
+- **Best Isotropy:** aligned_32d with 0.8085 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.2837. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 9.6% R@1 in cross-lingual retrieval.
+- **Recommendation:** 128d aligned for best cross-lingual performance
 ---
+## 6.  Morphological Analysis (Experimental)
+This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
+### 6.1 Productivity & Complexity
+| Metric | Value | Interpretation | Recommendation |
+|--------|-------|----------------|----------------|
+| Productivity Index | **5.000** | High morphological productivity | Reliable analysis |
+| Idiomaticity Gap | **0.020** | Low formulaic content | - |
+### 6.2 Affix Inventory (Productive Units)
+These are the most productive prefixes and suffixes identified by sampling the vocabulary for global substitutability patterns. A unit is considered an affix if stripping it leaves a valid stem that appears in other contexts.
+#### Productive Prefixes
+| Prefix | Examples |
+|--------|----------|
+| `-ئە` | ئەرمەنستانەوە, ئەرزەروم, ئەمبڕێلاوە |
+| `-بە` | بەڕوودا, بەیاوبەس, بەلتیک |
+| `-دە` | دەدایە, دەشتانە, دەیبرد |
+#### Productive Suffixes
+| Suffix | Examples |
+|--------|----------|
+| `-ی` | ویکیپدیای, نەوەکەی, جاگتای |
+| `-ە` | ئینگلستانەوە, چۆنە, ناوەکیە |
+| `-ن` | ئامانجەکان, کارلێککارەکان, ھەمەدانیان |
+| `-ان` | ئامانجەکان, کارلێککارەکان, ھەمەدانیان |
+| `-نی` | بووەکانی, مەجنونی, کۆمیکسەکانی |
+| `-وە` | ئینگلستانەوە, تریەوە, ئەرمەنستانەوە |
+| `-ەوە` | ئینگلستانەوە, تریەوە, ئەرمەنستانەوە |
+| `-ەی` | نەوەکەی, وەزیفەی, حەوانەوەی |
+### 6.3 Bound Stems (Lexical Roots)
+Bound stems are high-frequency subword units that are semantically cohesive but rarely appear as standalone words. These often correspond to the 'core' of a word that requires inflection or derivation to be valid.
+| Stem | Cohesion | Substitutability | Examples |
+|------|----------|------------------|----------|
+| `انیا` | 1.88x | 226 contexts | کانیا, خانیا, شانیا |
+| `ییەک` | 1.50x | 396 contexts | چییەک, دییەک, دییەکی |
+| `ەمری` | 2.19x | 44 contexts | دەمری, عەمری, کەمری |
+| `مریک` | 2.13x | 48 contexts | ئێمریک, ئیمریک, ئەمریک |
+| `اوەک` | 1.50x | 247 contexts | تاوەک, ماوەک, ڕاوەکە |
+| `وەکا` | 1.61x | 150 contexts | وەکار, بوەکان, وەکاری |
+| `ەڵات` | 1.71x | 100 contexts | هەڵات, سەڵات, خەڵات |
+| `ەسەر` | 1.59x | 133 contexts | بەسەر, ئەسەر, کەسەر |
+| `رەکا` | 1.38x | 274 contexts | ترەکان, چرەکان, مۆرەکان |
+| `ەرچا` | 2.05x | 42 contexts | سەرچاو, بەرچاو, بەرچاون |
+| `رچاو` | 1.84x | 60 contexts | قرچاو, رچاوه, سەرچاو |
+| `ردنی` | 1.72x | 80 contexts | كردنی, مردنی, بردنی |
+### 6.4 Affix Compatibility (Co-occurrence)
+This table shows which prefixes and suffixes most frequently co-occur on the same stems, revealing the 'stacking' rules of the language's morphology.
+| Prefix | Suffix | Frequency | Examples |
+|--------|--------|-----------|----------|
+| `-بە` | `-ی` | 83 words | بەرەوپێشبردنی, بەتانی |
+| `-بە` | `-ە` | 50 words | بەدواوەیە, بەدواداچوونەکە |
+| `-ئە` | `-ە` | 49 words | ئەفسانەییە, ئەستێرەیەکەوە |
+| `-دە` | `-ە` | 45 words | دەروونییەکانییەوە, دەرئەنجامەکە |
+| `-ئە` | `-ی` | 44 words | ئەهێنی, ئەوێی |
+| `-بە` | `-ن` | 38 words | بەرپرسەکەیان, بەرنامەکان |
+| `-دە` | `-ن` | 34 words | دەخرێن, دەکران |
+| `-دە` | `-ی` | 32 words | دەپەیوەندی, دەبیری |
+| `-بە` | `-نی` | 31 words | بەرەوپێشبردنی, بەتانی |
+| `-دە` | `-وە` | 26 words | دەروونییەکانییەوە, دەگوازیتەوە |
+### 6.5 Recursive Morpheme Segmentation
+Using **Recursive Hierarchical Substitutability**, we decompose complex words into their constituent morphemes. This approach handles nested affixes (e.g., `prefix-prefix-root-suffix`).
+| Word | Suggested Split | Confidence | Stem |
+|------|-----------------|------------|------|
+| خراپەکارانەی | **`خراپەکار-ان-ەی`** | 6.0 | `خراپەکار` |
+| گیاندارانەی | **`گیاندار-ان-ەی`** | 6.0 | `گیاندار` |
+| کارانەیان | **`کاران-ەی-ان`** | 6.0 | `کاران` |
+| ئۆرانیەوە | **`ئۆرا-نی-ەوە`** | 6.0 | `ئۆرا` |
+| پسپۆڕانەوە | **`پسپۆڕ-ان-ەوە`** | 6.0 | `پسپۆڕ` |
+| مێیەکانیان | **`مێیەک-انی-ان`** | 6.0 | `مێیەک` |
+| ھاوسەرگیرییاندا | **`ھاوسەرگیریی-ان-دا`** | 6.0 | `ھاوسەرگیریی` |
+| پێشەنگانەی | **`پێشەنگ-ان-ەی`** | 6.0 | `پێشەنگ` |
+| ئابوورییەکانەوە | **`ئابوورییەک-ان-ەوە`** | 6.0 | `ئابوورییەک` |
+| وەرزشکارانەی | **`وەرزشکار-ان-ەی`** | 6.0 | `وەرزشکار` |
+| گۆرانییەکاندا | **`گۆرانییەک-ان-دا`** | 6.0 | `گۆرانییەک` |
+| ئەمیرەکان | **`ئە-میرەک-ان`** | 6.0 | `میرەک` |
+| ڕەبیعەیان | **`ڕەبیع-ەی-ان`** | 6.0 | `ڕەبیع` |
+| بەھاندانی | **`بە-ھاند-انی`** | 6.0 | `ھاند` |
+| ناوخۆییانەی | **`ناوخۆیی-ان-ەی`** | 6.0 | `ناوخۆیی` |
+### 6.6 Linguistic Interpretation
+> **Automated Insight:**
+The language Central Kurdish shows high morphological productivity. The subword models are significantly more efficient than word models, suggesting a rich system of affixation or compounding.
+---
+## 7. Summary & Recommendations
 ![Performance Dashboard](visualizations/performance_dashboard.png)
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
+| Tokenizer | **64k BPE** | Best compression (4.80x) |
+| N-gram | **2-gram** | Lowest perplexity (307) |
+| Markov | **Context-4** | Highest predictability (97.1%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
 ---
 ## Appendix: Metrics Glossary & Interpretation Guide
   author = {Kamali, Omar},
   title = {Wikilangs: Open NLP Models for Wikipedia Languages},
   year = {2025},
+  doi = {10.5281/zenodo.18073153},
+  publisher = {Zenodo},
   url = {https://huggingface.co/wikilangs}
   institution = {Omneity Labs}
 }
 - 🤗 Models: [huggingface.co/wikilangs](https://huggingface.co/wikilangs)
 - 📊 Data: [wikipedia-monthly](https://huggingface.co/datasets/omarkamali/wikipedia-monthly)
 - 👤 Author: [Omar Kamali](https://huggingface.co/omarkamali)
+- 🤝 Sponsor: [Featherless AI](https://featherless.ai)
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-04 00:20:16*

models/embeddings/aligned/ckb_128d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ea3f53036d267e3d7a7ed2386b681314212fd5b35678baa23adcb7456ce7c4a
+size 1151875214

models/embeddings/aligned/ckb_128d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ckb", "dim": 128, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ckb_128d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab88852a8e845f1196013144e2e515f744c74f546649f1b798d869cc2d2fd8c1
+size 65664

models/embeddings/aligned/ckb_128d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ckb",
+  "dimension": 128,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 10974,
+  "vocab_size": 122030
+}

models/embeddings/aligned/ckb_32d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:239758fca11118baea1531fc2cb9622012abf393ad3474262f96044d6ad95106
+size 290156174

models/embeddings/aligned/ckb_32d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ckb", "dim": 32, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ckb_32d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8072c42fdc02826370f84e43723c4a72769b1e1ad0e7ad733893bec393ad7c83
+size 4224

models/embeddings/aligned/ckb_32d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ckb",
+  "dimension": 32,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 10974,
+  "vocab_size": 122030
+}

models/embeddings/aligned/ckb_64d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2f57a05805b873811da3a14b739c3f8d85335d7d60cb8556107570f9840986a
+size 577395854

models/embeddings/aligned/ckb_64d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ckb", "dim": 64, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ckb_64d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0538cd2fd2ae9c9c75580e00cf62852e7e7506b9b98cbf6a0fa9b6ea89722f5
+size 16512

models/embeddings/aligned/ckb_64d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ckb",
+  "dimension": 64,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 10974,
+  "vocab_size": 122030
+}

models/embeddings/monolingual/ckb_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41b65febdda7187f16f63077ef252551994a6e3947afcc78bbee22f7792d2c3b
-size 1159811328

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ea3f53036d267e3d7a7ed2386b681314212fd5b35678baa23adcb7456ce7c4a
+size 1151875214

models/embeddings/monolingual/ckb_128d_metadata.json CHANGED Viewed

@@ -3,11 +3,13 @@
   "dimension": 128,
   "version": "monolingual",
   "training_params": {
-    "dim": 128,
     "min_count": 5,
     "window": 5,
     "negative": 5,
-    "epochs": 5
   },
-  "vocab_size": 129587
 }

   "dimension": 128,
   "version": "monolingual",
   "training_params": {
+    "algorithm": "skipgram",
     "min_count": 5,
     "window": 5,
     "negative": 5,
+    "epochs": 5,
+    "encoding_method": "rope",
+    "dim": 128
   },
+  "vocab_size": 122030
 }

models/embeddings/monolingual/ckb_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa322184e03fc86097b753549864e28479c19a0f7f851a311fc6c9b07ca61784
-size 292288512

 version https://git-lfs.github.com/spec/v1
+oid sha256:239758fca11118baea1531fc2cb9622012abf393ad3474262f96044d6ad95106
+size 290156174

models/embeddings/monolingual/ckb_32d_metadata.json CHANGED Viewed

@@ -3,11 +3,13 @@
   "dimension": 32,
   "version": "monolingual",
   "training_params": {
-    "dim": 32,
     "min_count": 5,
     "window": 5,
     "negative": 5,
-    "epochs": 5
   },
-  "vocab_size": 129587
 }

   "dimension": 32,
   "version": "monolingual",
   "training_params": {
+    "algorithm": "skipgram",
     "min_count": 5,
     "window": 5,
     "negative": 5,
+    "epochs": 5,
+    "encoding_method": "rope",
+    "dim": 32
   },
+  "vocab_size": 122030
 }

models/embeddings/monolingual/ckb_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64aa558ec3f57c14e06b75aa214fae009c21695a65c7e5e450a744a7bdf362fe
-size 581462784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2f57a05805b873811da3a14b739c3f8d85335d7d60cb8556107570f9840986a
+size 577395854

models/embeddings/monolingual/ckb_64d_metadata.json CHANGED Viewed

@@ -3,11 +3,13 @@
   "dimension": 64,
   "version": "monolingual",
   "training_params": {
-    "dim": 64,
     "min_count": 5,
     "window": 5,
     "negative": 5,
-    "epochs": 5
   },
-  "vocab_size": 129587
 }

   "dimension": 64,
   "version": "monolingual",
   "training_params": {
+    "algorithm": "skipgram",
     "min_count": 5,
     "window": 5,
     "negative": 5,
+    "epochs": 5,
+    "encoding_method": "rope",
+    "dim": 64
   },
+  "vocab_size": 122030
 }

models/subword_markov/ckb_markov_ctx1_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03d0443702a80a2957e258cfa45a0b3470f1b7c07853a411f35b6d93f4afb2c8
-size 328092

 version https://git-lfs.github.com/spec/v1
+oid sha256:b19ff5b62a242017dba251317302d7f75d17d0178003f3a34c3faa5f393d069f
+size 332993

models/subword_markov/ckb_markov_ctx1_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "subword",
   "language": "ckb",
-  "unique_contexts": 4993,
-  "total_transitions": 85527017
 }

   "context_size": 1,
   "variant": "subword",
   "language": "ckb",
+  "unique_contexts": 5867,
+  "total_transitions": 75476639
 }

models/subword_markov/ckb_markov_ctx2_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f1ea381df82c1b0e26b22165542771e484be712c855c85606ab8a53a4f60aa4
-size 2060794

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ae684f1932a74c79180c526cada0dc191b16b69557cd5c05753770a328b9c94
+size 1737005

models/subword_markov/ckb_markov_ctx2_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "subword",
   "language": "ckb",
-  "unique_contexts": 46978,
-  "total_transitions": 85446235
 }

   "context_size": 2,
   "variant": "subword",
   "language": "ckb",
+  "unique_contexts": 46011,
+  "total_transitions": 75398929
 }

models/subword_markov/ckb_markov_ctx3_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6a716a5f7d117bbb45a7edd9f6a801c8bf99e17c4641490db0e5f6918e64f57
-size 9594491

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ba99959a5b1d19af47ddc1fa5beb4e0067de0b294309d77f118b86e2f25c189
+size 6887855

models/subword_markov/ckb_markov_ctx3_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 3,
   "variant": "subword",
   "language": "ckb",
-  "unique_contexts": 284820,
-  "total_transitions": 85365453
 }

   "context_size": 3,
   "variant": "subword",
   "language": "ckb",
+  "unique_contexts": 212847,
+  "total_transitions": 75321219
 }

models/subword_markov/ckb_markov_ctx4_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:146b6fa63bf73ebf6bcb8bd0dbfd02d14ab02b74ec8a0f67e6f8278666bb2770
-size 30314193

 version https://git-lfs.github.com/spec/v1
+oid sha256:96dcf1146cbc8390f23f5793dacfba1d39f4b2d948b7f5b5ff87f63e0dfc3d2c
+size 23328129

models/subword_markov/ckb_markov_ctx4_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 4,
   "variant": "subword",
   "language": "ckb",
-  "unique_contexts": 1215545,
-  "total_transitions": 85284671
 }

   "context_size": 4,
   "variant": "subword",
   "language": "ckb",
+  "unique_contexts": 877504,
+  "total_transitions": 75243509
 }

models/subword_ngram/ckb_2gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a8d5ed23796744064159155b6a8eb09b9e7ccc31fd3789bc489bcc890fd3950
-size 202131

 version https://git-lfs.github.com/spec/v1
+oid sha256:6229cef5a785c4b9360437efcad7221d457193f7a8b9dee5a5f8a71b8f293d8a
+size 169598

models/subword_ngram/ckb_2gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 2,
   "variant": "subword",
   "language": "ckb",
-  "unique_ngrams": 15002,
-  "total_ngrams": 85527017
 }

   "n": 2,
   "variant": "subword",
   "language": "ckb",
+  "unique_ngrams": 12264,
+  "total_ngrams": 75476639
 }

models/subword_ngram/ckb_3gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ae1d7e56ffe951fbc16e1b96e4b9213628ff12fce9be06bef038bd418284ba4
-size 1566915

 version https://git-lfs.github.com/spec/v1
+oid sha256:23db3fa10a208bfa197634365e864d7edbb2d6d1d6ec8788502c09f657064c57
+size 1192079

models/subword_ngram/ckb_3gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 3,
   "variant": "subword",
   "language": "ckb",
-  "unique_ngrams": 125615,
-  "total_ngrams": 85446235
 }

   "n": 3,
   "variant": "subword",
   "language": "ckb",
+  "unique_ngrams": 92875,
+  "total_ngrams": 75398929
 }

models/subword_ngram/ckb_4gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64971d7e7e32eed12ccb8129e7d8457f094683217e6d22fd974784a62f0c1b1
-size 8256147

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fb8d23b323f7bd06040fa892cded6b96d6463e8d0e18e8c4045a2d5c5ceb1bf
+size 6262272

models/subword_ngram/ckb_4gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 4,
   "variant": "subword",
   "language": "ckb",
-  "unique_ngrams": 641521,
-  "total_ngrams": 85365453
 }

   "n": 4,
   "variant": "subword",
   "language": "ckb",
+  "unique_ngrams": 482188,
+  "total_ngrams": 75321219
 }

models/subword_ngram/ckb_5gram_subword.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac3dfab20a28a086beb4f139f8066e32cf4c2b63a4a0cf977680f3ffcf930e9b
+size 17128094

models/subword_ngram/ckb_5gram_subword_metadata.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "n": 5,
+  "variant": "subword",
+  "language": "ckb",
+  "unique_ngrams": 1228808,
+  "total_ngrams": 75243509
+}

models/tokenizer/ckb_tokenizer_16k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5818932355f70a312071fdf012ffcc1f50c4e1451abc5e72acc73d3be72b0626
-size 577885

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9f4163c3c0884c616bc0e749e713f70000f5d98effc2fbbf5a797b4f5c13bc
+size 583728

models/tokenizer/ckb_tokenizer_16k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ckb_tokenizer_32k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab68f2fd4bd5528d04b467e28ccd3f89089b8d2fc9a5bda6c8dac38fff5e4996
-size 934428

 version https://git-lfs.github.com/spec/v1
+oid sha256:8027d5cd50e4ee4a4c87424e37cb2d156551deed29f3724829a8ab01d4da748e
+size 941797

models/tokenizer/ckb_tokenizer_32k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ckb_tokenizer_64k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7225ca8ff935c1a6affb6e0ac59d01a87f70c6a2205c6f3fe8db054411b7ee5
-size 1659196

 version https://git-lfs.github.com/spec/v1
+oid sha256:256993aa8a7453860c221dbdc80f11956fd6a754be1068e6c76392cf4250204f
+size 1671337

models/tokenizer/ckb_tokenizer_64k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ckb_tokenizer_8k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e9166b87186603a55e723d61f0f46f77b7f7d38a03ee0e8d993f1e91703dd00
-size 404312

 version https://git-lfs.github.com/spec/v1
+oid sha256:a15e7727e37d01daf14a56a82780e0025eb7dccbfd7751085361cb4433f6d0a2
+size 407812

models/tokenizer/ckb_tokenizer_8k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/vocabulary/ckb_vocabulary.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ddb813ea1d647c688855dc38fd806dfef2594dd35cdd646090b3888aff0fcbe
-size 4435068

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ef22e5092696880d85c9e76edc006f8bae1ff63463f29d570ac8695e39f917c
+size 4252562

models/vocabulary/ckb_vocabulary_metadata.json CHANGED Viewed

@@ -1,16 +1,17 @@
 {
   "language": "ckb",
-  "vocabulary_size": 267929,
   "statistics": {
-    "type_token_ratio": 0.053893850732878223,
     "coverage": {
-      "top_100": 0.29993262638188223,
-      "top_1000": 0.5369777451124179,
-      "top_5000": 0.7163147474143433,
-      "top_10000": 0.7817037242581987
     },
-    "hapax_count": 415927,
-    "hapax_ratio": 0.6082084532416181,
-    "total_documents": 80782
   }
 }

 {
   "language": "ckb",
+  "vocabulary_size": 254727,
+  "variant": "full",
   "statistics": {
+    "type_token_ratio": 0.055516401142947924,
     "coverage": {
+      "top_100": 0.3021414520089231,
+      "top_1000": 0.5373608979214731,
+      "top_5000": 0.7128217758293761,
+      "top_10000": 0.7785004555195074
     },
+    "hapax_count": 370796,
+    "hapax_ratio": 0.5927775637346668,
+    "total_documents": 77710
   }
 }

models/word_markov/ckb_markov_ctx1_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcdc9ceae2045b65dda575029e9fa539662c1e44e10fe9fc75a489868b61c334
-size 52948370

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc8a366dfc09cccbe60be8a95bd3b957d88be5ac22f354a64a169988a35d6aa9
+size 52902746

models/word_markov/ckb_markov_ctx1_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "word",
   "language": "ckb",
-  "unique_contexts": 684303,
-  "total_transitions": 15213811
 }

   "context_size": 1,
   "variant": "word",
   "language": "ckb",
+  "unique_contexts": 625283,
+  "total_transitions": 11189645
 }

models/word_markov/ckb_markov_ctx2_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19f5e168313ff46635e3fd74d85d9b056bc8a862821538f049e04df57d27bc90
-size 163638338

 version https://git-lfs.github.com/spec/v1
+oid sha256:d422a17822fe65be5611fa6d734e8119912fb90e2c14bc3902193ddd9140f757
+size 161865621

models/word_markov/ckb_markov_ctx2_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "word",
   "language": "ckb",
-  "unique_contexts": 4525451,
-  "total_transitions": 15133047
 }

   "context_size": 2,
   "variant": "word",
   "language": "ckb",
+  "unique_contexts": 4486871,
+  "total_transitions": 11111935
 }