omarkamali commited on Jan 3

Commit

32f8b6a

verified ·

1 Parent(s): df8efce

Upload all models and assets for ce (latest)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
README.md +229 -193
models/embeddings/aligned/ce_128d.bin +3 -0
models/embeddings/aligned/ce_128d.meta.json +1 -0
models/embeddings/aligned/ce_128d.projection.npy +3 -0
models/embeddings/aligned/ce_128d_metadata.json +8 -0
models/embeddings/aligned/ce_32d.bin +3 -0
models/embeddings/aligned/ce_32d.meta.json +1 -0
models/embeddings/aligned/ce_32d.projection.npy +3 -0
models/embeddings/aligned/ce_32d_metadata.json +8 -0
models/embeddings/aligned/ce_64d.bin +3 -0
models/embeddings/aligned/ce_64d.meta.json +1 -0
models/embeddings/aligned/ce_64d.projection.npy +3 -0
models/embeddings/aligned/ce_64d_metadata.json +8 -0
models/embeddings/monolingual/ce_128d.bin +2 -2
models/embeddings/monolingual/ce_128d_metadata.json +1 -1
models/embeddings/monolingual/ce_32d.bin +2 -2
models/embeddings/monolingual/ce_32d_metadata.json +1 -1
models/embeddings/monolingual/ce_64d.bin +2 -2
models/embeddings/monolingual/ce_64d_metadata.json +1 -1
models/subword_markov/ce_markov_ctx1_subword.parquet +2 -2
models/subword_markov/ce_markov_ctx1_subword_metadata.json +2 -2
models/subword_markov/ce_markov_ctx2_subword.parquet +2 -2
models/subword_markov/ce_markov_ctx2_subword_metadata.json +2 -2
models/subword_markov/ce_markov_ctx3_subword.parquet +2 -2
models/subword_markov/ce_markov_ctx3_subword_metadata.json +2 -2
models/subword_markov/ce_markov_ctx4_subword.parquet +2 -2
models/subword_markov/ce_markov_ctx4_subword_metadata.json +2 -2
models/subword_ngram/ce_2gram_subword.parquet +2 -2
models/subword_ngram/ce_2gram_subword_metadata.json +2 -2
models/subword_ngram/ce_3gram_subword.parquet +2 -2
models/subword_ngram/ce_3gram_subword_metadata.json +2 -2
models/subword_ngram/ce_4gram_subword.parquet +2 -2
models/subword_ngram/ce_4gram_subword_metadata.json +2 -2
models/subword_ngram/ce_5gram_subword.parquet +3 -0
models/subword_ngram/ce_5gram_subword_metadata.json +7 -0
models/tokenizer/ce_tokenizer_16k.model +2 -2
models/tokenizer/ce_tokenizer_16k.vocab +0 -0
models/tokenizer/ce_tokenizer_32k.model +2 -2
models/tokenizer/ce_tokenizer_32k.vocab +0 -0
models/tokenizer/ce_tokenizer_64k.model +2 -2
models/tokenizer/ce_tokenizer_64k.vocab +0 -0
models/tokenizer/ce_tokenizer_8k.model +2 -2
models/tokenizer/ce_tokenizer_8k.vocab +0 -0
models/vocabulary/ce_vocabulary.parquet +2 -2
models/vocabulary/ce_vocabulary_metadata.json +9 -9
models/word_markov/ce_markov_ctx1_word.parquet +2 -2
models/word_markov/ce_markov_ctx1_word_metadata.json +2 -2
models/word_markov/ce_markov_ctx2_word.parquet +2 -2
models/word_markov/ce_markov_ctx2_word_metadata.json +2 -2

.gitattributes CHANGED Viewed

@@ -39,3 +39,4 @@ visualizations/position_encoding_comparison.png filter=lfs diff=lfs merge=lfs -t
 visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text

 visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text
+visualizations/embedding_tsne_multilingual.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 language: ce
-language_name: CE
 language_family: caucasian_northeast
 tags:
   - wikilangs
@@ -10,11 +10,21 @@ tags:
   - n-gram
   - markov
   - wikipedia
   - monolingual
   - family-caucasian_northeast
 license: mit
 library_name: wikilangs
-pipeline_tag: feature-extraction
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
@@ -23,20 +33,20 @@ dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
-    value: 3.783
   - name: best_isotropy
     type: isotropy
-    value: 0.8761
   - name: vocabulary_size
     type: vocab
     value: 0
 generated: 2026-01-03
 ---
-# CE - Wikilangs Models
 ## Comprehensive Research Report & Full Ablation Study
-This repository contains NLP models trained and evaluated by Wikilangs, specifically on **CE** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ## 📋 Repository Contents
@@ -60,7 +70,7 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
-- [6. Morphological Analysis (Experimental)](#6-morphological-analysis)
 - [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
@@ -80,47 +90,47 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
-| **8k** | 2.792x | 2.80 | 0.9604% | 543,837 |
-| **16k** | 3.140x | 3.15 | 1.0803% | 483,478 |
-| **32k** | 3.480x | 3.49 | 1.1970% | 436,328 |
-| **64k** | 3.783x 🏆 | 3.79 | 1.3016% | 401,281 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `Жаныспай (Акмолан область) Жаныспай (Костанайн область)`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁жан ыс п ай ▁( ак молан ▁область ) ▁жан ... (+8 more)` | 18 |
-| 16k | `▁жан ыс пай ▁( акмолан ▁область ) ▁жан ыс пай ... (+5 more)` | 15 |
-| 32k | `▁жан ыс пай ▁( акмолан ▁область ) ▁жан ыс пай ... (+4 more)` | 14 |
-| 64k | `▁жан ыс пай ▁( акмолан ▁область ) ▁жан ыс пай ... (+4 more)` | 14 |
-**Sample 2:** `Антиго (Висконсин) Антиго (Маса-Карара) Антиго (гӀала, Висконсин)`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁анти го ▁( ви сконсин ) ▁анти го ▁( ма ... (+12 more)` | 22 |
-| 16k | `▁анти го ▁( висконсин ) ▁анти го ▁( ма са ... (+11 more)` | 21 |
-| 32k | `▁анти го ▁( висконсин ) ▁анти го ▁( маса - ... (+9 more)` | 19 |
-| 64k | `▁анти го ▁( висконсин ) ▁анти го ▁( маса - ... (+9 more)` | 19 |
-**Sample 3:** `Барда (Иркутскан область) Барда (Пермийн мохк) Барда (гӀала)`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁бар да ▁( иркутскан ▁область ) ▁бар да ▁( пермийн ... (+7 more)` | 17 |
-| 16k | `▁бар да ▁( иркутскан ▁область ) ▁бар да ▁( пермийн ... (+7 more)` | 17 |
-| 32k | `▁барда ▁( иркутскан ▁область ) ▁барда ▁( пермийн ▁мохк ) ... (+4 more)` | 14 |
-| 64k | `▁барда ▁( иркутскан ▁область ) ▁барда ▁( пермийн ▁мохк ) ... (+4 more)` | 14 |
 ### Key Findings
-- **Best Compression:** 64k achieves 3.783x compression
-- **Lowest UNK Rate:** 8k with 0.9604% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
@@ -137,12 +147,14 @@ Below are sample sentences tokenized with each vocabulary size:
 | N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
 |--------|---------|------------|---------|----------------|------------------|-------------------|
-| **2-gram** | Word | 2,545 | 11.31 | 100,140 | 25.5% | 70.0% |
-| **2-gram** | Subword | 423 🏆 | 8.72 | 6,176 | 55.1% | 98.2% |
-| **3-gram** | Word | 3,286 | 11.68 | 157,541 | 21.2% | 65.9% |
-| **3-gram** | Subword | 2,337 | 11.19 | 58,954 | 23.8% | 69.8% |
-| **4-gram** | Word | 4,089 | 12.00 | 330,019 | 18.2% | 63.2% |
-| **4-gram** | Subword | 5,832 | 12.51 | 337,533 | 16.4% | 50.9% |
 ### Top 5 N-grams by Size
@@ -150,68 +162,88 @@ Below are sample sentences tokenized with each vocabulary size:
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `нах беха` | 927,008 |
-| 2 | `беха меттигаш` | 876,464 |
-| 3 | `билгалдахарш хьажоргаш` | 387,483 |
-| 4 | `климат кхузахь` | 294,017 |
-| 5 | `сахьтан аса` | 272,866 |
 **3-grams (Word):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `нах беха меттигаш` | 876,426 |
-| 2 | `кӏоштан нах беха` | 256,950 |
-| 3 | `климат кхузахь климат` | 254,686 |
-| 4 | `бахархой билгалдахарш хьажоргаш` | 156,558 |
-| 5 | `сахьтан аса йу` | 135,690 |
 **4-grams (Word):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `кӏоштан нах беха меттигаш` | 256,946 |
 | 2 | `лелаш ду сахьтан аса` | 134,397 |
 | 3 | `нийса лелаш ду сахьтан` | 134,397 |
 | 4 | `сахьтан аса йу utc` | 133,768 |
 | 5 | `ду сахьтан аса йу` | 133,768 |
 **2-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `а _` | 8,696,976 |
-| 2 | `. _` | 8,337,924 |
-| 3 | `н _` | 7,066,559 |
-| 4 | `а н` | 6,445,422 |
-| 5 | `р а` | 5,305,199 |
 **3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `а н _` | 4,127,441 |
-| 2 | `_ — _` | 2,719,160 |
-| 3 | `а ш _` | 1,910,774 |
-| 4 | `и н _` | 1,668,837 |
-| 5 | `а р а` | 1,610,648 |
 **4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `т а н _` | 1,416,987 |
-| 2 | `а х а р` | 1,374,119 |
-| 3 | `. _ — _` | 1,045,081 |
-| 4 | `а _ м е` | 1,006,220 |
-| 5 | `_ м е т` | 999,858 |
 ### Key Findings
-- **Best Perplexity:** 2-gram (subword) with 423
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
-- **Coverage:** Top-1000 patterns cover ~51% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
@@ -227,14 +259,14 @@ Below are sample sentences tokenized with each vocabulary size:
 | Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
 |---------|---------|-------------|------------|------------------|-----------------|----------------|
-| **1** | Word | 0.6226 | 1.540 | 3.90 | 520,111 | 37.7% |
-| **1** | Subword | 0.9426 | 1.922 | 9.07 | 1,553 | 5.7% |
-| **2** | Word | 0.1849 | 1.137 | 1.44 | 2,019,671 | 81.5% |
-| **2** | Subword | 0.9737 | 1.964 | 7.37 | 14,069 | 2.6% |
-| **3** | Word | 0.0632 | 1.045 | 1.13 | 2,889,994 | 93.7% |
-| **3** | Subword | 0.8560 | 1.810 | 4.97 | 103,627 | 14.4% |
-| **4** | Word | 0.0320 🏆 | 1.022 | 1.08 | 3,246,178 | 96.8% |
-| **4** | Subword | 0.7168 | 1.643 | 3.27 | 515,118 | 28.3% |
 ### Generated Text Samples (Word-based)
@@ -242,27 +274,27 @@ Below are text samples generated from each word-based Markov chain model:
 **Context Size 1:**
-1. `а ду йалташ хастоьмаш малхбален кӏошташкара пачхьалкхан европин дехьайолуш алсама гӏийлачу мехца бек...`
-2. `нах беха меттигаш нах беха меттигаш провинцин нах беха меттигаш кӏоштан нах беха меттигаш воеводалли...`
-3. `беха меттигаш штатан йукъахь квинс университет им м в пономарёва м прохоров т 82 т и`
 **Context Size 2:**
-1. `нах беха меттигаш нах беха меттигаш нисйина нах беха меттигаш кӏоштан нах беха меттигаш кӏоштан нах ...`
-2. `беха меттигаш кӏоштан нах беха меттигаш кӏоштан нах беха меттигаш воеводаллин нах беха меттигаш нах ...`
-3. `билгалдахарш хьажоргаш черкассин областан индексаш кӏоштан нах беха меттигаш микрокӏошташ нах беха м...`
 **Context Size 3:**
-1. `нах беха меттигаш микрокӏошташ нах беха меттигаш нисйина нах беха меттигаш нах беха меттигаш микрокӏ...`
-2. `кӏоштан нах беха меттигаш нисйина нах беха меттигаш нах беха меттигаш кӏоштан нах беха меттигаш нах ...`
-3. `климат кхузахь климат барамехь континенталан йу аьхка йовха хуьлу ткъа ӏа барамехь шийла хуьлу шаран...`
 **Context Size 4:**
-1. `нийса лелаш ду сахьтан аса йу utc 3 билгалдахарш хьажоргаш неклиновскан кӏоштан индексаш кӏоштан нах...`
-2. `лелаш ду сахьтан аса йу utc 3 билгалдахарш хьажоргаш селижарован кӏоштан индексаш кӏоштан нах беха м...`
-3. `ду сахьтан аса йу utc 3 билгалдахарш хьажоргаш максатихан кӏоштан индексаш кӏоштан нах беха меттигаш...`
 ### Generated Text Samples (Subword-based)
@@ -271,34 +303,34 @@ Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
-1. `_/_циллан_olevia`
-2. `а_перерхашес._ба`
-3. `нилию._7959-со_к`
 **Context Size 2:**
-1. `а_койн_сахар_тӏуь`
-2. `._ре_нашкая_:_спу`
-3. `н_схойн_стр_штаме`
 **Context Size 3:**
-1. `ан_аркатерия_исти_`
-2. `_—_итан_новгорокӏо`
-3. `аш_беха_местник_гу`
 **Context Size 4:**
-1. `тан_кӏоштан_воеводс`
-2. `ахарш_хьажоргаш_нах`
-3. `._—_b.,_heidelberg,`
 ### Key Findings
-- **Best Predictability:** Context-4 (word) with 96.8% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
-- **Memory Trade-off:** Larger contexts require more storage (515,118 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
@@ -314,64 +346,64 @@ Below are text samples generated from each subword-based Markov chain model:
 | Metric | Value |
 |--------|-------|
-| Vocabulary Size | 230,774 |
-| Total Tokens | 54,539,322 |
-| Mean Frequency | 236.33 |
 | Median Frequency | 3 |
-| Frequency Std Dev | 7087.98 |
 ### Most Common Words
 | Rank | Word | Frequency |
 |------|------|-----------|
-| 1 | а | 1,429,788 |
-| 2 | нах | 929,389 |
-| 3 | беха | 927,412 |
-| 4 | меттигаш | 892,206 |
-| 5 | в | 665,820 |
-| 6 | климат | 663,481 |
-| 7 | м | 649,926 |
-| 8 | йу | 631,461 |
-| 9 | билгалдахарш | 595,304 |
-| 10 | с | 497,975 |
 ### Least Common Words (from vocabulary)
 | Rank | Word | Frequency |
 |------|------|-----------|
-| 1 | горушкинскан | 2 |
-| 2 | тулинскан | 2 |
-| 3 | долгопольскан | 2 |
-| 4 | погостищенскан | 2 |
-| 5 | кохановскан | 2 |
-| 6 | морховскан | 2 |
-| 7 | нежадовскан | 2 |
-| 8 | липиницкан | 2 |
-| 9 | зачепичи | 2 |
-| 10 | меетиг | 2 |
 ### Zipf's Law Analysis
 | Metric | Value |
 |--------|-------|
-| Zipf Coefficient | 1.8318 |
-| R² (Goodness of Fit) | 0.964473 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
-| Top 100 | 44.4% |
-| Top 1,000 | 86.7% |
-| Top 5,000 | 96.7% |
-| Top 10,000 | 97.7% |
 ### Key Findings
-- **Zipf Compliance:** R²=0.9645 indicates excellent adherence to Zipf's law
-- **High Frequency Dominance:** Top 100 words cover 44.4% of corpus
-- **Long Tail:** 220,774 words needed for remaining 2.3% coverage
 ---
 ## 5. Word Embeddings Evaluation
@@ -387,37 +419,40 @@ Below are text samples generated from each subword-based Markov chain model:
 ### 5.1 Cross-Lingual Alignment
-> *Note: Multilingual alignment visualization not available for this language.*
 ### 5.2 Model Comparison
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
-| **mono_32d** | 32 | 0.8761 🏆 | 0.3710 | N/A | N/A |
-| **mono_64d** | 64 | 0.8520 | 0.3045 | N/A | N/A |
-| **mono_128d** | 128 | 0.7849 | 0.2825 | N/A | N/A |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.8761 (more uniform distribution)
-- **Semantic Density:** Average pairwise similarity of 0.3193. Lower values indicate better semantic separation.
-- **Alignment Quality:** No aligned models evaluated in this run.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 ## 6.  Morphological Analysis (Experimental)
-> ⚠️ **Warning:** This language shows low morphological productivity. The statistical signals used for this analysis may be noisy or less reliable than for morphologically rich languages.
 This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
 ### 6.1 Productivity & Complexity
 | Metric | Value | Interpretation | Recommendation |
 |--------|-------|----------------|----------------|
-| Productivity Index | **0.000** | Low morphological productivity | ⚠️ Likely unreliable |
-| Idiomaticity Gap | **-1.000** | Low formulaic content | - |
 ### 6.2 Affix Inventory (Productive Units)
@@ -426,21 +461,20 @@ These are the most productive prefixes and suffixes identified by sampling the v
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
-| `-ка` | картографии, карайора, карпат |
-| `-ко` | количество, кочаны, кошехаблан |
-| `-ма` | майкен, маршаллвилл, машано |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
-| `-а` | ривица, валенсуэла, карайора |
-| `-о` | монтеморо, количество, мятнево |
-| `-н` | расистийн, майкен, тефран |
-| `-ан` | тефран, дмитрован, кертан |
-| `-во` | количество, мятнево, крайково |
-| `-ки` | исаковски, юридически, перлавки |
-| `-ово` | крайково, перегудово, дубново |
-| `-ка` | узника, кукушка, тлаика |
 ### 6.3 Bound Stems (Lexical Roots)
@@ -448,18 +482,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
-| `архо` | 2.04x | 122 contexts | архон, тархо, лархо |
-| `галд` | 2.73x | 16 contexts | галдо, галда, угалде |
-| `ргаш` | 2.16x | 34 contexts | ургаш, бергаш, цергаш |
-| `лгал` | 2.58x | 17 contexts | билгал, билгало, билгала |
-| `етти` | 1.89x | 42 contexts | бетти, нетти, меттин |
-| `харх` | 1.88x | 41 contexts | ахархо, вахарх, мухарх |
-| `халл` | 1.51x | 92 contexts | халла, халле, халль |
-| `ийла` | 1.86x | 35 contexts | кийла, шийла, мийла |
-| `игаш` | 2.25x | 18 contexts | бигаш, цигаш, книгаш |
-| `рхой` | 2.21x | 19 contexts | лархой, сурхой, сурхойн |
-| `ласт` | 1.59x | 60 contexts | пласт, ласта, селаст |
-| `ттиг` | 1.99x | 25 contexts | меттиг, гаттиг, ме́ттиг |
 ### 6.4 Affix Compatibility (Co-occurrence)
@@ -467,16 +501,16 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
-| `-ко` | `-а` | 51 words | королиха, кокориха |
-| `-ка` | `-а` | 43 words | карпеевка, камила |
-| `-ка` | `-о` | 38 words | картелево, катюшино |
-| `-ма` | `-а` | 35 words | машакепара, малакода |
-| `-ко` | `-о` | 33 words | косогорово, косяково |
-| `-ка` | `-н` | 31 words | калустовгӏеран, камблен |
-| `-ма` | `-н` | 24 words | малоярославецан, марьинкан |
-| `-ко` | `-н` | 23 words | коритен, койдин |
-| `-ма` | `-о` | 22 words | маторо, манкузо |
-| `-ко` | `-во` | 18 words | косогорово, косяково |
 ### 6.5 Recursive Morpheme Segmentation
@@ -484,26 +518,28 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
-| полканово | **`полк-ан-ово`** | 6.0 | `полк` |
-| андрюшкино | **`андрюш-ки-но`** | 6.0 | `андрюш` |
-| зимовники | **`зимовни-ки`** | 4.5 | `зимовни` |
-| гринвичан | **`гринвич-ан`** | 4.5 | `гринвич` |
-| гуннбьёрнан | **`гуннбьёрн-ан`** | 4.5 | `гуннбьёрн` |
-| хромосоман | **`хромосом-ан`** | 4.5 | `хромосом` |
-| боьлкъазаран | **`боьлкъазар-ан`** | 4.5 | `боьлкъазар` |
-| хӏуманашна | **`хӏуманаш-на`** | 4.5 | `хӏуманаш` |
-| ынтымакан | **`ынтымак-ан`** | 4.5 | `ынтымак` |
-| бартолина | **`бартоли-на`** | 4.5 | `бартоли` |
-| судженскан | **`судженск-ан`** | 4.5 | `судженск` |
-| бузиновка | **`бузинов-ка`** | 4.5 | `бузинов` |
-| тракторашна | **`трактораш-на`** | 4.5 | `трактораш` |
-| пайхӏамаран | **`пайхӏамар-ан`** | 4.5 | `пайхӏамар` |
-| нуьрнберган | **`нуьрнберг-ан`** | 4.5 | `нуьрнберг` |
 ### 6.6 Linguistic Interpretation
 > **Automated Insight:**
-The language CE appears to be more isolating or has a highly fixed vocabulary. Word-level models perform nearly as well as subword models, indicating fewer productive morphological processes.
 ---
 ## 7. Summary & Recommendations
@@ -514,9 +550,9 @@ The language CE appears to be more isolating or has a highly fixed vocabulary. W
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
-| Tokenizer | **64k BPE** | Best compression (3.78x) |
-| N-gram | **2-gram** | Lowest perplexity (423) |
-| Markov | **Context-4** | Highest predictability (96.8%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
@@ -730,4 +766,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2026-01-03 10:17:57*

 ---
 language: ce
+language_name: Chechen
 language_family: caucasian_northeast
 tags:
   - wikilangs
   - n-gram
   - markov
   - wikipedia
+  - feature-extraction
+  - sentence-similarity
+  - tokenization
+  - n-grams
+  - markov-chain
+  - text-mining
+  - fasttext
+  - babelvec
+  - vocabulous
+  - vocabulary
   - monolingual
   - family-caucasian_northeast
 license: mit
 library_name: wikilangs
+pipeline_tag: text-generation
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
+    value: 3.737
   - name: best_isotropy
     type: isotropy
+    value: 0.8747
   - name: vocabulary_size
     type: vocab
     value: 0
 generated: 2026-01-03
 ---
+# Chechen - Wikilangs Models
 ## Comprehensive Research Report & Full Ablation Study
+This repository contains NLP models trained and evaluated by Wikilangs, specifically on **Chechen** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ## 📋 Repository Contents
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
+- [6. Morphological Analysis (Experimental)](#6--morphological-analysis-experimental)
 - [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
+| **8k** | 2.792x | 2.80 | 0.9605% | 541,154 |
+| **16k** | 3.113x | 3.12 | 1.0708% | 485,447 |
+| **32k** | 3.423x | 3.43 | 1.1775% | 441,435 |
+| **64k** | 3.737x 🏆 | 3.74 | 1.2855% | 404,354 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `Бейца (Бихор) Бейца (Клуж) Бейца (Марамуреш) Бейца (Муреш) Бейца (Хунедоара) Бей...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁бей ца ▁( б их ор ) ▁бей ца ▁( ... (+30 more)` | 40 |
+| 16k | `▁бей ца ▁( б ихор ) ▁бей ца ▁( к ... (+24 more)` | 34 |
+| 32k | `▁бей ца ▁( бихор ) ▁бей ца ▁( клуж ) ... (+20 more)` | 30 |
+| 64k | `▁бейца ▁( бихор ) ▁бейца ▁( клуж ) ▁бейца ▁( ... (+14 more)` | 24 |
+**Sample 2:** `Киякты (Актобен область) Киякты (Мангистаунан область)`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁к ия кт ы ▁( акт обен ▁область ) ▁к ... (+10 more)` | 20 |
+| 16k | `▁к ия кты ▁( акт обен ▁область ) ▁к ия ... (+8 more)` | 18 |
+| 32k | `▁кия кты ▁( актобен ▁область ) ▁кия кты ▁( ман ... (+3 more)` | 13 |
+| 64k | `▁кия кты ▁( актобен ▁область ) ▁кия кты ▁( мангистаунан ... (+2 more)` | 12 |
+**Sample 3:** `ХӀаджали (40° 14' N 47° 16' E), (Бардан кӀошт) ХӀаджали (40° 27' N 47° 05' E), (...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁хӏа дж али ▁( 4 0 ° ▁ 1 4 ... (+44 more)` | 54 |
+| 16k | `▁хӏадж али ▁( 4 0 ° ▁ 1 4 ' ... (+42 more)` | 52 |
+| 32k | `▁хӏадж али ▁( 4 0 ° ▁ 1 4 ' ... (+40 more)` | 50 |
+| 64k | `▁хӏадж али ▁( 4 0 ° ▁ 1 4 ' ... (+40 more)` | 50 |
 ### Key Findings
+- **Best Compression:** 64k achieves 3.737x compression
+- **Lowest UNK Rate:** 8k with 0.9605% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
 | N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
 |--------|---------|------------|---------|----------------|------------------|-------------------|
+| **2-gram** | Word | 3,390 | 11.73 | 113,212 | 22.9% | 62.3% |
+| **2-gram** | Subword | 435 🏆 | 8.77 | 6,171 | 54.5% | 98.0% |
+| **3-gram** | Word | 4,361 | 12.09 | 176,983 | 18.9% | 57.8% |
+| **3-gram** | Subword | 2,517 | 11.30 | 59,082 | 23.1% | 68.3% |
+| **4-gram** | Word | 5,357 | 12.39 | 387,928 | 16.4% | 55.1% |
+| **4-gram** | Subword | 6,651 | 12.70 | 339,742 | 15.1% | 48.5% |
+| **5-gram** | Word | 5,776 | 12.50 | 363,840 | 15.2% | 53.7% |
+| **5-gram** | Subword | 11,240 | 13.46 | 966,556 | 12.7% | 40.2% |
 ### Top 5 N-grams by Size
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `нах беха` | 1,039,295 |
+| 2 | `беха меттигаш` | 953,014 |
+| 3 | `билгалдахарш хьажоргаш` | 387,484 |
+| 4 | `климат кхузахь` | 314,080 |
+| 5 | `кхузахь климат` | 293,860 |
 **3-grams (Word):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `нах беха меттигаш` | 952,977 |
+| 2 | `климат кхузахь климат` | 274,749 |
+| 3 | `кӏоштан нах беха` | 256,927 |
+| 4 | `бахархой билгалдахарш хьажоргаш` | 156,557 |
+| 5 | `ред а м` | 153,110 |
 **4-grams (Word):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `кӏоштан нах беха меттигаш` | 256,923 |
 | 2 | `лелаш ду сахьтан аса` | 134,397 |
 | 3 | `нийса лелаш ду сахьтан` | 134,397 |
 | 4 | `сахьтан аса йу utc` | 133,768 |
 | 5 | `ду сахьтан аса йу` | 133,768 |
+**5-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `нийса лелаш ду сахьтан аса` | 134,397 |
+| 2 | `ду сахьтан аса йу utc` | 133,768 |
+| 3 | `лелаш ду сахьтан аса йу` | 133,768 |
+| 4 | `индексаш кӏоштан нах беха меттигаш` | 122,584 |
+| 5 | `аьхка йовха хуьлу ткъа ӏа` | 113,661 |
 **2-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `а _` | 10,875,281 |
+| 2 | `. _` | 9,874,426 |
+| 3 | `н _` | 8,151,111 |
+| 4 | `а н` | 7,675,531 |
+| 5 | `р а` | 6,751,030 |
 **3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `а н _` | 4,716,126 |
+| 2 | `_ — _` | 2,941,993 |
+| 3 | `р а _` | 2,306,576 |
+| 4 | `а ш _` | 2,292,649 |
+| 5 | `а х ь` | 2,054,431 |
 **4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `т а н _` | 1,577,468 |
+| 2 | `а х а р` | 1,505,060 |
+| 3 | `а _ м е` | 1,193,821 |
+| 4 | `а х ь _` | 1,177,180 |
+| 5 | `_ м е т` | 1,177,138 |
+**5-grams (Subword):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `_ м е т т` | 1,166,495 |
+| 2 | `м е т т и` | 1,154,656 |
+| 3 | `е т т и г` | 1,154,628 |
+| 4 | `а _ м е т` | 1,067,312 |
+| 5 | `_ н а х _` | 1,048,954 |
 ### Key Findings
+- **Best Perplexity:** 2-gram (subword) with 435
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
+- **Coverage:** Top-1000 patterns cover ~40% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
 | Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
 |---------|---------|-------------|------------|------------------|-----------------|----------------|
+| **1** | Word | 0.6776 | 1.600 | 4.20 | 526,205 | 32.2% |
+| **1** | Subword | 0.9453 | 1.926 | 9.06 | 1,550 | 5.5% |
+| **2** | Word | 0.1950 | 1.145 | 1.49 | 2,194,953 | 80.5% |
+| **2** | Subword | 0.9623 | 1.948 | 7.39 | 14,021 | 3.8% |
+| **3** | Word | 0.0756 | 1.054 | 1.15 | 3,239,505 | 92.4% |
+| **3** | Subword | 0.8389 | 1.789 | 4.99 | 103,540 | 16.1% |
+| **4** | Word | 0.0367 🏆 | 1.026 | 1.08 | 3,672,181 | 96.3% |
+| **4** | Subword | 0.7073 | 1.633 | 3.29 | 516,039 | 29.3% |
 ### Generated Text Samples (Word-based)
 **Context Size 1:**
+1. `а зонехьклимат тверской области бахархойн дукхалла бахархойн дукхалла бахархойн дукхалла климат йу л...`
+2. `нах беха меттигаш жудецан нах беха меттигаш штатан йукъахь дара кочими монки гуайкура перику индейн ...`
+3. `беха меттигаш нах беха меттигаш нисйина нах беха меттигаш нисйина нах беха меттигаш кӏоштан индексаш...`
 **Context Size 2:**
+1. `нах беха меттигаш нах беха меттигаш лаха калифорни штатан йукъахь йу бахархой билгалдахарш литератур...`
+2. `беха меттигаш воеводаллин нах беха меттигаш нисйина нах беха меттигаш нисйина нах беха меттигаш нах ...`
+3. `билгалдахарш хьажоргаш спас деменскан кӏошт калугин областан спас деменскан кӏоштара дӏатесна эвла б...`
 **Context Size 3:**
+1. `нах беха меттигаш кӏоштан нах беха меттигаш штатан нах беха меттигаш штатан нах беха меттигаш штатан...`
+2. `климат кхузахь климат йу лаьттайуккъера хӏордан барамехь йекъа а йовха ӏа шийла ца хуьйлат а галкина...`
+3. `кӏоштан нах беха меттигаш штатан нах беха меттигаш нах беха меттигаш нисйина нах беха меттигаш нисйи...`
 **Context Size 4:**
+1. `лелаш ду сахьтан аса йу utc 3 билгалдахарш хьажоргаш устьян кӏоштан индексаш кӏоштан нах беха меттиг...`
+2. `нийса лелаш ду сахьтан аса йу utc 3 билгалдахарш хьажоргаш приморскан кӏоштан индексаш областан прим...`
+3. `ду сахьтан аса йу utc 7 билгалдахарш мохк`
 ### Generated Text Samples (Subword-based)
 **Context Size 1:**
+1. `_йаду_—_н_бще_вх`
+2. `анташ_гахахарха_`
+3. `нцалальталарклус`
 **Context Size 2:**
+1. `а_хила_дуьлинецес`
+2. `._у-фактябра_эххь`
+3. `н_йоккъах_бехь_ст`
 **Context Size 3:**
+1. `ан_областан_сизал_`
+2. `_—_январь_современ`
+3. `ра_хьолехьажоргаш_`
 **Context Size 4:**
+1. `тан_асан_коммунан_х`
+2. `ахарш_хьажоргаши_(д`
+3. `а_меттигаш_коммунан`
 ### Key Findings
+- **Best Predictability:** Context-4 (word) with 96.3% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
+- **Memory Trade-off:** Larger contexts require more storage (516,039 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
 | Metric | Value |
 |--------|-------|
+| Vocabulary Size | 238,347 |
+| Total Tokens | 67,032,110 |
+| Mean Frequency | 281.24 |
 | Median Frequency | 3 |
+| Frequency Std Dev | 8160.67 |
 ### Most Common Words
 | Rank | Word | Frequency |
 |------|------|-----------|
+| 1 | а | 1,815,637 |
+| 2 | нах | 1,049,193 |
+| 3 | беха | 1,039,696 |
+| 4 | м��ттигаш | 968,757 |
+| 5 | йу | 814,157 |
+| 6 | м | 798,557 |
+| 7 | климат | 741,272 |
+| 8 | в | 736,957 |
+| 9 | билгалдахарш | 631,076 |
+| 10 | с | 588,454 |
 ### Least Common Words (from vocabulary)
 | Rank | Word | Frequency |
 |------|------|-----------|
+| 1 | эмпачадо | 2 |
+| 2 | энано | 2 |
+| 3 | эскопетал | 2 |
+| 4 | эскриторио | 2 |
+| 5 | макариос | 2 |
+| 6 | эроика | 2 |
+| 7 | скирринг | 2 |
+| 8 | зигуинчор | 2 |
+| 9 | зигуиншор | 2 |
+| 10 | люксембургхо | 2 |
 ### Zipf's Law Analysis
 | Metric | Value |
 |--------|-------|
+| Zipf Coefficient | 1.8633 |
+| R² (Goodness of Fit) | 0.948539 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
+| Top 100 | 41.8% |
+| Top 1,000 | 83.4% |
+| Top 5,000 | 96.8% |
+| Top 10,000 | 97.8% |
 ### Key Findings
+- **Zipf Compliance:** R²=0.9485 indicates excellent adherence to Zipf's law
+- **High Frequency Dominance:** Top 100 words cover 41.8% of corpus
+- **Long Tail:** 228,347 words needed for remaining 2.2% coverage
 ---
 ## 5. Word Embeddings Evaluation
 ### 5.1 Cross-Lingual Alignment
+![Alignment Quality](visualizations/embedding_alignment_quality.png)
+![Multilingual t-SNE](visualizations/embedding_tsne_multilingual.png)
 ### 5.2 Model Comparison
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.8747 | 0.3629 | N/A | N/A |
+| **mono_64d** | 64 | 0.8592 | 0.2868 | N/A | N/A |
+| **mono_128d** | 128 | 0.7998 | 0.2691 | N/A | N/A |
+| **aligned_32d** | 32 | 0.8747 🏆 | 0.3562 | 0.0120 | 0.0960 |
+| **aligned_64d** | 64 | 0.8592 | 0.3007 | 0.0320 | 0.2180 |
+| **aligned_128d** | 128 | 0.7998 | 0.2615 | 0.1100 | 0.3620 |
 ### Key Findings
+- **Best Isotropy:** aligned_32d with 0.8747 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.3062. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 11.0% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 ## 6.  Morphological Analysis (Experimental)
 This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
 ### 6.1 Productivity & Complexity
 | Metric | Value | Interpretation | Recommendation |
 |--------|-------|----------------|----------------|
+| Productivity Index | **5.000** | High morphological productivity | Reliable analysis |
+| Idiomaticity Gap | **0.335** | High formulaic/idiomatic content | - |
 ### 6.2 Affix Inventory (Productive Units)
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
+| `-ка` | каркаусь, кассагумахи, кафка |
+| `-ко` | костровскан, коховка, колумбехь |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
+| `-а` | ледара, жиховка, масленка |
+| `-н` | галийн, кувшин, самодийн |
+| `-о` | белшево, санторо, эрцо |
+| `-ан` | тӏаьрсиган, менделеевскан, костровскан |
+| `-во` | белшево, миллерово, горяново |
+| `-ка` | жиховка, масленка, раковка |
+| `-ово` | миллерово, горяново, атынаково |
+| `-ки` | недниковски, новокубански, ибараки |
 ### 6.3 Bound Stems (Lexical Roots)
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
+| `архо` | 2.00x | 121 contexts | архон, лархо, тархо |
+| `исто` | 1.91x | 130 contexts | мисто, чисто, исток |
+| `галд` | 2.88x | 16 contexts | галда, галдо, галдун |
+| `ргаш` | 2.28x | 34 contexts | ургаш, воргаш, мургаш |
+| `харх` | 2.14x | 41 contexts | йахарх, хархув, мухарх |
+| `икин` | 1.84x | 62 contexts | викин, рикин, бикин |
+| `халл` | 1.55x | 92 contexts | халле, халль, халла |
+| `рхой` | 2.30x | 19 contexts | лархой, сурхой, ахархой |
+| `лгал` | 2.36x | 17 contexts | билгал, билгало, билгала |
+| `игаш` | 2.34x | 17 contexts | бигаш, цигаш, эхигаш |
+| `етти` | 1.73x | 42 contexts | бетти, нетти, петтит |
+| `ттиг` | 1.96x | 25 contexts | меттиг, гаттиг, ме́ттиг |
 ### 6.4 Affix Compatibility (Co-occurrence)
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
+| `-ко` | `-а` | 44 words | комната, колохта |
+| `-ка` | `-о` | 40 words | кастелларо, карманково |
+| `-ка` | `-а` | 38 words | казчана, кажа |
+| `-ко` | `-о` | 35 words | корково, кощейково |
+| `-ка` | `-н` | 27 words | кассон, капланецкан |
+| `-ко` | `-н` | 23 words | конкистадоран, коюнлун |
+| `-ко` | `-во` | 17 words | корково, кощейково |
+| `-ка` | `-во` | 16 words | карманково, каптырево |
+| `-ка` | `-ан` | 15 words | капланецкан, каштан |
+| `-ко` | `-ан` | 13 words | конкистадоран, котован |
 ### 6.5 Recursive Morpheme Segmentation
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
+| евдокимовски | **`евдокимовс-ки`** | 4.5 | `евдокимовс` |
+| заказникан | **`заказник-ан`** | 4.5 | `заказник` |
+| череповецан | **`череповец-ан`** | 4.5 | `череповец` |
+| господиново | **`господин-ово`** | 4.5 | `господин` |
+| вайнахана | **`вайнаха-на`** | 4.5 | `вайнаха` |
+| воротынскан | **`воротынск-ан`** | 4.5 | `воротынск` |
+| кинофильман | **`кинофильм-ан`** | 4.5 | `кинофильм` |
+| дийцаршна | **`дийцарш-на`** | 4.5 | `дийцарш` |
+| театрашка | **`театраш-ка`** | 4.5 | `театраш` |
+| федотован | **`федотов-ан`** | 4.5 | `федотов` |
+| веселовка | **`веселов-ка`** | 4.5 | `веселов` |
+| маядыково | **`маядык-ово`** | 4.5 | `маядык` |
+| ходоровка | **`ходоров-ка`** | 4.5 | `ходоров` |
+| новиковски | **`новиковс-ки`** | 4.5 | `новиковс` |
+| меженашна | **`меженаш-на`** | 4.5 | `меженаш` |
 ### 6.6 Linguistic Interpretation
 > **Automated Insight:**
+The language Chechen shows high morphological productivity. The subword models are significantly more efficient than word models, suggesting a rich system of affixation or compounding.
+> **Note on Idiomaticity:** The high Idiomaticity Gap suggests a large number of frequent multi-word expressions or formulaic sequences that are statistically distinct from their component parts.
 ---
 ## 7. Summary & Recommendations
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
+| Tokenizer | **64k BPE** | Best compression (3.74x) |
+| N-gram | **2-gram** | Lowest perplexity (435) |
+| Markov | **Context-4** | Highest predictability (96.3%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-03 20:55:32*

models/embeddings/aligned/ce_128d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:804babe867ee021ce44c607b7457a28540a5895dfd149f5bbe5a18e3f3169fae
+size 1118769088

models/embeddings/aligned/ce_128d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ce", "dim": 128, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ce_128d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ad86d291c49412509312a81414e26a38ae899866004f0b0ed8689fcb8f3cc79
+size 65664

models/embeddings/aligned/ce_128d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ce",
+  "dimension": 128,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 4892,
+  "vocab_size": 90375
+}

models/embeddings/aligned/ce_32d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d3fef0e3ac299eaf7fc872e53e0b3987742e57372c805b348d744c4b5805039
+size 281361088

models/embeddings/aligned/ce_32d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ce", "dim": 32, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ce_32d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b6fda6bb36357faa948730cc0cf573ffd5f12adab21ea85d197c0454d34ae13
+size 4224

models/embeddings/aligned/ce_32d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ce",
+  "dimension": 32,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 4892,
+  "vocab_size": 90375
+}

models/embeddings/aligned/ce_64d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4ca7e1a4f850e490603f7ae8f624cf64d83cccc57d820c6d1271612b3509eae
+size 560497088

models/embeddings/aligned/ce_64d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "ce", "dim": 64, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/ce_64d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7fcddc9c3d445d47e337bdaa7647336d97192a2c6f5a231183424371f81364f
+size 16512

models/embeddings/aligned/ce_64d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "ce",
+  "dimension": 64,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 4892,
+  "vocab_size": 90375
+}

models/embeddings/monolingual/ce_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:552e31d70a010dcf9ef87e857ff88199b6929bbb6fb3bcdccca9386585c7aa73
-size 1106869199

 version https://git-lfs.github.com/spec/v1
+oid sha256:804babe867ee021ce44c607b7457a28540a5895dfd149f5bbe5a18e3f3169fae
+size 1118769088

models/embeddings/monolingual/ce_128d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 128
   },
-  "vocab_size": 79041
 }

     "encoding_method": "rope",
     "dim": 128
   },
+  "vocab_size": 90375
 }

models/embeddings/monolingual/ce_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5102b3e58f419aba998033902e9953b5363500654754d4e63832e110651c49fa
-size 278165711

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d3fef0e3ac299eaf7fc872e53e0b3987742e57372c805b348d744c4b5805039
+size 281361088

models/embeddings/monolingual/ce_32d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 32
   },
-  "vocab_size": 79041
 }

     "encoding_method": "rope",
     "dim": 32
   },
+  "vocab_size": 90375
 }

models/embeddings/monolingual/ce_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78021fa809a68d2e2ee1a5da53c5c92c25afcb13d930f8165b5ca92116725dfd
-size 554400207

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4ca7e1a4f850e490603f7ae8f624cf64d83cccc57d820c6d1271612b3509eae
+size 560497088

models/embeddings/monolingual/ce_64d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 64
   },
-  "vocab_size": 79041
 }

     "encoding_method": "rope",
     "dim": 64
   },
+  "vocab_size": 90375
 }

models/subword_markov/ce_markov_ctx1_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b662cf799690d78b190708472b117520cd7cbcad0ac633b1286d43e5c79ae3a
-size 117929

 version https://git-lfs.github.com/spec/v1
+oid sha256:c57a4d4ceea5f7fe12600bb28c41fad86be451a3e4dd7f8d4821e1f2f83d3eae
+size 117962

models/subword_markov/ce_markov_ctx1_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "subword",
   "language": "ce",
-  "unique_contexts": 1553,
-  "total_transitions": 402142071
 }

   "context_size": 1,
   "variant": "subword",
   "language": "ce",
+  "unique_contexts": 1550,
+  "total_transitions": 490058478
 }

models/subword_markov/ce_markov_ctx2_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4dfc6fd0f57c29113d3b3fec461c0764a0522c46a13186880ed52b9d6958571
-size 872325

 version https://git-lfs.github.com/spec/v1
+oid sha256:cce7d0440c1a5456afc909be02ef73aeb4b5fc823d5d54072d8c97d71df627c6
+size 896409

models/subword_markov/ce_markov_ctx2_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "subword",
   "language": "ce",
-  "unique_contexts": 14069,
-  "total_transitions": 401528698
 }

   "context_size": 2,
   "variant": "subword",
   "language": "ce",
+  "unique_contexts": 14021,
+  "total_transitions": 489384727
 }

models/subword_markov/ce_markov_ctx3_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3414e9127a5344c044f38d2218042344b271b5e8396bc6d4d72233e2b2d1118
-size 4229687

 version https://git-lfs.github.com/spec/v1
+oid sha256:a84f6e9c5476b3344964bbfbf972b02218fa2bbc42dd0d83b8be1017ae4748c5
+size 4456718

models/subword_markov/ce_markov_ctx3_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 3,
   "variant": "subword",
   "language": "ce",
-  "unique_contexts": 103627,
-  "total_transitions": 400915325
 }

   "context_size": 3,
   "variant": "subword",
   "language": "ce",
+  "unique_contexts": 103540,
+  "total_transitions": 488710976
 }

models/subword_markov/ce_markov_ctx4_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f130a9685a8aed9c6b457e355c462d4bb6bc97cd44b8ef634c042ea0133165d1
-size 15358547

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d0342e97c5a3a41a98188f773d55336f985ab4718a41306a8a2597b1ea68be
+size 15743617

models/subword_markov/ce_markov_ctx4_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 4,
   "variant": "subword",
   "language": "ce",
-  "unique_contexts": 515118,
-  "total_transitions": 400301952
 }

   "context_size": 4,
   "variant": "subword",
   "language": "ce",
+  "unique_contexts": 516039,
+  "total_transitions": 488037225
 }

models/subword_ngram/ce_2gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:461d6692fb3cde3c1a7fd56b30b64912a0c140583d19fdeca1497422c4effcb1
-size 97261

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bb422efe1e8d6c87d00fcb556d9ebaf0d19e765218cf54607a698e8eb27175e
+size 99026

models/subword_ngram/ce_2gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 2,
   "variant": "subword",
   "language": "ce",
-  "unique_ngrams": 6176,
-  "total_ngrams": 402142071
 }

   "n": 2,
   "variant": "subword",
   "language": "ce",
+  "unique_ngrams": 6171,
+  "total_ngrams": 490058478
 }

models/subword_ngram/ce_3gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58a82a7f67b113302603309f686885d9e1c8883bfbb49e51f83b18800eabd3e3
-size 816823

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c5d97f00b9951c8184f997befc14730e82e17bae96a9ec6de73b27243c3dca6
+size 832316

models/subword_ngram/ce_3gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 3,
   "variant": "subword",
   "language": "ce",
-  "unique_ngrams": 58954,
-  "total_ngrams": 401528698
 }

   "n": 3,
   "variant": "subword",
   "language": "ce",
+  "unique_ngrams": 59082,
+  "total_ngrams": 489384727
 }

models/subword_ngram/ce_4gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47cefb2349ec2159ead2601f3247b831fb17076c78f2ad1df98bfeca85c04804
-size 4353133

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5c6939fabfe098e3c087df323974dddd341335f35469a5fb05f9a54fd2337ee
+size 4399891

models/subword_ngram/ce_4gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 4,
   "variant": "subword",
   "language": "ce",
-  "unique_ngrams": 337533,
-  "total_ngrams": 400915325
 }

   "n": 4,
   "variant": "subword",
   "language": "ce",
+  "unique_ngrams": 339742,
+  "total_ngrams": 488710976
 }

models/subword_ngram/ce_5gram_subword.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08a9e418d6cd4f29d15097039516b9809d8acf9222859e259a0a4fee934026d9
+size 13224434

models/subword_ngram/ce_5gram_subword_metadata.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "n": 5,
+  "variant": "subword",
+  "language": "ce",
+  "unique_ngrams": 966556,
+  "total_ngrams": 488037225
+}

models/tokenizer/ce_tokenizer_16k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47044bfafe2471fb7dd149ae56b1ee71a3dc0dae2187dde2da97d70536d94302
-size 583986

 version https://git-lfs.github.com/spec/v1
+oid sha256:01ad5c1196d4613f22784d2521687c198c888b7e7dd8a6649706e746984bf9f2
+size 582744

models/tokenizer/ce_tokenizer_16k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ce_tokenizer_32k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dc3aa08231d203aaef76058c47ffd13abd5516006e009bda38a089e8f521043
-size 941717

 version https://git-lfs.github.com/spec/v1
+oid sha256:e289f6fd8e9b238f0148774df190c869953e1555e6948ec6db0690eadf1fd5ce
+size 945454

models/tokenizer/ce_tokenizer_32k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ce_tokenizer_64k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0ca3910cc123379fbdb7db536fdc659e073f98693c0cdc2028daa98f77221fe
-size 1671632

 version https://git-lfs.github.com/spec/v1
+oid sha256:99cfc51be84fc25c0da941a5a4501091b7d2ac044665bf3f53817ceea5b8115a
+size 1687271

models/tokenizer/ce_tokenizer_64k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/ce_tokenizer_8k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f2a3488af9a58357efbe0e4a03cc1777791f582cd49bc1b578b466f3c6fe09e
-size 409035

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad7d6f81cb0f634e0b57805278b1de80ab36729b4e1e14dd5ddac423f296422c
+size 408272

models/tokenizer/ce_tokenizer_8k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/vocabulary/ce_vocabulary.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53491c1be3ddba1539a45ab8004c1a5fe96048b27ea345ef740d3827b2c5eb4a
-size 3729004

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4cb00df21ff5146979ebfe86cb61c1c26130bcb717a37bd3e60cd98f3341c11
+size 3842393

models/vocabulary/ce_vocabulary_metadata.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
   "language": "ce",
-  "vocabulary_size": 230774,
   "variant": "full",
   "statistics": {
-    "type_token_ratio": 0.009492890208497928,
     "coverage": {
-      "top_100": 0.4413509820362693,
-      "top_1000": 0.8620556765599773,
-      "top_5000": 0.9621095823063379,
-      "top_10000": 0.9714254859934246
     },
-    "hapax_count": 289712,
-    "hapax_ratio": 0.5566182375702708,
-    "total_documents": 613373
   }
 }

 {
   "language": "ce",
+  "vocabulary_size": 238347,
   "variant": "full",
   "statistics": {
+    "type_token_ratio": 0.007822593641512705,
     "coverage": {
+      "top_100": 0.4165497840379191,
+      "top_1000": 0.8303732763968381,
+      "top_5000": 0.9637552715646315,
+      "top_10000": 0.97350025474454
     },
+    "hapax_count": 288273,
+    "hapax_ratio": 0.5474023014697504,
+    "total_documents": 673751
   }
 }

models/word_markov/ce_markov_ctx1_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3bb6f9d89f6d5115c2926090a43cce4d79d1f587ec3a35363d32b6e7597bef4
-size 26676852

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f073287368b50d266950b64f8f41a50996ae94389e99e453e6fd236f83850f3
+size 28332972

models/word_markov/ce_markov_ctx1_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "word",
   "language": "ce",
-  "unique_contexts": 520111,
-  "total_transitions": 54215661
 }

   "context_size": 1,
   "variant": "word",
   "language": "ce",
+  "unique_contexts": 526205,
+  "total_transitions": 66646632
 }

models/word_markov/ce_markov_ctx2_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e50bac15d55d8209d7a94c5b47b626d9ec9efcfbc87ea034378579c8baae771a
-size 61192411

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac996dc8869c383c39c0fcdb3395b81e0c327ab8a0a27c2a17c5bebc89555de7
+size 67997578

models/word_markov/ce_markov_ctx2_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "word",
   "language": "ce",
-  "unique_contexts": 2019671,
-  "total_transitions": 53602288
 }

   "context_size": 2,
   "variant": "word",
   "language": "ce",
+  "unique_contexts": 2194953,
+  "total_transitions": 65972881
 }