omarkamali commited on Jan 3

Commit

cda4232

verified ·

1 Parent(s): 7713c5e

Upload all models and assets for alt (latest)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
README.md +197 -160
models/embeddings/aligned/alt_128d.bin +3 -0
models/embeddings/aligned/alt_128d.meta.json +1 -0
models/embeddings/aligned/alt_128d.projection.npy +3 -0
models/embeddings/aligned/alt_128d_metadata.json +8 -0
models/embeddings/aligned/alt_32d.bin +3 -0
models/embeddings/aligned/alt_32d.meta.json +1 -0
models/embeddings/aligned/alt_32d.projection.npy +3 -0
models/embeddings/aligned/alt_32d_metadata.json +8 -0
models/embeddings/aligned/alt_64d.bin +3 -0
models/embeddings/aligned/alt_64d.meta.json +1 -0
models/embeddings/aligned/alt_64d.projection.npy +3 -0
models/embeddings/aligned/alt_64d_metadata.json +8 -0
models/embeddings/monolingual/alt_128d.bin +2 -2
models/embeddings/monolingual/alt_128d_metadata.json +1 -1
models/embeddings/monolingual/alt_32d.bin +2 -2
models/embeddings/monolingual/alt_32d_metadata.json +1 -1
models/embeddings/monolingual/alt_64d.bin +2 -2
models/embeddings/monolingual/alt_64d_metadata.json +1 -1
models/subword_markov/alt_markov_ctx1_subword.parquet +2 -2
models/subword_markov/alt_markov_ctx1_subword_metadata.json +1 -1
models/subword_markov/alt_markov_ctx2_subword.parquet +2 -2
models/subword_markov/alt_markov_ctx2_subword_metadata.json +2 -2
models/subword_markov/alt_markov_ctx3_subword.parquet +2 -2
models/subword_markov/alt_markov_ctx3_subword_metadata.json +2 -2
models/subword_markov/alt_markov_ctx4_subword.parquet +2 -2
models/subword_markov/alt_markov_ctx4_subword_metadata.json +2 -2
models/subword_ngram/alt_2gram_subword.parquet +2 -2
models/subword_ngram/alt_2gram_subword_metadata.json +2 -2
models/subword_ngram/alt_3gram_subword.parquet +2 -2
models/subword_ngram/alt_3gram_subword_metadata.json +2 -2
models/subword_ngram/alt_4gram_subword.parquet +2 -2
models/subword_ngram/alt_4gram_subword_metadata.json +2 -2
models/subword_ngram/alt_5gram_subword.parquet +3 -0
models/subword_ngram/alt_5gram_subword_metadata.json +7 -0
models/tokenizer/alt_tokenizer_16k.model +2 -2
models/tokenizer/alt_tokenizer_16k.vocab +0 -0
models/tokenizer/alt_tokenizer_8k.model +2 -2
models/tokenizer/alt_tokenizer_8k.vocab +0 -0
models/vocabulary/alt_vocabulary.parquet +2 -2
models/vocabulary/alt_vocabulary_metadata.json +9 -9
models/word_markov/alt_markov_ctx1_word.parquet +2 -2
models/word_markov/alt_markov_ctx1_word_metadata.json +2 -2
models/word_markov/alt_markov_ctx2_word.parquet +2 -2
models/word_markov/alt_markov_ctx2_word_metadata.json +2 -2
models/word_markov/alt_markov_ctx3_word.parquet +2 -2
models/word_markov/alt_markov_ctx3_word_metadata.json +2 -2
models/word_markov/alt_markov_ctx4_word.parquet +2 -2
models/word_markov/alt_markov_ctx4_word_metadata.json +2 -2

.gitattributes CHANGED Viewed

@@ -39,3 +39,4 @@ visualizations/position_encoding_comparison.png filter=lfs diff=lfs merge=lfs -t
 visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text

 visualizations/tsne_sentences.png filter=lfs diff=lfs merge=lfs -text
 visualizations/tsne_words.png filter=lfs diff=lfs merge=lfs -text
 visualizations/zipf_law.png filter=lfs diff=lfs merge=lfs -text
+visualizations/embedding_tsne_multilingual.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 language: alt
-language_name: ALT
 language_family: turkic_siberian
 tags:
   - wikilangs
@@ -10,11 +10,21 @@ tags:
   - n-gram
   - markov
   - wikipedia
   - monolingual
   - family-turkic_siberian
 license: mit
 library_name: wikilangs
-pipeline_tag: feature-extraction
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
@@ -23,20 +33,20 @@ dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
-    value: 3.681
   - name: best_isotropy
     type: isotropy
-    value: 0.8352
   - name: vocabulary_size
     type: vocab
     value: 0
 generated: 2026-01-03
 ---
-# ALT - Wikilangs Models
 ## Comprehensive Research Report & Full Ablation Study
-This repository contains NLP models trained and evaluated by Wikilangs, specifically on **ALT** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ## 📋 Repository Contents
@@ -60,7 +70,7 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
-- [6. Morphological Analysis (Experimental)](#6-morphological-analysis)
 - [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
@@ -80,39 +90,39 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
-| **8k** | 3.483x | 3.48 | 0.3997% | 976,020 |
-| **16k** | 3.681x 🏆 | 3.68 | 0.4223% | 923,645 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `Тижимеева Галина Ивановна — Кан-Оозы аймактыҥ аймак депутатды. Ӱстӱги Јалаҥый Ба...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁ти жи ме ева ▁галина ▁ивановна ▁— ▁кан - оозы ... (+12 more)` | 22 |
-| 16k | `▁тижимеева ▁галина ▁ивановна ▁— ▁кан - оозы ▁аймактыҥ ▁аймак ▁депутатды ... (+8 more)` | 18 |
-**Sample 2:** `«Кызалаҥду јылдар» (орус. «Трудные годы») — баштапкы алтай тӱӱкилик роман. Автор...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁« кы за ла ҥ ду ▁јылдар » ▁( орус ... (+19 more)` | 29 |
-| 16k | `▁« кызалаҥду ▁јылдар » ▁( орус . ▁« трудные ▁годы ... (+14 more)` | 24 |
-**Sample 3:** `Эски Чечкаб (, ) — јурт Россияда Татарстан Республиканыҥ Кайбыч аймагында кирет....`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁эски ▁че ч ка б ▁(, ▁) ▁— ▁јурт ▁россияда ... (+12 more)` | 22 |
-| 16k | `▁эски ▁чечкаб ▁(, ▁) ▁— ▁јурт ▁россияда ▁татарстан ▁республиканыҥ ▁кайбыч ... (+7 more)` | 17 |
 ### Key Findings
-- **Best Compression:** 16k achieves 3.681x compression
-- **Lowest UNK Rate:** 8k with 0.3997% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
@@ -129,12 +139,14 @@ Below are sample sentences tokenized with each vocabulary size:
 | N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
 |--------|---------|------------|---------|----------------|------------------|-------------------|
-| **2-gram** | Word | 4,436 | 12.12 | 12,008 | 16.5% | 55.5% |
-| **2-gram** | Subword | 413 🏆 | 8.69 | 2,712 | 55.2% | 98.2% |
-| **3-gram** | Word | 5,478 | 12.42 | 16,272 | 15.6% | 52.1% |
-| **3-gram** | Subword | 3,295 | 11.69 | 22,501 | 19.5% | 62.8% |
-| **4-gram** | Word | 8,026 | 12.97 | 27,756 | 15.3% | 46.2% |
-| **4-gram** | Subword | 14,033 | 13.78 | 96,739 | 10.5% | 35.6% |
 ### Top 5 N-grams by Size
@@ -142,10 +154,10 @@ Below are sample sentences tokenized with each vocabulary size:
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `республики алтай` | 1,480 |
 | 2 | `ј чык` | 1,391 |
 | 3 | `горно алтайск` | 1,246 |
-| 4 | `алтай республиканыҥ` | 1,222 |
 | 5 | `ј бож` | 1,072 |
 **3-grams (Word):**
@@ -156,7 +168,7 @@ Below are sample sentences tokenized with each vocabulary size:
 | 2 | `ӱлӱрген айыныҥ 15` | 730 |
 | 3 | `алтайск ау ра` | 511 |
 | 4 | `горно алтайск ау` | 511 |
-| 5 | `јон јаткан јерлери` | 504 |
 **4-grams (Word):**
@@ -165,45 +177,65 @@ Below are sample sentences tokenized with each vocabulary size:
 | 1 | `јылдыҥ ӱлӱрген айыныҥ 15` | 730 |
 | 2 | `горно алтайск ау ра` | 511 |
 | 3 | `болгон јылдыҥ ӱлӱрген айыныҥ` | 367 |
-| 4 | `тоолоорго окылу конвертер датла` | 365 |
-| 5 | `окылу конвертер датла тузаланарга` | 365 |
 **2-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `_ к` | 74,491 |
-| 2 | `, _` | 64,716 |
-| 3 | `_ ј` | 55,670 |
-| 4 | `а _` | 55,340 |
-| 5 | `ҥ _` | 54,127 |
 **3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `ы ҥ _` | 34,280 |
-| 2 | `д а _` | 17,047 |
-| 3 | `_ — _` | 16,876 |
-| 4 | `н ы ҥ` | 15,865 |
-| 5 | `_ к а` | 15,102 |
 **4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
-| 1 | `н ы ҥ _` | 15,267 |
-| 2 | `д ы ҥ _` | 13,210 |
-| 3 | `_ к ӱ н` | 11,149 |
-| 4 | `а л т а` | 9,638 |
-| 5 | `_ ј ы л` | 9,359 |
 ### Key Findings
 - **Best Perplexity:** 2-gram (subword) with 413
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
-- **Coverage:** Top-1000 patterns cover ~36% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
@@ -219,14 +251,14 @@ Below are sample sentences tokenized with each vocabulary size:
 | Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
 |---------|---------|-------------|------------|------------------|-----------------|----------------|
-| **1** | Word | 0.7272 | 1.655 | 4.24 | 64,506 | 27.3% |
-| **1** | Subword | 1.6383 | 3.113 | 16.08 | 301 | 0.0% |
-| **2** | Word | 0.1675 | 1.123 | 1.34 | 273,261 | 83.2% |
-| **2** | Subword | 1.3152 | 2.488 | 8.05 | 4,839 | 0.0% |
-| **3** | Word | 0.0551 | 1.039 | 1.10 | 366,294 | 94.5% |
-| **3** | Subword | 0.8839 | 1.845 | 4.16 | 38,940 | 11.6% |
-| **4** | Word | 0.0265 🏆 | 1.019 | 1.05 | 402,354 | 97.4% |
-| **4** | Subword | 0.6047 | 1.521 | 2.55 | 162,075 | 39.5% |
 ### Generated Text Samples (Word-based)
@@ -234,27 +266,27 @@ Below are text samples generated from each word-based Markov chain model:
 **Context Size 1:**
-1. `ла эмчиликте фундаментал шиҥжӱлер эдип чотолот чике тоозын айдып салган аш курсактыҥ томский пивоныҥ...`
-2. `ле бийик эмес ортолой кеми 27 ноября года n 107 об образовании муниципальных образований наделении с...`
-3. `алтай республиканыҥ јурт јеезезине статус ла лесопильный ла иш аайынча министр сорокин почвоведение ...`
 **Context Size 2:**
-1. `республики алтай и верхний иртыш под ред и м краевед ада тӧрӧл учун улу јууныҥ туружаачызы канча`
-2. `ј чык британ черӱниҥ баштапкы јаан чууганга туштаган театрдыҥ сценазында јылда ачылган зимняя вишня ...`
-3. `горно алтайск гагу 267 с ил библиогр с 233 256 isbn текст электронный сууларда азый балыктыҥ кандыйы`
 **Context Size 3:**
-1. `јылдыҥ ӱлӱрген айыныҥ 15 кӱнинеҥ ала кочкор айдыҥ 18 кӱнинде восход 2 корабльда космонавт а а леонов...`
-2. `ӱлӱрген айыныҥ 15 кӱнинеҥ ала кочкор айдыҥ 3 кӱни григориан кӱнтизӱде јылдыҥ 208 кӱни високосный јыл...`
-3. `алтайск ау ра литературно издательский дом алтын туу јери ле јолдоры јуртта 3 ором казаковтыҥ кыдраш...`
 **Context Size 4:**
-1. `јылдыҥ ӱлӱрген айыныҥ 15 кӱнинеҥ ала чаган айдыҥ 17 кӱни юлиан кӱнтизӱ аайынча јылдыҥ ӱлӱрген айыныҥ...`
-2. `горно алтайск ау ра литературно издательский дом алтын туу јери ле јолдоры јурттыҥ текши јери 124 4 ...`
-3. `болгон јылдыҥ ӱлӱрген айыныҥ 15 кӱнине јетире болгон јылдыҥ ӱлӱрген айыныҥ 15 кӱнинеҥ ала кандык айд...`
 ### Generated Text Samples (Subword-based)
@@ -263,34 +295,34 @@ Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
-1. `_эдыҥ_оваралетик`
-2. `акен._ј._бачӱ_10`
-3. `рн_орнфилтӧрораа`
 **Context Size 2:**
-1. `_ка_мештай,_эдищн`
-2. `,_ӱйматкальдынде_`
-3. `_јылдыҥ_мет_башен`
 **Context Size 3:**
-1. `ыҥ_бичинентизӱлери`
-2. `да_эмчилевич_ј.бож`
-3. `_—_грицаныҥ_јаҥыс_`
 **Context Size 4:**
-1. `ныҥ_15_кӱнде_фоновы`
-2. `дыҥ_эдеги_келтейинд`
-3. `_кӱн_айдыҥ_15_айдыҥ`
 ### Key Findings
-- **Best Predictability:** Context-4 (word) with 97.4% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
-- **Memory Trade-off:** Larger contexts require more storage (162,075 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
@@ -306,9 +338,9 @@ Below are text samples generated from each subword-based Markov chain model:
 | Metric | Value |
 |--------|-------|
-| Vocabulary Size | 26,456 |
-| Total Tokens | 567,020 |
-| Mean Frequency | 21.43 |
 | Median Frequency | 3 |
 | Frequency Std Dev | 124.45 |
@@ -316,14 +348,14 @@ Below are text samples generated from each subword-based Markov chain model:
 | Rank | Word | Frequency |
 |------|------|-----------|
-| 1 | ла | 6,612 |
-| 2 | ле | 4,973 |
-| 3 | алтай | 4,656 |
-| 4 | деп | 3,921 |
-| 5 | с | 3,896 |
-| 6 | јылда | 3,763 |
-| 7 | айдыҥ | 3,450 |
-| 8 | болгон | 3,231 |
 | 9 | км | 3,151 |
 | 10 | јурт | 3,140 |
@@ -346,8 +378,8 @@ Below are text samples generated from each subword-based Markov chain model:
 | Metric | Value |
 |--------|-------|
-| Zipf Coefficient | 1.1623 |
-| R² (Goodness of Fit) | 0.985922 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
@@ -355,15 +387,15 @@ Below are text samples generated from each subword-based Markov chain model:
 | Top N Words | Coverage |
 |-------------|----------|
 | Top 100 | 27.1% |
-| Top 1,000 | 65.6% |
-| Top 5,000 | 85.8% |
-| Top 10,000 | 92.3% |
 ### Key Findings
 - **Zipf Compliance:** R²=0.9859 indicates excellent adherence to Zipf's law
 - **High Frequency Dominance:** Top 100 words cover 27.1% of corpus
-- **Long Tail:** 16,456 words needed for remaining 7.7% coverage
 ---
 ## 5. Word Embeddings Evaluation
@@ -379,37 +411,40 @@ Below are text samples generated from each subword-based Markov chain model:
 ### 5.1 Cross-Lingual Alignment
-> *Note: Multilingual alignment visualization not available for this language.*
 ### 5.2 Model Comparison
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
-| **mono_32d** | 32 | 0.8352 🏆 | 0.3587 | N/A | N/A |
-| **mono_64d** | 64 | 0.7406 | 0.3005 | N/A | N/A |
-| **mono_128d** | 128 | 0.3709 | 0.2867 | N/A | N/A |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.8352 (more uniform distribution)
-- **Semantic Density:** Average pairwise similarity of 0.3153. Lower values indicate better semantic separation.
-- **Alignment Quality:** No aligned models evaluated in this run.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 ## 6.  Morphological Analysis (Experimental)
-> ⚠️ **Warning:** This language shows low morphological productivity. The statistical signals used for this analysis may be noisy or less reliable than for morphologically rich languages.
 This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
 ### 6.1 Productivity & Complexity
 | Metric | Value | Interpretation | Recommendation |
 |--------|-------|----------------|----------------|
-| Productivity Index | **0.000** | Low morphological productivity | ⚠️ Likely unreliable |
-| Idiomaticity Gap | **-1.000** | Low formulaic content | - |
 ### 6.2 Affix Inventory (Productive Units)
@@ -418,20 +453,20 @@ These are the most productive prefixes and suffixes identified by sampling the v
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
-| `-ко` | корнелия, концертные, коруланар |
-| `-ка` | каа, каталанской, казанды |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
-| `-ыҥ` | пятницаныҥ, јазатырдыҥ, экспедициязыныҥ |
-| `-ий` | автобиографический, университетский, кентерберийский |
-| `-кий` | автобиографический, университетский, кентерберийский |
-| `-ский` | автобиографический, университетский, кентерберийский |
-| `-ныҥ` | пятницаныҥ, экспедициязыныҥ, тартканыныҥ |
-| `-иҥ` | унсеттиҥ, билимдериниҥ, эштектиҥ |
-| `-да` | фонында, лида, украинада |
-| `-ый` | сосновый, туберкулезный, маршрутный |
 ### 6.3 Bound Stems (Lexical Roots)
@@ -439,18 +474,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
-| `ский` | 2.13x | 43 contexts | южский, айский, омский |
-| `ында` | 1.56x | 51 contexts | мында, адында, ойында |
-| `ыныҥ` | 1.77x | 30 contexts | зыныҥ, мыныҥ, ажыныҥ |
-| `лтай` | 1.93x | 21 contexts | алтай, шылтай, алтайды |
-| `лгон` | 2.28x | 12 contexts | болгон, толгон, болгоны |
-| `аныҥ` | 1.77x | 23 contexts | кааныҥ, уфаныҥ, оканыҥ |
-| `олго` | 1.78x | 22 contexts | јолго, колго, иолго |
-| `осси` | 2.07x | 13 contexts | россии, россий, россия |
-| `алта` | 1.64x | 26 contexts | алтам, алтан, алтая |
-| `лган` | 1.67x | 24 contexts | алган, салган, алганы |
-| `рген` | 1.53x | 27 contexts | юрген, мерген, тӱрген |
-| `ылда` | 1.69x | 19 contexts | јылда, дылда, тылда |
 ### 6.4 Affix Compatibility (Co-occurrence)
@@ -458,16 +493,16 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
-| `-ко` | `-ыҥ` | 26 words | комедияныҥ, командазыныҥ |
-| `-ка` | `-ыҥ` | 23 words | каспаныҥ, кардыҥ |
-| `-ко` | `-ныҥ` | 16 words | комедияныҥ, командазыныҥ |
-| `-ка` | `-ий` | 15 words | калий, кавказский |
-| `-ка` | `-ныҥ` | 13 words | каспаныҥ, калаларыныҥ |
-| `-ка` | `-да` | 13 words | картазында, кампанияда |
-| `-ка` | `-кий` | 12 words | кавказский, каледонский |
-| `-ка` | `-ский` | 12 words | кавказский, каледонский |
-| `-ка` | `-ар` | 11 words | кайыҥдар, каналдар |
-| `-ко` | `-ар` | 11 words | космонавттар, коллекциялар |
 ### 6.5 Recursive Morpheme Segmentation
@@ -475,26 +510,28 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
-| молотовский | **`молот-ов-ский`** | 6.0 | `молот` |
-| логиканыҥ | **`логика-ныҥ`** | 4.5 | `логика` |
-| кереестериниҥ | **`кереестерин-иҥ`** | 4.5 | `кереестерин` |
-| тӱӱкизиниҥ | **`тӱӱкизин-иҥ`** | 4.5 | `тӱӱкизин` |
-| швейцарияда | **`швейцария-да`** | 4.5 | `швейцария` |
-| съездиниҥ | **`съездин-иҥ`** | 4.5 | `съездин` |
-| јӱрӱминиҥ | **`јӱрӱмин-иҥ`** | 4.5 | `јӱрӱмин` |
-| политиканыҥ | **`политика-ныҥ`** | 4.5 | `политика` |
-| алексеевский | **`алексеев-ский`** | 4.5 | `алексеев` |
-| субъектов | **`субъект-ов`** | 4.5 | `субъект` |
-| фабриканыҥ | **`фабрика-ныҥ`** | 4.5 | `фабрика` |
-| улаганский | **`улаган-ский`** | 4.5 | `улаган` |
-| бийигиниҥ | **`бийигин-иҥ`** | 4.5 | `бийигин` |
-| черӱлериниҥ | **`черӱлерин-иҥ`** | 4.5 | `черӱлерин` |
-| мьянманыҥ | **`мьянма-ныҥ`** | 4.5 | `мьянма` |
 ### 6.6 Linguistic Interpretation
 > **Automated Insight:**
-The language ALT appears to be more isolating or has a highly fixed vocabulary. Word-level models perform nearly as well as subword models, indicating fewer productive morphological processes.
 ---
 ## 7. Summary & Recommendations
@@ -505,9 +542,9 @@ The language ALT appears to be more isolating or has a highly fixed vocabulary.
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
-| Tokenizer | **16k BPE** | Best compression (3.68x) |
 | N-gram | **2-gram** | Lowest perplexity (413) |
-| Markov | **Context-4** | Highest predictability (97.4%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
@@ -721,4 +758,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2026-01-03 05:04:55*

 ---
 language: alt
+language_name: Southern Altai
 language_family: turkic_siberian
 tags:
   - wikilangs
   - n-gram
   - markov
   - wikipedia
+  - feature-extraction
+  - sentence-similarity
+  - tokenization
+  - n-grams
+  - markov-chain
+  - text-mining
+  - fasttext
+  - babelvec
+  - vocabulous
+  - vocabulary
   - monolingual
   - family-turkic_siberian
 license: mit
 library_name: wikilangs
+pipeline_tag: text-generation
 datasets:
   - omarkamali/wikipedia-monthly
 dataset_info:
 metrics:
   - name: best_compression_ratio
     type: compression
+    value: 3.686
   - name: best_isotropy
     type: isotropy
+    value: 0.8419
   - name: vocabulary_size
     type: vocab
     value: 0
 generated: 2026-01-03
 ---
+# Southern Altai - Wikilangs Models
 ## Comprehensive Research Report & Full Ablation Study
+This repository contains NLP models trained and evaluated by Wikilangs, specifically on **Southern Altai** Wikipedia data.
 We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
 ## 📋 Repository Contents
 - [3. Markov Chain Evaluation](#3-markov-chain-evaluation)
 - [4. Vocabulary Analysis](#4-vocabulary-analysis)
 - [5. Word Embeddings Evaluation](#5-word-embeddings-evaluation)
+- [6. Morphological Analysis (Experimental)](#6--morphological-analysis-experimental)
 - [7. Summary & Recommendations](#7-summary--recommendations)
 - [Metrics Glossary](#appendix-metrics-glossary--interpretation-guide)
 - [Visualizations Index](#visualizations-index)
 | Vocab Size | Compression | Avg Token Len | UNK Rate | Total Tokens |
 |------------|-------------|---------------|----------|--------------|
+| **8k** | 3.486x | 3.49 | 0.3992% | 972,913 |
+| **16k** | 3.686x 🏆 | 3.69 | 0.4221% | 920,240 |
 ### Tokenization Examples
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `Оҥныут кошуун () — ӧвӧр моҥолдыҥ кошуун. Этимологиязы Оҥныут — (калка моҥолдоп о...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁оҥныут ▁кошуун ▁() ▁— ▁ӧвӧр ▁моҥолдыҥ ▁кошуун . ▁этимологиязы ▁оҥныут ... (+27 more)` | 37 |
+| 16k | `▁оҥныут ▁кошуун ▁() ▁— ▁ӧвӧр ▁моҥолдыҥ ▁кошуун . ▁этимологиязы ▁оҥныут ... (+25 more)` | 35 |
+**Sample 2:** `Эски Чечкаб (, ) — јурт Россияда Татарстан Республиканыҥ Кайбыч аймагында кирет....`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁эски ▁че ч ка б ▁(, ▁) ▁— ▁јурт ▁россияда ... (+12 more)` | 22 |
+| 16k | `▁эски ▁чечкаб ▁(, ▁) ▁— ▁јурт ▁россияда ▁татарстан ▁республиканыҥ ▁кайбыч ... (+7 more)` | 17 |
+**Sample 3:** `Танк - темирле јабылган тебингиштерлӱ јуучыл машина.`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁танк ▁- ▁темир ле ▁ја б ылган ▁тебин ги ш ... (+6 more)` | 16 |
+| 16k | `▁танк ▁- ▁темирле ▁јабылган ▁тебингиштерлӱ ▁јуучыл ▁машина .` | 8 |
 ### Key Findings
+- **Best Compression:** 16k achieves 3.686x compression
+- **Lowest UNK Rate:** 8k with 0.3992% unknown tokens
 - **Trade-off:** Larger vocabularies improve compression but increase model size
 - **Recommendation:** 32k vocabulary provides optimal balance for production use
 | N-gram | Variant | Perplexity | Entropy | Unique N-grams | Top-100 Coverage | Top-1000 Coverage |
 |--------|---------|------------|---------|----------------|------------------|-------------------|
+| **2-gram** | Word | 4,423 | 12.11 | 11,976 | 16.5% | 55.6% |
+| **2-gram** | Subword | 413 🏆 | 8.69 | 2,708 | 55.2% | 98.2% |
+| **3-gram** | Word | 5,471 | 12.42 | 16,254 | 15.6% | 52.1% |
+| **3-gram** | Subword | 3,292 | 11.68 | 22,428 | 19.5% | 62.9% |
+| **4-gram** | Word | 8,010 | 12.97 | 27,702 | 15.3% | 46.3% |
+| **4-gram** | Subword | 14,003 | 13.77 | 96,467 | 10.5% | 35.7% |
+| **5-gram** | Word | 7,318 | 12.84 | 24,542 | 16.3% | 46.7% |
+| **5-gram** | Subword | 33,559 | 15.03 | 198,894 | 7.1% | 25.2% |
 ### Top 5 N-grams by Size
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `республики алтай` | 1,479 |
 | 2 | `ј чык` | 1,391 |
 | 3 | `горно алтайск` | 1,246 |
+| 4 | `алтай республиканыҥ` | 1,220 |
 | 5 | `ј бож` | 1,072 |
 **3-grams (Word):**
 | 2 | `ӱлӱрген айыныҥ 15` | 730 |
 | 3 | `алтайск ау ра` | 511 |
 | 4 | `горно алтайск ау` | 511 |
+| 5 | `јон јаткан јерлери` | 503 |
 **4-grams (Word):**
 | 1 | `јылдыҥ ӱлӱрген айыныҥ 15` | 730 |
 | 2 | `горно алтайск ау ра` | 511 |
 | 3 | `болгон јылдыҥ ӱлӱрген айыныҥ` | 367 |
+| 4 | `айыныҥ 15 кӱнине јетире` | 365 |
+| 5 | `аайынча јылдыҥ ӱлӱрген айыныҥ` | 365 |
+**5-grams (Word):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `юлиан кӱнтизӱ аайынча јылдыҥ ӱлӱрген` | 365 |
+| 2 | `кӱнтизӱ аайынча јылдыҥ ӱлӱрген айыныҥ` | 365 |
+| 3 | `кӱнине јетире болгон јылдыҥ ӱлӱрген` | 365 |
+| 4 | `юлиан кӱнтизӱни 13 кӱнге озолоп` | 365 |
+| 5 | `кӱнтизӱ юлиан кӱнтизӱни 13 кӱнге` | 365 |
 **2-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `_ к` | 74,208 |
+| 2 | `, _` | 64,571 |
+| 3 | `_ ј` | 55,512 |
+| 4 | `а _` | 55,147 |
+| 5 | `ҥ _` | 53,924 |
 **3-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `ы ҥ _` | 34,158 |
+| 2 | `д а _` | 16,990 |
+| 3 | `_ — _` | 16,847 |
+| 4 | `н ы ҥ` | 15,805 |
+| 5 | `_ к а` | 15,039 |
 **4-grams (Subword):**
 | Rank | N-gram | Count |
 |------|--------|-------|
+| 1 | `н ы ҥ _` | 15,207 |
+| 2 | `д ы ҥ _` | 13,173 |
+| 3 | `_ к ӱ н` | 11,135 |
+| 4 | `а л т а` | 9,624 |
+| 5 | `_ ј ы л` | 9,304 |
+**5-grams (Subword):**
+| Rank | N-gram | Count |
+|------|--------|-------|
+| 1 | `а л т а й` | 8,736 |
+| 2 | `_ ј ы л д` | 7,756 |
+| 3 | `с к и й _` | 7,663 |
+| 4 | `_ а л т а` | 6,748 |
+| 5 | `й д ы ҥ _` | 5,904 |
 ### Key Findings
 - **Best Perplexity:** 2-gram (subword) with 413
 - **Entropy Trend:** Decreases with larger n-grams (more predictable)
+- **Coverage:** Top-1000 patterns cover ~25% of corpus
 - **Recommendation:** 4-gram or 5-gram for best predictive performance
 ---
 | Context | Variant | Avg Entropy | Perplexity | Branching Factor | Unique Contexts | Predictability |
 |---------|---------|-------------|------------|------------------|-----------------|----------------|
+| **1** | Word | 0.7265 | 1.655 | 4.23 | 64,260 | 27.4% |
+| **1** | Subword | 1.6376 | 3.112 | 16.04 | 301 | 0.0% |
+| **2** | Word | 0.1676 | 1.123 | 1.34 | 271,928 | 83.2% |
+| **2** | Subword | 1.3152 | 2.488 | 8.04 | 4,828 | 0.0% |
+| **3** | Word | 0.0551 | 1.039 | 1.10 | 364,496 | 94.5% |
+| **3** | Subword | 0.8837 | 1.845 | 4.16 | 38,825 | 11.6% |
+| **4** | Word | 0.0265 🏆 | 1.019 | 1.05 | 400,428 | 97.3% |
+| **4** | Subword | 0.6047 | 1.521 | 2.55 | 161,528 | 39.5% |
 ### Generated Text Samples (Word-based)
 **Context Size 1:**
+1. `ла ӧскӧ кижиниҥ адын масс системы но строеніемъ мерзокъ всё спишет вермахт понёс 90 км јаш`
+2. `ле јолдоры јуртта 9 кӱнинде москвада в в ломоносова јылда гаагада переплётчик бичиктер берестяная гр...`
+3. `алтай республика хакасия монголия горно алтайск гагу ныҥ јарымјылдык курстарына аткарылган оныҥ адыл...`
 **Context Size 2:**
+1. `республики алтай от 3 марта года n 9 6 о языках народов проживающих на территории республики алтай`
+2. `ј чык совет ле россий орнитолог јурукчы анималист бу кӱнде божогондор ајарулар 27 айдыҥ 27 кӱни юлиа...`
+3. `горно алтайск алтайдыҥ бичиктер чыгарар изд возы 1 эл опт диск cd rom на алт яз б`
 **Context Size 3:**
+1. `јылдыҥ ӱлӱрген айыныҥ 15 кӱнинеҥ ала тулаан айдыҥ 29 кӱнинде артист россияныҥ театрал ишчилериниҥ би...`
+2. `ӱлӱрген айыныҥ 15 кӱнинеҥ ала кандык айдыҥ 15 кӱни юлиан кӱнтизӱ аайынча јылдыҥ ӱлӱрген айыныҥ 15 кӱ...`
+3. `алтайск ау ра литературно издательский дом алтын туу сууда балык кезем астаган да болзо корулу јерле...`
 **Context Size 4:**
+1. `јылдыҥ ӱлӱрген айыныҥ 15 кӱнине јетире болгон јылдыҥ ӱлӱрген айыныҥ 15 кӱнине јетире болгон јылдыҥ ӱ...`
+2. `горно алтайск ау ра литературно издательский дом алтын туу јайдыҥ бойында аркалары койу ла бийик ӧлӧ...`
+3. `болгон јылдыҥ ӱлӱрген айыныҥ 15 кӱнинеҥ ала кӱӱк айдыҥ 6 кӱни григориан кӱнтизӱде јылдыҥ 360 кӱни ви...`
 ### Generated Text Samples (Subword-based)
 **Context Size 1:**
+1. `_гатӱли»)_јектич`
+2. `аканамикет_јыхих`
+3. `ртакклан_онла_бь`
 **Context Size 2:**
+1. `_кыл,_баснов_кылг`
+2. `,_29_21,97_малтал`
+3. `_јуртиреспублик_а`
 **Context Size 3:**
+1. `ыҥ_кодондо_инфранс`
+2. `да_православ_башка`
+3. `_—_titus_liefs_asb`
 **Context Size 4:**
+1. `ныҥ_кандыра_агып_ба`
+2. `дыҥ_физиканыҥ_ӱӱрел`
+3. `_кӱнтизӱле_кӱни_гри`
 ### Key Findings
+- **Best Predictability:** Context-4 (word) with 97.3% predictability
 - **Branching Factor:** Decreases with context size (more deterministic)
+- **Memory Trade-off:** Larger contexts require more storage (161,528 contexts)
 - **Recommendation:** Context-3 or Context-4 for text generation
 ---
 | Metric | Value |
 |--------|-------|
+| Vocabulary Size | 26,328 |
+| Total Tokens | 565,164 |
+| Mean Frequency | 21.47 |
 | Median Frequency | 3 |
 | Frequency Std Dev | 124.45 |
 | Rank | Word | Frequency |
 |------|------|-----------|
+| 1 | ла | 6,601 |
+| 2 | ле | 4,964 |
+| 3 | алтай | 4,646 |
+| 4 | деп | 3,903 |
+| 5 | с | 3,881 |
+| 6 | јылда | 3,745 |
+| 7 | айдыҥ | 3,441 |
+| 8 | болгон | 3,230 |
 | 9 | км | 3,151 |
 | 10 | јурт | 3,140 |
 | Metric | Value |
 |--------|-------|
+| Zipf Coefficient | 1.1627 |
+| R² (Goodness of Fit) | 0.985919 |
 | Adherence Quality | **excellent** |
 ### Coverage Analysis
 | Top N Words | Coverage |
 |-------------|----------|
 | Top 100 | 27.1% |
+| Top 1,000 | 65.7% |
+| Top 5,000 | 85.9% |
+| Top 10,000 | 92.4% |
 ### Key Findings
 - **Zipf Compliance:** R²=0.9859 indicates excellent adherence to Zipf's law
 - **High Frequency Dominance:** Top 100 words cover 27.1% of corpus
+- **Long Tail:** 16,328 words needed for remaining 7.6% coverage
 ---
 ## 5. Word Embeddings Evaluation
 ### 5.1 Cross-Lingual Alignment
+![Alignment Quality](visualizations/embedding_alignment_quality.png)
+![Multilingual t-SNE](visualizations/embedding_tsne_multilingual.png)
 ### 5.2 Model Comparison
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.8419 | 0.3607 | N/A | N/A |
+| **mono_64d** | 64 | 0.7375 | 0.3054 | N/A | N/A |
+| **mono_128d** | 128 | 0.3603 | 0.2810 | N/A | N/A |
+| **aligned_32d** | 32 | 0.8419 🏆 | 0.3554 | 0.0260 | 0.1460 |
+| **aligned_64d** | 64 | 0.7375 | 0.2999 | 0.0660 | 0.2980 |
+| **aligned_128d** | 128 | 0.3603 | 0.2823 | 0.1580 | 0.4340 |
 ### Key Findings
+- **Best Isotropy:** aligned_32d with 0.8419 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.3141. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 15.8% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 ## 6.  Morphological Analysis (Experimental)
 This section presents an automated morphological analysis derived from the statistical divergence between word-level and subword-level models. By analyzing where subword predictability spikes and where word-level coverage fails, we can infer linguistic structures without supervised data.
 ### 6.1 Productivity & Complexity
 | Metric | Value | Interpretation | Recommendation |
 |--------|-------|----------------|----------------|
+| Productivity Index | **5.000** | High morphological productivity | Reliable analysis |
+| Idiomaticity Gap | **0.854** | High formulaic/idiomatic content | - |
 ### 6.2 Affix Inventory (Productive Units)
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
+| `-ка` | калькутта, калба, кацукава |
+| `-ко` | контр, козерёкова, кожондоп |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
+| `-ыҥ` | филармонияныҥ, транспорттыҥ, британияныҥ |
+| `-ий` | белорусский, макарьевский, исетский |
+| `-кий` | белорусский, макарьевский, исетский |
+| `-ский` | белорусский, макарьевский, исетский |
+| `-ныҥ` | филармонияныҥ, британияныҥ, наралканыҥ |
+| `-иҥ` | јеезезиниҥ, изӱзиниҥ, ӱренчиктердиҥ |
+| `-да` | ордында, совхозында, садуда |
+| `-ый` | государственный, музейный, тёплый |
 ### 6.3 Bound Stems (Lexical Roots)
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
+| `ский` | 2.17x | 43 contexts | омский, окский, юрский |
+| `ында` | 1.53x | 51 contexts | мында, айында, сындар |
+| `ыныҥ` | 1.68x | 30 contexts | мыныҥ, зыныҥ, угыныҥ |
+| `лтай` | 1.85x | 21 contexts | алтай, шылтай, алтайды |
+| `лгон` | 2.21x | 12 contexts | толгон, болгон, болгонм |
+| `лган` | 1.70x | 23 contexts | алган, калган, салган |
+| `осси` | 2.03x | 13 contexts | россия, россию, россии |
+| `аныҥ` | 1.67x | 23 contexts | оканыҥ, сшаныҥ, эраныҥ |
+| `олго` | 1.66x | 22 contexts | колго, волго, голго |
+| `алта` | 1.49x | 26 contexts | алтай, алтан, алтам |
+| `јылд` | 1.77x | 15 contexts | јылда, јылды, јылдын |
+| `ылда` | 1.63x | 19 contexts | тылда, дылда, јылда |
 ### 6.4 Affix Compatibility (Co-occurrence)
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
+| `-ка` | `-ыҥ` | 21 words | казакстанныҥ, кайырлыктыҥ |
+| `-ко` | `-ыҥ` | 20 words | конституцияныҥ, конкурстардыҥ |
+| `-ка` | `-ий` | 14 words | кадетский, карский |
+| `-ко` | `-ый` | 13 words | консалтинговый, командный |
+| `-ка` | `-ныҥ` | 11 words | казакстанныҥ, канаданыҥ |
+| `-ко` | `-ныҥ` | 11 words | конституцияныҥ, колхозыныҥ |
+| `-ко` | `-ий` | 10 words | комментарий, ковалевский |
+| `-ка` | `-кий` | 10 words | кадетский, карский |
+| `-ка` | `-ский` | 10 words | кадетский, карский |
+| `-ко` | `-да` | 9 words | косметологияда, коруда |
 ### 6.5 Recursive Morpheme Segmentation
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
+| планеталарында | **`планеталарын-да`** | 4.5 | `планеталарын` |
+| актуруныҥ | **`актуру-ныҥ`** | 4.5 | `актуру` |
+| покровский | **`покров-ский`** | 4.5 | `покров` |
+| искусствоныҥ | **`искусство-ныҥ`** | 4.5 | `искусство` |
+| думазыныҥ | **`думазы-ныҥ`** | 4.5 | `думазы` |
+| медицинада | **`медицина-да`** | 4.5 | `медицина` |
+| балдарыныҥ | **`балдары-ныҥ`** | 4.5 | `балдары` |
+| португалияда | **`португалия-да`** | 4.5 | `португалия` |
+| программада | **`программа-да`** | 4.5 | `программа` |
+| аймагыныҥ | **`аймагы-ныҥ`** | 4.5 | `аймагы` |
+| академияда | **`академия-да`** | 4.5 | `академия` |
+| авиацияныҥ | **`авиация-ныҥ`** | 4.5 | `авиация` |
+| шотландский | **`шотланд-ский`** | 4.5 | `шотланд` |
+| киргизияныҥ | **`киргизия-ныҥ`** | 4.5 | `киргизия` |
+| регрессияныҥ | **`регрессия-ныҥ`** | 4.5 | `регрессия` |
 ### 6.6 Linguistic Interpretation
 > **Automated Insight:**
+The language Southern Altai shows high morphological productivity. The subword models are significantly more efficient than word models, suggesting a rich system of affixation or compounding.
+> **Note on Idiomaticity:** The high Idiomaticity Gap suggests a large number of frequent multi-word expressions or formulaic sequences that are statistically distinct from their component parts.
 ---
 ## 7. Summary & Recommendations
 | Component | Recommended | Rationale |
 |-----------|-------------|-----------|
+| Tokenizer | **16k BPE** | Best compression (3.69x) |
 | N-gram | **2-gram** | Lowest perplexity (413) |
+| Markov | **Context-4** | Highest predictability (97.3%) |
 | Embeddings | **100d** | Balanced semantic capture and isotropy |
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-03 16:17:03*

models/embeddings/aligned/alt_128d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b49db53759f31efa64c4f2d7d7be9b6c4a0dd66f132f278507518e1d880168
+size 1036324583

models/embeddings/aligned/alt_128d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "alt", "dim": 128, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/alt_128d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53c0661fbc07341a94b6af5794cec2dd258834958ca585700e24709c25070767
+size 65664

models/embeddings/aligned/alt_128d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "alt",
+  "dimension": 128,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 1005,
+  "vocab_size": 11761
+}

models/embeddings/aligned/alt_32d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a6abdeea8e67944fcc5ee1694036589855e874e24a7c77bd4c4209a5d5d8d26
+size 259292135

models/embeddings/aligned/alt_32d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "alt", "dim": 32, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/alt_32d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b66e7b3da22cdea9d53726b7023049952f4477dae9106655d0f21b6b044e514d
+size 4224

models/embeddings/aligned/alt_32d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "alt",
+  "dimension": 32,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 1005,
+  "vocab_size": 11761
+}

models/embeddings/aligned/alt_64d.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d37f24d69c323fd9bf8a50980438c9258d8e34ccead6aae9b90a789e9b492c6
+size 518302951

models/embeddings/aligned/alt_64d.meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lang": "alt", "dim": 64, "max_seq_len": 512, "is_aligned": true}

models/embeddings/aligned/alt_64d.projection.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b70ae5264aab6f216db3e0671fafeebbc01cc568ae1669ac762b6a0bfe0842b
+size 16512

models/embeddings/aligned/alt_64d_metadata.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "language": "alt",
+  "dimension": 64,
+  "version": "aligned",
+  "hub_language": "en",
+  "seed_vocab_size": 1005,
+  "vocab_size": 11761
+}

models/embeddings/monolingual/alt_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e396190247b1c989d377e3a31a5ca94405fd3ee9794d9a1f7bafcef3e5cf2c32
-size 1036365432

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b49db53759f31efa64c4f2d7d7be9b6c4a0dd66f132f278507518e1d880168
+size 1036324583

models/embeddings/monolingual/alt_128d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 128
   },
-  "vocab_size": 11800
 }

     "encoding_method": "rope",
     "dim": 128
   },
+  "vocab_size": 11761
 }

models/embeddings/monolingual/alt_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61f263d2302c0b79944fb6dea7a5410f34344972105b8624236c585557cd9b72
-size 259303032

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a6abdeea8e67944fcc5ee1694036589855e874e24a7c77bd4c4209a5d5d8d26
+size 259292135

models/embeddings/monolingual/alt_32d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 32
   },
-  "vocab_size": 11800
 }

     "encoding_method": "rope",
     "dim": 32
   },
+  "vocab_size": 11761
 }

models/embeddings/monolingual/alt_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0af70072fe6e458bf918c9d11f1a56126a09d6b5cade10dc1cf79494ec3cad2b
-size 518323832

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d37f24d69c323fd9bf8a50980438c9258d8e34ccead6aae9b90a789e9b492c6
+size 518302951

models/embeddings/monolingual/alt_64d_metadata.json CHANGED Viewed

@@ -11,5 +11,5 @@
     "encoding_method": "rope",
     "dim": 64
   },
-  "vocab_size": 11800
 }

     "encoding_method": "rope",
     "dim": 64
   },
+  "vocab_size": 11761
 }

models/subword_markov/alt_markov_ctx1_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9835d764d81a373a43d4c69af7b885b80b3e7e6708cce0d6899e9b5ea4672187
-size 43649

 version https://git-lfs.github.com/spec/v1
+oid sha256:5de3a411b37f584ca33da338fbcff27d94573428168a1e648d2b742b2fc8dcdf
+size 43597

models/subword_markov/alt_markov_ctx1_subword_metadata.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "variant": "subword",
   "language": "alt",
   "unique_contexts": 301,
-  "total_transitions": 4392884
 }

   "variant": "subword",
   "language": "alt",
   "unique_contexts": 301,
+  "total_transitions": 4378023
 }

models/subword_markov/alt_markov_ctx2_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d66028d1955552f26a81718406af2dce47d0f3dedd00f8bb0b84c80b869c131
-size 310925

 version https://git-lfs.github.com/spec/v1
+oid sha256:f697eae7fb6cf10b61177dc18c8a55cbae2e40ad0d4afd4a8da85f56afbd2237
+size 309826

models/subword_markov/alt_markov_ctx2_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "subword",
   "language": "alt",
-  "unique_contexts": 4839,
-  "total_transitions": 4391785
 }

   "context_size": 2,
   "variant": "subword",
   "language": "alt",
+  "unique_contexts": 4828,
+  "total_transitions": 4376923
 }

models/subword_markov/alt_markov_ctx3_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93204d2e51859eacc761cb0757c0e6456d7c7bc8f68ee9401b438c2b0f12f236
-size 1232693

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d155f8f5450de809f8f092c6dbb0c3edf33a9f8fceca3e23b01a9ec33458a89
+size 1242900

models/subword_markov/alt_markov_ctx3_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 3,
   "variant": "subword",
   "language": "alt",
-  "unique_contexts": 38940,
-  "total_transitions": 4390686
 }

   "context_size": 3,
   "variant": "subword",
   "language": "alt",
+  "unique_contexts": 38825,
+  "total_transitions": 4375823
 }

models/subword_markov/alt_markov_ctx4_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24dc5e341215c2a39c5ae7484dd8bd985f42205d269ff7f3a91b8cc25d862939
-size 3689341

 version https://git-lfs.github.com/spec/v1
+oid sha256:d059c0f9ee39262493fd9a6d03eae15c65ad6aae24aafe491837dba6ca124d1d
+size 3667084

models/subword_markov/alt_markov_ctx4_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 4,
   "variant": "subword",
   "language": "alt",
-  "unique_contexts": 162075,
-  "total_transitions": 4389587
 }

   "context_size": 4,
   "variant": "subword",
   "language": "alt",
+  "unique_contexts": 161528,
+  "total_transitions": 4374723
 }

models/subword_ngram/alt_2gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6cafd90f885b32dd8861ed71808430f5107a59536dc5f4e342a7bdc0fbbba4c
-size 38120

 version https://git-lfs.github.com/spec/v1
+oid sha256:316d420820493b671016a9b16daf866564bb5d7a7372b5170fd329e3c9c21546
+size 38127

models/subword_ngram/alt_2gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 2,
   "variant": "subword",
   "language": "alt",
-  "unique_ngrams": 2712,
-  "total_ngrams": 4392884
 }

   "n": 2,
   "variant": "subword",
   "language": "alt",
+  "unique_ngrams": 2708,
+  "total_ngrams": 4378023
 }

models/subword_ngram/alt_3gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34a836528a3396f9306f4ecc25205690e3dd0d56877599f1efb2e2f194507c84
-size 295825

 version https://git-lfs.github.com/spec/v1
+oid sha256:60352b70be6638b28e4a718c309322d12428980bbe91c7bf0970204529910c66
+size 294997

models/subword_ngram/alt_3gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 3,
   "variant": "subword",
   "language": "alt",
-  "unique_ngrams": 22501,
-  "total_ngrams": 4391785
 }

   "n": 3,
   "variant": "subword",
   "language": "alt",
+  "unique_ngrams": 22428,
+  "total_ngrams": 4376923
 }

models/subword_ngram/alt_4gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:884f3c7557c6823455b4677c54106f38a9691634c5e0cfe29fac18815f11c7a2
-size 1241123

 version https://git-lfs.github.com/spec/v1
+oid sha256:77218c8b8554d3860d25d145b941dd913a161caad61f0365175465c6fe92157e
+size 1238337

models/subword_ngram/alt_4gram_subword_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "n": 4,
   "variant": "subword",
   "language": "alt",
-  "unique_ngrams": 96739,
-  "total_ngrams": 4390686
 }

   "n": 4,
   "variant": "subword",
   "language": "alt",
+  "unique_ngrams": 96467,
+  "total_ngrams": 4375823
 }

models/subword_ngram/alt_5gram_subword.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b8723b876de6f61cb203330f95f792d0e1cdec11ce378450bb745718331c6e1
+size 2724808

models/subword_ngram/alt_5gram_subword_metadata.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "n": 5,
+  "variant": "subword",
+  "language": "alt",
+  "unique_ngrams": 198894,
+  "total_ngrams": 4374723
+}

models/tokenizer/alt_tokenizer_16k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ed995fcbde5668b2f32931d416ecfd444547f4fccf04118ff4bf11e3c248ef4
-size 600334

 version https://git-lfs.github.com/spec/v1
+oid sha256:192d7e44e0196b96f1303f1a410abfcee217c2ca7c785632537870d57d1b37ba
+size 600913

models/tokenizer/alt_tokenizer_16k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/tokenizer/alt_tokenizer_8k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:452a0aec3e7e4b4e17384e2ff0d3b52a51f9cb273b8e8bbc7addbb7f2e51363f
-size 410662

 version https://git-lfs.github.com/spec/v1
+oid sha256:20270bb636c034ecfc25d110dd94006f754d960d971e1420d5e4f0aaf265e29d
+size 410773

models/tokenizer/alt_tokenizer_8k.vocab CHANGED Viewed

The diff for this file is too large to render. See raw diff

models/vocabulary/alt_vocabulary.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c316fcfa2120415d93073b97d54878932bd6da42c81696b2da0093488988631
-size 512673

 version https://git-lfs.github.com/spec/v1
+oid sha256:405199c1e4ec8eb327312b45b88ddeac4e778fefcefab6ffb844bb2ee7d0952c
+size 508112

models/vocabulary/alt_vocabulary_metadata.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
   "language": "alt",
-  "vocabulary_size": 26456,
   "variant": "full",
   "statistics": {
-    "type_token_ratio": 0.10662391749851259,
     "coverage": {
-      "top_100": 0.2540457460170556,
-      "top_1000": 0.6146790507040392,
-      "top_5000": 0.8042837310768824,
-      "top_10000": 0.8649781847028493
     },
-    "hapax_count": 38060,
-    "hapax_ratio": 0.5899311798623598,
-    "total_documents": 1099
   }
 }

 {
   "language": "alt",
+  "vocabulary_size": 26328,
   "variant": "full",
   "statistics": {
+    "type_token_ratio": 0.10656501510513906,
     "coverage": {
+      "top_100": 0.2543251103454451,
+      "top_1000": 0.6152218681293172,
+      "top_5000": 0.8047888762506094,
+      "top_10000": 0.8654481965027706
     },
+    "hapax_count": 37942,
+    "hapax_ratio": 0.5903531974482651,
+    "total_documents": 1100
   }
 }

models/word_markov/alt_markov_ctx1_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ed78756b17891f1d853be9b080f0dbe62a2e12d8ac311c5761369520b78a512
-size 3264406

 version https://git-lfs.github.com/spec/v1
+oid sha256:533e2e91945887ef0d84238b923f84b042558be4dc1ccffd52df6dcd02b274df
+size 3226693

models/word_markov/alt_markov_ctx1_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 1,
   "variant": "word",
   "language": "alt",
-  "unique_contexts": 64506,
-  "total_transitions": 603981
 }

   "context_size": 1,
   "variant": "word",
   "language": "alt",
+  "unique_contexts": 64260,
+  "total_transitions": 602006
 }

models/word_markov/alt_markov_ctx2_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99cc5861c45675e04db4b52347a14f4dad4cced5b1fde724f96eb05b82e2b557
-size 8258854

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f3092a02b11bc73db586c569a387f0b67b7090a254317b683cc84422219d77
+size 8206564

models/word_markov/alt_markov_ctx2_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 2,
   "variant": "word",
   "language": "alt",
-  "unique_contexts": 273261,
-  "total_transitions": 602882
 }

   "context_size": 2,
   "variant": "word",
   "language": "alt",
+  "unique_contexts": 271928,
+  "total_transitions": 600906
 }

models/word_markov/alt_markov_ctx3_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:761a9c53530fa3d9cba8ad3b211af79457306c88812173b71d35bdd3d1faedac
-size 11105253

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe3aaa68b6d9bbab96a5dabe2bb678631fbf37dccf6d6af6381ca3f3057e524f
+size 11039046

models/word_markov/alt_markov_ctx3_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 3,
   "variant": "word",
   "language": "alt",
-  "unique_contexts": 366294,
-  "total_transitions": 601783
 }

   "context_size": 3,
   "variant": "word",
   "language": "alt",
+  "unique_contexts": 364496,
+  "total_transitions": 599806
 }

models/word_markov/alt_markov_ctx4_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4483468f8c0c180566bb8295e44c88b85cd214ea65a3fca1dfdc4c1fd87d8d95
-size 13560943

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2c83cdb7a1ac1c3baa04dc828755b3a73934cce5c5cd328499fd099d3c0e46a
+size 13488455

models/word_markov/alt_markov_ctx4_word_metadata.json CHANGED Viewed

@@ -2,6 +2,6 @@
   "context_size": 4,
   "variant": "word",
   "language": "alt",
-  "unique_contexts": 402354,
-  "total_transitions": 600684
 }

   "context_size": 4,
   "variant": "word",
   "language": "alt",
+  "unique_contexts": 400428,
+  "total_transitions": 598706
 }