omarkamali commited on Jan 3

Commit

1517cc8

verified ·

1 Parent(s): d07523d

Upload all models and assets for anp (latest)

Browse files

Files changed (40) hide show

README.md +64 -64
models/embeddings/aligned/anp_128d.bin +1 -1
models/embeddings/aligned/anp_128d.projection.npy +1 -1
models/embeddings/aligned/anp_32d.bin +1 -1
models/embeddings/aligned/anp_32d.projection.npy +1 -1
models/embeddings/aligned/anp_64d.bin +1 -1
models/embeddings/aligned/anp_64d.projection.npy +1 -1
models/embeddings/monolingual/anp_128d.bin +1 -1
models/embeddings/monolingual/anp_32d.bin +1 -1
models/embeddings/monolingual/anp_64d.bin +1 -1
models/subword_markov/anp_markov_ctx1_subword.parquet +2 -2
models/subword_markov/anp_markov_ctx2_subword.parquet +2 -2
models/subword_markov/anp_markov_ctx3_subword.parquet +2 -2
models/subword_markov/anp_markov_ctx4_subword.parquet +2 -2
models/subword_ngram/anp_2gram_subword.parquet +2 -2
models/subword_ngram/anp_3gram_subword.parquet +2 -2
models/subword_ngram/anp_4gram_subword.parquet +2 -2
models/subword_ngram/anp_5gram_subword.parquet +2 -2
models/tokenizer/anp_tokenizer_16k.model +1 -1
models/tokenizer/anp_tokenizer_32k.model +1 -1
models/tokenizer/anp_tokenizer_8k.model +1 -1
models/word_markov/anp_markov_ctx1_word.parquet +2 -2
models/word_markov/anp_markov_ctx2_word.parquet +2 -2
models/word_markov/anp_markov_ctx3_word.parquet +2 -2
models/word_markov/anp_markov_ctx4_word.parquet +2 -2
models/word_ngram/anp_2gram_word.parquet +2 -2
models/word_ngram/anp_3gram_word.parquet +2 -2
models/word_ngram/anp_4gram_word.parquet +2 -2
models/word_ngram/anp_5gram_word.parquet +2 -2
visualizations/embedding_alignment_quality.png +0 -0
visualizations/embedding_isotropy.png +0 -0
visualizations/embedding_norms.png +0 -0
visualizations/embedding_similarity.png +2 -2
visualizations/embedding_tsne_multilingual.png +2 -2
visualizations/model_sizes.png +0 -0
visualizations/ngram_perplexity.png +0 -0
visualizations/performance_dashboard.png +2 -2
visualizations/position_encoding_comparison.png +2 -2
visualizations/tsne_sentences.png +2 -2
visualizations/tsne_words.png +2 -2

README.md CHANGED Viewed

@@ -36,7 +36,7 @@ metrics:
     value: 3.777
   - name: best_isotropy
     type: isotropy
-    value: 0.8282
   - name: vocabulary_size
     type: vocab
     value: 0
@@ -98,29 +98,29 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `ई लेख खाली रंगौ के सूची लेख केरौ सूची क अँग्रेजी़ वर्णक्रम मँ रखै लेली बनलौ छै। ...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁ई ▁लेख ▁खाली ▁रंग ौ ▁के ▁सूची ▁लेख ▁केरौ ▁सूची ... (+15 more)` | 25 |
-| 16k | `▁ई ▁लेख ▁खाली ▁रंग ौ ▁के ▁सूची ▁लेख ▁केरौ ▁सूची ... (+13 more)` | 23 |
-| 32k | `▁ई ▁लेख ▁खाली ▁रंगौ ▁के ▁सूची ▁लेख ▁केरौ ▁सूची ▁क ... (+9 more)` | 19 |
-**Sample 2:** `तत्व उ छीकै जेकरा भौतिक व रासियनिक विधि द्वारा तोड़लो नय जाबे सकै छै। तत्त्व (जै...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁तत्व ▁उ ▁छीकै ▁जेकरा ▁भौतिक ▁व ▁रा स िय निक ... (+30 more)` | 40 |
-| 16k | `▁तत्व ▁उ ▁छीकै ▁जेकरा ▁भौतिक ▁व ▁रास िय निक ▁विधि ... (+27 more)` | 37 |
-| 32k | `▁तत्व ▁उ ▁छीकै ▁जेकरा ▁भौतिक ▁व ▁रासियनिक ▁विधि ▁द्वारा ▁तोड़लो ... (+22 more)` | 32 |
-**Sample 3:** `मई ग्रेगोरी कैलंडर क 5मां महीना छेकै। इ उ सात महीना मँ सँ एक छेकै जेकरौ दिन सिनी...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁मई ▁ग्रेगोरी ▁कैलंडर ▁क ▁ 5 मां ▁महीना ▁छेकै । ... (+24 more)` | 34 |
-| 16k | `▁मई ▁ग्रेगोरी ▁कैलंडर ▁क ▁ 5 मां ▁महीना ▁छेकै । ... (+24 more)` | 34 |
-| 32k | `▁मई ▁ग्रेगोरी ▁कैलंडर ▁क ▁ 5 मां ▁महीना ▁छेकै । ... (+24 more)` | 34 |
 ### Key Findings
@@ -270,27 +270,27 @@ Below are text samples generated from each word-based Markov chain model:
 **Context Size 1:**
-1. `के सूची लेख न्यूयॉर्क 5 7 8 839 परिवार रहै के छेलै आरू सॉफ्ट लैंडिंग का`
-2. `में बर्फ़ के कुछ स्थानों पर दृष्टिपात करें पुणे शहर में आविष्कृत इक्वेटोरियम और दक्षिण जॉर्जिया`
-3. `छै जे अध्यक्ष बनान के बाल लिंग अनुपात 750 पुरुष आरु महिला छै जे संस्कृत अभिलेख`
 **Context Size 2:**
-1. `के लिए उपलब्ध हैं यह या तो एक दूसरे के बाद वू गुमला वर्तमान झारखंड मँ धर्म`
-2. `के अनुसार उचगांव गांव के कुल आबादी के 4 76 छै रघरिया गाँव के औसत लिंग अनुपात`
-3. `छै जे कुल जनसंख्या के 17 98 छै जे मुख्य भूमि के लिए विला के शिखर का`
 **Context Size 3:**
-1. `छै जेकरा म कुल 122 परिवार रहै छै जनगणना के अनुसार सरही गांव के आबादी 182 छेलै जेकरा`
-2. `जनगणना के अनुसार दिघी के बाल लिंग अनुपात 695 छै जे बिहार राज्य के औसत 918 स कम`
-3. `के रूप में लाल सेना का नेतृत्व किया और बर्मिंघम अलबामा में के कुछ अहिंसक विरोधों को आयोजित`
 **Context Size 4:**
-1. `छै जेकरा म कुल 64 परिवार रहै छै के जनगणना के अनुसार बरियारपुर के बाल लिंग अनुपात छै जे`
-2. `के औसत लिंग अनुपात 782 छै जे बिहार राज्य के औसत 918 स कम छै जनगणना के अनुसार टकटौली`
-3. `छै जनगणना के अनुसार अमलगरिया गाँव के जनसंख्या 91 छै जेकरा म स 1 939 पुरुष आरू 1 705`
 ### Generated Text Samples (Subword-based)
@@ -299,27 +299,27 @@ Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
-1. `_बादनसांख्यिकी_प्रभारत_देसदी`
-2. `रख_"_के_इति_बाल_कम्पनी`
-3. `करशान_जन_से_जुड़कर_वि`
 **Context Size 2:**
-1. `र_अपने_थे।वास्को_आड़े_और_`
-2. `_के_लिए_रहै_कित_दृष्टि)_के`
-3. `के_प्रारम्भिक_है_के_सार_चमत्का`
 **Context Size 3:**
-1. `_के_उच्च_पदार्थों_सँ_जुड़ली_गेले`
-2. `_में_तारे_गये_शिवनेरी_किये_जा`
-3. `_की_क्रियाक_सफल_करी_देलोगेल`
 **Context Size 4:**
-1. `_और_अंतरिक्ष_में_था।_इसके_म`
-2. `_है।_यह_फिल्म_अभिनेता_से_इन्हों`
-3. `_छै।_नाभिकीय_शक्ति_का_रूप_मँ_`
 ### Key Findings
@@ -424,18 +424,18 @@ Below are text samples generated from each subword-based Markov chain model:
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
-| **mono_32d** | 32 | 0.8282 🏆 | 0.3565 | N/A | N/A |
-| **mono_64d** | 64 | 0.7038 | 0.2985 | N/A | N/A |
-| **mono_128d** | 128 | 0.3364 | 0.2651 | N/A | N/A |
-| **aligned_32d** | 32 | 0.8282 | 0.3484 | 0.0140 | 0.1160 |
-| **aligned_64d** | 64 | 0.7038 | 0.2963 | 0.0320 | 0.1400 |
-| **aligned_128d** | 128 | 0.3364 | 0.2724 | 0.0320 | 0.1640 |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.8282 (more uniform distribution)
-- **Semantic Density:** Average pairwise similarity of 0.3062. Lower values indicate better semantic separation.
-- **Alignment Quality:** Aligned models achieve up to 3.2% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
@@ -461,7 +461,7 @@ These are the most productive prefixes and suffixes identified by sampling the v
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
-| `-ों` | कबीलों, राजकुमारियों, खातों |
 ### 6.3 Bound Stems (Lexical Roots)
@@ -469,9 +469,9 @@ Bound stems are high-frequency subword units that are semantically cohesive but
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
-| `tion` | 2.62x | 15 contexts | motion, action, nations |
-| `atio` | 2.64x | 12 contexts | nations, station, equation |
-| `stat` | 2.66x | 6 contexts | state, states, statea |
 ### 6.4 Affix Compatibility (Co-occurrence)
@@ -486,21 +486,21 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
 | महाविद्यालयों | **`महाविद्���ालय-ों`** | 4.5 | `महाविद्यालय` |
-| प्रबंधकों | **`प्रबंधक-ों`** | 4.5 | `प्रबंधक` |
-| चमत्कारों | **`चमत्कार-ों`** | 4.5 | `चमत्कार` |
-| विद्वानों | **`विद्वान-ों`** | 4.5 | `विद्वान` |
-| व्याख्यानों | **`व्याख्यान-ों`** | 4.5 | `व्याख्यान` |
-| कार्टूनों | **`कार्टून-ों`** | 4.5 | `कार्टून` |
-| शास्त्रों | **`शास्त्र-ों`** | 4.5 | `शास्त्र` |
-| कंप्यूटरों | **`कंप्यूटर-ों`** | 4.5 | `कंप्यूटर` |
-| संस्कारों | **`संस्कार-ों`** | 4.5 | `संस्कार` |
-| महासागरों | **`महासागर-ों`** | 4.5 | `महासागर` |
-| पाठ्यक्रमों | **`पाठ्यक्रम-ों`** | 4.5 | `पाठ्यक्रम` |
-| मुसलमानों | **`मुसलमान-ों`** | 4.5 | `मुसलमान` |
-| महाद्वारों | **`महाद्वार-ों`** | 4.5 | `महाद्वार` |
-| चालुक्यों | **`चालुक्य-ों`** | 4.5 | `चालुक्य` |
 | प्रकाशकों | **`प्रकाशक-ों`** | 4.5 | `प्रकाशक` |
 ### 6.6 Linguistic Interpretation
@@ -734,4 +734,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2026-01-03 14:14:54*

     value: 3.777
   - name: best_isotropy
     type: isotropy
+    value: 0.8298
   - name: vocabulary_size
     type: vocab
     value: 0
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `साध्य रुप स॑ आइसलैण्ड दुनिया के सबसे पुराऽनो संसदीय लोकतंत्र छीकै। एकरा म॑ अभी 6...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁सा ध्य ▁रुप ▁स॑ ▁आइसलैण्ड ▁दुनिया ▁के ▁सबसे ▁पुरा ऽ ... (+26 more)` | 36 |
+| 16k | `▁सा ध्य ▁रुप ▁स॑ ▁आइसलैण्ड ▁दुनिया ▁के ▁सबसे ▁पुरा ऽनो ... (+24 more)` | 34 |
+| 32k | `▁साध्य ▁रुप ▁स॑ ▁आइसलैण्ड ▁दुनिया ▁के ▁सबसे ▁पुराऽनो ▁संसदीय ▁लोकतंत्र ... (+22 more)` | 32 |
+**Sample 2:** `जनता दल एगो राष्ट्रीय दल छेकै। इतिहास एकरो देखौ बाहरी कड़ी संदर्भ`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁जनता ▁दल ▁एगो ▁राष्ट्रीय ▁दल ▁छेकै । ▁इतिहास ▁एकरो ▁देखौ ... (+3 more)` | 13 |
+| 16k | `▁जनता ▁दल ▁एगो ▁राष्ट्रीय ▁दल ▁छेकै । ▁इतिहास ▁एकरो ▁देखौ ... (+3 more)` | 13 |
+| 32k | `▁जनता ▁दल ▁एगो ▁राष्ट्रीय ▁दल ▁छेकै । ▁इतिहास ▁एकरो ▁देखौ ... (+3 more)` | 13 |
+**Sample 3:** `कोनो रोग सॆं मनुष्य के बचाव लेली जे विधि अपनैलॊ जाय छै, वोकरा चिकित्सा कहलॊ जाय ...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁कोनो ▁रोग ▁सॆं ▁मनुष्य ▁के ▁बच ाव ▁लेली ▁जे ▁विधि ... (+14 more)` | 24 |
+| 16k | `▁कोनो ▁रोग ▁सॆं ▁मनुष्य ▁के ▁बचाव ▁लेली ▁जे ▁विधि ▁अपन ... (+12 more)` | 22 |
+| 32k | `▁कोनो ▁रोग ▁सॆं ▁मनुष्य ▁के ▁बचाव ▁लेली ▁जे ▁विधि ▁अपनैलॊ ... (+9 more)` | 19 |
 ### Key Findings
 **Context Size 1:**
+1. `के महिमा बहुत थोड़ा या एक क्षेत्र क साबुन कारखानों में है प्रेमचंद अध्यापक फ्रांसिस प्रथम`
+2. `में छै जेकरा मॅॆ कुल 650 महिला छै देवनागरी लिपि शब्दावली लिपि केरौ अधिकार प्राप्त छै`
+3. `छै उदाहरणतः x11 रंगों के मौखिक संचार प्रतीक समूह भी पंचवटी प्रसिद्ध हुआ आज १५० से`
 **Context Size 2:**
+1. `के लिए मिस्र पर विजय प्राप्त करै छीयै जे कणोज स॑ भी अधिक अलग अलग रूप दिया`
+2. `के अनुसार पत्रांग गांव के आबादी 105 छै जे गाँव के जनसंख्या छै जेकरा म 147 पुरुष`
+3. `छै जे उत्तर प्रदेश राज्य मँ स्थित छै मानदंड के अनुसार कुंदरी सोन कुरहा हरला के कुल`
 **Context Size 3:**
+1. `छै जेकरा म 118 पुरुष आरु जबकि महिला छै तेलबाद्रो गांव म 0 6 आयु वर्ग के बच्चा`
+2. `जनगणना के अनुसार हरवाडीह के बाल लिंग अनुपात 915 छै जे उत्तर प्रदेश के मिर्ज़ापुर जिले की बेलन`
+3. `के रूप में देखा जाता है किंतु पाप के सभी परिणाम नष्ट नहीं होते उसके परिणाम दूर करने`
 **Context Size 4:**
+1. `छै जेकरा म कुल 72 पुरुष छै जबकि 80 महिला छै जैसनो कि के जनगणना म बतैलो गेलो छै`
+2. `के औसत लिंग अनुपात 835 स कम छै`
+3. `छै जनगणना के अनुसार सरोख गांव के आबादी 673 छेलै जेकरा म॑ स॑ 613 पुरुष आरू 503 महिला छै`
 ### Generated Text Samples (Subword-based)
 **Context Size 1:**
+1. `_(मेल_उत्पत्ति_सूत्रों_के_के_`
+2. `र_हैं_रानर्जी_सम्परिसबना_दो`
+3. `क_दौराजलड़कई_साथ_कुल_`
 **Context Size 2:**
+1. `र_के_इस_छै।_मुआविष्कार_दि`
+2. `_के_ठीक_यौगिक_रक्षा_आवासी_`
+3. `के_अध्ययन_में_लैटिन_का_दार्श`
 **Context Size 3:**
+1. `_के_भाई_थे_और_माना_जाता_है`
+2. `_में_5%_छै।_जनताँत्रिक_रूप_`
+3. `_की_जाती_हैं_जो_लगन_की_किता`
 **Context Size 4:**
+1. `_और_गैर-न्यायिक_सदन_की_आवृ`
+2. `_है।_व्यापक_छै_तs_आखरी_सांस`
+3. `_छै।_इतिहास_के_बाद_उसको_स`
 ### Key Findings
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.8298 🏆 | 0.3551 | N/A | N/A |
+| **mono_64d** | 64 | 0.7019 | 0.2957 | N/A | N/A |
+| **mono_128d** | 128 | 0.3519 | 0.2719 | N/A | N/A |
+| **aligned_32d** | 32 | 0.8298 | 0.3586 | 0.0160 | 0.0940 |
+| **aligned_64d** | 64 | 0.7019 | 0.2950 | 0.0180 | 0.1240 |
+| **aligned_128d** | 128 | 0.3519 | 0.2673 | 0.0300 | 0.1420 |
 ### Key Findings
+- **Best Isotropy:** mono_32d with 0.8298 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.3073. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 3.0% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
+| `-ों` | चक्रवातों, अनुक्रमों, मोहरों |
 ### 6.3 Bound Stems (Lexical Roots)
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
+| `tion` | 2.65x | 15 contexts | motion, action, edition |
+| `atio` | 2.66x | 12 contexts | nations, station, national |
+| `stat` | 2.68x | 6 contexts | state, status, statue |
 ### 6.4 Affix Compatibility (Co-occurrence)
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
+| अविष्कारों | **`अविष्कार-ों`** | 4.5 | `अविष्कार` |
+| रूपान्तरणों | **`रूपान्तरण-ों`** | 4.5 | `रूपान्तरण` |
 | महाविद्यालयों | **`महाविद्���ालय-ों`** | 4.5 | `महाविद्यालय` |
+| यूरोपियनों | **`यूरोपियन-ों`** | 4.5 | `यूरोपियन` |
 | प्रकाशकों | **`प्रकाशक-ों`** | 4.5 | `प्रकाशक` |
+| अनुक्रमों | **`अनुक्रम-ों`** | 4.5 | `अनुक्रम` |
+| सम्मेलनों | **`सम्मेलन-ों`** | 4.5 | `सम्मेलन` |
+| सुल्तानों | **`सुल्तान-ों`** | 4.5 | `सुल्तान` |
+| गणितज्ञों | **`गणितज्ञ-ों`** | 4.5 | `गणितज्ञ` |
+| पुस्तकालयों | **`पुस्तकालय-ों`** | 4.5 | `पुस्तकालय` |
+| महाकाव्यों | **`महाकाव्य-ों`** | 4.5 | `महाकाव्य` |
+| गुणसूत्रों | **`गुणसूत्र-ों`** | 4.5 | `गुणसूत्र` |
+| शास्त्रों | **`शास्त्र-ों`** | 4.5 | `शास्त्र` |
+| संग्रहालयों | **`संग्रहालय-ों`** | 4.5 | `संग्रहालय` |
+| कार्यालयों | **`कार्यालय-ों`** | 4.5 | `कार्यालय` |
 ### 6.6 Linguistic Interpretation
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-03 16:32:35*

models/embeddings/aligned/anp_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7af5575e958475f78e2345f53a960547b317d08c4f564f1e287dc68e616de125
 size 1036402426

 version https://git-lfs.github.com/spec/v1
+oid sha256:876255fe497d906428a47921a579962c1e032f45f5946901e844e7919bdfac06
 size 1036402426

models/embeddings/aligned/anp_128d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:211dd9cb35d6746640872c76eb78c86fe575a4d701ef5cf510e8d23359171c14
 size 65664

 version https://git-lfs.github.com/spec/v1
+oid sha256:a70ab46701d9206f9b8a719c9c664b879a041079240d00a9e962048f37dc4186
 size 65664

models/embeddings/aligned/anp_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62587f7000693b582c9132fe07d435b228ee6af1d47b7935f4e2b18424ab4eea
 size 259328506

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c524ba6016b57f0e02ddf42b2eae20e6804fdfa771bcbc9f2b1ccebd5119e57
 size 259328506

models/embeddings/aligned/anp_32d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:648c377b1a1a5d1b4666b6ec914da4647deef248b9e4cdfb29f1dc4a4348720b
 size 4224

 version https://git-lfs.github.com/spec/v1
+oid sha256:012c0bfb01d3fd691249c16503dcbf4b0bd28739718ac0f3683b8881e0b9ee3d
 size 4224

models/embeddings/aligned/anp_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d070ab7b4e6d51df3ef5192423b2444c290dcd9623fdc52ba2c66ba353a51a22
 size 518353146

 version https://git-lfs.github.com/spec/v1
+oid sha256:0979ed932bb2ac48c53d041f0eb9021a264be14bbea5992e545f4d979173efb6
 size 518353146

models/embeddings/aligned/anp_64d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1502bda2f265ab094144f926c666d9545ee36a2e459b061c3e55b39d59ca2b6
 size 16512

 version https://git-lfs.github.com/spec/v1
+oid sha256:80c8a841c44c0578d82a02d9f700e03dd48117d5cd8af75b4f8dbf8cf3fb09b4
 size 16512

models/embeddings/monolingual/anp_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7af5575e958475f78e2345f53a960547b317d08c4f564f1e287dc68e616de125
 size 1036402426

 version https://git-lfs.github.com/spec/v1
+oid sha256:876255fe497d906428a47921a579962c1e032f45f5946901e844e7919bdfac06
 size 1036402426

models/embeddings/monolingual/anp_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62587f7000693b582c9132fe07d435b228ee6af1d47b7935f4e2b18424ab4eea
 size 259328506

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c524ba6016b57f0e02ddf42b2eae20e6804fdfa771bcbc9f2b1ccebd5119e57
 size 259328506

models/embeddings/monolingual/anp_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d070ab7b4e6d51df3ef5192423b2444c290dcd9623fdc52ba2c66ba353a51a22
 size 518353146

 version https://git-lfs.github.com/spec/v1
+oid sha256:0979ed932bb2ac48c53d041f0eb9021a264be14bbea5992e545f4d979173efb6
 size 518353146

models/subword_markov/anp_markov_ctx1_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f8c7d4097372261966c6bc97fb52eb94ecf05aba1b20a249f9d296e00c88066
-size 365191

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c9fb4c52e0e87e967f3f7d9dc773f6d5db95feedec9abcc43358cbdb9239cab
+size 371363

models/subword_markov/anp_markov_ctx2_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:181129c2fea7a83e1ee86d4443f411e555f84964df22997884ef74fa0443b196
-size 1648766

 version https://git-lfs.github.com/spec/v1
+oid sha256:d13edcb4f30fd5294da845295ac9232ceaf59bb9496d2e4c341ea4840e577c0a
+size 1640712

models/subword_markov/anp_markov_ctx3_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca8503e1796de5b1b63f4db40515f49a5fd0388d3ee34a09bdfe79795c374ca0
-size 4906034

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cddffef0719b682192bbf58fd6e27a7d002473ce11dbfd201c44fc6102cd421
+size 4887791

models/subword_markov/anp_markov_ctx4_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e36d66386ed99fb8158cd97838a5534c8d7168ccbbec8a30652e2563e832def1
-size 11056053

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b703a3dd5c8ca51530d4e2593c9ca8d93ede38e4956d2428176c5bd2af93c85
+size 11032755

models/subword_ngram/anp_2gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2d4934c85df0e19da88307fe4c1b2c6bd7f7d7584e4e152fff2c1d790e4b622
-size 267872

 version https://git-lfs.github.com/spec/v1
+oid sha256:32e6f72363f4a1ea1193f915ea32a93f20b722060c5203991a7010560918bbbb
+size 268051

models/subword_ngram/anp_3gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ee608f9e770b8aaa0c3f06ad058eb1e57096805145b07b1f13bdd793e481aa4
-size 1068374

 version https://git-lfs.github.com/spec/v1
+oid sha256:df0d7fa9cc4b96ba843e3c5d94d0c2eaa3d3c5c03fc8d7ddbdace8b7d98c73b9
+size 1065691

models/subword_ngram/anp_4gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bae4cc49c8bd13ed2637bd3e31e241df8714d11482506bf0c1ab0ef70d2bf29
-size 3164693

 version https://git-lfs.github.com/spec/v1
+oid sha256:7af5a1ce3113561abca60cff8c8b58f8f2737fd0c0ac5d015610b269cb368800
+size 3167187

models/subword_ngram/anp_5gram_subword.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0c567ba5d3c542b3799178199f32bd1bd08014f13b6b375808a83d18a7d741b
-size 4356539

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff6f7948d501fa7ee5efdb1256f5675a3b99076844c1a5c4c065207facec2980
+size 4368124

models/tokenizer/anp_tokenizer_16k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4c3741b80f17d1eae30558373a32b1e6916523b0ee40e8d07c0d64d3e8f1080
 size 618098

 version https://git-lfs.github.com/spec/v1
+oid sha256:774cf4a58a99a822ce3c7b4af7d57a3be4b47122c38947133619943fc1403cc0
 size 618098

models/tokenizer/anp_tokenizer_32k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:811d7d1db33e325f5e70f07d4c826bf83fbc30ebff039b047a22c1b821fb235f
 size 1035857

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6a6cbe586daf6b47f8bfad999334955395c69728ea6d64a4e58902776176b36
 size 1035857

models/tokenizer/anp_tokenizer_8k.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99896dd2de3109457e12c0c017a5ab599dab704efee42adbf365433c86e2b6e2
 size 425391

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6c09e774f002b4bde4e5c27518cc493ae377ee62a8bcce5c0473a204c053ada
 size 425391

models/word_markov/anp_markov_ctx1_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74c751e08e10f23f5bf6fb2e82f4cd372794298d19dc29e73d0ad818a2cdb098
-size 3049321

 version https://git-lfs.github.com/spec/v1
+oid sha256:54ed2e2bcfee33ce09d9df878d48f229122588ee4ece68768d30e9a1a5831518
+size 3037808

models/word_markov/anp_markov_ctx2_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2f465a758b1a2d405c79c4ab4f4895682189bc3945752cf5cdfa7a1df55522f
-size 8916451

 version https://git-lfs.github.com/spec/v1
+oid sha256:df821ce38dfaecb93e34dd5c5dccd31a58bce0f027dcb573375dda1df58e0d12
+size 8870407

models/word_markov/anp_markov_ctx3_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37b7a565352c35ad4e7733cf1439619b49cd1bcf9a3246a903b5df21368a82f1
-size 13044546

 version https://git-lfs.github.com/spec/v1
+oid sha256:b79a6e8ae2e05ac46c852acd75949a109458e3dc426638c730e39155dda243af
+size 13019964

models/word_markov/anp_markov_ctx4_word.parquet CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:326be2290bb2d1f7367a23d653fa112c273469ee2a5d5a275fce180d531b212a
-size 15578492