omarkamali commited on
Commit
1517cc8
·
verified ·
1 Parent(s): d07523d

Upload all models and assets for anp (latest)

Browse files
Files changed (40) hide show
  1. README.md +64 -64
  2. models/embeddings/aligned/anp_128d.bin +1 -1
  3. models/embeddings/aligned/anp_128d.projection.npy +1 -1
  4. models/embeddings/aligned/anp_32d.bin +1 -1
  5. models/embeddings/aligned/anp_32d.projection.npy +1 -1
  6. models/embeddings/aligned/anp_64d.bin +1 -1
  7. models/embeddings/aligned/anp_64d.projection.npy +1 -1
  8. models/embeddings/monolingual/anp_128d.bin +1 -1
  9. models/embeddings/monolingual/anp_32d.bin +1 -1
  10. models/embeddings/monolingual/anp_64d.bin +1 -1
  11. models/subword_markov/anp_markov_ctx1_subword.parquet +2 -2
  12. models/subword_markov/anp_markov_ctx2_subword.parquet +2 -2
  13. models/subword_markov/anp_markov_ctx3_subword.parquet +2 -2
  14. models/subword_markov/anp_markov_ctx4_subword.parquet +2 -2
  15. models/subword_ngram/anp_2gram_subword.parquet +2 -2
  16. models/subword_ngram/anp_3gram_subword.parquet +2 -2
  17. models/subword_ngram/anp_4gram_subword.parquet +2 -2
  18. models/subword_ngram/anp_5gram_subword.parquet +2 -2
  19. models/tokenizer/anp_tokenizer_16k.model +1 -1
  20. models/tokenizer/anp_tokenizer_32k.model +1 -1
  21. models/tokenizer/anp_tokenizer_8k.model +1 -1
  22. models/word_markov/anp_markov_ctx1_word.parquet +2 -2
  23. models/word_markov/anp_markov_ctx2_word.parquet +2 -2
  24. models/word_markov/anp_markov_ctx3_word.parquet +2 -2
  25. models/word_markov/anp_markov_ctx4_word.parquet +2 -2
  26. models/word_ngram/anp_2gram_word.parquet +2 -2
  27. models/word_ngram/anp_3gram_word.parquet +2 -2
  28. models/word_ngram/anp_4gram_word.parquet +2 -2
  29. models/word_ngram/anp_5gram_word.parquet +2 -2
  30. visualizations/embedding_alignment_quality.png +0 -0
  31. visualizations/embedding_isotropy.png +0 -0
  32. visualizations/embedding_norms.png +0 -0
  33. visualizations/embedding_similarity.png +2 -2
  34. visualizations/embedding_tsne_multilingual.png +2 -2
  35. visualizations/model_sizes.png +0 -0
  36. visualizations/ngram_perplexity.png +0 -0
  37. visualizations/performance_dashboard.png +2 -2
  38. visualizations/position_encoding_comparison.png +2 -2
  39. visualizations/tsne_sentences.png +2 -2
  40. visualizations/tsne_words.png +2 -2
README.md CHANGED
@@ -36,7 +36,7 @@ metrics:
36
  value: 3.777
37
  - name: best_isotropy
38
  type: isotropy
39
- value: 0.8282
40
  - name: vocabulary_size
41
  type: vocab
42
  value: 0
@@ -98,29 +98,29 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
98
 
99
  Below are sample sentences tokenized with each vocabulary size:
100
 
101
- **Sample 1:** `ई लेख खाली रंगौ के सूची लेख केरौ सूची अँग्रेजी़ वर्णक्रम मँ रखै लेली बनलौ छै। ...`
102
 
103
  | Vocab | Tokens | Count |
104
  |-------|--------|-------|
105
- | 8k | `▁ई ▁लेख ▁खाली ▁रंग ▁के ▁सूची ▁लेख ▁केरौ ▁सूची ... (+15 more)` | 25 |
106
- | 16k | `▁ई ▁लेख ▁खाली ▁रंग ▁के ▁सूची ▁लेख ▁केरौ ▁सूची ... (+13 more)` | 23 |
107
- | 32k | `▁ई ▁लेख ▁खाली ▁रंगौ ▁के ▁सूची ▁लेख ▁केरौ ▁सूची ▁क ... (+9 more)` | 19 |
108
 
109
- **Sample 2:** `तत्व छीकै जेकरा भौतिक रासियनिक विधि द्वारा तोड़लो नय जाबे सकै छै। तत्त्व (जै...`
110
 
111
  | Vocab | Tokens | Count |
112
  |-------|--------|-------|
113
- | 8k | `▁तत्व ▁उ ▁छीकै ▁जेकरा ▁भौतिक ▁व ▁रा िय निक ... (+30 more)` | 40 |
114
- | 16k | `▁तत्व ▁उ ▁छीकै ▁जेकरा ▁भौतिक ▁व ▁रास िय निक ▁विधि ... (+27 more)` | 37 |
115
- | 32k | `▁तत्व ▁उ ▁छीकै ▁जेकरा ▁भौतिक ▁व ▁रासियनिक ▁विधि ▁द्वारा ▁तोड़लो ... (+22 more)` | 32 |
116
 
117
- **Sample 3:** `मई ग्रेगोरी कैलंडर 5मां महीना छेकै। सात महीना मँ सँ एक छेकै जेकरौ दिन सिनी...`
118
 
119
  | Vocab | Tokens | Count |
120
  |-------|--------|-------|
121
- | 8k | `▁मई ▁ग्रेगोरी ▁कैलंडर ▁क 5 मां ▁महीना ▁छेकै ... (+24 more)` | 34 |
122
- | 16k | `▁मई ▁ग्रेगोरी ▁कैलंडर ▁क 5 मां ▁महीना ▁छेकै ... (+24 more)` | 34 |
123
- | 32k | `▁मई ▁ग्रेगोरी ▁कैलंडर ▁क 5 मां ▁महीना ▁छेकै ... (+24 more)` | 34 |
124
 
125
 
126
  ### Key Findings
@@ -270,27 +270,27 @@ Below are text samples generated from each word-based Markov chain model:
270
 
271
  **Context Size 1:**
272
 
273
- 1. `के सूची लेख न्यूयॉर्क 5 7 8 839 परिवार रहै के छेलै आरू सॉफ्ट लैंडिंग का`
274
- 2. `में बर्फ़ के कुछ स्थानों पर दृष्टिपात करें पुणे शहर में आविष्कृत इक्वेटोरियम और दक्षिण जॉर्जिया`
275
- 3. `छै जे अध्यक्ष बनान के बाल लिंग अनुपात 750 पुरुष आरु महिला छै जे संस्कृत अभिलेख`
276
 
277
  **Context Size 2:**
278
 
279
- 1. `के लिए उपलब्ध हैं यह या तो एक दूसरे के बाद वू गुमला वर्तमान झारखंड मँ धर्म`
280
- 2. `के अनुसार उचगांव गांव के कुल आबादी के 4 76 छै रघरिया गाँव के औसत लिंग अनुपात`
281
- 3. `छै जे कुल जनसंख्या के 17 98 छै जे मुख्य भूमि के लिए विला के शिखर का`
282
 
283
  **Context Size 3:**
284
 
285
- 1. `छै जेकरा म कुल 122 परिवार रहै छै जनगणना के अनुसार सरही गांव के आबादी 182 छेलै जेकरा`
286
- 2. `जनगणना के अनुसार दिघी के बाल लिंग अनुपात 695 छै जे बिहार राज्य के औसत 918 कम`
287
- 3. `के रूप में लाल सेना का नेतृत्व किया और बर्मिंघम अलबामा में के कुछ अहिंसक विरोधों को आयोजित`
288
 
289
  **Context Size 4:**
290
 
291
- 1. `छै जेकरा म कुल 64 परिवार रहै छै के जनगणना के अनुसार बरियारपुर के बाल लिंग अनुपात छै जे`
292
- 2. `के औसत लिंग अनुपात 782 छै जे बिहार राज्य के औसत 918 स कम छै जनगणना के अनुसार टकटौली`
293
- 3. `छै जनगणना के अनुसार अमलगरिया गाँव के जनसंख्या 91 छै जेकरा 1 939 पुरुष आरू 1 705`
294
 
295
 
296
  ### Generated Text Samples (Subword-based)
@@ -299,27 +299,27 @@ Below are text samples generated from each subword-based Markov chain model:
299
 
300
  **Context Size 1:**
301
 
302
- 1. `_बादनसांख्यिकी_प्रभारत_देसदी`
303
- 2. `रख_"_के_इति_बाल_कम्पनी`
304
- 3. `करशान_जन_से_जुड़कर_वि`
305
 
306
  **Context Size 2:**
307
 
308
- 1. `र_अपने_थे।वास्को_आड़े_और_`
309
- 2. `_के_लिए_रहै_कित_दृष्टि)_के`
310
- 3. `के_प्रारम्भिक_है_के_सार_चमत्का`
311
 
312
  **Context Size 3:**
313
 
314
- 1. `_के_उच्च_पदार्थों_सँ_जुड़ली_गेले`
315
- 2. `_में_तारे_गये_शिवनेरी_किये_जा`
316
- 3. `_की_क्रियाक_सफल_करी_देलोगेल`
317
 
318
  **Context Size 4:**
319
 
320
- 1. `_और_अंतरिक्ष_में_था।_इसके_म`
321
- 2. `_है।_यह_फिल्म_अभिनेता_से_इन्हों`
322
- 3. `_छै।_नाभिकीय_शक्ति_का_रूप_मँ_`
323
 
324
 
325
  ### Key Findings
@@ -424,18 +424,18 @@ Below are text samples generated from each subword-based Markov chain model:
424
 
425
  | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
426
  |-------|-----------|----------|------------------|---------------|----------------|
427
- | **mono_32d** | 32 | 0.8282 🏆 | 0.3565 | N/A | N/A |
428
- | **mono_64d** | 64 | 0.7038 | 0.2985 | N/A | N/A |
429
- | **mono_128d** | 128 | 0.3364 | 0.2651 | N/A | N/A |
430
- | **aligned_32d** | 32 | 0.8282 | 0.3484 | 0.0140 | 0.1160 |
431
- | **aligned_64d** | 64 | 0.7038 | 0.2963 | 0.0320 | 0.1400 |
432
- | **aligned_128d** | 128 | 0.3364 | 0.2724 | 0.0320 | 0.1640 |
433
 
434
  ### Key Findings
435
 
436
- - **Best Isotropy:** mono_32d with 0.8282 (more uniform distribution)
437
- - **Semantic Density:** Average pairwise similarity of 0.3062. Lower values indicate better semantic separation.
438
- - **Alignment Quality:** Aligned models achieve up to 3.2% R@1 in cross-lingual retrieval.
439
  - **Recommendation:** 128d aligned for best cross-lingual performance
440
 
441
  ---
@@ -461,7 +461,7 @@ These are the most productive prefixes and suffixes identified by sampling the v
461
  #### Productive Suffixes
462
  | Suffix | Examples |
463
  |--------|----------|
464
- | `-ों` | कबीलों, राजकुमारियों, खातों |
465
 
466
  ### 6.3 Bound Stems (Lexical Roots)
467
 
@@ -469,9 +469,9 @@ Bound stems are high-frequency subword units that are semantically cohesive but
469
 
470
  | Stem | Cohesion | Substitutability | Examples |
471
  |------|----------|------------------|----------|
472
- | `tion` | 2.62x | 15 contexts | motion, action, nations |
473
- | `atio` | 2.64x | 12 contexts | nations, station, equation |
474
- | `stat` | 2.66x | 6 contexts | state, states, statea |
475
 
476
  ### 6.4 Affix Compatibility (Co-occurrence)
477
 
@@ -486,21 +486,21 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
486
 
487
  | Word | Suggested Split | Confidence | Stem |
488
  |------|-----------------|------------|------|
 
 
489
  | महाविद्यालयों | **`महाविद्���ालय-ों`** | 4.5 | `महाविद्यालय` |
490
- | प्रबंधकों | **`प्रबंधक-ों`** | 4.5 | `प्रबंधक` |
491
- | चमत्कारों | **`चमत्कार-ों`** | 4.5 | `चमत्कार` |
492
- | विद्वानों | **`विद्वान-ों`** | 4.5 | `विद्वान` |
493
- | व्याख्यानों | **`व्याख्यान-ों`** | 4.5 | `व्याख्यान` |
494
- | कार्टूनों | **`कार्टून-ों`** | 4.5 | `कार्टून` |
495
- | शास्त्रों | **`शास्त्र-ों`** | 4.5 | `शास्त्र` |
496
- | कंप्यूटरों | **`कंप्यूटर-ों`** | 4.5 | `कंप्यूटर` |
497
- | संस्कारों | **`संस्कार-ों`** | 4.5 | `संस्कार` |
498
- | महासागरों | **`महासागर-ों`** | 4.5 | `महासागर` |
499
- | पाठ्यक्रमों | **`पाठ्यक्रम-ों`** | 4.5 | `पाठ्यक्रम` |
500
- | मुसलमानों | **`मुसलमान-ों`** | 4.5 | `मुसलमान` |
501
- | महाद्वारों | **`महाद्वार-ों`** | 4.5 | `महाद्वार` |
502
- | चालुक्यों | **`चालुक्य-ों`** | 4.5 | `चालुक्य` |
503
  | प्रकाशकों | **`प्रकाशक-ों`** | 4.5 | `प्रकाशक` |
 
 
 
 
 
 
 
 
 
 
504
 
505
  ### 6.6 Linguistic Interpretation
506
 
@@ -734,4 +734,4 @@ MIT License - Free for academic and commercial use.
734
  ---
735
  *Generated by Wikilangs Models Pipeline*
736
 
737
- *Report Date: 2026-01-03 14:14:54*
 
36
  value: 3.777
37
  - name: best_isotropy
38
  type: isotropy
39
+ value: 0.8298
40
  - name: vocabulary_size
41
  type: vocab
42
  value: 0
 
98
 
99
  Below are sample sentences tokenized with each vocabulary size:
100
 
101
+ **Sample 1:** `साध्य रुप स॑ आइसलैण्ड दुनिया के सबसे पुराऽनो संसदीय लोकतंत्र छीकै। एकरा म॑ अभी 6...`
102
 
103
  | Vocab | Tokens | Count |
104
  |-------|--------|-------|
105
+ | 8k | `▁सा ध्य ▁रुप ▁स॑ ▁आइसलैण्ड ▁दुनिया ▁के ▁सबसे ▁पुरा ... (+26 more)` | 36 |
106
+ | 16k | `▁सा ध्य ▁रुप ▁स॑ ▁आइसलैण्ड ▁दुनिया ▁के ▁सबसे ▁पुरा ऽनो ... (+24 more)` | 34 |
107
+ | 32k | `▁साध्य ▁रुप ▁स॑ ▁आइसलैण्ड ▁दुनिया ▁के ▁सबसे ▁पुराऽनो ▁संसदीय ▁लोकतंत्र ... (+22 more)` | 32 |
108
 
109
+ **Sample 2:** `जनता दल एगो राष्ट्रीय दल छेकै। इतिहास एकरो देखौ बाहरी कड़ी संदर्भ`
110
 
111
  | Vocab | Tokens | Count |
112
  |-------|--------|-------|
113
+ | 8k | `▁जनता ▁दल ▁एगो ▁राष्ट्रीय ▁दल ▁छेकै ▁इतिहास ▁एकरो ▁देखौ ... (+3 more)` | 13 |
114
+ | 16k | `▁जनता ▁दल ▁एगो ▁राष्ट्रीय ▁दल ▁छेकै ▁इतिहास ▁एकरो ▁देखौ ... (+3 more)` | 13 |
115
+ | 32k | `▁जनता ▁दल ▁एगो ▁राष्ट्रीय ▁दल ▁छेकै ▁इतिहास ▁एकरो ▁देखौ ... (+3 more)` | 13 |
116
 
117
+ **Sample 3:** `कोनो रोग सॆं मनुष्य के बचाव लेली जे विधि अपनैलॊ जाय छै, वोकरा चिकित्सा कहलॊ जाय ...`
118
 
119
  | Vocab | Tokens | Count |
120
  |-------|--------|-------|
121
+ | 8k | `▁कोनो ▁रोग ▁सॆं ▁मनुष्य ▁के ▁बच ाव ▁लेली ▁जे ▁विधि ... (+14 more)` | 24 |
122
+ | 16k | `▁कोनो ▁रोग ▁सॆं ▁मनुष्य ▁के ▁बचाव ▁लेली ▁जे ▁विधि ▁अपन ... (+12 more)` | 22 |
123
+ | 32k | `▁कोनो ▁रोग ▁सॆं ▁मनुष्य ▁के ▁बचाव ▁लेली ▁जे ▁विधि ▁अपनैलॊ ... (+9 more)` | 19 |
124
 
125
 
126
  ### Key Findings
 
270
 
271
  **Context Size 1:**
272
 
273
+ 1. `के महिमा बहुत थोड़ा या एक क्षेत्र साबुन कारखानों में है प्रेमचंद अध्यापक फ्रांसिस प्रथम`
274
+ 2. `में छै जेकरा मॅॆ कुल 650 महिला छै देवनागरी लिपि शब्दावली लिपि केरौ अधिकार प्राप्त छै`
275
+ 3. `छै उदाहरणतः x11 रंगों के मौखिक संचार प्रतीक समूह भी पंचवटी प्रसिद्ध हुआ आज १५० से`
276
 
277
  **Context Size 2:**
278
 
279
+ 1. `के लिए मिस्र पर विजय प्राप्त करै छीयै जे कणोज स॑ भी अधिक अलग अलग रूप दिया`
280
+ 2. `के अनुसार पत्रांग गांव के आबादी 105 छै जे गाँव के जनसंख्या छै जेकरा म 147 पुरुष`
281
+ 3. `छै जे उत्तर प्रदेश राज्य मँ स्थित छै मानदंड के अनुसार कुंदरी सोन कुरहा हरला के कुल`
282
 
283
  **Context Size 3:**
284
 
285
+ 1. `छै जेकरा म 118 पुरुष आरु जबकि महिला छै तेलबाद्रो गांव 0 6 आयु वर्ग के बच्चा`
286
+ 2. `जनगणना के अनुसार हरवाडीह के बाल लिंग अनुपात 915 छै जे उत्तर प्रदेश के मिर्ज़ापुर जिले की बेलन`
287
+ 3. `के रूप में देखा जाता है किंतु पाप के सभी परिणाम नष्ट नहीं होते उसके परिणाम दूर करने`
288
 
289
  **Context Size 4:**
290
 
291
+ 1. `छै जेकरा म कुल 72 पुरुष छै जबकि 80 महिला छै जैसनो कि के जनगणना बतैलो गेलो छै`
292
+ 2. `के औसत लिंग अनुपात 835 स कम छै`
293
+ 3. `छै जनगणना के अनुसार सरोख गांव के आबादी 673 छेलै जेकरा म॑ स॑ 613 पुरुष आरू 503 महिला छै`
294
 
295
 
296
  ### Generated Text Samples (Subword-based)
 
299
 
300
  **Context Size 1:**
301
 
302
+ 1. `_(मेल_उत्पत्ति_सूत्रों_के_के_`
303
+ 2. `र_हैं_रानर्जी_सम्परिसबना_दो`
304
+ 3. `क_दौराजलड़कई_साथ_कुल_`
305
 
306
  **Context Size 2:**
307
 
308
+ 1. `र_के_इस_छै।_मुआविष्कार_दि`
309
+ 2. `_के_ठीक_यौगिक_रक्षा_आवासी_`
310
+ 3. `के_अध्ययन_में_लैटिन_का_दार्श`
311
 
312
  **Context Size 3:**
313
 
314
+ 1. `_के_भाई_थे_और_माना_जाता_है`
315
+ 2. `_में_5%_छै।_जनताँत्रिक_रूप_`
316
+ 3. `_की_जाती_हैं_जो_लगन_की_किता`
317
 
318
  **Context Size 4:**
319
 
320
+ 1. `_और_गैर-न्यायिक_सदन_की_आवृ`
321
+ 2. `_है।_व्यापक_छै_तs_आखरी_सांस`
322
+ 3. `_छै।_इतिहास_के_बाद_उसको_स`
323
 
324
 
325
  ### Key Findings
 
424
 
425
  | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
426
  |-------|-----------|----------|------------------|---------------|----------------|
427
+ | **mono_32d** | 32 | 0.8298 🏆 | 0.3551 | N/A | N/A |
428
+ | **mono_64d** | 64 | 0.7019 | 0.2957 | N/A | N/A |
429
+ | **mono_128d** | 128 | 0.3519 | 0.2719 | N/A | N/A |
430
+ | **aligned_32d** | 32 | 0.8298 | 0.3586 | 0.0160 | 0.0940 |
431
+ | **aligned_64d** | 64 | 0.7019 | 0.2950 | 0.0180 | 0.1240 |
432
+ | **aligned_128d** | 128 | 0.3519 | 0.2673 | 0.0300 | 0.1420 |
433
 
434
  ### Key Findings
435
 
436
+ - **Best Isotropy:** mono_32d with 0.8298 (more uniform distribution)
437
+ - **Semantic Density:** Average pairwise similarity of 0.3073. Lower values indicate better semantic separation.
438
+ - **Alignment Quality:** Aligned models achieve up to 3.0% R@1 in cross-lingual retrieval.
439
  - **Recommendation:** 128d aligned for best cross-lingual performance
440
 
441
  ---
 
461
  #### Productive Suffixes
462
  | Suffix | Examples |
463
  |--------|----------|
464
+ | `-ों` | चक्रवातों, अनुक्रमों, मोहरों |
465
 
466
  ### 6.3 Bound Stems (Lexical Roots)
467
 
 
469
 
470
  | Stem | Cohesion | Substitutability | Examples |
471
  |------|----------|------------------|----------|
472
+ | `tion` | 2.65x | 15 contexts | motion, action, edition |
473
+ | `atio` | 2.66x | 12 contexts | nations, station, national |
474
+ | `stat` | 2.68x | 6 contexts | state, status, statue |
475
 
476
  ### 6.4 Affix Compatibility (Co-occurrence)
477
 
 
486
 
487
  | Word | Suggested Split | Confidence | Stem |
488
  |------|-----------------|------------|------|
489
+ | अविष्कारों | **`अविष्कार-ों`** | 4.5 | `अविष्कार` |
490
+ | रूपान्तरणों | **`रूपान्तरण-ों`** | 4.5 | `रूपान्तरण` |
491
  | महाविद्यालयों | **`महाविद्���ालय-ों`** | 4.5 | `महाविद्यालय` |
492
+ | यूरोपियनों | **`यूरोपियन-ों`** | 4.5 | `यूरोपियन` |
 
 
 
 
 
 
 
 
 
 
 
 
493
  | प्रकाशकों | **`प्रकाशक-ों`** | 4.5 | `प्रकाशक` |
494
+ | अनुक्रमों | **`अनुक्रम-ों`** | 4.5 | `अनुक्रम` |
495
+ | सम्मेलनों | **`सम्मेलन-ों`** | 4.5 | `सम्मेलन` |
496
+ | सुल्तानों | **`सुल्तान-ों`** | 4.5 | `सुल्तान` |
497
+ | गणितज्ञों | **`गणितज्ञ-ों`** | 4.5 | `गणितज्ञ` |
498
+ | पुस्तकालयों | **`पुस्तकालय-ों`** | 4.5 | `पुस्तकालय` |
499
+ | महाकाव्यों | **`महाकाव्य-ों`** | 4.5 | `महाकाव्य` |
500
+ | गुणसूत्रों | **`गुणसूत्र-ों`** | 4.5 | `गुणसूत्र` |
501
+ | शास्त्रों | **`शास्त्र-ों`** | 4.5 | `शास्त्र` |
502
+ | संग्रहालयों | **`संग्रहालय-ों`** | 4.5 | `संग्रहालय` |
503
+ | कार्यालयों | **`कार्यालय-ों`** | 4.5 | `कार्यालय` |
504
 
505
  ### 6.6 Linguistic Interpretation
506
 
 
734
  ---
735
  *Generated by Wikilangs Models Pipeline*
736
 
737
+ *Report Date: 2026-01-03 16:32:35*
models/embeddings/aligned/anp_128d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7af5575e958475f78e2345f53a960547b317d08c4f564f1e287dc68e616de125
3
  size 1036402426
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:876255fe497d906428a47921a579962c1e032f45f5946901e844e7919bdfac06
3
  size 1036402426
models/embeddings/aligned/anp_128d.projection.npy CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:211dd9cb35d6746640872c76eb78c86fe575a4d701ef5cf510e8d23359171c14
3
  size 65664
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a70ab46701d9206f9b8a719c9c664b879a041079240d00a9e962048f37dc4186
3
  size 65664
models/embeddings/aligned/anp_32d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:62587f7000693b582c9132fe07d435b228ee6af1d47b7935f4e2b18424ab4eea
3
  size 259328506
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c524ba6016b57f0e02ddf42b2eae20e6804fdfa771bcbc9f2b1ccebd5119e57
3
  size 259328506
models/embeddings/aligned/anp_32d.projection.npy CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:648c377b1a1a5d1b4666b6ec914da4647deef248b9e4cdfb29f1dc4a4348720b
3
  size 4224
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:012c0bfb01d3fd691249c16503dcbf4b0bd28739718ac0f3683b8881e0b9ee3d
3
  size 4224
models/embeddings/aligned/anp_64d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d070ab7b4e6d51df3ef5192423b2444c290dcd9623fdc52ba2c66ba353a51a22
3
  size 518353146
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0979ed932bb2ac48c53d041f0eb9021a264be14bbea5992e545f4d979173efb6
3
  size 518353146
models/embeddings/aligned/anp_64d.projection.npy CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f1502bda2f265ab094144f926c666d9545ee36a2e459b061c3e55b39d59ca2b6
3
  size 16512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:80c8a841c44c0578d82a02d9f700e03dd48117d5cd8af75b4f8dbf8cf3fb09b4
3
  size 16512
models/embeddings/monolingual/anp_128d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7af5575e958475f78e2345f53a960547b317d08c4f564f1e287dc68e616de125
3
  size 1036402426
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:876255fe497d906428a47921a579962c1e032f45f5946901e844e7919bdfac06
3
  size 1036402426
models/embeddings/monolingual/anp_32d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:62587f7000693b582c9132fe07d435b228ee6af1d47b7935f4e2b18424ab4eea
3
  size 259328506
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c524ba6016b57f0e02ddf42b2eae20e6804fdfa771bcbc9f2b1ccebd5119e57
3
  size 259328506
models/embeddings/monolingual/anp_64d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d070ab7b4e6d51df3ef5192423b2444c290dcd9623fdc52ba2c66ba353a51a22
3
  size 518353146
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0979ed932bb2ac48c53d041f0eb9021a264be14bbea5992e545f4d979173efb6
3
  size 518353146
models/subword_markov/anp_markov_ctx1_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0f8c7d4097372261966c6bc97fb52eb94ecf05aba1b20a249f9d296e00c88066
3
- size 365191
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c9fb4c52e0e87e967f3f7d9dc773f6d5db95feedec9abcc43358cbdb9239cab
3
+ size 371363
models/subword_markov/anp_markov_ctx2_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:181129c2fea7a83e1ee86d4443f411e555f84964df22997884ef74fa0443b196
3
- size 1648766
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d13edcb4f30fd5294da845295ac9232ceaf59bb9496d2e4c341ea4840e577c0a
3
+ size 1640712
models/subword_markov/anp_markov_ctx3_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ca8503e1796de5b1b63f4db40515f49a5fd0388d3ee34a09bdfe79795c374ca0
3
- size 4906034
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8cddffef0719b682192bbf58fd6e27a7d002473ce11dbfd201c44fc6102cd421
3
+ size 4887791
models/subword_markov/anp_markov_ctx4_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e36d66386ed99fb8158cd97838a5534c8d7168ccbbec8a30652e2563e832def1
3
- size 11056053
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9b703a3dd5c8ca51530d4e2593c9ca8d93ede38e4956d2428176c5bd2af93c85
3
+ size 11032755
models/subword_ngram/anp_2gram_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f2d4934c85df0e19da88307fe4c1b2c6bd7f7d7584e4e152fff2c1d790e4b622
3
- size 267872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32e6f72363f4a1ea1193f915ea32a93f20b722060c5203991a7010560918bbbb
3
+ size 268051
models/subword_ngram/anp_3gram_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1ee608f9e770b8aaa0c3f06ad058eb1e57096805145b07b1f13bdd793e481aa4
3
- size 1068374
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:df0d7fa9cc4b96ba843e3c5d94d0c2eaa3d3c5c03fc8d7ddbdace8b7d98c73b9
3
+ size 1065691
models/subword_ngram/anp_4gram_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3bae4cc49c8bd13ed2637bd3e31e241df8714d11482506bf0c1ab0ef70d2bf29
3
- size 3164693
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7af5a1ce3113561abca60cff8c8b58f8f2737fd0c0ac5d015610b269cb368800
3
+ size 3167187
models/subword_ngram/anp_5gram_subword.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a0c567ba5d3c542b3799178199f32bd1bd08014f13b6b375808a83d18a7d741b
3
- size 4356539
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ff6f7948d501fa7ee5efdb1256f5675a3b99076844c1a5c4c065207facec2980
3
+ size 4368124
models/tokenizer/anp_tokenizer_16k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b4c3741b80f17d1eae30558373a32b1e6916523b0ee40e8d07c0d64d3e8f1080
3
  size 618098
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:774cf4a58a99a822ce3c7b4af7d57a3be4b47122c38947133619943fc1403cc0
3
  size 618098
models/tokenizer/anp_tokenizer_32k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:811d7d1db33e325f5e70f07d4c826bf83fbc30ebff039b047a22c1b821fb235f
3
  size 1035857
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a6a6cbe586daf6b47f8bfad999334955395c69728ea6d64a4e58902776176b36
3
  size 1035857
models/tokenizer/anp_tokenizer_8k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:99896dd2de3109457e12c0c017a5ab599dab704efee42adbf365433c86e2b6e2
3
  size 425391
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a6c09e774f002b4bde4e5c27518cc493ae377ee62a8bcce5c0473a204c053ada
3
  size 425391
models/word_markov/anp_markov_ctx1_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:74c751e08e10f23f5bf6fb2e82f4cd372794298d19dc29e73d0ad818a2cdb098
3
- size 3049321
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:54ed2e2bcfee33ce09d9df878d48f229122588ee4ece68768d30e9a1a5831518
3
+ size 3037808
models/word_markov/anp_markov_ctx2_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c2f465a758b1a2d405c79c4ab4f4895682189bc3945752cf5cdfa7a1df55522f
3
- size 8916451
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:df821ce38dfaecb93e34dd5c5dccd31a58bce0f027dcb573375dda1df58e0d12
3
+ size 8870407
models/word_markov/anp_markov_ctx3_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:37b7a565352c35ad4e7733cf1439619b49cd1bcf9a3246a903b5df21368a82f1
3
- size 13044546
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b79a6e8ae2e05ac46c852acd75949a109458e3dc426638c730e39155dda243af
3
+ size 13019964
models/word_markov/anp_markov_ctx4_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:326be2290bb2d1f7367a23d653fa112c273469ee2a5d5a275fce180d531b212a
3
- size 15578492
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:26c9945b42073ab90074ee6c2f828aa30a8f5da23be39234422ddccd8d150c65
3
+ size 15594517
models/word_ngram/anp_2gram_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:934e562d22bf5f34b12e12e6db009afbac76b7b1b21bdf014ce4375642759dff
3
- size 314502
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f55b02c0e85fea588ab9f833cab08654a573346d3c15d52bb7a6a9d9516c1db3
3
+ size 314568
models/word_ngram/anp_3gram_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:55a6fd0e7368a9bdf36d28fa80779e395ff7fc8f5b5d08716feae7b1cf53956d
3
- size 351197
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a2c51e0ccd5cc11bcd63ab0935cb7fc37fa5f20aa9004e325d029757492ab9d8
3
+ size 351861
models/word_ngram/anp_4gram_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:57f29700fc980a14dacae44adb8165b919d60379d195f2146c8b3227baf86e7d
3
- size 712865
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:85bcc06f5b322511920a2c409ef0efa4bacfb89aa0b15ede1e38e0b77763b3a1
3
+ size 711216
models/word_ngram/anp_5gram_word.parquet CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6753302283de34dc52497ee1e385a17273c30ab6866f331e72a0db16047fb973
3
- size 565395
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:667c91b499f3ded7261257ead532e3eeb3e4471a990cd98bfca470732d0bfd3b
3
+ size 564652
visualizations/embedding_alignment_quality.png CHANGED
visualizations/embedding_isotropy.png CHANGED
visualizations/embedding_norms.png CHANGED
visualizations/embedding_similarity.png CHANGED

Git LFS Details

  • SHA256: 7f89ed1c7293570f23b6754880d7b49b6b613ed3d0addbd8a129695f62a5e040
  • Pointer size: 131 Bytes
  • Size of remote file: 138 kB

Git LFS Details

  • SHA256: d10b55d5231a1ed4addb0d95758818407d65f91b31b7e6dc3b1bafcc7597a59f
  • Pointer size: 131 Bytes
  • Size of remote file: 140 kB
visualizations/embedding_tsne_multilingual.png CHANGED

Git LFS Details

  • SHA256: 55af221de0a0d399c89175ab1e67c61e1d3a5718aea38d24b900dc5fdc777873
  • Pointer size: 131 Bytes
  • Size of remote file: 236 kB

Git LFS Details

  • SHA256: f13a4cee4655f3919bcb6e6015c295038282fa62b2c5dd3f588e1d696b4d5d83
  • Pointer size: 131 Bytes
  • Size of remote file: 246 kB
visualizations/model_sizes.png CHANGED
visualizations/ngram_perplexity.png CHANGED
visualizations/performance_dashboard.png CHANGED

Git LFS Details

  • SHA256: aae6f47add1ff7599bfead8bcca39469f501cbd7d29d57faa5dc79317d400b4d
  • Pointer size: 131 Bytes
  • Size of remote file: 400 kB

Git LFS Details

  • SHA256: d30e32ea3729c6a595cca692d41fd38620599fcd40e04812db073ee28a534609
  • Pointer size: 131 Bytes
  • Size of remote file: 401 kB
visualizations/position_encoding_comparison.png CHANGED

Git LFS Details

  • SHA256: e13ada489c7fae4f1b631a053cf543bab135c8efb633a8c598e0e4b833f01e8e
  • Pointer size: 131 Bytes
  • Size of remote file: 110 kB

Git LFS Details

  • SHA256: 01f2ccc3a1d1e7826d01934f40010565c328dcdac90a3a8f542c2b8952fd516a
  • Pointer size: 131 Bytes
  • Size of remote file: 114 kB
visualizations/tsne_sentences.png CHANGED

Git LFS Details

  • SHA256: 29e608cc8357169c1ce222697aa24afad34bea5e9dd7c9faf7d24c43e8dc81f2
  • Pointer size: 131 Bytes
  • Size of remote file: 237 kB

Git LFS Details

  • SHA256: cbdcb161cbcd00ebda2a29d6b973c9330d302cd9b170892802bb3c52dd60a616
  • Pointer size: 131 Bytes
  • Size of remote file: 246 kB
visualizations/tsne_words.png CHANGED

Git LFS Details

  • SHA256: c619b16f3b94aa4f530e8b00e23026c3aa0934193d308c0ad0dd2fcd74e4ec1c
  • Pointer size: 131 Bytes
  • Size of remote file: 690 kB

Git LFS Details

  • SHA256: f22b947070e8eb4edcea8ea295ea2735c3b7a8e3de2f625fbd1fc18dbf6e6290
  • Pointer size: 131 Bytes
  • Size of remote file: 687 kB