omarkamali commited on
Commit
7a41473
·
verified ·
1 Parent(s): 873ac1d

Upload all models and assets for ady (20251001)

Browse files
README.md CHANGED
@@ -26,7 +26,7 @@ metrics:
26
  value: 4.231
27
  - name: best_isotropy
28
  type: isotropy
29
- value: 0.4730
30
  - name: vocabulary_size
31
  type: vocab
32
  value: 0
@@ -88,29 +88,29 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
88
 
89
  Below are sample sentences tokenized with each vocabulary size:
90
 
91
- **Sample 1:** `ШъхьафитАшэ псыхъо иджабгъу нэпкъы тес Адыгэ къуадж. районым хахьэ. Хым зы пэ...`
92
 
93
  | Vocab | Tokens | Count |
94
  |-------|--------|-------|
95
- | 8k | `▁шъхьафит ▁— ▁ашэ ▁псыхъо ▁иджабгъу ▁нэпкъы ▁тес ▁адыгэ ▁къуадж . ... (+7 more)` | 17 |
96
- | 16k | `▁шъхьафит ▁— ▁ашэ ▁псыхъо ▁иджабгъу ▁нэпкъы ▁тес ▁адыгэ ▁къуадж . ... (+7 more)` | 17 |
97
- | 32k | `▁шъхьафит ▁— ▁ашэ ▁псыхъо ▁иджабгъу ▁нэпкъы ▁тес ▁адыгэ ▁къуадж . ... (+7 more)` | 17 |
98
 
99
- **Sample 2:** `thumb Америкэ - чӀынэлъэшхухэр Iут зэхэт (Къыблэ Америкэмрэ, Ишъхъэрэмрэ) Тыгъэк...`
100
 
101
  | Vocab | Tokens | Count |
102
  |-------|--------|-------|
103
- | 8k | `▁thumb ▁америкэ ▁- ▁чӏы нэлъэ шхухэр ▁i ут ▁зэхэт ( ... (+17 more)` | 27 |
104
- | 16k | `▁thumb ▁америкэ ▁- ▁чӏынэлъэшхухэрi ут ▁зэхэт ▁( къыблэ ▁америкэмрэ ... (+13 more)` | 23 |
105
- | 32k | `▁thumb ▁америкэ ▁- ▁чӏынэлъэшхухэрi ут ▁зэхэт ▁( къыблэ ▁америкэмрэ ... (+11 more)` | 21 |
106
 
107
- **Sample 3:** `thumb Мамуныр мэз псэушъхьэхэмэ а щыщ. Мамунхэр чыг дэпшэиэным лъэшэу Мамуным и ...`
108
 
109
  | Vocab | Tokens | Count |
110
  |-------|--------|-------|
111
- | 8k | `▁thumb ▁мамун ыр ▁мэз ▁псэушъхьэхэмэ ▁а ▁щыщ . ▁мамун хэр ... (+22 more)` | 32 |
112
- | 16k | `▁thumb ▁мамуныр ▁мэз ▁псэушъхьэхэмэ ▁а ▁щыщ . ▁мамунхэр ▁ч ыг ... (+14 more)` | 24 |
113
- | 32k | `▁thumb ▁мамуныр ▁мэз ▁псэушъхьэхэмэ ▁а ▁щыщ . ▁мамунхэр ▁чыг ▁дэпшэиэным ... (+10 more)` | 20 |
114
 
115
 
116
  ### Key Findings
@@ -238,27 +238,27 @@ Below are text samples generated from each word-based Markov chain model:
238
 
239
  **Context Size 1:**
240
 
241
- 1. `и 13 мэ ащыщэу адыгэр сыдигъокіи адыгэ къуаж ипшъэ итхьапӏэ иблэгъожъхэм афэгъэхьыгъэ мифхэр къызэра...`
242
- 2. `адыгэ хьатыкъуай унагъохэр тыркуем и плакат ныбэрынхьэблэ адыгэбзэ жэбзэ къабзэ ежь ныпым зызиушъомб...`
243
- 3. `м ахахьэ хэгъэгу шавкат мирзияев къэрал лӏышъхьэр кӏокӏо къызбэч кавказ заом ыпэкӏэ щыӏагъэхэмрэ якъ...`
244
 
245
  **Context Size 2:**
246
 
247
- 1. `нэбгырэ млн 10 фэдиз тешӏагъэу анатолием ахэр агъэкощыгъэх тхыгъэ зэфэшъхьафхэм мэхьанэу каноничност...`
248
- 2. `къехъу щэпсэу я 84 хэгэгум 93 030 км я 26 испаныбзэр ащ нэмыкӏэу регионыбзэхэр иӏэх дло м`
249
- 3. `картым тетэу бразилие къыблэ америкэм ыгу ит германиер аустриер словакиер руманиер украинэр сербиер ...`
250
 
251
  **Context Size 3:**
252
 
253
- 1. `м къехъу щэпсэу хэгэгум 2 149 690 км арапыбз сауд арабиер арап къэралыгъомэ ащыщмэ анахь хэгъэгу ащы...`
254
- 2. `къехъу щэпсэу хэгэгум 140 800 км непали дло м хахьэ хэгъэгу хассанал болкиах географие азием и гъунэ...`
255
- 3. `адыгэ республикэм и къэралыгъо премие илауреат дунэе адыгэ академием иакадемик къалэу шъачэ поселкэу...`
256
 
257
  **Context Size 4:**
258
 
259
- 1. `м къехъу щэпсэу хэгэгум 9 596 960 км китаибзэр дло м хахьэ хэгъэгу эмомали рахмон къэрал тхьэматэр к...`
260
- 2. `дло м хахьэ хэгъэгу джоко видодо гуадзэр юсуф калла географие океан шъэфымымрэ инд океанымрэ азфагу ...`
261
- 3. `еуропэм хэт къэралыгъу къэлэ париж нэбгырэ млн 66 м къехъу щэпсэу хэгэгум 9 984 670 км я 2 англыбзэ`
262
 
263
 
264
  ### Generated Text Samples (Subword-based)
@@ -267,27 +267,27 @@ Below are text samples generated from each subword-based Markov chain model:
267
 
268
  **Context Size 1:**
269
 
270
- 1. `_фим_хъэрикъолам`
271
- 2. `эм_илъу__бэхь_`
272
- 3. `ышъэпсым_илнине_`
273
 
274
  **Context Size 2:**
275
 
276
- 1. `гъэгъэ_асэу_ɡʲadə`
277
- 2. `ъэхьэухэм_епхъухь`
278
- 3. `э_хэгьэмрэ_щыпӏэ-`
279
 
280
  **Context Size 3:**
281
 
282
- 1. `гъэ_уахэмрэ,_къыуи`
283
- 2. `_къалэбилэжъ_зэпхъ`
284
- 3. `эм_ыгугъэкон_къаук`
285
 
286
  **Context Size 4:**
287
 
288
- 1. `ыгъэуцохэр_чэзыу-чэ`
289
- 2. `хэр_нэхъин_динхэр_з`
290
- 3. `агъэр_гъэп,_англыбз`
291
 
292
 
293
  ### Key Findings
@@ -390,14 +390,14 @@ Below are text samples generated from each subword-based Markov chain model:
390
 
391
  | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
392
  |-------|-----------|----------|------------------|---------------|----------------|
393
- | **mono_32d** | 32 | 0.4730 🏆 | 0.4239 | N/A | N/A |
394
- | **mono_64d** | 64 | 0.2201 | 0.4040 | N/A | N/A |
395
- | **mono_128d** | 128 | 0.0372 | 0.3952 | N/A | N/A |
396
 
397
  ### Key Findings
398
 
399
- - **Best Isotropy:** mono_32d with 0.4730 (more uniform distribution)
400
- - **Semantic Density:** Average pairwise similarity of 0.4077. Lower values indicate better semantic separation.
401
  - **Alignment Quality:** No aligned models evaluated in this run.
402
  - **Recommendation:** 128d aligned for best cross-lingual performance
403
 
@@ -422,21 +422,21 @@ These are the most productive prefixes and suffixes identified by sampling the v
422
  #### Productive Prefixes
423
  | Prefix | Examples |
424
  |--------|----------|
425
- | `-къ` | къыщыхъу, къуаджэхэу, къэбарым |
426
- | `-зэ` | зэман, зэдаштэгъэ, зэпэух |
427
- | `-къы` | къыщыхъу, къыщыфэфедэщтхэу, къызыхэкӏыгъэр |
428
 
429
  #### Productive Suffixes
430
  | Suffix | Examples |
431
  |--------|----------|
432
- | `-э` | ятхьэ, урысыбзэ, чылэ |
433
- | `-м` | такъырым, шапхъэхэм, къэбарым |
434
- | `-р` | латвиер, сыхьатыр, министр |
435
- | `-эр` | курдхэр, щыгъынхэр, мэхъошхэр |
436
- | `-эм` | шапхъэхэм, япэм, урымыбзэм |
437
- | `-эу` | алфавитэу, илъхэу, игъэкӏотыгъэу |
438
- | `-хэр` | курдхэр, щыгъынхэр, мэхъошхэр |
439
- | `-рэ` | къагъэлъагъуэрэ, зыгорэ, цӏэмрэ |
440
 
441
  ### 6.3 Bound Stems (Lexical Roots)
442
 
@@ -444,18 +444,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
444
 
445
  | Stem | Cohesion | Substitutability | Examples |
446
  |------|----------|------------------|----------|
447
- | `тыгъ` | 1.78x | 28 contexts | тыгъэ, итыгъ, тыгъу |
 
448
  | `ъагъ` | 2.15x | 14 contexts | пчъагъ, лъагъо, пчъагъэ |
449
- | `агъэ` | 1.54x | 41 contexts | тхагъэ, благъэ, пчагъэ |
450
- | `эпкъ` | 1.74x | 25 contexts | нэпкъ, тхэпкъ, лъэпкъ |
451
- | `къуа` | 2.16x | 10 contexts | къуае, къуажэ, къуадж |
452
- | `ъхьэ` | 1.78x | 16 contexts | шъхьэ, пшъхьэ, шъхьэм |
453
- | `дыгэ` | 1.82x | 14 contexts | адыгэ, адыгэм, иадыгэ |
454
- | `эхэр` | 1.56x | 21 contexts | бэхэр, усэхэр, ынэхэр |
455
- | `шъхь` | 1.49x | 24 contexts | шъхьэ, пшъхьэ, шъхьэм |
456
- | `псэу` | 1.57x | 19 contexts | щыпсэу, щэпсэу, сыпсэу |
457
- | `ыгъо` | 1.56x | 19 contexts | цыгъо, мыгъо, пщыгъо |
458
- | `гъэх` | 1.65x | 14 contexts | багъэх, хъугъэх, ежагъэх |
459
 
460
  ### 6.4 Affix Compatibility (Co-occurrence)
461
 
@@ -463,16 +463,16 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
463
 
464
  | Prefix | Suffix | Frequency | Examples |
465
  |--------|--------|-----------|----------|
466
- | `-къ` | `-э` | 96 words | къэлэмымкӏэ, къалэмэ |
467
- | `-къ` | `-р` | 64 words | къор, къуаджэхэр |
468
- | `-къ` | `-м` | 56 words | къалэм, къумбылым |
469
- | `-къ` | `-эр` | 52 words | къуаджэхэр, къэбархэр |
470
- | `-зэ` | `-р` | 42 words | зэготхэр, зэхэтхэр |
471
- | `-зэ` | `-м` | 41 words | зэхэзгъэуцуагъэхэм, зэӏукӏэгъум |
472
- | `-къ` | `-эм` | 36 words | къалэм, къуаджэхэм |
473
- | `-зэ` | `-эр` | 34 words | зэготхэр, зэхэтхэр |
474
- | `-къ` | `-эу` | 34 words | къыхэкӏыгъэу, къэгъэлъэгъонэу |
475
- | `-зэ` | `-э` | 31 words | зэ, зэригъэфэгъэ |
476
 
477
  ### 6.5 Recursive Morpheme Segmentation
478
 
@@ -480,21 +480,21 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
480
 
481
  | Word | Suggested Split | Confidence | Stem |
482
  |------|-----------------|------------|------|
483
- | щыпсэухэрэр | **`щыпс-эу-хэр-эр`** | 7.5 | `щыпс` |
484
- | америкэмрэ | **`америк-эм-рэ`** | 6.0 | `америк` |
485
- | океанымрэ | **`океан-ым-рэ`** | 6.0 | `океан` |
486
- | литературэмрэ | **`литератур-эм-рэ`** | 6.0 | `литератур` |
487
  | бзылъфыгъэмрэ | **`бзылъфыгъ-эм-рэ`** | 6.0 | `бзылъфыгъ` |
 
 
488
  | адыгабзэмрэ | **`адыгабз-эм-рэ`** | 6.0 | `адыгабз` |
489
- | хыплъыжьымрэ | **`хыплъыжь-ым-рэ`** | 6.0 | `хыплъыжь` |
490
- | алфавитэу | **`алфавит-эу`** | 4.5 | `алфавит` |
491
- | цӏыкӏухэр | **`цӏыкӏу-хэр`** | 4.5 | `цӏыкӏу` |
492
- | исурэтхэр | **`исурэт-хэр`** | 4.5 | `исурэт` |
493
- | шӏыпӏэхэр | **`шӏыпӏэ-хэр`** | 4.5 | `шӏыпӏэ` |
494
- | шӏэныгъэм | **`шӏэныгъ-эм`** | 4.5 | `шӏэныгъ` |
495
- | къыпыщылъ | **`къы-пыщылъ`** | 4.5 | `пыщылъ` |
496
- | пэблагъэу | **`пэблагъ-эу`** | 4.5 | `пэблагъ` |
497
- | ишъхъэрэмрэ | **`ишъхъ-эр-эм-рэ`** | 4.5 | `ишъхъ` |
 
 
498
 
499
  ### 6.6 Linguistic Interpretation
500
 
@@ -726,4 +726,4 @@ MIT License - Free for academic and commercial use.
726
  ---
727
  *Generated by Wikilangs Models Pipeline*
728
 
729
- *Report Date: 2026-01-03 05:00:02*
 
26
  value: 4.231
27
  - name: best_isotropy
28
  type: isotropy
29
+ value: 0.4850
30
  - name: vocabulary_size
31
  type: vocab
32
  value: 0
 
88
 
89
  Below are sample sentences tokenized with each vocabulary size:
90
 
91
+ **Sample 1:** `КиевУкраинэ и Нэбгырэ млн 2.9 фэдиз дэс. Къалэм и Кличко Виталий Владимир ы...`
92
 
93
  | Vocab | Tokens | Count |
94
  |-------|--------|-------|
95
+ | 8k | `▁киев ▁— ▁украинэ ▁и ▁нэбгырэ ▁млн 2 . 9 ... (+34 more)` | 44 |
96
+ | 16k | `▁киев ▁— ▁украинэ ▁и ▁нэбгырэ ▁млн 2 . 9 ... (+25 more)` | 35 |
97
+ | 32k | `▁киев ▁— ▁украинэ ▁и ▁нэбгырэ ▁млн 2 . 9 ... (+17 more)` | 27 |
98
 
99
+ **Sample 2:** `Пётровице Полшэм и Нэбгырэ 352 фэдиз Bank Danych Lokalnych. ТехьэпӀэхэр Пётров...`
100
 
101
  | Vocab | Tokens | Count |
102
  |-------|--------|-------|
103
+ | 8k | `▁пёт ров ице ▁– ▁пол шэм ▁и ▁нэбгырэ3 ... (+27 more)` | 37 |
104
+ | 16k | `▁пётровице ▁– ▁полшэм ▁и ▁нэбгырэ 3 5 2 ▁фэдиз ... (+16 more)` | 26 |
105
+ | 32k | `▁пётровице ▁– ▁полшэм ▁и ▁нэбгырэ 3 5 2 ▁фэдиз ... (+13 more)` | 23 |
106
 
107
+ **Sample 3:** `пшъэшъэ пшъашъэхэм алъыплъэу, якъэшъон, языгъэпсэфын гъунэ алъызыфэу джэгур пш...`
108
 
109
  | Vocab | Tokens | Count |
110
  |-------|--------|-------|
111
+ | 8k | `▁пшъэшъэ ▁– ▁пшъашъэ хэм ▁алъ ып лъэу , ▁я къэ ... (+17 more)` | 27 |
112
+ | 16k | `▁пшъэшъэ ▁– ▁пшъашъэ хэм ▁алъыплъэу , ▁я къэ шъо н ... (+10 more)` | 20 |
113
+ | 32k | `▁пшъэшъэ ▁– ▁пшъашъэхэм ▁алъыплъэу , ▁якъэшъон , ▁языгъэпсэфын ▁гъунэ ▁алъызыфэу ... (+3 more)` | 13 |
114
 
115
 
116
  ### Key Findings
 
238
 
239
  **Context Size 1:**
240
 
241
+ 1. `и 99 86 561 3 щагъэпсыгъ ахэр къуаджэ адыгэ алфавитэу зэхигъэуцуа гъэм ди лъэхъэнэм хухуабжэ зэкӏэпс...`
242
+ 2. `адыгэ автоном хэку британиешхо пачъыхьыгъо темыр скотландием уэлсым пэгъун��гъу къэлэ нейпьидо мьянмэ...`
243
+ 3. `м къехъу щэпсэу къэралыгъом икъэлэ хъугъэ шӏагъэхэм ащ ипшъэкӏэрэ лъэныкъо щыӏ сауд арабие бахрейн к...`
244
 
245
  **Context Size 2:**
246
 
247
+ 1. `нэбгырэ млн 13 м паплъэхэзэ пчэдыжьым сыхьатыр 11 м машинэм дахэхэр къежьэхи исполкомым а ябыракъэу ...`
248
+ 2. `къехъу щэпсэу хэгэгум 718 км китаибзэ англыбзэ малаибзэ тамилыбзэ дло м ез м и кандидат хэгъэгу фили...`
249
+ 3. `картым тетэу экуадор къыблэ америкэм ит къэралыгъу къэлэ братиславэ нэбгырэ млн 8 8 фэдиз щэпсэу хэг...`
250
 
251
  **Context Size 3:**
252
 
253
+ 1. `м къехъу щэпсэу хэгэгум 23 200 км арапыбзэ францыбзэ къэрал мохаммед ульд абдель азиз гуадзэр яхья у...`
254
+ 2. `къехъу щэпсэу хэгэгум чӏырэу иӏэр 17 820 км бзэшъхьаӏэр арапыбз дло м хахьэ хэгъэгу гувернатор петер...`
255
+ 3. `адыгэ республикэм и теуцуожь къедзыгъор къыгот краснодар краим и къэлэ нэбгырэ млн 1 3 фэдиз дэс къэ...`
256
 
257
  **Context Size 4:**
258
 
259
+ 1. `м къехъу щэпсэу хэгэгум 82 880 км арапыбз дло м хахьэ хэгъэгу лӏышъхьэр сабах я 6 аль ахьмэд аль`
260
+ 2. `дло м хахьэ хэгъэгу хамед бен исса аль халифа хэгъэгу тхьаматэр халифа бен салман аль халифа географ...`
261
+ 3. `еуропэм хэт къэралыгъу къэлэ софие нэбгырэ млн 7 м къехъу щэпсэу хэгэгум 198 500 км кыргызыбзэрэ уры...`
262
 
263
 
264
  ### Generated Text Samples (Subword-based)
 
267
 
268
  **Context Size 1:**
269
 
270
+ 1. `_хъ._зэтм_ьэлыбе`
271
+ 2. `эмыны_ар,_е,_щӏэ`
272
+ 3. `ыхьэ_хъайстоджау`
273
 
274
  **Context Size 2:**
275
 
276
+ 1. `гъ._грайономафедо`
277
+ 2. `ъэгугъэзетэм_зэра`
278
+ 3. `э_сырикэмрэ_хылъэ`
279
 
280
  **Context Size 3:**
281
 
282
+ 1. `гъэлэ_зинскэ_хы_фэ`
283
+ 2. `_къикӏым_научнэр_б`
284
+ 3. `эм_гу_рэ_исэугъэзе`
285
 
286
  **Context Size 4:**
287
 
288
+ 1. `ыгъэ_поясхэм_сурэтх`
289
+ 2. `хэр_зыдэщыӏу_ыкӏи_и`
290
+ 3. `агъэцэкӏэ_иӏэм_итіо`
291
 
292
 
293
  ### Key Findings
 
390
 
391
  | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
392
  |-------|-----------|----------|------------------|---------------|----------------|
393
+ | **mono_32d** | 32 | 0.4850 🏆 | 0.4355 | N/A | N/A |
394
+ | **mono_64d** | 64 | 0.2076 | 0.3984 | N/A | N/A |
395
+ | **mono_128d** | 128 | 0.0353 | 0.4111 | N/A | N/A |
396
 
397
  ### Key Findings
398
 
399
+ - **Best Isotropy:** mono_32d with 0.4850 (more uniform distribution)
400
+ - **Semantic Density:** Average pairwise similarity of 0.4150. Lower values indicate better semantic separation.
401
  - **Alignment Quality:** No aligned models evaluated in this run.
402
  - **Recommendation:** 128d aligned for best cross-lingual performance
403
 
 
422
  #### Productive Prefixes
423
  | Prefix | Examples |
424
  |--------|----------|
425
+ | `-къ` | къатыгъ, къуаншэмрэ, къунетрэр |
426
+ | `-зэ` | зэрэзэхагъэуцорэр, зэреджэхэрэр, зэкӏэм |
427
+ | `-къы` | къыхэуутыным, къычӏэкӏы, къырафыгъэ |
428
 
429
  #### Productive Suffixes
430
  | Suffix | Examples |
431
  |--------|----------|
432
+ | `-э` | зыхъожьыгъэ, инароднэ, шапсыгъэбзэкӏэ |
433
+ | `-р` | зэрэзэхагъэуцорэр, зэреджэхэрэр, къунетрэр |
434
+ | `-м` | къутамэхэм, къушъхьэм, ӏушъом |
435
+ | `-эр` | зэрэзэхагъэуцорэр, зэреджэхэрэр, къунетрэр |
436
+ | `-эм` | къутамэхэм, къушъхьэм, зэкӏэм |
437
+ | `-эу` | псынкіэу, тамыгъэу, доцентэу |
438
+ | `-хэр` | урымхэр, кӏэмгуехэр, зэлъаштагъэхэр |
439
+ | `-рэ` | къуаншэмрэ, швециемрэ, тыркурэ |
440
 
441
  ### 6.3 Bound Stems (Lexical Roots)
442
 
 
444
 
445
  | Stem | Cohesion | Substitutability | Examples |
446
  |------|----------|------------------|----------|
447
+ | `тыгъ` | 1.78x | 28 contexts | тыгъу, итыгъ, тыгъэ |
448
+ | `эпкъ` | 1.81x | 25 contexts | нэпкъ, нэпкъы, инэпкъ |
449
  | `ъагъ` | 2.15x | 14 contexts | пчъагъ, лъагъо, пчъагъэ |
450
+ | `агъэ` | 1.54x | 41 contexts | тхагъэ, благъэ, багъэх |
451
+ | `къуа` | 2.14x | 10 contexts | къуае, къуадж, къуажэ |
452
+ | `дыгэ` | 1.88x | 14 contexts | адыгэ, адыгэш, адыгэм |
453
+ | `ъхьэ` | 1.77x | 16 contexts | шъхьэ, пшъхьэ, шъхьэм |
454
+ | `эхэр` | 1.59x | 21 contexts | бэхэр, дзэхэр, бзэхэр |
455
+ | `шъхь` | 1.49x | 24 contexts | шъхьэ, пшъхьэ, ышъхьа |
456
+ | `ыгъо` | 1.59x | 19 contexts | мыгъо, цыгъо, пщыгъо |
457
+ | `псэу` | 1.57x | 19 contexts | нэпсэу, сыпсэу, щэпсэу |
458
+ | `эхэм` | 1.55x | 17 contexts | бзэхэм, блэхэм, цӏэхэм |
 
459
 
460
  ### 6.4 Affix Compatibility (Co-occurrence)
461
 
 
463
 
464
  | Prefix | Suffix | Frequency | Examples |
465
  |--------|--------|-----------|----------|
466
+ | `-къ` | `-э` | 96 words | къэттыгъэ, къэлэшхомэ |
467
+ | `-къ` | `-р` | 64 words | къэплъаныр, къэплъанхэр |
468
+ | `-къ` | `-м` | 56 words | къызэхуэсахэм, къытыралъхьагъэм |
469
+ | `-къ` | `-эр` | 52 words | къэплъанхэр, къэралыгъохэр |
470
+ | `-зэ` | `-р` | 42 words | зэраукӏырэр, зэпэуцужьыныгъэхэр |
471
+ | `-зэ` | `-м` | 41 words | зэрэратырэм, зэратебанэщтыгъэхэм |
472
+ | `-къ` | `-эм` | 36 words | къызэхуэсахэм, къытыралъхьагъэм |
473
+ | `-къ` | `-эу` | 34 words | къехыжьэу, къыдамылъытагъэу |
474
+ | `-зэ` | `-эр` | 34 words | зэраукӏырэр, зэпэуцужьыныгъэхэр |
475
+ | `-зэ` | `-э` | 31 words | зэхэзгъэуцуагъэ, зэхищэгъэгъэ |
476
 
477
  ### 6.5 Recursive Morpheme Segmentation
478
 
 
480
 
481
  | Word | Suggested Split | Confidence | Stem |
482
  |------|-----------------|------------|------|
 
 
 
 
483
  | бзылъфыгъэмрэ | **`бзылъфыгъ-эм-рэ`** | 6.0 | `бзылъфыгъ` |
484
+ | сарматхэмрэ | **`сармат-хэм-рэ`** | 6.0 | `сармат` |
485
+ | меотхэмрэ | **`меот-хэм-рэ`** | 6.0 | `меот` |
486
  | адыгабзэмрэ | **`адыгабз-эм-рэ`** | 6.0 | `адыгабз` |
487
+ | макъэхэмрэ | **`макъэ-хэм-рэ`** | 6.0 | `макъэ` |
488
+ | республикэмрэ | **`республик-эм-рэ`** | 6.0 | `республик` |
489
+ | зэхэлъхэм | **`зэ-хэлъ-хэм`** | 6.0 | `хэлъ` |
490
+ | арапыбзэрэ | **`арапыбзэ-рэ`** | 4.5 | `арапыбзэ` |
491
+ | ягъунэгъухэр | **`ягъунэгъу-хэр`** | 4.5 | `ягъунэгъу` |
492
+ | унагъохэр | **`унагъо-хэр`** | 4.5 | `унагъо` |
493
+ | жьыбгъэхэр | **`жьыбгъэ-хэр`** | 4.5 | `жьыбгъэ` |
494
+ | елъытыгъэу | **`елъытыгъ-эу`** | 4.5 | `елъытыгъ` |
495
+ | чӏыпӏэхэм | **`чӏыпӏэ-хэм`** | 4.5 | `чӏыпӏэ` |
496
+ | зыщыпсэухэрэр | **`зыщыпс-эу-хэр-эр`** | 4.5 | `зыщыпс` |
497
+ | журналхэм | **`журнал-хэм`** | 4.5 | `журнал` |
498
 
499
  ### 6.6 Linguistic Interpretation
500
 
 
726
  ---
727
  *Generated by Wikilangs Models Pipeline*
728
 
729
+ *Report Date: 2026-01-03 12:36:55*
models/embeddings/monolingual/ady_128d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:79239fb8f1d5516f7259d49637e01b3851134cf4dc232d72d6bbc383171bd360
3
  size 1025621365
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:15314cc76788ddb26c68cad7ccc4d1a2fa1c42bf0d8a23163020f6c1be5e011c
3
  size 1025621365
models/embeddings/monolingual/ady_32d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:35a83ab3b148734fe90d463a14bb03ac25aa53bebe1cd930e6ee275b421f2b9e
3
  size 256430197
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0a7d65d778045d5838991706962f1f2fda476d83f0eaf0d25e006a2c54b0addb
3
  size 256430197
models/embeddings/monolingual/ady_64d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f26b79bc9f27a68c68e56e0b9e83bef6a8d25662bd63c7a490adce062b153229
3
  size 512827253
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:462cda6a4c5bb17912b29e9f210bd916044788b457f8b2cd61463a18150385c6
3
  size 512827253
models/tokenizer/ady_tokenizer_16k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:aa7339e704e163ae3ef399bf56ca2b041b58ad1cead7a66d4fef2204b2af8435
3
  size 582264
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:39a0cc5483f8b60e51f162e1451531fbd79f4a7ef64ed4d9770c72634ad2f63f
3
  size 582264
models/tokenizer/ady_tokenizer_32k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dd22631bb665397f8acd6aab07c2522b6ca5fc9532f157143320bbb205558552
3
  size 924924
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:60fe921e9bf5abac9a26d2e450368741ec923239ef1bfe3380b5fecc9f1ebc5e
3
  size 924924
models/tokenizer/ady_tokenizer_8k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8a4cd8210cf36092a1e5cc2950c6a2e334677c7d204476c1e9ac6f464fda33e5
3
  size 396510
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eed6e8aa7a197f3cf93f47869aff6cc5bec5173974995af92b59a00c2be84d9a
3
  size 396510
visualizations/embedding_isotropy.png CHANGED
visualizations/embedding_norms.png CHANGED
visualizations/embedding_similarity.png CHANGED

Git LFS Details

  • SHA256: c9cf7cf290ea2cdd3ae4d69c530470ea951a4ba615d62fe79fc241192ad9656d
  • Pointer size: 131 Bytes
  • Size of remote file: 151 kB

Git LFS Details

  • SHA256: a8e184bffb45e088bfa58cba6bd46bc9cebcfe632127042327318949921b9952
  • Pointer size: 131 Bytes
  • Size of remote file: 153 kB
visualizations/performance_dashboard.png CHANGED

Git LFS Details

  • SHA256: 33f939742739416ad3e812d0073f96421c0d65f33f2d3fb44dd527c5b62220bb
  • Pointer size: 131 Bytes
  • Size of remote file: 272 kB

Git LFS Details

  • SHA256: f9eb04257678aea2450bc7722cc43ad047d832389fe2d288de4029b2b1386a66
  • Pointer size: 131 Bytes
  • Size of remote file: 271 kB
visualizations/position_encoding_comparison.png CHANGED

Git LFS Details

  • SHA256: 11dad527dbe2936442bc3d3bba8ecfdc1ca43c6f94eda358199a80465cf59eb2
  • Pointer size: 131 Bytes
  • Size of remote file: 116 kB

Git LFS Details

  • SHA256: 2a0590b29c27c945f365b67987d7d198eda5f0321b821e3a57e22c10df37270d
  • Pointer size: 131 Bytes
  • Size of remote file: 114 kB
visualizations/tsne_sentences.png CHANGED

Git LFS Details

  • SHA256: 9d93de20c8389471d3c522d6df1d60eb256895e437c68a8d361bbb7eddd8f4fc
  • Pointer size: 131 Bytes
  • Size of remote file: 282 kB

Git LFS Details

  • SHA256: eb82f9a0fe9af6508a7e893c1e425524a144b510464bcad793265638400ad568
  • Pointer size: 131 Bytes
  • Size of remote file: 283 kB
visualizations/tsne_words.png CHANGED

Git LFS Details

  • SHA256: 26418c0c941f7530217e11488c759f71a9c9ad75f1ca83931782986db5ec5296
  • Pointer size: 131 Bytes
  • Size of remote file: 602 kB

Git LFS Details

  • SHA256: d69efc0aed3103057ad846a6f578a8e7e439f1010adb824e6f3de3869cef09fc
  • Pointer size: 131 Bytes
  • Size of remote file: 618 kB