omarkamali commited on
Commit
19be4d0
·
verified ·
1 Parent(s): c7cbde2

Upload all models and assets for ary (20251201)

Browse files
Files changed (1) hide show
  1. README.md +41 -77
README.md CHANGED
@@ -45,48 +45,15 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
45
 
46
  ```
47
  models/
48
- ├── tokenizer/
49
- │ └── 8k.model
50
- │ └── 16k.model
51
- │ └── 32k.model
52
- │ └── 64k.model
53
- ├── word_ngram/
54
- │ └── 2gram.pkl
55
- │ └── 3gram.pkl
56
- │ └── 4gram.pkl
57
- └── subword_ngram/
58
- └── 2gram.pkl
59
- └── 3gram.pkl
60
- └── 4gram.pkl
61
- ├── word_markov/
62
- │ └── context_1.pkl
63
- │ └── context_2.pkl
64
- │ └── context_3.pkl
65
- │ └── context_4.pkl
66
- └── subword_markov/
67
- └── context_1.pkl
68
- └── context_2.pkl
69
- └── context_3.pkl
70
- └── context_4.pkl
71
- ├── vocabulary/
72
- │ ├── vocab.txt
73
- │ └── frequencies.json
74
- └── embeddings/
75
- └── embeddings_enhanced.bin
76
- └── mono_128d.bin
77
- └── mono_32d.bin
78
- └── mono_64d.bin
79
  ```
80
 
81
- ### Documentation & Visualizations
82
-
83
- - **README.md** - This comprehensive report
84
- - **visualizations/** - 24+ evaluation figures and charts
85
- - Tokenizer compression, fertility, OOV rates
86
- - N-gram perplexity, entropy, coverage
87
- - Markov chain analysis and text generation samples
88
- - Vocabulary statistics and Zipf's law analysis
89
- - Embedding isotropy, similarity, and t-SNE visualizations
90
  ![Performance Dashboard](visualizations/performance_dashboard.png)
91
 
92
  ### Quick Links
@@ -118,44 +85,41 @@ models/
118
 
119
  Below are sample sentences tokenized with each vocabulary size:
120
 
121
- **Sample 1:** `باراج سيدي محمد بن عبد الله هو باراج ف لمغريب ف الرباط تيصب فيه واد بورݣراݣ.
122
-
123
- ش...`
124
 
125
  | Vocab | Tokens | Count |
126
  |-------|--------|-------|
127
- | 8k | `▁بار اج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁بار اج ... (+26 more)` | 36 |
128
- | 16k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+22 more)` | 32 |
129
- | 32k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+20 more)` | 30 |
130
- | 64k | `▁باراج ▁سيدي ▁محمد ▁بن ▁عبد ▁الله ▁هو ▁باراج ▁ف ▁لمغريب ... (+19 more)` | 29 |
131
 
132
- **Sample 2:** `أسيل عمران (مزيودة ف 1989) هي مغنية و ممتلة سعودية كتعيش ف لإمارات.
133
 
134
  مصادر
135
 
136
- تص...`
 
137
 
138
  | Vocab | Tokens | Count |
139
  |-------|--------|-------|
140
- | 8k | `▁أس يل ▁عمر ان ▁( مزيودة ▁ف 1 9 ... (+36 more)` | 46 |
141
- | 16k | `▁أس يل ▁عمر ان ▁( مزيودة ▁ف ▁ 1 9 ... (+32 more)` | 42 |
142
- | 32k | `▁أس يل ▁عمران ▁( مزيودة ▁ف ▁ 1 9 8 ... (+28 more)` | 38 |
143
- | 64k | `▁أس يل ▁عمران ▁( مزيودة ▁ف ▁ 1 9 8 ... (+28 more)` | 38 |
144
-
145
- **Sample 3:** `لجدوال ديال الترتيب
146
-
147
- شوف حتى
148
 
149
- بوطولا 1
150
- بوطولا 2
151
- لهيكلة لهرمية د لبوطولات د...`
152
 
153
  | Vocab | Tokens | Count |
154
  |-------|--------|-------|
155
- | 8k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
156
- | 16k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
157
- | 32k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
158
- | 64k | `▁لجدوال ▁ديال ▁الترتيب ▁شوف ▁حتى ▁بوطولا 1 ▁بوطولا ... (+15 more)` | 25 |
159
 
160
 
161
  ### Key Findings
@@ -249,27 +213,27 @@ Below are text samples generated from each Markov chain model:
249
 
250
  **Context Size 1:**
251
 
252
- 1. `. مصادر تصنيف : lux 1908 ف ضومينات معينين ، نسبة د لأمية واصلة ل 1`
253
- 2. `، مادام لغالبية د د فصل اللخرين فيرمات لببور د لعمر عند لعيالات ) . هو`
254
- 3. `ف لإيرا لعامة ؤ 2755 ف أميريكا أنتاركتيكا : سلطان ، واللي هوما لأمنيوطات ولاو كا`
255
 
256
  **Context Size 2:**
257
 
258
- 1. `تصنيف : مقالات زادهوم داريجابوت تصنيف : شخصيات عندها كتر من لمناضير ط ّ بيعية ( natural`
259
- 2. `، و ݣال بلي الدرية ديالو ، حتا عاود رجع ف ماتش واحد حتى ل21 يوم من`
260
- 3. `ن ّ اس اللي خدامين ف د ّ وار كينتامي ل مشيخة أيت تونرت لي كتضم 12`
261
 
262
  **Context Size 3:**
263
 
264
- 1. `مصادر تصنيف : شركة متعددة الجنسيات تصنيف : إيلون ماسك`
265
- 2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : ناس د بركان تصنيف : بلايص مسكونين ف`
266
- 3. `ن ّ اس اللي خدامين ف لپريڤي ( ولا لبيطاليين اللي سبق ليهوم خدمو ) : 0 %`
267
 
268
  **Context Size 4:**
269
 
270
- 1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم لحوز تصنيف : مقالات`
271
- 2. `نسبة ن ّ اس ن ّ شيطين ( ل ّ ي يقدرو يخدمو ) : 47 , 7 %`
272
- 3. `. مصادر تصنيف : زيادة 1921 تصنيف : وفيات 1951 تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف`
273
 
274
 
275
  ### Key Findings
@@ -599,4 +563,4 @@ MIT License - Free for academic and commercial use.
599
  ---
600
  *Generated by Wikilangs Models Pipeline*
601
 
602
- *Report Date: 2025-12-27 04:11:56*
 
45
 
46
  ```
47
  models/
48
+ - Tokenizers (8k, 16k, 32k, 64k)
49
+ - N-gram models (2, 3, 4-gram)
50
+ - Markov chains (context of 1, 2, 3 and 4)
51
+ - Subword N-gram and Markov chains
52
+ - Embeddings in various sizes and dimensions
53
+ - Language Vocabulary
54
+ - Language Statistics
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55
  ```
56
 
 
 
 
 
 
 
 
 
 
57
  ![Performance Dashboard](visualizations/performance_dashboard.png)
58
 
59
  ### Quick Links
 
85
 
86
  Below are sample sentences tokenized with each vocabulary size:
87
 
88
+ **Sample 1:** `لوغة تماجق كاتعني إمّا:
89
+ لوغة تاولامت
90
+ لوغة تايرت`
91
 
92
  | Vocab | Tokens | Count |
93
  |-------|--------|-------|
94
+ | 8k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
95
+ | 16k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
96
+ | 32k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+5 more)` | 15 |
97
+ | 64k | `▁لوغة ▁تماجق ▁كاتعني ▁إمّا : ▁لوغة ▁تاول امت ▁لوغة ▁تايرت` | 10 |
98
 
99
+ **Sample 2:** `تلاتين (رّمز ف نّماري لغبارية 30) نمرة ؤ عاداد جا مورا 29 ؤ قبل 31.
100
 
101
  مصادر
102
 
103
+
104
+ ت...`
105
 
106
  | Vocab | Tokens | Count |
107
  |-------|--------|-------|
108
+ | 8k | `▁تلات ين ▁( ر ّم ز ▁ف ▁نّ ماري ▁لغ ... (+30 more)` | 40 |
109
+ | 16k | `▁تلات ين ▁( رّمز ▁ف ▁نّماري ▁لغبارية 3 0 ... (+23 more)` | 33 |
110
+ | 32k | `▁تلاتين ▁( رّمز ▁ف ▁نّماري ▁لغبارية 3 0 ) ... (+22 more)` | 32 |
111
+ | 64k | `▁تلاتين ▁( رّمز ▁ف ▁نّماري ▁لغبارية 3 0 ) ... (+22 more)` | 32 |
 
 
 
 
112
 
113
+ **Sample 3:** `هادي صفحة د التوضيح، كلمة خان يمكن يكونو عندها هاد لمعاني:
114
+ جينكيز خان
115
+ شاه روخ ...`
116
 
117
  | Vocab | Tokens | Count |
118
  |-------|--------|-------|
119
+ | 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خ ان ▁يمكن ▁يكونو ... (+19 more)` | 29 |
120
+ | 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+16 more)` | 26 |
121
+ | 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+14 more)` | 24 |
122
+ | 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+12 more)` | 22 |
123
 
124
 
125
  ### Key Findings
 
213
 
214
  **Context Size 1:**
215
 
216
+ 1. `. " ) هي واحد ( ليسي و لإتحاد الرياضي الفاسي كرمتها منظمة لكاس ( ن`
217
+ 2. `، فين لمتماكنين ( لفلامانية ) : لمعمار ، 30 د لكتابة ؤ ݣاري كاسپاروڤ وغلب`
218
+ 3. `ف 29 . الشكال ف 2017 : دوار ف لوسط د الناس النشيطين ف 1994 تصنيف`
219
 
220
  **Context Size 2:**
221
 
222
+ 1. `تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات فيها مصدر و علاين 3000 بايت تصنيف :`
223
+ 2. `، و كتعتمد ف بزاف ديال العولاما الآخرين . خمس قصايد سومرية قديمة على حساب لبلاد تصنيف`
224
+ 3. `ن ّ اس ن ّ شيطين ( ل ّ ي ف اللخر د عصر ت ّ قويم`
225
 
226
  **Context Size 3:**
227
 
228
+ 1. `مصادر تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات فيها مصدر و`
229
+ 2. `تصنيف : مقالات زادهوم داريجابوت تصنيف : لقرن 18 ذكر سفير لمغريبي الزياني ف لمذكرات ديالو فاش كان`
230
+ 3. `ن ّ اس اللي خدامين ف لپريڤي : 35 % مصادر تصنيف : جهة طنجة تطوان الحسيمة ،`
231
 
232
  **Context Size 4:**
233
 
234
+ 1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف`
235
+ 2. `نسبة ن ّ اس اللي خدامين ف د ّ ولة : 5 , 1 % نسبة ن ّ اس`
236
+ 3. `. مصادر تصنيف : عوام د تقويم لميلادي تصنيف : مقالات زادهوم داريجابوت تصنيف : سيسطيم تاع سميات الضومي...`
237
 
238
 
239
  ### Key Findings
 
563
  ---
564
  *Generated by Wikilangs Models Pipeline*
565
 
566
+ *Report Date: 2025-12-27 04:21:06*