HugoLaurencon commited on
Commit
09be6e1
·
1 Parent(s): 2c00f52

Upated files + more languages

Browse files
app.py CHANGED
@@ -787,7 +787,7 @@ class Visualization_for_lang:
787
  st.markdown(
788
  f"Language identification confidence score: {lang_id_score}"
789
  )
790
- if is_doc_discarded(key, flagged_words_ratio) or (
791
  self.lang_dataset_id != lang_pred_dataset_id
792
  ):
793
  is_discarded = True
@@ -909,7 +909,7 @@ param_visu_langs = {
909
  "path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
910
  "path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
911
  }
912
- for lang_dataset_id in ["en", "pt"]
913
  }
914
 
915
  visualization = Visualization(path_instructions, param_visu_langs)
 
787
  st.markdown(
788
  f"Language identification confidence score: {lang_id_score}"
789
  )
790
+ if is_doc_discarded(key, lang_id_score) or (
791
  self.lang_dataset_id != lang_pred_dataset_id
792
  ):
793
  is_discarded = True
 
909
  "path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
910
  "path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
911
  }
912
+ for lang_dataset_id in ["ar", "bn", "en", "hi", "pt", "ur", "vi"]
913
  }
914
 
915
  visualization = Visualization(path_instructions, param_visu_langs)
ar.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5ad5fe3355e9775d0045ac38ee24ef585b373c99350bc612e5bda9cbdd701fe
3
+ size 2824717990
ar.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:281e3d75365a1801a8fe5def0b89dd0e5bb73ac0a2451be8bc5a55495760e115
3
+ size 1070890
ar_examples_with_stats.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:24ca349877e08bbbc65b6025aa90339bec0b10b9e89641a1a9ad70397a1d542f
3
+ size 193786592
bn.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d2148db7af960f9468adc5c0b2c39f75d969b816014098c45de93517ac1c555
3
+ size 612069451
bn.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4e90d25ca0c465b9c8da8c93b6591be30dbb8c123b24d52177c2027f81a264d
3
+ size 1366364
bn_examples_with_stats.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:faa6a1ee54edfd440f8fd32930de81636c3a4a12243f2e18ee972f18b394e1ac
3
+ size 202010217
flagged_words.py CHANGED
@@ -141,6 +141,47 @@ flagged_words = {
141
  "نكاح",
142
  "نيك",
143
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
144
  "ca": english_flagged_words
145
  + [
146
  "cagarro",
@@ -985,6 +1026,46 @@ flagged_words = {
985
  "x రేట్",
986
  "xxx",
987
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
988
  "vi": english_flagged_words
989
  + [
990
  "cặc",
 
141
  "نكاح",
142
  "نيك",
143
  ],
144
+ "bn": english_flagged_words
145
+ + [
146
+ "আঙ্গুলি করা",
147
+ "আচোদা",
148
+ "খানকি",
149
+ "খানকি মাগি",
150
+ "গান্ড মারানো",
151
+ "গুদ মারানি",
152
+ "চুচুক",
153
+ "চোদ",
154
+ "চোদনা",
155
+ "চোদা",
156
+ "চোদা বোন",
157
+ "চোদাচুদি",
158
+ "জারজ",
159
+ "নাঙ্গ",
160
+ "নেংটা",
161
+ "পর্ণহাব",
162
+ "পর্ন",
163
+ "পর্নস্টার",
164
+ "পর্নোগ্রাফি",
165
+ "পোঁদ",
166
+ "পোঁদ মারানি",
167
+ "পোদ মারানি",
168
+ "বাঁড়া",
169
+ "বানচোদ",
170
+ "বেশ্যা",
171
+ "বেশ্যার ছেলে",
172
+ "বোকাচোদা",
173
+ "ভগ",
174
+ "মা চোদা",
175
+ "মাগী",
176
+ "মাদারচোদ",
177
+ "মুখে নিবি",
178
+ "মোরগ",
179
+ "রেন্ডি",
180
+ "শিশ্ন",
181
+ "স্তন",
182
+ "স্তনবৃন্ত",
183
+ "হস্তমৈথুন",
184
+ ],
185
  "ca": english_flagged_words
186
  + [
187
  "cagarro",
 
1026
  "x రేట్",
1027
  "xxx",
1028
  ],
1029
+ "ur": english_flagged_words
1030
+ + [
1031
+ "انگلی کرنا",
1032
+ "ایکس ریٹیڈ",
1033
+ "بلو جاب",
1034
+ "بٹ",
1035
+ "جھٹکا بند",
1036
+ "دلڈو",
1037
+ "رنڈی",
1038
+ "سلٹ",
1039
+ "سکلیرا",
1040
+ "سیڈسٹ",
1041
+ "سیکس بم",
1042
+ "شہوانی",
1043
+ "شہوت انگیز",
1044
+ "فحش نگاری",
1045
+ "لن",
1046
+ "لنڈ",
1047
+ "لنڈ چوسنے والا",
1048
+ "لوڑہ",
1049
+ "ماں کمینے",
1050
+ "مشت زنی",
1051
+ "ممے",
1052
+ "مٹھ",
1053
+ "مٹھی",
1054
+ "ویشیا",
1055
+ "پورن",
1056
+ "پھدی",
1057
+ "پیگنگ",
1058
+ "چدائ",
1059
+ "چدک",
1060
+ "چوت",
1061
+ "چودنا",
1062
+ "چوچی",
1063
+ "کسبی",
1064
+ "کسنگ",
1065
+ "گانڈ",
1066
+ "گدا",
1067
+ "ہینڈ جاب",
1068
+ ],
1069
  "vi": english_flagged_words
1070
  + [
1071
  "cặc",
hi.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f76e9238ccab63fc175ed40786888c0078cc7bb1de9519536a89473a60a17f8d
3
+ size 547247715
hi.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bd2408405c7884b129600c427c5ccb919a8f5a5597437e4127ee20b85a70ab4f
3
+ size 1256555
hi_examples_with_stats.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:635666d75bfcb305c2b3c46e38f4e16c0749072f47f89388506057c1a0e0cfcf
3
+ size 202843494
languages_id.py CHANGED
@@ -32,7 +32,7 @@ langs_id = [
32
  {
33
  "lang": "Assamese",
34
  "dataset_id": "as",
35
- "stopwords_id": None,
36
  "flagged_words_id": None,
37
  "fasttext_id": "as",
38
  "sentencepiece_id": "as",
@@ -42,7 +42,7 @@ langs_id = [
42
  "lang": "Bengali",
43
  "dataset_id": "bn",
44
  "stopwords_id": "bn",
45
- "flagged_words_id": None,
46
  "fasttext_id": "bn",
47
  "sentencepiece_id": "bn",
48
  "kenlm_id": "bn",
@@ -95,7 +95,7 @@ langs_id = [
95
  {
96
  "lang": "Gujarati",
97
  "dataset_id": "gu",
98
- "stopwords_id": None,
99
  "flagged_words_id": None,
100
  "fasttext_id": "gu",
101
  "sentencepiece_id": "gu",
@@ -186,7 +186,7 @@ langs_id = [
186
  "lang": "Urdu",
187
  "dataset_id": "ur",
188
  "stopwords_id": "ur",
189
- "flagged_words_id": None,
190
  "fasttext_id": "ur",
191
  "sentencepiece_id": "ur",
192
  "kenlm_id": "ur",
 
32
  {
33
  "lang": "Assamese",
34
  "dataset_id": "as",
35
+ "stopwords_id": "as",
36
  "flagged_words_id": None,
37
  "fasttext_id": "as",
38
  "sentencepiece_id": "as",
 
42
  "lang": "Bengali",
43
  "dataset_id": "bn",
44
  "stopwords_id": "bn",
45
+ "flagged_words_id": "bn",
46
  "fasttext_id": "bn",
47
  "sentencepiece_id": "bn",
48
  "kenlm_id": "bn",
 
95
  {
96
  "lang": "Gujarati",
97
  "dataset_id": "gu",
98
+ "stopwords_id": "gu",
99
  "flagged_words_id": None,
100
  "fasttext_id": "gu",
101
  "sentencepiece_id": "gu",
 
186
  "lang": "Urdu",
187
  "dataset_id": "ur",
188
  "stopwords_id": "ur",
189
+ "flagged_words_id": "ur",
190
  "fasttext_id": "ur",
191
  "sentencepiece_id": "ur",
192
  "kenlm_id": "ur",
parameters_filtering.py CHANGED
@@ -223,35 +223,35 @@ parameters_filtering_bn = {
223
  parameters_filtering_ca = {
224
  "cond_uniform_whitespace": True,
225
  "cond_replace_unicode_punctuation": False,
226
- "cond_remove_words_with_incorrect_substrings": False,
227
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
228
  "cond_remove_long_words": True,
229
- "length_word_max_cutoff": 30,
230
  "cond_check_number_words": True,
231
  "tokenization": False,
232
  "strip_characters": special_characters_default,
233
- "number_words_min_cutoff": 1,
234
  "number_words_max_cutoff": 100000,
235
  "cond_check_character_repetition_removal": True,
236
  "character_repetition_length": 10,
237
- "character_repetition_max_cutoff": 0.106,
238
  "cond_check_word_repetition_removal": True,
239
  "word_repetition_length": 5,
240
- "word_repetition_max_cutoff": 0.19,
241
  "cond_check_special_characters": True,
242
  "special_characters": special_characters_default,
243
- "special_characters_max_cutoff": 0.35,
244
  "cond_words_augmentation": False,
245
  "words_augmentation_group_sizes": [],
246
  "words_augmentation_join_char": "",
247
  "cond_check_stopwords": True,
248
- "stopwords_min_cutoff": 0,
249
  "cond_check_flagged_words": False,
250
- "flagged_words_max_cutoff": 0.2,
251
  "cond_check_lang_id": True,
252
- "lang_id_min_cutoff": 0.75,
253
  "cond_check_perplexity": True,
254
- "perplexity_max_cutoff": 1750000,
255
  }
256
 
257
  parameters_filtering_en = {
@@ -285,7 +285,7 @@ parameters_filtering_en = {
285
  "cond_check_lang_id": True,
286
  "lang_id_min_cutoff": 0.80,
287
  "cond_check_perplexity": True,
288
- "perplexity_max_cutoff": 2500,
289
  }
290
 
291
  parameters_filtering_es = {
@@ -359,35 +359,35 @@ parameters_filtering_eu = {
359
  parameters_filtering_fr = {
360
  "cond_uniform_whitespace": True,
361
  "cond_replace_unicode_punctuation": False,
362
- "cond_remove_words_with_incorrect_substrings": False,
363
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
364
  "cond_remove_long_words": True,
365
- "length_word_max_cutoff": 30,
366
  "cond_check_number_words": True,
367
  "tokenization": False,
368
  "strip_characters": special_characters_default,
369
- "number_words_min_cutoff": 1,
370
  "number_words_max_cutoff": 100000,
371
  "cond_check_character_repetition_removal": True,
372
  "character_repetition_length": 10,
373
- "character_repetition_max_cutoff": 0.106,
374
  "cond_check_word_repetition_removal": True,
375
  "word_repetition_length": 5,
376
- "word_repetition_max_cutoff": 0.19,
377
  "cond_check_special_characters": True,
378
  "special_characters": special_characters_default,
379
- "special_characters_max_cutoff": 0.35,
380
  "cond_words_augmentation": False,
381
  "words_augmentation_group_sizes": [],
382
  "words_augmentation_join_char": "",
383
  "cond_check_stopwords": True,
384
- "stopwords_min_cutoff": 0.15,
385
  "cond_check_flagged_words": False,
386
- "flagged_words_max_cutoff": 0.2,
387
  "cond_check_lang_id": True,
388
- "lang_id_min_cutoff": 0.75,
389
  "cond_check_perplexity": True,
390
- "perplexity_max_cutoff": 3000000,
391
  }
392
 
393
  parameters_filtering_gu = {
@@ -597,35 +597,35 @@ parameters_filtering_mr = {
597
  parameters_filtering_pt = {
598
  "cond_uniform_whitespace": True,
599
  "cond_replace_unicode_punctuation": False,
600
- "cond_remove_words_with_incorrect_substrings": False,
601
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
602
  "cond_remove_long_words": True,
603
- "length_word_max_cutoff": 30,
604
  "cond_check_number_words": True,
605
  "tokenization": False,
606
  "strip_characters": special_characters_default,
607
- "number_words_min_cutoff": 1,
608
  "number_words_max_cutoff": 100000,
609
  "cond_check_character_repetition_removal": True,
610
  "character_repetition_length": 10,
611
- "character_repetition_max_cutoff": 0.106,
612
  "cond_check_word_repetition_removal": True,
613
  "word_repetition_length": 5,
614
- "word_repetition_max_cutoff": 0.19,
615
  "cond_check_special_characters": True,
616
  "special_characters": special_characters_default,
617
- "special_characters_max_cutoff": 0.3,
618
  "cond_words_augmentation": False,
619
  "words_augmentation_group_sizes": [],
620
  "words_augmentation_join_char": "",
621
  "cond_check_stopwords": True,
622
- "stopwords_min_cutoff": 0.15,
623
  "cond_check_flagged_words": False,
624
- "flagged_words_max_cutoff": 0.2,
625
  "cond_check_lang_id": True,
626
- "lang_id_min_cutoff": 0.75,
627
  "cond_check_perplexity": True,
628
- "perplexity_max_cutoff": 3000000,
629
  }
630
 
631
  parameters_filtering_sw = {
 
223
  parameters_filtering_ca = {
224
  "cond_uniform_whitespace": True,
225
  "cond_replace_unicode_punctuation": False,
226
+ "cond_remove_words_with_incorrect_substrings": True,
227
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
228
  "cond_remove_long_words": True,
229
+ "length_word_max_cutoff": 20,
230
  "cond_check_number_words": True,
231
  "tokenization": False,
232
  "strip_characters": special_characters_default,
233
+ "number_words_min_cutoff": 15,
234
  "number_words_max_cutoff": 100000,
235
  "cond_check_character_repetition_removal": True,
236
  "character_repetition_length": 10,
237
+ "character_repetition_max_cutoff": 0.2,
238
  "cond_check_word_repetition_removal": True,
239
  "word_repetition_length": 5,
240
+ "word_repetition_max_cutoff": 0.4,
241
  "cond_check_special_characters": True,
242
  "special_characters": special_characters_default,
243
+ "special_characters_max_cutoff": 0.25,
244
  "cond_words_augmentation": False,
245
  "words_augmentation_group_sizes": [],
246
  "words_augmentation_join_char": "",
247
  "cond_check_stopwords": True,
248
+ "stopwords_min_cutoff": 0.25,
249
  "cond_check_flagged_words": False,
250
+ "flagged_words_max_cutoff": 0.1,
251
  "cond_check_lang_id": True,
252
+ "lang_id_min_cutoff": 0.8,
253
  "cond_check_perplexity": True,
254
+ "perplexity_max_cutoff": 2500,
255
  }
256
 
257
  parameters_filtering_en = {
 
285
  "cond_check_lang_id": True,
286
  "lang_id_min_cutoff": 0.80,
287
  "cond_check_perplexity": True,
288
+ "perplexity_max_cutoff": 1500,
289
  }
290
 
291
  parameters_filtering_es = {
 
359
  parameters_filtering_fr = {
360
  "cond_uniform_whitespace": True,
361
  "cond_replace_unicode_punctuation": False,
362
+ "cond_remove_words_with_incorrect_substrings": True,
363
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
364
  "cond_remove_long_words": True,
365
+ "length_word_max_cutoff": 45,
366
  "cond_check_number_words": True,
367
  "tokenization": False,
368
  "strip_characters": special_characters_default,
369
+ "number_words_min_cutoff": 13,
370
  "number_words_max_cutoff": 100000,
371
  "cond_check_character_repetition_removal": True,
372
  "character_repetition_length": 10,
373
+ "character_repetition_max_cutoff": 0.14,
374
  "cond_check_word_repetition_removal": True,
375
  "word_repetition_length": 5,
376
+ "word_repetition_max_cutoff": 0.13,
377
  "cond_check_special_characters": True,
378
  "special_characters": special_characters_default,
379
+ "special_characters_max_cutoff": 0.34,
380
  "cond_words_augmentation": False,
381
  "words_augmentation_group_sizes": [],
382
  "words_augmentation_join_char": "",
383
  "cond_check_stopwords": True,
384
+ "stopwords_min_cutoff": 0.27,
385
  "cond_check_flagged_words": False,
386
+ "flagged_words_max_cutoff": 0.008,
387
  "cond_check_lang_id": True,
388
+ "lang_id_min_cutoff": 0.8,
389
  "cond_check_perplexity": True,
390
+ "perplexity_max_cutoff": 1770,
391
  }
392
 
393
  parameters_filtering_gu = {
 
597
  parameters_filtering_pt = {
598
  "cond_uniform_whitespace": True,
599
  "cond_replace_unicode_punctuation": False,
600
+ "cond_remove_words_with_incorrect_substrings": True,
601
  "incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
602
  "cond_remove_long_words": True,
603
+ "length_word_max_cutoff": 19,
604
  "cond_check_number_words": True,
605
  "tokenization": False,
606
  "strip_characters": special_characters_default,
607
+ "number_words_min_cutoff": 19,
608
  "number_words_max_cutoff": 100000,
609
  "cond_check_character_repetition_removal": True,
610
  "character_repetition_length": 10,
611
+ "character_repetition_max_cutoff": 0.25,
612
  "cond_check_word_repetition_removal": True,
613
  "word_repetition_length": 5,
614
+ "word_repetition_max_cutoff": 0.98,
615
  "cond_check_special_characters": True,
616
  "special_characters": special_characters_default,
617
+ "special_characters_max_cutoff": 0.35,
618
  "cond_words_augmentation": False,
619
  "words_augmentation_group_sizes": [],
620
  "words_augmentation_join_char": "",
621
  "cond_check_stopwords": True,
622
+ "stopwords_min_cutoff": 0.2,
623
  "cond_check_flagged_words": False,
624
+ "flagged_words_max_cutoff": 0.007,
625
  "cond_check_lang_id": True,
626
+ "lang_id_min_cutoff": 0.6,
627
  "cond_check_perplexity": True,
628
+ "perplexity_max_cutoff": 3038,
629
  }
630
 
631
  parameters_filtering_sw = {
stopwords.py CHANGED
@@ -57,603 +57,483 @@ stopwords = {
57
  "ʼn",
58
  ],
59
  "ar": [
60
- خر",
61
- "آنَا",
62
- "أ",
63
  "أثناء",
64
- حد",
65
- صبح",
66
- "أصبحت",
67
  "أغلب",
68
  "أكثر",
69
- "أكون",
70
  "ألا",
 
71
  "أم",
72
- "أما",
73
  "أمام",
 
74
  "أن",
75
  "أنا",
76
  "أنت",
77
  "أنتم",
78
- "أنَا",
 
79
  "أو",
80
  "أولئك",
81
- "أولٰئك",
82
  "أي",
 
 
83
  "أية",
 
84
  "أين",
85
  "أينما",
86
- "أَ",
87
- "أَثنَاءَ",
88
- "أَلَّا",
89
- "أَم",
90
- "أَمَامَ",
91
- "أَمَّا",
92
- "أَن",
93
- "أَنَّ",
94
- "أَو",
95
- "أَي",
96
- "أَينَ",
97
- "أَينَمَا",
98
- "أَيّ",
99
  "إبان",
100
  "إثر",
101
- حدى",
102
- "إذ",
103
  "إذا",
104
- "إزا",
105
  "إزاء",
106
- "إل",
107
  "إلا",
 
108
  "إلى",
109
- "إلي",
110
- "إليها",
111
  "إما",
112
  "إن",
113
  "إنما",
114
- نّ",
115
- "إيا",
116
- ِثرَ",
117
- ِذ",
118
- ِذًا",
119
- ِذَا",
120
- ِزَاءَ",
121
- ِلَى",
122
- ِلَّا",
123
- ِمَّا",
124
- ِن",
125
- "إِنَّ",
126
- "إِنَّمَا",
127
- "إِيَّا",
128
- "اثر",
129
- "اثناء",
130
- "اذ",
131
- "اذا",
132
- "ازا",
133
- "ازاء",
134
- "ال",
135
- "الا",
136
- "التى",
137
  "التي",
138
- "الذى",
139
  "الذي",
140
  "الذين",
141
- "الغاية",
142
- "الـ",
143
- "الـــ",
144
- "الفوق",
145
- "اللاتى",
146
  "اللاتي",
147
  "اللتان",
148
  "اللتين",
149
  "اللذان",
150
  "اللذين",
 
 
151
  "اللواتي",
152
- "اللي",
153
- "الى",
154
- "الي",
155
- "ام",
156
- "اما",
157
- "امام",
158
- "ان",
159
- "انا",
160
- "انتم",
161
- "انما",
162
- "او",
163
- "اولئك",
164
- "اى",
165
  "اي",
166
- ين",
167
- "اينما",
168
- "اَل",
169
- "اَلَّذِي",
170
- "ب",
171
- "بأنفسهم",
172
- "بات",
173
- "باتت",
174
- س",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
175
  "بعد",
176
  "بعدما",
177
  "بعض",
178
- "بعيد",
179
- "بغزة",
 
180
  "بـ",
 
181
  "بل",
 
 
 
182
  "بما",
183
- هم",
184
- يد",
 
 
 
185
  "بين",
186
  "بينما",
187
- "بَس",
188
- َعدَ",
189
- َعدَمَا",
190
- "بَل",
191
- "بَيدَ",
192
- "بَينَ",
193
- "بَينَمَا",
194
- "بُعَيدَ",
195
- "بِ",
196
  "تحت",
197
- "تحـــت",
198
- صبح",
199
- عد",
200
- "تكن",
201
- "تكون",
202
- "تكونون",
203
  "تلك",
204
- َحتَ",
205
- ُجَاهَ",
 
206
  "ثم",
207
- ُمَّ",
 
 
 
 
208
  "جراء",
209
- َرَّاء",
 
 
 
 
 
 
210
  "حتى",
211
  "حسب",
212
  "حسبما",
213
- "حوالى",
214
  "حوالي",
215
  "حول",
216
- "حولي",
217
  "حيال",
218
  "حيث",
 
219
  "حيثما",
220
  "حين",
 
 
 
221
  "حينما",
222
- "حَتَّى",
223
- "حَسَب",
224
- "حَسَبَ",
225
- "حَسَبَمَا",
226
- "حَولَ",
227
- "حَوَالَى",
228
- "حَيثُ",
229
- "حِينَ",
230
- "حِينَمَا",
231
- "حِيَالَ",
232
  "خلال",
233
- َلفَ",
234
- "خِلَالَ",
 
 
235
  "دون",
236
- ُونَ",
237
- "ذا",
238
  "ذاك",
239
  "ذلك",
240
- "ذو",
241
- "ذي",
242
- "ذَا",
243
- "ذَاكَ",
244
- "ذُو",
245
- "ذٰلك",
246
- "ذٰلِكَ",
247
- "راح",
248
- "ربما",
249
- "ربمــا",
250
  "رغم",
 
251
  "ريثما",
252
- "رَغمَ",
253
- "رَيثَمَا",
254
- "رُبَّمَا",
255
- "س",
256
- "سائر",
257
- "سواء",
258
  "سوف",
259
  "سوى",
260
- َ",
261
- "سَوفَ",
262
- "سِوَى",
263
- به",
264
- و",
265
- "صار",
 
266
  "صوب",
267
  "ضد",
268
- "ضمن",
269
- "ضِدَّ",
270
- "ضِمنَ",
271
- "طال",
272
  "طالما",
273
- "طالَما",
274
- "طوال",
 
275
  "طيلة",
276
- "طَالَمَا",
277
- "طِوَالَ",
278
- "طِيلَةَ",
279
  "عبر",
280
  "عدا",
281
  "عدة",
282
- شان",
283
- ـــلى",
284
- "عـــندما",
285
- "عــلى",
286
  "عقب",
287
- "عل",
288
- "علـى",
289
  "على",
290
- "علي",
291
- "علّ",
292
- م",
 
 
 
 
293
  "عن",
294
- "عنا",
295
  "عند",
 
296
  "عندما",
297
- "عوض",
298
- َاد",
299
- "عَبرَ",
300
- "عَدَا",
301
- "عَشان",
302
- "عَقِبَ",
303
- "عَلَى",
304
- "عَلَّ",
305
- "عَم",
306
- "عَن",
307
- "عِندَ",
308
- "عِندَمَا",
309
- "عِوَضَ",
310
- "غالبية",
311
- "غدت",
312
  "غير",
313
- َيرَ",
314
- "ف",
315
- "فتئ",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
316
  "فـ",
317
- "فـي",
318
  "فور",
 
319
  "فوق",
320
- "فى",
321
  "في",
 
 
 
322
  "فيما",
323
- َ",
324
- "فَورَ",
325
- "فَوقَ",
326
- "فِي",
327
- "فِيمَا",
328
- "ق",
329
  "قبالة",
330
  "قبل",
331
  "قبيل",
332
  "قد",
 
333
  "قرابة",
334
  "قرب",
335
- يد",
336
- َبلَ",
337
- َد",
338
- "قَيدَ",
339
- "قُبَالَةَ",
340
- "قُبَيلَ",
341
- "قُربَ",
342
- "قُرَابَةَ",
343
- "ك",
344
  "كأن",
345
- أنما",
346
- "كامل",
347
- "كان",
348
- "كانت",
349
- "كانوا",
350
  "كذا",
 
351
  "كـ",
352
  "كل",
353
  "كلا",
354
  "كلتا",
355
  "كلما",
356
- "كلي",
357
  "كم",
358
  "كما",
359
- "كن",
360
- "كنا",
361
- "كنت",
362
- "كون",
363
- "كى",
364
  "كي",
365
  "كيف",
366
- "كَ",
367
- "كَأَنَّ",
368
- "كَأَنَّمَا",
369
- "كَان",
370
- "كَذَا",
371
- "كَلَّا",
372
- "كَم",
373
- "كَمَا",
374
- "كَي",
375
- "كَيفَ",
376
- "كُل",
377
- "كُلَّمَا",
378
- "كِلَا",
379
- "ل",
380
  "لأن",
 
381
  "لا",
382
- "لازم",
383
- "لان",
 
 
 
 
 
 
 
 
384
  "لدى",
385
- "لدي",
386
  "لذا",
387
  "لذلك",
388
- ذٰلك",
389
- "لسنا",
390
  "لـ",
391
  "لقد",
392
  "لكن",
393
- "لكى",
394
  "لكي",
 
395
  "لم",
396
  "لما",
397
  "لماذا",
398
  "لن",
399
- "لهم",
400
  "لو",
401
  "لولا",
402
- "ليس",
403
- "ليست",
404
- "ليسوا",
405
- "لَ",
406
- "لَا",
407
- "لَازِم",
408
- "لَدَى",
409
- "لَم",
410
- "لَمَّا",
411
- "لَن",
412
- "لَو",
413
- "لَولَا",
414
- "لَيس",
415
- "لُو",
416
- "لِ",
417
- "لِأَن",
418
- "لِأَنَّ",
419
- "لِئَلّا",
420
- "لِذَا",
421
- "لِذٰلِكَ",
422
- "لِكَي",
423
- "لِمَاذَا",
424
- "لٰكن",
425
- "لٰكِن",
426
- "لٰكِنَّ",
427
- "م",
428
  "ما",
429
  "ماذا",
430
- "مالم",
431
- "ماهو",
432
- "ماهُوَ",
433
  "متى",
434
- "مثـــل",
435
  "مثل",
 
436
  "مثلما",
437
- ش",
 
 
 
 
 
 
438
  "مع",
 
 
 
439
  "معظم",
440
- "مــن",
441
- "مـن",
442
- "مقابل",
443
  "مما",
444
- "ممكن",
 
 
445
  "من",
446
- "منتصف",
 
 
 
 
 
 
 
 
 
 
 
447
  "منذ",
448
  "مهما",
449
- "مين",
450
- "مَا",
451
- "مَاذَا",
452
- "مَالَم",
453
- "مَتَى",
454
- "مَعَ",
455
- "مَن",
456
- "مَهمَا",
457
- "مُقَابِلَ",
458
- "مُمكِن",
459
- "مُنذُ",
460
- "مِثلَ",
461
- "مِثلَمَا",
462
- "مِمَّا",
463
- "مِن",
464
- "نا",
465
- "ناهيك",
466
- "نحسب",
467
  "نحن",
468
  "نحو",
469
- صف",
470
  "نعم",
471
- كون",
472
- ي",
473
- َاهِيك",
474
- َحوَ",
475
- "نَعَم",
476
- "ه",
477
  "هؤلاء",
478
- "ها",
479
  "هاتان",
480
  "هاتين",
481
- اد",
482
- "هاي",
483
  "هذا",
484
  "هذان",
485
- "هذــه",
486
  "هذه",
487
  "هذين",
488
- "هـــذه",
489
- "هــــذه",
490
  "هكذا",
 
491
  "هل",
492
  "هم",
493
  "هما",
494
  "هن",
 
 
 
495
  "هو",
496
- "هى",
497
  "هي",
498
- "هَا",
499
- "هَل",
500
- "هُ",
501
- "هُو",
502
- "هُوَ",
503
- "هِ",
504
- "هٰؤلاء",
505
- "هٰذا",
506
- "هٰذان",
507
- "هٰذه",
508
- "هٰذَا",
509
- "هٰكذا",
510
- "هٰكَذَا",
511
  "و",
512
- "وأسلم",
513
  "وراء",
514
- "وسامراء",
515
  "وسط",
516
- "وســـط",
517
- "وغربه",
518
  "وفق",
 
 
519
  "وقتما",
520
- "وقف",
521
- "ولا",
522
- "ولَا",
523
- "وهي",
524
- "��َ",
525
- "وَرَاءَ",
526
- "وَسطَ",
527
- "وِفقَ",
528
- "وِلّا",
529
- "ي",
530
  "يا",
531
- جعل",
532
- زال",
533
- صبح",
534
- كن",
535
- "يكون",
536
- "يكونا",
537
- "يَا",
538
- "ِي",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
539
  ],
540
  "bn": [
541
  "অনেক",
542
- "অন্য",
543
- "অবশ্য",
544
- "আগে",
545
- "আছে",
546
- "আ",
547
- "আবার",
548
- "আ",
549
- "আমাদের",
550
- "আর",
551
- "",
552
- "উত্তর",
553
  "উপর",
554
- "উপরে",
555
- "এ",
556
- "এই",
557
- "এক্",
558
- "খন",
559
- "এত",
560
- "এব",
561
- "এমন",
562
- "নি",
563
- "র",
564
- "এস",
565
- "এসে",
566
- "ও",
567
- "ওই",
568
- "কমনে",
569
- "করা",
570
- "করে",
571
- "কাছে",
572
- "কাজ",
573
- "কাজে",
574
- "কারণ",
575
  "কি",
576
- "কিছু",
577
- "ক",
 
578
  "কেউ",
579
- "কেখা",
580
- "কেন",
581
- "কোটি",
582
- "কো",
583
- "কয়েক",
584
- "খুব",
585
- "গিয়ে",
586
- "গেল",
587
- "চার",
588
- "লু",
589
- "চেষ্টা",
590
- "ি",
591
- "জানা",
592
- "জ্জন",
593
- "ি",
594
- "তখন",
595
- "বে",
596
- "া",
597
- "তাই",
598
- "ত",
599
- "থাকা",
600
- "থে",
601
- "দিন",
602
- "দ",
603
- "দুই",
604
- "দেওয়া",
605
- "মার",
606
- "নতুন",
607
- "া",
608
- "",
609
- "নিয়ে",
610
- "েওয়া",
611
- "নয়",
612
- "পর",
613
- "পরে",
614
- "পাচ",
615
- "পি",
616
- "পেয়্র্",
617
- "প্রতি",
618
- "প্রথম",
619
- "প্রযন্ত",
620
- "প্রাথমিক",
621
- "প্রায়",
622
- "বক্তব্য",
623
- "বন",
624
- "বলা",
625
- "বলে",
626
- "বলেন",
627
- "বহু",
628
- "বা",
629
- "বি",
630
- "বিভিন্ন",
631
- "বেশ",
632
- "বেশি",
633
- "মতো",
634
- "মধ্যে",
635
- "মনে",
636
- "যখন",
637
- "যদি",
638
- "যা",
639
- "যাওয়া",
640
- "যে",
641
- "র",
642
- "রকম",
643
- "লক্ষ",
644
- "শুধু",
645
- "শুরু",
646
- "সঙ্গে",
647
- "সব",
648
- "সহ",
649
- "সাধারণ",
650
- "সামনে",
651
- "সি",
652
- "সে",
653
- "সেই",
654
- "হতে",
655
- "হাজার",
656
- "হয়",
657
  ],
658
  "ca": [
659
  "-ho",
@@ -3686,232 +3566,257 @@ stopwords = {
3686
  "êtes",
3687
  "être",
3688
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3689
  "hi": [
3690
  "अंदर",
3691
- "अ",
3692
- "अि",
3693
- "अ",
3694
- "अपना",
3695
- "अि",
3696
- "अपनी",
3697
- "अपने",
3698
- "अभि",
3699
- "अभी",
3700
- "आदि",
3701
- "आप",
3702
- "इिं",
3703
- "इंहें",
3704
- "इंहों",
3705
- "इतयदि",
3706
- "इदि",
3707
- "इ",
3708
- "इनका",
3709
- "इन्हीं",
3710
- "इन्हे",
3711
- "इन्हं",
3712
- "इ",
3713
- "इसका",
3714
- "इसकि",
3715
- "इसकी",
3716
- "इसके",
3717
- "इसमें",
3718
- "इसि",
3719
- "इसी",
3720
- "इसे",
3721
- "उंहिं",
3722
- "उंहें",
3723
- "उंहों",
3724
- "उन",
3725
- "उनका",
3726
- "उनकि",
3727
- "उनकी",
3728
  "उनके",
3729
- "उनको",
3730
- "उन्हीं",
3731
  "उन्हें",
3732
- "उन्हों",
3733
- "उस",
3734
- "उसके",
3735
- "उसि",
3736
- "उसी",
3737
- "",
3738
- "एक",
3739
- "एवं",
3740
- "एस",
3741
- "एसे",
3742
- "ऐसे",
3743
- "ओर",
3744
  "और",
3745
- "क",
3746
- "क",
3747
- "क",
3748
- "करता",
3749
- "करते",
3750
- "करना",
3751
- "करने",
3752
- "करें",
3753
- "कते",
3754
- "कहा",
3755
- "क",
3756
- "काफि",
3757
- "काफ़ी",
3758
- "कि",
3759
- "किंहें",
3760
- "किंह",
3761
- "कितना",
3762
- "किन्ह",
3763
- "किन्हों",
3764
- "किय",
3765
- "किर",
3766
- "किस",
3767
- "किसि",
3768
- "किसी",
3769
- "किसे",
3770
- "की",
3771
- "कुछ",
3772
- "कुल",
3773
- "के",
3774
- "को",
3775
- "कोइ",
3776
  "कोई",
3777
- "कोन",
3778
- "कोनसा",
 
3779
  "कौन",
3780
- "कौनसा",
3781
- "गया",
3782
- "घर",
3783
- "जब",
3784
- "जहाँ",
3785
- "जहां",
3786
- "ज",
3787
- "जिंं",
3788
- "जिंहों",
3789
- "जितना",
3790
- "जिधर",
3791
- "जिन",
3792
- "जिन्हें",
3793
- "जिन्हों",
3794
- "जिस",
3795
- "जिसे",
3796
- "जीधर",
3797
- "जेसा",
3798
- "जेसे",
3799
  "जैसा",
3800
  "जैसे",
3801
- "ज",
 
 
 
 
3802
  "तक",
3803
- "तब",
3804
- "तर",
3805
- "तिंहें",
3806
- "तिंों",
3807
- "तिन",
3808
- "तिन्हे",
3809
- "तिन्हों",
3810
- "तिस",
3811
- "िे",
3812
- "तो",
3813
- "था",
3814
- "थि",
3815
- "थी",
3816
- "थे",
3817
- "दबारा",
3818
- "दवारा",
3819
- "दिया",
3820
- "दुसरा",
3821
- "दुसरे",
3822
- "दूसरे",
3823
- "दो",
3824
  "द्वारा",
3825
- "न",
3826
- "नहिं",
3827
- "नहीं",
3828
- "ना",
3829
- "निचे",
3830
- "निहायत",
3831
  "नीचे",
3832
- "े",
3833
- "पर",
3834
- "पहले",
3835
- "पुरा",
3836
  "पूरा",
3837
- "पे",
3838
- "फिर",
3839
- "बनि",
3840
- "बनी",
3841
- "बहि",
3842
- "बह",
3843
- "बहुत",
3844
- "बा",
3845
- "बाला",
3846
- "बिलकुल",
3847
- "भि",
3848
- "भितर",
3849
  "भी",
3850
- "भीतर",
3851
- "मर",
3852
- "म",
3853
- "मे",
3854
- "मे",
 
3855
  "यदि",
3856
- "य",
3857
- "य",
3858
- "यहां",
3859
- "यहि",
3860
- "यही",
3861
- "या",
3862
- "यिह",
3863
- "ये",
3864
- "रखें",
3865
- "रवासा",
3866
- "रहा",
3867
- "रहे",
3868
- "ऱ्वासा",
3869
- "लिए",
3870
- "लिये",
3871
  "लेकिन",
3872
- "व",
3873
- "वगेरह",
3874
- "वरग",
3875
- "वर्ग",
3876
  "वह",
3877
- "वहाँ",
3878
  "वहां",
3879
- "वहिं",
3880
- "वहं",
3881
- "वाले",
3882
- "वुह",
3883
- "वे",
3884
- "वग़ै",
3885
- "सं",
3886
- "सकता",
3887
- "सकते",
3888
- "सबसे",
3889
- "सभि",
3890
- "सभी",
3891
  "साथ",
3892
- "साबुत",
3893
- "साभ",
3894
- "सारा",
3895
  "से",
3896
- "सो",
3897
- "हि",
3898
- "ह",
3899
- "हुअ",
3900
- "हुआ",
3901
- "हुइ",
3902
- "हुई",
3903
- "हुए",
3904
- "हे",
3905
- "हें",
3906
- "है",
3907
- "हैं",
3908
- "हो",
3909
- "होता",
3910
- "होति",
3911
- "होती",
3912
- "होते",
3913
- "होना",
3914
- "होने",
3915
  ],
3916
  "id": [
3917
  "Anda",
@@ -5128,546 +5033,180 @@ stopwords = {
5128
  "zake",
5129
  ],
5130
  "ur": [
5131
- "آئی",
5132
- "آئے",
5133
- "آج",
5134
- "آخر",
5135
- "آخرکبر",
5136
- "آدهی",
5137
- "آًب",
5138
- "آٹھ",
5139
- "آیب",
5140
- ة",
5141
- خبزت",
5142
- "اختتبم",
5143
- "ادھر",
5144
- "ارد",
5145
- "اردگرد",
5146
- "ارکبى",
5147
- "اش",
5148
- ضتعوبل",
5149
- "اضتعوبلات",
5150
- ضطرذ",
5151
- "اضکب",
5152
- ضکی",
5153
- ضکے",
5154
- "اطراف",
5155
- "اغیب",
5156
- فراد",
5157
- لگ",
5158
- "اور",
5159
- وًچب",
5160
- "اوًچبئی",
5161
- "اوًچی",
5162
- وًچے",
5163
- "اى",
5164
- ً",
5165
- "اًذر",
5166
- "اًہیں",
5167
- "اٹھبًب",
5168
- "اپٌب",
5169
- پٌے",
5170
- "اچھب",
5171
- چھی",
5172
- "اچھے",
5173
- "اکثر",
5174
- "اکٹھب",
5175
- "اکٹھی",
5176
- "اکٹھے",
5177
- "اکیلا",
5178
- "اکیلی",
5179
- "اکیلے",
5180
- "اگرچہ",
5181
- "اہن",
5182
- "ایطے",
5183
- "ایک",
5184
- "ب",
5185
- "ت",
5186
- "تبزٍ",
5187
- "تت",
5188
- "تر",
5189
- "ترتیت",
5190
- "تریي",
5191
- "تعذاد",
5192
- "تن",
5193
- "تو",
5194
- "توبم",
5195
- "توہی",
5196
- "توہیں",
5197
- "تٌہب",
5198
- "تک",
5199
- "تھب",
5200
- "تھوڑا",
5201
- "تھوڑی",
5202
- "تھوڑے",
5203
- "تھی",
5204
- "تھے",
5205
- "تیي",
5206
- "ثب",
5207
- "ثبئیں",
5208
- "ثبترتیت",
5209
- "ثبری",
5210
- "ثبرے",
5211
- "ثبعث",
5212
- "ثبلا",
5213
- "ثبلترتیت",
5214
- "ثبہر",
5215
- "ثدبئے",
5216
- "ثرآں",
5217
- "ثراں",
5218
- "ثرش",
5219
- "ثعذ",
5220
- "ثغیر",
5221
- "ثلٌذ",
5222
- "ثلٌذوثبلا",
5223
- "ثلکہ",
5224
- "ثي",
5225
- "ثٌب",
5226
- "ثٌبرہب",
5227
- "ثٌبرہی",
5228
- "ثٌبرہے",
5229
- "ثٌبًب",
5230
- "ثٌذ",
5231
- "ثٌذکرو",
5232
- "ثٌذکرًب",
5233
- "ثٌذی",
5234
- "ثڑا",
5235
- "ثڑوں",
5236
- "ثڑی",
5237
- "ثڑے",
5238
- "ثھر",
5239
- "ثھرا",
5240
- "ثھراہوا",
5241
- "ثھرپور",
5242
- "ثھی",
5243
- "ثہت",
5244
- "ثہتر",
5245
- "ثہتری",
5246
- "ثہتریي",
5247
- "ثیچ",
5248
- "ج",
5249
- "خب",
5250
- "خبرہب",
5251
- "خبرہی",
5252
- "خبرہے",
5253
- "خبهوظ",
5254
- "خبًب",
5255
- "خبًتب",
5256
- "خبًتی",
5257
- "خبًتے",
5258
- "خبًٌب",
5259
- "خت",
5260
- "ختن",
5261
- "خجکہ",
5262
- "خص",
5263
- "خططرذ",
5264
- "خلذی",
5265
- "خو",
5266
- "خواى",
5267
- "خوًہی",
5268
- "خوکہ",
5269
- "خٌبة",
5270
- "خگہ",
5271
- "خگہوں",
5272
- "خگہیں",
5273
- "خیطب",
5274
- "خیطبکہ",
5275
- "در",
5276
- "درخبت",
5277
- "درخہ",
5278
- "درخے",
5279
- "درزقیقت",
5280
- "درضت",
5281
- "دش",
5282
- "دفعہ",
5283
- "دلچطپ",
5284
- "دلچطپی",
5285
- "دلچطپیبں",
5286
- "دو",
5287
- "دور",
5288
- "دوراى",
5289
- "دوضرا",
5290
- "دوضروں",
5291
- "دوضری",
5292
- "دوضرے",
5293
- "دوًوں",
5294
- "دکھبئیں",
5295
- "دکھبتب",
5296
- "دکھبتی",
5297
- "دکھبتے",
5298
- "دکھبو",
5299
- "دکھبًب",
5300
- "دکھبیب",
5301
- "دی",
5302
- "دیب",
5303
- "دیتب",
5304
- "دیتی",
5305
- "دیتے",
5306
- "دیر",
5307
- "دیٌب",
5308
- "دیکھو",
5309
- "دیکھٌب",
5310
- "دیکھی",
5311
- "دیکھیں",
5312
- "دے",
5313
- "ر",
5314
- "راضتوں",
5315
- "راضتہ",
5316
- "راضتے",
5317
- "رریعہ",
5318
- "رریعے",
5319
- "رکي",
5320
- "رکھ",
5321
- "رکھب",
5322
- "رکھتب",
5323
- "رکھتبہوں",
5324
- "رکھتی",
5325
- "رکھتے",
5326
- "رکھی",
5327
- "رکھے",
5328
- "رہب",
5329
- "رہی",
5330
- "رہے",
5331
- "ز",
5332
- "زبصل",
5333
- "زبضر",
5334
- "زبل",
5335
- "زبلات",
5336
- "زبلیہ",
5337
- "زصوں",
5338
- "زصہ",
5339
- "زصے",
5340
- "زقبئق",
5341
- "زقیتیں",
5342
- "زقیقت",
5343
- "زکن",
5344
- "زکویہ",
5345
- "زیبدٍ",
5346
- "صبف",
5347
- "صسیر",
5348
- "صفر",
5349
- "صورت",
5350
- "صورتسبل",
5351
- "صورتوں",
5352
- "صورتیں",
5353
- "ض",
5354
- "ضبت",
5355
- "ضبتھ",
5356
- "ضبدٍ",
5357
- "ضبرا",
5358
- "ضبرے",
5359
- "ضبل",
5360
- "ضبلوں",
5361
- "ضت",
5362
- "ضرور",
5363
- "ضرورت",
5364
- "ضروری",
5365
- "ضلطلہ",
5366
- "ضوچ",
5367
- "ضوچب",
5368
- "ضوچتب",
5369
- "ضوچتی",
5370
- "ضوچتے",
5371
- "ضوچو",
5372
- "ضوچٌب",
5373
- "ضوچی",
5374
- "ضوچیں",
5375
- "ضکب",
5376
- "ضکتب",
5377
- "ضکتی",
5378
- "ضکتے",
5379
- "ضکٌب",
5380
- "ضکی",
5381
- "ضکے",
5382
- "ضیذھب",
5383
- "ضیذھی",
5384
- "ضیذھے",
5385
- "ضیکٌڈ",
5386
- "ضے",
5387
- "طرف",
5388
- "طریق",
5389
- "طریقوں",
5390
- "طریقہ",
5391
- "طریقے",
5392
- "طور",
5393
- "طورپر",
5394
- "ظبہر",
5395
- "ع",
5396
- "عذد",
5397
- "عظین",
5398
- "علاقوں",
5399
- "علاقہ",
5400
- "علاقے",
5401
- "علاوٍ",
5402
- "عووهی",
5403
- "غبیذ",
5404
- "غخص",
5405
- "غذ",
5406
- "غروع",
5407
- "غروعبت",
5408
- "غے",
5409
- "فرد",
5410
- "فی",
5411
- "ق",
5412
- "قجل",
5413
- "قجیلہ",
5414
- "قطن",
5415
- "لئے",
5416
- "لا",
5417
- "لازهی",
5418
- "لو",
5419
- "لوجب",
5420
- "لوجی",
5421
- "لوجے",
5422
- "لوسبت",
5423
- "لوسہ",
5424
- "لوگ",
5425
- "لوگوں",
5426
- "لڑکپي",
5427
- "لگتب",
5428
- "لگتی",
5429
- "لگتے",
5430
- "لگٌب",
5431
- "لگی",
5432
- "لگیں",
5433
- "لگے",
5434
- "لی",
5435
- "لیب",
5436
- "لیٌب",
5437
- "لیں",
5438
- "لے",
5439
- "ه",
5440
- "هتعلق",
5441
- "هختلف",
5442
- "هسترم",
5443
- "هسترهہ",
5444
- "هسطوش",
5445
- "هسیذ",
5446
- "هطئلہ",
5447
- "هطئلے",
5448
- "هطبئل",
5449
- "هطتعول",
5450
- "هطلق",
5451
- "هعلوم",
5452
- "هػتول",
5453
- "هلا",
5454
- "هوکي",
5455
- "هوکٌبت",
5456
- "هوکٌہ",
5457
- "هٌبضت",
5458
- "هڑا",
5459
- "هڑًب",
5460
- "هڑے",
5461
- "هکول",
5462
- "هگر",
5463
- "هہرثبى",
5464
- "هیرا",
5465
- "هیری",
5466
- "هیرے",
5467
- "هیں",
5468
- "و",
5469
- "وار",
5470
- "والے",
5471
- "وٍ",
5472
- "ًئی",
5473
- "ًئے",
5474
- "ًب",
5475
- "ًبپطٌذ",
5476
- "ًبگسیر",
5477
- "ًطجت",
5478
- "ًقطہ",
5479
- "ًو",
5480
- "ًوخواى",
5481
- "ًکبلٌب",
5482
- "ًکتہ",
5483
- "ًہ",
5484
- "ًہیں",
5485
- "ًیب",
5486
- "ًے",
5487
- "ٓ آش",
5488
- "ٹھیک",
5489
- "پبئے",
5490
- "پبش",
5491
- "پبًب",
5492
- "پبًچ",
5493
- "پر",
5494
- "پراًب",
5495
- "پطٌذ",
5496
- "پل",
5497
- "پورا",
5498
- "پوچھب",
5499
- "پوچھتب",
5500
- "پوچھتی",
5501
- "پوچھتے",
5502
- "پوچھو",
5503
- "پوچھوں",
5504
- "پوچھٌب",
5505
- "پوچھیں",
5506
- "پچھلا",
5507
  "پھر",
5508
- "پہلا",
5509
- "پہلی",
5510
- "پہلےضی",
5511
- "پہلےضے",
5512
- "پہلےضےہی",
5513
- "پیع",
5514
- "چبر",
5515
- "چبہب",
5516
- "چبہٌب",
5517
- "چبہے",
5518
- "چلا",
5519
- "چلو",
5520
- "چلیں",
5521
- "چلے",
5522
- "چکب",
5523
- "چکی",
5524
- "چکیں",
5525
- "چکے",
5526
- "چھوٹب",
5527
- "چھوٹوں",
5528
- "چھوٹی",
5529
- "چھوٹے",
5530
- "چھہ",
5531
- "چیسیں",
5532
- "ڈھوًڈا",
5533
- "ڈھوًڈلیب",
5534
- "ڈھوًڈو",
5535
- "ڈھوًڈًب",
5536
- "ڈھوًڈی",
5537
- "ڈھوًڈیں",
5538
- "ک",
5539
- "کئی",
5540
- "کئے",
5541
  "کب",
5542
- "کبفی",
5543
- بم",
5544
- "کت",
5545
- "کجھی",
5546
- "کرا",
5547
- "کرتب",
5548
- "کرتبہوں",
5549
- "کرتی",
5550
- "کرتے",
5551
- "کرتےہو",
5552
- "کررہب",
5553
- "کررہی",
5554
- "کررہے",
5555
- "کرو",
5556
- "کرًب",
5557
- "کریں",
5558
- "کرے",
5559
- "کطی",
5560
- "کل",
5561
- "کن",
5562
  "کوئی",
5563
- "کوتر",
5564
- "کورا",
5565
- وروں",
5566
- ورٍ",
5567
- ورے",
5568
- وطي",
5569
- "کوى",
5570
- وًطب",
5571
- "کوًطی",
5572
- "کوًطے",
5573
- "کھولا",
5574
- "کھولو",
5575
- "کھولٌب",
5576
- "کھولی",
5577
- "کھولیں",
5578
- "کھولے",
5579
- "کہ",
5580
- "کہب",
5581
- "کہتب",
5582
- "کہتی",
5583
- "کہتے",
5584
- "کہو",
5585
- "کہوں",
5586
- "کہٌب",
5587
- "کہی",
5588
- "کہیں",
5589
- "کہے",
5590
- "کی",
5591
- "کیب",
5592
- "کیطب",
5593
- "کیطرف",
5594
- "کیطے",
5595
- "کیلئے",
5596
- "کیوًکہ",
5597
- "کیوں",
5598
- "کیے",
5599
- "کے",
5600
- "کےثعذ",
5601
- "کےرریعے",
5602
- "گئی",
5603
- "گئے",
5604
- "گب",
5605
- "گرد",
5606
- "گروٍ",
5607
- "گروپ",
5608
- "گروہوں",
5609
- "گٌتی",
5610
- "گی",
5611
- "گیب",
5612
- "گے",
5613
- "ہر",
5614
- "ہن",
5615
- "ہو",
5616
- "ہوئی",
5617
- "ہوئے",
5618
- "ہوا",
5619
- "ہوبرا",
5620
- "ہوبری",
5621
- "ہوبرے",
5622
- "ہوتب",
5623
- "ہوتی",
5624
- "ہوتے",
5625
- "ہورہب",
5626
- "ہورہی",
5627
- "ہورہے",
5628
- "ہوضکتب",
5629
- "ہوضکتی",
5630
- "ہوضکتے",
5631
- "ہوًب",
5632
- "ہوًی",
5633
- "ہوًے",
5634
- "ہوچکب",
5635
- "ہوچکی",
5636
- "ہوچکے",
5637
- "ہوگئی",
5638
- "ہوگئے",
5639
- "ہوگیب",
5640
- "ہوں",
5641
- "ہی",
5642
- "ہیں",
5643
- "ہے",
5644
- "ی",
5645
- "یقیٌی",
5646
- "یہ",
5647
- "یہبں",
5648
  ],
5649
  "vi": [
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5650
  "bên",
 
 
 
 
 
 
 
 
 
 
 
 
5651
  "bấy nhiêu",
 
 
 
 
5652
  "bằng",
 
 
 
 
 
 
5653
  "bởi",
 
5654
  "cc",
 
5655
  "chao",
 
 
5656
  "cho",
5657
  "cho dù",
 
 
 
5658
  "chán",
 
 
5659
  "chính",
 
 
 
 
 
 
 
 
 
5660
  "chút",
 
 
 
 
 
 
 
 
 
 
 
5661
  "chứ",
 
 
 
5662
  "các",
 
5663
  "cái",
 
 
 
5664
  "còn",
5665
  "có",
5666
  "có vẻ",
 
 
 
 
 
 
 
5667
  "cùng",
 
5668
  "cơ mà",
 
 
5669
  "cả",
 
 
 
 
 
 
5670
  "của",
 
5671
  "do",
5672
  "do vậy",
5673
  "do đó",
@@ -5675,68 +5214,176 @@ stopwords = {
5675
  "dù",
5676
  "dù sao",
5677
  "dù vậy",
 
5678
  "dưới",
5679
  "dường như",
5680
  "dạ",
 
5681
  "dẫu",
5682
  "dẫu vậy",
 
 
 
 
 
 
 
 
 
5683
  "giữa",
5684
  "gì",
 
5685
  "hay",
5686
  "hay là",
 
 
5687
  "hoặc",
 
 
 
 
 
 
 
 
5688
  "hơn nữa",
5689
  "hả",
5690
  "hầu hết",
 
5691
  "hết",
 
5692
  "hề",
5693
  "hễ",
 
 
 
 
 
 
 
 
 
5694
  "không những",
 
 
 
 
 
 
5695
  "l",
5696
  "là",
 
5697
  "lên",
5698
  "lại nữa",
 
5699
  "lẫn",
5700
  "lắm",
 
 
 
 
 
 
5701
  "mà",
5702
  "mà còn",
 
 
 
 
 
 
5703
  "mấy",
 
 
5704
  "mặc dù",
 
5705
  "mặt khác",
 
 
5706
  "mọi",
 
 
 
5707
  "mỗi",
5708
  "một chút",
5709
  "một nửa",
5710
  "một số",
5711
  "một vài",
5712
  "một ít",
 
5713
  "ngay",
 
 
 
5714
  "ngoài",
5715
  "ngoài ra",
 
 
 
 
 
 
 
5716
  "ngược lại",
 
 
 
 
5717
  "nhá",
5718
  "nhân",
 
5719
  "nhé",
5720
  "như",
5721
  "như vậy",
5722
  "nhưng",
 
 
5723
  "nhất là",
5724
  "nhằm",
5725
  "nhỉ",
 
5726
  "nhờ",
 
5727
  "những",
 
 
 
5728
  "nào",
5729
  "này",
5730
  "nè",
5731
  "nên",
 
 
 
 
 
 
 
 
5732
  "nếu",
5733
  "nếu như",
 
 
 
 
5734
  "nửa",
5735
  "nữa",
 
5736
  "phía",
 
 
 
 
 
5737
  "phần lớn",
 
 
5738
  "qua",
 
 
 
5739
  "quả",
 
5740
  "ra",
5741
  "riêng",
5742
  "rùi",
@@ -5745,37 +5392,81 @@ stopwords = {
5745
  "sang",
5746
  "sao",
5747
  "sau",
 
5748
  "song",
 
 
 
 
 
 
 
 
5749
  "thay",
 
5750
  "theo",
 
 
5751
  "thiệt",
 
 
 
5752
  "thì",
5753
  "thí dụ",
5754
  "thôi",
 
 
 
5755
  "thật",
 
5756
  "thế",
5757
  "thế là",
5758
  "thế mà",
5759
  "thế nhưng",
 
 
 
 
 
5760
  "toàn",
5761
  "toàn bộ",
5762
  "toàn thể",
5763
  "trong",
 
 
 
 
5764
  "trên",
 
5765
  "trước",
 
5766
  "trời",
 
5767
  "tuy",
5768
  "tuy nhiên",
 
5769
  "tuy vậy",
 
5770
  "tóm lại",
 
 
5771
  "tại",
 
 
5772
  "tất cả",
 
5773
  "tận",
 
5774
  "tổ",
 
5775
  "tới",
 
 
5776
  "tức",
5777
  "tức là",
5778
  "từ",
 
 
5779
  "ui",
5780
  "và",
5781
  "vài",
@@ -5785,30 +5476,68 @@ stopwords = {
5785
  "vì thế",
5786
  "vì vậy",
5787
  "ví dụ",
 
5788
  "vô",
5789
  "vô số",
5790
  "vô vàn",
 
 
5791
  "vậy",
5792
  "vậy là",
5793
  "vậy mà",
5794
  "về",
 
 
 
5795
  "với",
5796
  "xuống",
5797
  "à",
 
 
 
 
 
 
 
 
 
5798
  "đa số",
 
5799
  "đi",
5800
  "đâu",
5801
  "đây",
 
 
 
5802
  "đó",
5803
  "đôi",
 
5804
  "được",
 
5805
  "đấy",
 
 
 
 
 
5806
  "đến",
5807
  "để",
 
5808
  "đối với",
 
 
 
5809
  "ạ",
 
 
5810
  "ấy",
 
 
 
5811
  "ở",
 
 
 
5812
  ],
5813
  "yo": [
5814
  "a",
 
57
  "ʼn",
58
  ],
59
  "ar": [
60
+ نذاك",
61
+ "أبداً",
 
62
  "أثناء",
63
+ سفل",
64
+ على",
 
65
  "أغلب",
66
  "أكثر",
 
67
  "ألا",
68
+ "ألم",
69
  "أم",
 
70
  "أمام",
71
+ "أمس",
72
  "أن",
73
  "أنا",
74
  "أنت",
75
  "أنتم",
76
+ "أنتما",
77
+ "أنتن",
78
  "أو",
79
  "أولئك",
 
80
  "أي",
81
+ "أيان",
82
+ "أياً",
83
  "أية",
84
+ "أيضاً",
85
  "أين",
86
  "أينما",
 
 
 
 
 
 
 
 
 
 
 
 
 
87
  "إبان",
88
  "إثر",
89
+ ثر ذلك",
 
90
  "إذا",
 
91
  "إزاء",
 
92
  "إلا",
93
+ "إلا أن",
94
  "إلى",
 
 
95
  "إما",
96
  "إن",
97
  "إنما",
98
+ ياك",
99
+ "إياكم",
100
+ ياكما",
101
+ ياكن",
102
+ يانا",
103
+ ياه",
104
+ ياها",
105
+ ياهم",
106
+ ياهما",
107
+ ياهن",
108
+ ياي",
109
+ "الآن",
110
+ لبتة",
 
 
 
 
 
 
 
 
 
 
111
  "التي",
 
112
  "الذي",
113
  "الذين",
114
+ "اللائي",
115
+ "اللات",
 
 
 
116
  "اللاتي",
117
  "اللتان",
118
  "اللتين",
119
  "اللذان",
120
  "اللذين",
121
+ "اللهم",
122
+ "اللوات",
123
  "اللواتي",
124
+ "الليلة",
125
+ "اليوم",
 
 
 
 
 
 
 
 
 
 
 
126
  "اي",
127
+ "بألا",
128
+ "بأن",
129
+ "بئس",
130
+ "بئست",
131
+ اتجاه",
132
+ الأخص",
133
+ "بالأمس",
134
+ "بالتالي",
135
+ الذات",
136
+ "بالرغم من",
137
+ "بالضبط",
138
+ "بالطبع",
139
+ "بالفعل",
140
+ "بالقرب",
141
+ "بالكامل",
142
+ "بالنسبة ل",
143
+ "بتاتاً",
144
+ "بجانب",
145
+ "بحسب",
146
+ "بحوالي",
147
+ "بحيث",
148
+ "بذلك",
149
+ "برغم",
150
+ "برمته",
151
+ "بشتى",
152
+ "بصرف النظر عن",
153
+ "بضع",
154
+ "بضعة",
155
  "بعد",
156
  "بعدما",
157
  "بعض",
158
+ غض الطرف عن",
159
+ "بغض النظر عن",
160
+ "بغية",
161
  "بـ",
162
+ "بقرب",
163
  "بل",
164
+ "بلا",
165
+ "بلى",
166
+ "بم",
167
  "بما",
168
+ "بما أن",
169
+ مفرده",
170
+ "بمقتضى",
171
+ "بمنأى عن",
172
+ "بموجب",
173
  "بين",
174
  "بينما",
175
+ "تاماً",
176
+ "تباعاً",
177
+ "تبعاً",
178
+ "تجاه",
 
 
 
 
 
179
  "تحت",
180
+ "تحديداً",
181
+ "تحسباً",
182
+ قريباً",
 
 
 
183
  "تلك",
184
+ لو",
185
+ ماماً",
186
+ "تمشياً",
187
  "ثم",
188
+ "ثمة",
189
+ "جانب",
190
+ "جاهداً",
191
+ "جداً",
192
+ "جدياً",
193
  "جراء",
194
+ ل",
195
+ "جميع",
196
+ "جميعاً",
197
+ "جنوب",
198
+ "جنوبي",
199
+ "حتماً",
200
+ "حتمياً",
201
  "حتى",
202
  "حسب",
203
  "حسبما",
 
204
  "حوالي",
205
  "حول",
 
206
  "حيال",
207
  "حيث",
208
+ "حيث أن",
209
  "حيثما",
210
  "حين",
211
+ "حينئذ",
212
+ "حيناً",
213
+ "حينذاك",
214
  "حينما",
215
+ "خارج",
216
+ "ختاماً",
 
 
 
 
 
 
 
 
217
  "خلال",
218
+ "خلف",
219
+ "دائماً",
220
+ "داخل",
221
+ "دوماً",
222
  "دون",
223
+ "دونما",
 
224
  "ذاك",
225
  "ذلك",
 
 
 
 
 
 
 
 
 
 
226
  "رغم",
227
+ "رغم أن",
228
  "ريثما",
229
+ "زهاء",
230
+ "ساعة",
231
+ "سنة",
 
 
 
232
  "سوف",
233
  "سوى",
234
+ وياً",
235
+ "شتى",
236
+ "شرق",
237
+ ريطة",
238
+ كراً",
239
+ "شمال",
240
+ "صبيحة",
241
  "صوب",
242
  "ضد",
 
 
 
 
243
  "طالما",
244
+ بقاً",
245
+ "طواعية",
246
+ "طوعاً",
247
  "طيلة",
248
+ "عادة",
249
+ "عام",
250
+ "عامة",
251
  "عبر",
252
  "عدا",
253
  "عدة",
254
+ سى",
255
+ شية",
 
 
256
  "عقب",
257
+ "علاوة على",
258
+ "علاوة على ذلك",
259
  "على",
260
+ "على الرغم من",
261
+ "على حد قول",
262
+ لى غرار",
263
+ "على هذا",
264
+ "عما",
265
+ "عمن",
266
+ "عموماً",
267
  "عن",
 
268
  "عند",
269
+ "عندئذ",
270
  "عندما",
271
+ نوة",
272
+ وضا عن",
273
+ "غالب",
274
+ "غالباً",
275
+ "غداة",
276
+ "غداً",
277
+ "غرب",
 
 
 
 
 
 
 
 
278
  "غير",
279
+ "غير أن",
280
+ "ـك",
281
+ "ـكم",
282
+ "ـكما",
283
+ "ـكن",
284
+ "ـنا",
285
+ "ـه",
286
+ "ـها",
287
+ "ـهم",
288
+ "ـهما",
289
+ "ـهن",
290
+ "ـي",
291
+ "فجأة",
292
+ "فجر",
293
+ "فحسب",
294
+ "فصاعداً",
295
+ "فضلاً",
296
  "فـ",
 
297
  "فور",
298
+ "فوراً",
299
  "فوق",
 
300
  "في",
301
+ "في تلك الأثناء",
302
+ "في غضون ذلك",
303
+ "في هذه الأثناء",
304
  "فيما",
305
+ يما يلي",
 
 
 
 
 
306
  "قبالة",
307
  "قبل",
308
  "قبيل",
309
  "قد",
310
+ "قدماً",
311
  "قرابة",
312
  "قرب",
313
+ سراً",
314
+ طعياً",
315
+ ليلاً",
 
 
 
 
 
 
316
  "كأن",
317
+ المعتاد",
318
+ ثيراً",
 
 
 
319
  "كذا",
320
+ "كذلك",
321
  "كـ",
322
  "كل",
323
  "كلا",
324
  "كلتا",
325
  "كلما",
 
326
  "كم",
327
  "كما",
328
+ ما أن",
 
 
 
 
329
  "كي",
330
  "كيف",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
331
  "لأن",
332
+ "لئلا",
333
  "لا",
334
+ "لا بأس أن",
335
+ "لا بد",
336
+ "لا سيما",
337
+ "لا لبس أن",
338
+ "لا مانع",
339
+ "لابد",
340
+ "لاحقاً",
341
+ "لاسيما",
342
+ "لحظة",
343
+ "لحوالي",
344
  "لدى",
 
345
  "لذا",
346
  "لذلك",
347
+ عل",
 
348
  "لـ",
349
  "لقد",
350
  "لكن",
 
351
  "لكي",
352
+ "للتو",
353
  "لم",
354
  "لما",
355
  "لماذا",
356
  "لن",
 
357
  "لو",
358
  "لولا",
359
+ "ليت",
360
+ "ليلة",
361
+ "مؤخراً",
362
+ "مؤقتاً",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
363
  "ما",
364
  "ماذا",
365
+ باشرة",
 
 
366
  "متى",
 
367
  "مثل",
368
+ "مثلاً",
369
  "مثلما",
370
+ جاناً",
371
+ "مجدداً",
372
+ "مجرد",
373
+ "محض",
374
+ "مراراً",
375
+ "مساء",
376
+ "مطلقاً",
377
  "مع",
378
+ "مع أن",
379
+ "مع ذلك",
380
+ "معاً",
381
  "معظم",
 
 
 
382
  "مما",
383
+ "مما زاد الطين بلة",
384
+ "مما يزيد الطين بلة",
385
+ "ممن",
386
  "من",
387
+ "من الجدير بالذكر أن",
388
+ "من المؤسف",
389
+ "من المؤكد",
390
+ "من المؤمل",
391
+ "من المرجح",
392
+ "من المفترض",
393
+ "من الممكن",
394
+ "من ثم",
395
+ "من جهة أخرى",
396
+ "من غير المرجح",
397
+ "من غير الممكن",
398
+ "من ناحية أخرى",
399
  "منذ",
400
  "مهما",
401
+ ادراً",
402
+ "ناهيك عن",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
403
  "نحن",
404
  "نحو",
405
+ سبياً",
406
  "نعم",
407
+ عمت",
408
+ فس",
409
+ "نهار",
410
+ هاراً",
 
 
411
  "هؤلاء",
 
412
  "هاتان",
413
  "هاتين",
414
+ "هدراً",
 
415
  "هذا",
416
  "هذان",
 
417
  "هذه",
418
  "هذين",
 
 
419
  "هكذا",
420
+ "هكذا دواليك",
421
  "هل",
422
  "هم",
423
  "هما",
424
  "هن",
425
+ "هنا",
426
+ "هناك",
427
+ "هنالك",
428
  "هو",
 
429
  "هي",
 
 
 
 
 
 
 
 
 
 
 
 
 
430
  "و",
 
431
  "وراء",
 
432
  "وسط",
 
 
433
  "وفق",
434
+ "وفقاً",
435
+ "وقت",
436
  "وقتما",
 
 
 
 
 
 
 
 
 
 
437
  "يا",
438
+ ذكر أن",
439
+ وم",
440
+ وماً",
441
+ ومياً",
442
+ ],
443
+ "as": [
444
+ "অন্যথা",
445
+ "অৱশ্যে",
446
+ "আপোনাৰ",
447
+ "উদাহৰণস্বৰূপে",
448
+ "ওপৰলৈ",
449
+ "কম",
450
+ "কাৰণ",
451
+ "কিন্তু",
452
+ "কেতিয়াবা",
453
+ "কোনোবা",
454
+ "গতিকে",
455
+ "তললৈ",
456
+ "তাৰ সলনি",
457
+ "তাৰে ভিতৰত",
458
+ "তেওঁলোকৰ",
459
+ "তেতিয়া",
460
+ "তেনেকুৱাই",
461
+ "ফালে",
462
+ "বহুত",
463
+ "বাওঁফালে",
464
+ "বাহিৰত",
465
+ "ভিতৰত",
466
+ "মোৰ",
467
+ "যথেষ্ট",
468
+ "যাৰ",
469
+ "যি",
470
+ "যেতিয়ালৈকে",
471
+ "যেনে",
472
+ "লৈ",
473
+ "সকলোৱে",
474
+ "সোঁফালে",
475
+ "সৰ্বাধিক",
476
  ],
477
  "bn": [
478
  "অনেক",
479
+ "অনেক ",
480
+ "অ্য ",
481
+ "অন্যথায়",
482
+ "আমরা ",
483
+ "আমার ",
484
+ "আমি",
485
+ "আর জন্য ",
486
+ "আর, ও, এবং ",
487
+ "আরও সাথে , আরো সঙ্গে ",
488
+ "উদাহরণ স্বরূপ",
 
489
  "উপর",
490
+ "",
491
+ "এ, এটা, এইটা ",
492
+ "এখানে , এখানে ",
493
+ "ও ,ওটা ,ওইটা",
494
+ "ে, সেখানে ",
495
+ "ওদের মধ্যে ",
496
+ "কখন ",
497
+ "কখও কখনও",
498
+ ", অল্প ",
499
+ "কা",
 
 
 
 
 
 
 
 
 
 
 
500
  "কি",
501
+ "কিছু ",
502
+ "কিন্তু ",
503
+ "কে ",
504
  "কেউ",
505
+ "কেমন ",
506
+ "কোথায়",
507
+ "কো",
508
+ "ডান",
509
+ "তাই, সুতরাং",
510
+ "তার, তাদের, ওর, ওদের ",
511
+ "তারপর",
512
+ "তারা ",
513
+ "তুমি, আপনি ",
514
+ "তোমর , আপনারা ",
515
+ "তোমর, তোর ",
516
+ "িকে",
517
+ "না ",
518
+ "নিচে",
519
+ "পরিবর্তে , বরং ",
520
+ "পর্য্ত",
521
+ "বাইরে",
522
+ "",
523
+ "ভি",
524
+ "ভিরে",
525
+ "মত",
526
+ "যত্ষণ না",
527
+ "যথেষ্ট",
528
+ "ি ",
529
+ "যাহার",
530
+ "হোক",
531
+ "সব, সব",
532
+ "সবাই",
533
+ "সর্বধিক",
534
+ "ন্য",
535
+ " রকমই",
536
+ ", ও",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
537
  ],
538
  "ca": [
539
  "-ho",
 
3566
  "êtes",
3567
  "être",
3568
  ],
3569
+ "gu": [
3570
+ "અંદર",
3571
+ "અડધા, અડધું",
3572
+ "અત્યારે, હમણાં",
3573
+ "અથવા, કે",
3574
+ "અને",
3575
+ "અનેક, ઘણા",
3576
+ "અન્ય, બીજું",
3577
+ "અમને, હમેં",
3578
+ "અમારા",
3579
+ "અમારું, આપણું",
3580
+ "અમે",
3581
+ "અહીં, અહીંયા",
3582
+ "આ",
3583
+ "આ દ્વારા",
3584
+ "આ રીતે, આ તરફ",
3585
+ "આની જેમ",
3586
+ "ઉપર",
3587
+ "એકલા",
3588
+ "એનાથી",
3589
+ "એમાથી",
3590
+ "ઓછું, ઓછા",
3591
+ "કઈ બાજુ",
3592
+ "કદાચ",
3593
+ "કયું, કયો, કઈ, જે",
3594
+ "કાં તો",
3595
+ "કેટલા",
3596
+ "કેટલાક, થોડા",
3597
+ "કેમ, શા માટે",
3598
+ "કેવી રીતે, કઈ રીતે",
3599
+ "કોઈ",
3600
+ "કોઈ નહી",
3601
+ "કોઈને",
3602
+ "કોઈપણ",
3603
+ "કોણ",
3604
+ "કોનું, જેમના, જેમની",
3605
+ "ક્યાંક, કોઈ જગ્યાએ",
3606
+ "ક્યાંથી, જ્યાં, ક્યાં ",
3607
+ "ક્યારે, જ્યારે",
3608
+ "ક્યારેક ક્યારેક",
3609
+ "ઘણું બધું",
3610
+ "ઘણું, પુસ્કળ, અતિશય",
3611
+ "જેથી",
3612
+ "જેને, જેમને",
3613
+ "જેમ",
3614
+ "જેમ કે, જેમ, જે રીતે, જેવા કે",
3615
+ "જો",
3616
+ "તને",
3617
+ "તમારા, તમારું",
3618
+ "તમારું",
3619
+ "તમે, તું",
3620
+ "તારું",
3621
+ "તે જેવી, તેની જેમ",
3622
+ "તે રીતે, તે તરફ",
3623
+ "તેઓ",
3624
+ "તેઓનું",
3625
+ "તેઓને, તેમને",
3626
+ "તેણીના",
3627
+ "તેથી, તો",
3628
+ "તેના",
3629
+ "તેનું, તેના",
3630
+ "તેમના, તેમનું, તેઓની",
3631
+ "તેમને. એમને",
3632
+ "તેવું",
3633
+ "ત્યાં",
3634
+ "ત્યાં સુધી",
3635
+ "થોડા",
3636
+ "થોડું",
3637
+ "દરેક",
3638
+ "દૂર",
3639
+ "દ્વારા",
3640
+ "નજીક, પાસે",
3641
+ "ના, નહિ",
3642
+ "ના, નો",
3643
+ "ની અંદર",
3644
+ "ની સામે",
3645
+ "નીચે",
3646
+ "પછી",
3647
+ "પછી, ત્યારે",
3648
+ "પછીથી",
3649
+ "પણ",
3650
+ "પરંતુ, પણ",
3651
+ "પાછળ",
3652
+ "પેલી",
3653
+ "પેલું",
3654
+ "પેલો, તે",
3655
+ "પ્રતિ",
3656
+ "ફરીથી, ફરી",
3657
+ "બંને, બેઉ",
3658
+ "બધા",
3659
+ "બહાર",
3660
+ "બાજુમાં",
3661
+ "ભરપૂર",
3662
+ "મને",
3663
+ "માં",
3664
+ "માંથી, થી",
3665
+ "માટે",
3666
+ "માથે, ઉપર",
3667
+ "મારા",
3668
+ "મારુ, મારી ",
3669
+ "મારું",
3670
+ "લીધે, કારણ કે,કેમ કે",
3671
+ "વધારાનું",
3672
+ "વધારે",
3673
+ "વધારે, વધુ ",
3674
+ "શું",
3675
+ "સમગ્ર",
3676
+ "સમાન, એક સરખું",
3677
+ "સાથે",
3678
+ "સિવાય",
3679
+ "સુધી",
3680
+ "સૌથી વધુ",
3681
+ "હજુ સુધી",
3682
+ "હું",
3683
+ ],
3684
  "hi": [
3685
  "अंदर",
3686
+ "अकेला",
3687
+ "अिरिक्त",
3688
+ "अथवा, या",
3689
+ "अधिकंश",
3690
+ "अन्यथा",
3691
+ "अब, अभि, इस वक्त",
3692
+ "अभी तक",
3693
+ "आधा",
3694
+ "आप, तुम, तुजे",
3695
+ "आपका, तुम्हारा, तेरा",
3696
+ "इधर, यहाँ",
3697
+ "इन्, इन",
3698
+ "इस तरफ",
3699
+ "इस से",
3700
+ "इसक, इसकी",
3701
+ "इसके दरा",
3702
+ "इसके साथ",
3703
+ "इसलिए",
3704
+ "इसलिए, तो",
3705
+ "उदारण क लिए",
3706
+ "उन को, इन को, उन्ह, इन्हें",
3707
+ "उनका, उनके, उनकी, नका",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3708
  "उनके",
3709
+ "उनमें से",
 
3710
  "उन्हें",
3711
+ "उस तरफ, उसी और",
3712
+ "उसकी, उसके",
3713
+ "उसके जैसा",
3714
+ "उसको, उसके, इसको, इसके, इसकी",
3715
+ "ऊपर",
3716
+ "",
 
 
 
 
 
 
3717
  "और",
3718
+ "कब, जब",
3719
+ "कभी - कभी",
3720
+ "कभी कभी",
3721
+ "क",
3722
+ "कम, थोड़ा",
3723
+ "कहीं",
3724
+ "का, की, के",
3725
+ "काफ़ी",
3726
+ "किंु, पर, लकिन, मगर",
3727
+ "कितने",
3728
+ "किस तरफ",
3729
+ "किसके, जिसके, जिनके, किसका",
3730
+ "किसको, किसे, जिसे, जिन्हे",
3731
+ "किसी को",
3732
+ "की ओर, की तरफ़",
3733
+ "कुछ, थड़े",
3734
+ "के अंदर",
3735
+ "के अलावा",
3736
+ "के ऊपर",
3737
+ "के लिय",
3738
+ "के सामने",
3739
+ "के, कैसा",
 
 
 
 
 
 
 
 
 
3740
  "कोई",
3741
+ "को कोई",
3742
+ "कोहीं",
3743
+ "कोई, कोई व्यक्ति",
3744
  "कौन",
3745
+ "कौन सा, जो",
3746
+ "कौन, जो",
3747
+ "क्या",
3748
+ "क्यों",
3749
+ "क्योंकि, चूंकि",
3750
+ "जब तक",
3751
+ "जब तक, तक तक",
3752
+ "जहाँ, कहा, किधर",
3753
+ "जिसका",
 
 
 
 
 
 
 
 
 
 
3754
  "जैसा",
3755
  "जैसे",
3756
+ "जैसे की, जैसा, वैसा",
3757
+ "जैसे, इस तरह",
3758
+ "ज्यादा, अधिक",
3759
+ "ढेर सारा",
3760
+ "ढेर सारा, बहुत सारा",
3761
  "तक",
3762
+ "तक, ज तक",
3763
+ "तब, फिर",
3764
+ "ताकि",
3765
+ "तुम्ारा",
3766
+ "तुम्हारा, तुम्हारे",
3767
+ "तुम्हे, तुझे, तुमको",
3768
+ "तेरा, तेरी",
3769
+ "थोड़ा",
3770
+ "दाहि, दाहिना",
3771
+ "दुसरा, एक और",
3772
+ "दूर",
3773
+ "दोनों",
 
 
 
 
 
 
 
 
 
3774
  "द्वारा",
3775
+ "नहीं, मत ",
 
 
 
 
 
3776
  "नीचे",
3777
+ "पास मं, पास",
3778
+ "पास, नजदीक, कीब",
3779
+ "पीछे",
 
3780
  "पूरा",
3781
+ "प्रति, स, तक",
3782
+ "प्त्येक",
3783
+ "िर, तो, तब, उस वक़्त",
3784
+ "फिर, दुारा",
3785
+ "बजाय",
3786
+ "बहुत, अनेक",
3787
+ "बहुत, ज्यादा, काफी",
3788
+ "बाएं, वाम",
3789
+ "बाद में",
3790
+ "बाद में, पीछे",
3791
+ "बाहर",
 
3792
  "भी",
3793
+ "मुझे",
3794
+ "में, भीत, अंदर",
3795
+ "में, मैं",
3796
+ "मेरा, अपना",
3797
+ "मेरा, मेरी",
3798
+ "मेरी, मेरा, मेरे",
3799
  "यदि",
3800
+ "यदि, अगर",
3801
+ "यदि, या",
3802
+ "यह, ये, इसे",
 
 
 
 
 
 
 
 
 
 
 
 
3803
  "लेकिन",
 
 
 
 
3804
  "वह",
3805
+ "वह, जो",
3806
  "वहां",
3807
+ "वह",
3808
+ "वे, व, वो, उन्होने",
3809
+ "वैस, उसके जैसा",
3810
+ "शायद",
3811
+ "सब लोग",
3812
+ "सब, सभी, सा",
3813
+ "सबसे ज्यादा, अधिका",
 
 
 
 
 
3814
  "साथ",
 
 
 
3815
  "से",
3816
+ "हम",
3817
+ "हमारा, हमारे, हमारी",
3818
+ "हर जगह",
3819
+ "हालाँकि",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3820
  ],
3821
  "id": [
3822
  "Anda",
 
5033
  "zake",
5034
  ],
5035
  "ur": [
5036
+ "اسلئے",
5037
+ "اسکے جیسا",
5038
+ "ان کے بیچ ,ان لوگوں کے بیچ",
5039
+ "اندر",
5040
+ "انکا",
5041
+ "اور ,و",
5042
+ "اوپر",
5043
+ "اگر ,گرچہ ,اگرچہ",
5044
+ اہر",
5045
+ "بایاں ,بائیں",
5046
+ "بجائے ,بدلے ,بدلے میں",
5047
+ "بہت ,بہت سارے ,بہت کچھ",
5048
+ "بہت زیادہ",
5049
+ "تب تک",
5050
+ "تم لوگ ,آپ ,آپ لوگ",
5051
+ "تمہارا ,تیرا ,آپکا",
5052
+ "تو, تم ,آپ",
5053
+ "تھوڑا ,تھوڑی",
5054
+ "جب تک",
5055
+ "جسکا",
5056
+ "جیسے",
5057
+ "حالاںکہ",
5058
+ "دایاں ,دائیں ,صحیح",
5059
+ "دوسرا",
5060
+ "زیادہ تر",
5061
+ "ساتھ ,کے ساتھ",
5062
+ "سب ,سبھی ,سب کچھ ,سارے ,سارا",
5063
+ "سب لوگ",
5064
+ "طرف ,اسکی طرف",
5065
+ "لیکن",
5066
+ "مثلأ ,مثال کے طور پے",
5067
+ "میرا",
5068
+ "میں",
5069
+ "میں ,کے اندر ,اندر",
5070
+ "نہی تو",
5071
+ "نہیں ,ناں ,نا",
5072
+ "نیچے",
5073
+ "وہ ,وہ لوگ",
5074
+ "وہ ,وہ والا, کہ",
5075
+ "وہ ,یے",
5076
+ "وہاں",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5077
  "پھر",
5078
+ "پہ ,پر ,میں",
5079
+ "کافی",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5080
  "کب",
5081
+ "کبھی کبھی",
5082
+ "کم",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5083
  "کوئی",
5084
+ "کون",
5085
+ "کونسا",
5086
+ چھ",
5087
+ ہاں",
5088
+ یا",
5089
+ یسے",
5090
+ یوںکہ ,چوںکہ ,کیوںکی",
5091
+ ےلئے",
5092
+ "ہم ,ھم",
5093
+ "یہ ,یہ والا",
5094
+ "یہاں",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5095
  ],
5096
  "vi": [
5097
+ "ai",
5098
+ "ai ai",
5099
+ "ai nấy",
5100
+ "anh",
5101
+ "anh em",
5102
+ "anh trai",
5103
+ "anh ấy",
5104
+ "ba",
5105
+ "bao",
5106
+ "bao giờ",
5107
+ "bay",
5108
+ "bà",
5109
+ "bà con",
5110
+ "bà ấy",
5111
+ "bác",
5112
+ "bây",
5113
+ "bé",
5114
  "bên",
5115
+ "bạn",
5116
+ "bạn gái",
5117
+ "bạn trai",
5118
+ "bả",
5119
+ "bản thân",
5120
+ "bất chấp",
5121
+ "bất cứ",
5122
+ "bất kì",
5123
+ "bất luận",
5124
+ "bất nhược",
5125
+ "bất quá",
5126
+ "bấy",
5127
  "bấy nhiêu",
5128
+ "bần tăng",
5129
+ "bầy quân",
5130
+ "bầy tui",
5131
+ "bậu",
5132
  "bằng",
5133
+ "bệ hạ",
5134
+ "bị cáo",
5135
+ "bố",
5136
+ "bố nó",
5137
+ "bồ",
5138
+ "bộ",
5139
  "bởi",
5140
+ "bởi vì",
5141
  "cc",
5142
+ "cha",
5143
  "chao",
5144
+ "chi",
5145
+ "chiếu theo",
5146
  "cho",
5147
  "cho dù",
5148
+ "cho đến",
5149
+ "choa",
5150
+ "chàng",
5151
  "chán",
5152
+ "cháu",
5153
+ "chí",
5154
  "chính",
5155
+ "chú",
5156
+ "chú mày",
5157
+ "chúng",
5158
+ "chúng mày",
5159
+ "chúng mình",
5160
+ "chúng nó",
5161
+ "chúng ta",
5162
+ "chúng tao",
5163
+ "chúng tôi",
5164
  "chút",
5165
+ "chăng",
5166
+ "chưa",
5167
+ "chưng",
5168
+ "chả",
5169
+ "chắc",
5170
+ "chẳng cứ",
5171
+ "chỉ",
5172
+ "chị",
5173
+ "chị gái",
5174
+ "chị ấy",
5175
+ "chớ",
5176
  "chứ",
5177
+ "con",
5178
+ "con này",
5179
+ "cuối cùng",
5180
  "các",
5181
+ "các hạ",
5182
  "cái",
5183
+ "cái gì",
5184
+ "cái này",
5185
+ "cán bộ",
5186
  "còn",
5187
  "có",
5188
  "có vẻ",
5189
+ "cóc",
5190
+ "cô",
5191
+ "cô nương",
5192
+ "cô ta",
5193
+ "cô ấy",
5194
+ "côi",
5195
+ "công tử",
5196
  "cùng",
5197
+ "cơ",
5198
  "cơ mà",
5199
+ "cưng",
5200
+ "cạnh",
5201
  "cả",
5202
+ "cả nhà",
5203
+ "cầm bằng",
5204
+ "cậu",
5205
+ "cổ",
5206
+ "cộng",
5207
+ "cụ",
5208
  "của",
5209
+ "cứ",
5210
  "do",
5211
  "do vậy",
5212
  "do đó",
 
5214
  "dù",
5215
  "dù sao",
5216
  "dù vậy",
5217
+ "dưng",
5218
  "dưới",
5219
  "dường như",
5220
  "dạ",
5221
+ "dầu",
5222
  "dẫu",
5223
  "dẫu vậy",
5224
+ "dậy",
5225
+ "dọc",
5226
+ "dợ",
5227
+ "em",
5228
+ "ghe",
5229
+ "già",
5230
+ "giá như",
5231
+ "giả dụ",
5232
+ "giả sử",
5233
  "giữa",
5234
  "gì",
5235
+ "ha",
5236
  "hay",
5237
  "hay là",
5238
+ "hen",
5239
+ "hoàng thượng",
5240
  "hoặc",
5241
+ "huynh",
5242
+ "huống",
5243
+ "huống chi",
5244
+ "huống gì",
5245
+ "huống hồ",
5246
+ "há",
5247
+ "hôn",
5248
+ "hơn",
5249
  "hơn nữa",
5250
  "hả",
5251
  "hầu hết",
5252
+ "hắn",
5253
  "hết",
5254
+ "hết cả",
5255
  "hề",
5256
  "hễ",
5257
+ "họ",
5258
+ "hổi",
5259
+ "hỡi",
5260
+ "hử",
5261
+ "khanh",
5262
+ "khi",
5263
+ "khi nào",
5264
+ "không",
5265
+ "không ai",
5266
  "không những",
5267
+ "khứa",
5268
+ "kia",
5269
+ "kém",
5270
+ "kìa",
5271
+ "kẻo",
5272
+ "kể từ",
5273
  "l",
5274
  "là",
5275
+ "lão",
5276
  "lên",
5277
  "lại nữa",
5278
+ "lần",
5279
  "lẫn",
5280
  "lắm",
5281
+ "mi",
5282
+ "min",
5283
+ "miễn",
5284
+ "moa",
5285
+ "muôn",
5286
+ "muội",
5287
  "mà",
5288
  "mà còn",
5289
+ "mày",
5290
+ "mãi",
5291
+ "mình",
5292
+ "mô",
5293
+ "mũ",
5294
+ "mất",
5295
  "mấy",
5296
+ "mầy",
5297
+ "mẫu hậu",
5298
  "mặc dù",
5299
+ "mặc dầu",
5300
  "mặt khác",
5301
+ "mẹ",
5302
+ "mẹ nó",
5303
  "mọi",
5304
+ "mọi người",
5305
+ "mọi vật",
5306
+ "mỏa",
5307
  "mỗi",
5308
  "một chút",
5309
  "một nửa",
5310
  "một số",
5311
  "một vài",
5312
  "một ít",
5313
+ "mụ",
5314
  "ngay",
5315
+ "nghe",
5316
+ "nghen",
5317
+ "nghỉ",
5318
  "ngoài",
5319
  "ngoài ra",
5320
+ "ngoại",
5321
+ "ngoải",
5322
+ "ngài",
5323
+ "ngươi",
5324
+ "người",
5325
+ "người người",
5326
+ "người ta",
5327
  "ngược lại",
5328
+ "ngộ",
5329
+ "nha",
5330
+ "nhiều",
5331
+ "nhà quân",
5332
  "nhá",
5333
  "nhân",
5334
+ "nhân dịp",
5335
  "nhé",
5336
  "như",
5337
  "như vậy",
5338
  "nhưng",
5339
+ "nhưng mà",
5340
+ "nhược bằng",
5341
  "nhất là",
5342
  "nhằm",
5343
  "nhỉ",
5344
+ "nhỏ",
5345
  "nhờ",
5346
+ "nhỡ",
5347
  "những",
5348
+ "ni",
5349
+ "nà",
5350
+ "nàng",
5351
  "nào",
5352
  "này",
5353
  "nè",
5354
  "nên",
5355
+ "nó",
5356
+ "nô tài",
5357
+ "nô tì",
5358
+ "nơi",
5359
+ "nơi nơi",
5360
+ "nấy",
5361
+ "nầy",
5362
+ "nẩu",
5363
  "nếu",
5364
  "nếu như",
5365
+ "nọ",
5366
+ "nội",
5367
+ "nớ",
5368
+ "nừng",
5369
  "nửa",
5370
  "nữa",
5371
+ "phi",
5372
  "phía",
5373
+ "phô bay",
5374
+ "phải",
5375
+ "phải hôn",
5376
+ "phải không",
5377
+ "phần",
5378
  "phần lớn",
5379
+ "phỏng",
5380
+ "phứt",
5381
  "qua",
5382
+ "quanh",
5383
+ "quý khách",
5384
+ "quý vị",
5385
  "quả",
5386
+ "quả nhân",
5387
  "ra",
5388
  "riêng",
5389
  "rùi",
 
5392
  "sang",
5393
  "sao",
5394
  "sau",
5395
+ "sau cùng",
5396
  "song",
5397
+ "song le",
5398
+ "sắp",
5399
+ "sẽ",
5400
+ "sở dĩ",
5401
+ "ta",
5402
+ "tao",
5403
+ "tau",
5404
+ "thanh niên",
5405
  "thay",
5406
+ "thay vì",
5407
  "theo",
5408
+ "theo đó",
5409
+ "thiếp",
5410
  "thiệt",
5411
+ "thành",
5412
+ "thâu",
5413
+ "thêm",
5414
  "thì",
5415
  "thí dụ",
5416
  "thôi",
5417
+ "thần",
5418
+ "thầy",
5419
+ "thẩy",
5420
  "thật",
5421
+ "thằng này",
5422
  "thế",
5423
  "thế là",
5424
  "thế mà",
5425
  "thế nhưng",
5426
+ "thị",
5427
+ "thời",
5428
+ "tiểu nhân",
5429
+ "toa",
5430
+ "toà",
5431
  "toàn",
5432
  "toàn bộ",
5433
  "toàn thể",
5434
  "trong",
5435
+ "trong khi",
5436
+ "trong đó",
5437
+ "trái",
5438
+ "trái lại",
5439
  "trên",
5440
+ "trò",
5441
  "trước",
5442
+ "trẫm",
5443
  "trời",
5444
+ "trừ phi",
5445
  "tuy",
5446
  "tuy nhiên",
5447
+ "tuy rằng",
5448
  "tuy vậy",
5449
+ "tê",
5450
  "tóm lại",
5451
+ "tôi",
5452
+ "tương đương",
5453
  "tại",
5454
+ "tại hạ",
5455
+ "tại vì",
5456
  "tất cả",
5457
+ "tầm",
5458
  "tận",
5459
+ "tỉ",
5460
  "tổ",
5461
+ "tớ",
5462
  "tới",
5463
+ "tụi",
5464
+ "tụi nó",
5465
  "tức",
5466
  "tức là",
5467
  "từ",
5468
+ "tự",
5469
+ "tựa",
5470
  "ui",
5471
  "và",
5472
  "vài",
 
5476
  "vì thế",
5477
  "vì vậy",
5478
  "ví dụ",
5479
+ "ví như",
5480
  "vô",
5481
  "vô số",
5482
  "vô vàn",
5483
+ "vả chăng",
5484
+ "vả lại",
5485
  "vậy",
5486
  "vậy là",
5487
  "vậy mà",
5488
  "về",
5489
+ "về hướng",
5490
+ "về phía",
5491
+ "vị",
5492
  "với",
5493
  "xuống",
5494
  "à",
5495
+ "á",
5496
+ "ái khanh",
5497
+ "âu là",
5498
+ "í",
5499
+ "ít",
5500
+ "ông",
5501
+ "ông ấy",
5502
+ "út",
5503
+ "ý",
5504
  "đa số",
5505
+ "đang",
5506
  "đi",
5507
  "đâu",
5508
  "đây",
5509
+ "đã",
5510
+ "đê",
5511
+ "đích thân",
5512
  "đó",
5513
  "đôi",
5514
+ "đương",
5515
  "được",
5516
+ "đại nhân",
5517
  "đấy",
5518
+ "đầu tiên",
5519
+ "đằng này",
5520
+ "đằng ấy",
5521
+ "��ẳng",
5522
+ "đặng",
5523
  "đến",
5524
  "để",
5525
+ "đệ",
5526
  "đối với",
5527
+ "đồ",
5528
+ "ơi",
5529
+ "ư",
5530
  "ạ",
5531
+ "ả",
5532
+ "ảnh",
5533
  "ấy",
5534
+ "ẻm",
5535
+ "ổng",
5536
+ "ờ",
5537
  "ở",
5538
+ "ừ",
5539
+ "ừa",
5540
+ "ừm",
5541
  ],
5542
  "yo": [
5543
  "a",
ur.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cda435e6d899daa71aba3cffccd0558ef9eb8a00f2b9ae8ba7b69326dc535511
3
+ size 396138774
ur.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:97b15e17d55fa19c6254bf3955744bfb3e19084a603ecddf1fb405f72d2f93e1
3
+ size 1001211
ur_examples_with_stats.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1c7c393d25b9d80094f10c74547b493d2f2097ce2e238f13cf11f3dc2643ea8
3
+ size 214081086
vi.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:983460dc00aaaec7325139cd87e89e937fcf5ac0cba4b16f23241fcc52d3c0ca
3
+ size 1414396214
vi.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1393f7ca703337a5b94f86ddb8e17e3171fc1ca388ca035942f594e0f0d958d
3
+ size 906762
vi_examples_with_stats.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f583cd636721d6990c3765348ae92f4549e3ea21871d36564dd1a3ab262b0aab
3
+ size 207235185