Tatar
ArabovMK commited on
Commit
e9b26e6
·
verified ·
1 Parent(s): e24a130

Create model_comparison_results.json

Browse files
Files changed (1) hide show
  1. model_comparison_results.json +254 -0
model_comparison_results.json ADDED
@@ -0,0 +1,254 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "report_date": "2026-03-04 15:23:06",
3
+ "author": "Mullosharaf K. Arabov",
4
+ "total_models_trained": 13,
5
+ "best_word2vec": {
6
+ "name": "w2v_cbow_100",
7
+ "coverage": 1.0,
8
+ "vocabulary_size": 1293992
9
+ },
10
+ "best_fasttext": {
11
+ "name": "ft_cbow_100",
12
+ "coverage": 1.0,
13
+ "vocabulary_size": 1293992
14
+ },
15
+ "tests": {
16
+ "analogies": {
17
+ "word2vec": {
18
+ "accuracy": 0.6,
19
+ "results": [
20
+ {
21
+ "analogy": "Мәскәү:Россия = Казан:Татарстан",
22
+ "success": true,
23
+ "rank": 5,
24
+ "predictions": ["Федерациясе", "Россиянең", "Республикасы"]
25
+ },
26
+ {
27
+ "analogy": "укытучы:мәктәп = табиб:хастаханә",
28
+ "success": true,
29
+ "rank": 2,
30
+ "predictions": ["табиблар", "хастаханә", "хастаханәнең"]
31
+ },
32
+ {
33
+ "analogy": "әти:әни = бабай:әби",
34
+ "success": true,
35
+ "rank": 1,
36
+ "predictions": ["әби", "Бабай", "бабайның"]
37
+ },
38
+ {
39
+ "analogy": "зур:кечкенә = озын:кыска",
40
+ "success": false,
41
+ "predictions": ["буйлы", "итәкле", "Озын"]
42
+ },
43
+ {
44
+ "analogy": "Казан:Татарстан = Мәскәү:Россия",
45
+ "success": false,
46
+ "predictions": ["Русия", "республика", "Русиянең"]
47
+ }
48
+ ]
49
+ },
50
+ "fasttext": {
51
+ "accuracy": 0.0,
52
+ "results": [
53
+ {
54
+ "analogy": "Мәскәү:Россия = Казан:Татарстан",
55
+ "success": false,
56
+ "predictions": [".Россия", ")Россия", ";Россия"]
57
+ },
58
+ {
59
+ "analogy": "укытучы:мәктәп = табиб:хастаханә",
60
+ "success": false,
61
+ "predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"]
62
+ },
63
+ {
64
+ "analogy": "әти:әни = бабай:әби",
65
+ "success": false,
66
+ "predictions": ["бабай-әби", "бабайКар", "бабайКыш"]
67
+ },
68
+ {
69
+ "analogy": "зур:кечкенә = озын:кыска",
70
+ "success": false,
71
+ "predictions": ["озын-озын", "озынрагын", "озыны"]
72
+ },
73
+ {
74
+ "analogy": "Казан:Татарстан = Мәскәү:Россия",
75
+ "success": false,
76
+ "predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"]
77
+ }
78
+ ]
79
+ }
80
+ },
81
+ "semantic_similarity": {
82
+ "word2vec": {
83
+ "average": 0.568,
84
+ "pairs": {
85
+ "Казан-Мәскәү": 0.777,
86
+ "татар-башкорт": 0.793,
87
+ "мәктәп-университет": 0.565,
88
+ "укытучы-укучы": 0.742,
89
+ "китап-газета": 0.645,
90
+ "якшы-начар": -0.042,
91
+ "йөгерү-бару": 0.367,
92
+ "алма-груша": 0.693
93
+ }
94
+ },
95
+ "fasttext": {
96
+ "average": 0.582,
97
+ "pairs": {
98
+ "Казан-Мәскәү": 0.736,
99
+ "татар-башкорт": 0.823,
100
+ "мәктәп-университет": 0.621,
101
+ "укытучы-укучы": 0.771,
102
+ "китап-газета": 0.596,
103
+ "якшы-начар": 0.303,
104
+ "йөгерү-бару": 0.545,
105
+ "алма-груша": 0.263
106
+ }
107
+ }
108
+ },
109
+ "oov": {
110
+ "words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"],
111
+ "word2vec": [true, true, true, true, true, true],
112
+ "fasttext": [true, true, true, true, true, true]
113
+ },
114
+ "nearest_neighbours": {
115
+ "word2vec": {
116
+ "татар": [
117
+ {"word": "Татар", "similarity": 0.889},
118
+ {"word": "башкорт", "similarity": 0.793},
119
+ {"word": "урыс", "similarity": 0.788},
120
+ {"word": "татарның", "similarity": 0.783},
121
+ {"word": "рус", "similarity": 0.755}
122
+ ],
123
+ "Казан": [
124
+ {"word": "Мәскәү", "similarity": 0.777},
125
+ {"word": "Чаллы", "similarity": 0.771},
126
+ {"word": "Алабуга", "similarity": 0.733},
127
+ {"word": "Чистай", "similarity": 0.717},
128
+ {"word": "Уфа", "similarity": 0.715}
129
+ ],
130
+ "мәктәп": [
131
+ {"word": "Мәктәп", "similarity": 0.886},
132
+ {"word": "мәктәпнең", "similarity": 0.878},
133
+ {"word": "гимназия", "similarity": 0.818},
134
+ {"word": "мәктәптә", "similarity": 0.813},
135
+ {"word": "укытучылар", "similarity": 0.797}
136
+ ],
137
+ "укытучы": [
138
+ {"word": "Укытучы", "similarity": 0.821},
139
+ {"word": "мәктәптә", "similarity": 0.816},
140
+ {"word": "тәрбияче", "similarity": 0.806},
141
+ {"word": "укытучылар", "similarity": 0.794},
142
+ {"word": "укытучысы", "similarity": 0.788}
143
+ ],
144
+ "якшы": [
145
+ {"word": "фикер-ниятенә", "similarity": 0.758},
146
+ {"word": "фильмыМарска", "similarity": 0.744},
147
+ {"word": "1418,", "similarity": 0.731},
148
+ {"word": "«мә-аа-ауу»,", "similarity": 0.728},
149
+ {"word": "(273", "similarity": 0.723}
150
+ ]
151
+ },
152
+ "fasttext": {
153
+ "татар": [
154
+ {"word": "милләттатар", "similarity": 0.944},
155
+ {"word": "дтатар", "similarity": 0.940},
156
+ {"word": "—татар", "similarity": 0.938},
157
+ {"word": "–татар", "similarity": 0.938},
158
+ {"word": "Ттатар", "similarity": 0.934}
159
+ ],
160
+ "Казан": [
161
+ {"word": "»Казан", "similarity": 0.940},
162
+ {"word": "–Казан", "similarity": 0.937},
163
+ {"word": ".Казан", "similarity": 0.936},
164
+ {"word": ")Казан", "similarity": 0.935},
165
+ {"word": "-Казан", "similarity": 0.935}
166
+ ],
167
+ "мәктәп": [
168
+ {"word": "-мәктәп", "similarity": 0.966},
169
+ {"word": "—мәктәп", "similarity": 0.964},
170
+ {"word": "мәктәп—", "similarity": 0.956},
171
+ {"word": "\"мәктәп", "similarity": 0.956},
172
+ {"word": "мәктәп…", "similarity": 0.954}
173
+ ],
174
+ "укытучы": [
175
+ {"word": "укытучы-", "similarity": 0.951},
176
+ {"word": "укытучылы", "similarity": 0.945},
177
+ {"word": "укытучы-тәрбияче", "similarity": 0.945},
178
+ {"word": "укытучы-остаз", "similarity": 0.940},
179
+ {"word": "укытучы-хәлфә", "similarity": 0.935}
180
+ ],
181
+ "якшы": [
182
+ {"word": "якш", "similarity": 0.788},
183
+ {"word": "як—", "similarity": 0.779},
184
+ {"word": "ягы-ры", "similarity": 0.774},
185
+ {"word": "якй", "similarity": 0.771},
186
+ {"word": "якшмбе", "similarity": 0.768}
187
+ ]
188
+ }
189
+ },
190
+ "pca": {
191
+ "word2vec_explained_variance": 0.384,
192
+ "fasttext_explained_variance": 0.412
193
+ },
194
+ "intuitive_tests": {
195
+ "word2vec": {
196
+ "татар_expected": ["башкорт", "рус", "милләт"],
197
+ "татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"],
198
+ "татар_matches": ["башкорт", "рус"],
199
+ "казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
200
+ "казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"],
201
+ "казан_matches": ["Мәскәү", "Уфа"],
202
+ "мәктәп_хастаханә_similarity": 0.490,
203
+ "мәктәп_хастаханә_expected_dissimilar": true
204
+ },
205
+ "fasttext": {
206
+ "татар_expected": ["башкорт", "рус", "милләт"],
207
+ "татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"],
208
+ "татар_matches": [],
209
+ "казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
210
+ "казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"],
211
+ "казан_matches": [],
212
+ "мәктәп_хастаханә_similarity": 0.514,
213
+ "мәктәп_хастаханә_expected_dissimilar": false
214
+ }
215
+ }
216
+ },
217
+ "summary": {
218
+ "metrics": {
219
+ "Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"},
220
+ "Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"},
221
+ "Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582},
222
+ "OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"},
223
+ "Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992},
224
+ "Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323}
225
+ },
226
+ "final_scores": {
227
+ "Word2Vec": 0.635,
228
+ "FastText": 0.487
229
+ },
230
+ "winner": {
231
+ "model": "Word2Vec",
232
+ "name": "w2v_cbow_100",
233
+ "coverage": "100.00%",
234
+ "vocabulary_size": 1293992
235
+ }
236
+ },
237
+ "observations": [
238
+ "Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)",
239
+ "Обе модели имеют одинаковое покрытие словаря (100%)",
240
+ "FastText показывает немного лучшую семантич��скую близость (0.582 vs 0.568)",
241
+ "FastText обучается почти в 2 раза дольше (3323с vs 1760с)",
242
+ "Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)"
243
+ ],
244
+ "recommendations": {
245
+ "word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов",
246
+ "fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)"
247
+ },
248
+ "fasttext_problems": [
249
+ "Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов",
250
+ "Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec",
251
+ "Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум",
252
+ "Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее"
253
+ ]
254
+ }