Create model_comparison_results.json
Browse files- model_comparison_results.json +254 -0
model_comparison_results.json
ADDED
|
@@ -0,0 +1,254 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"report_date": "2026-03-04 15:23:06",
|
| 3 |
+
"author": "Mullosharaf K. Arabov",
|
| 4 |
+
"total_models_trained": 13,
|
| 5 |
+
"best_word2vec": {
|
| 6 |
+
"name": "w2v_cbow_100",
|
| 7 |
+
"coverage": 1.0,
|
| 8 |
+
"vocabulary_size": 1293992
|
| 9 |
+
},
|
| 10 |
+
"best_fasttext": {
|
| 11 |
+
"name": "ft_cbow_100",
|
| 12 |
+
"coverage": 1.0,
|
| 13 |
+
"vocabulary_size": 1293992
|
| 14 |
+
},
|
| 15 |
+
"tests": {
|
| 16 |
+
"analogies": {
|
| 17 |
+
"word2vec": {
|
| 18 |
+
"accuracy": 0.6,
|
| 19 |
+
"results": [
|
| 20 |
+
{
|
| 21 |
+
"analogy": "Мәскәү:Россия = Казан:Татарстан",
|
| 22 |
+
"success": true,
|
| 23 |
+
"rank": 5,
|
| 24 |
+
"predictions": ["Федерациясе", "Россиянең", "Республикасы"]
|
| 25 |
+
},
|
| 26 |
+
{
|
| 27 |
+
"analogy": "укытучы:мәктәп = табиб:хастаханә",
|
| 28 |
+
"success": true,
|
| 29 |
+
"rank": 2,
|
| 30 |
+
"predictions": ["табиблар", "хастаханә", "хастаханәнең"]
|
| 31 |
+
},
|
| 32 |
+
{
|
| 33 |
+
"analogy": "әти:әни = бабай:әби",
|
| 34 |
+
"success": true,
|
| 35 |
+
"rank": 1,
|
| 36 |
+
"predictions": ["әби", "Бабай", "бабайның"]
|
| 37 |
+
},
|
| 38 |
+
{
|
| 39 |
+
"analogy": "зур:кечкенә = озын:кыска",
|
| 40 |
+
"success": false,
|
| 41 |
+
"predictions": ["буйлы", "итәкле", "Озын"]
|
| 42 |
+
},
|
| 43 |
+
{
|
| 44 |
+
"analogy": "Казан:Татарстан = Мәскәү:Россия",
|
| 45 |
+
"success": false,
|
| 46 |
+
"predictions": ["Русия", "республика", "Русиянең"]
|
| 47 |
+
}
|
| 48 |
+
]
|
| 49 |
+
},
|
| 50 |
+
"fasttext": {
|
| 51 |
+
"accuracy": 0.0,
|
| 52 |
+
"results": [
|
| 53 |
+
{
|
| 54 |
+
"analogy": "Мәскәү:Россия = Казан:Татарстан",
|
| 55 |
+
"success": false,
|
| 56 |
+
"predictions": [".Россия", ")Россия", ";Россия"]
|
| 57 |
+
},
|
| 58 |
+
{
|
| 59 |
+
"analogy": "укытучы:мәктәп = табиб:хастаханә",
|
| 60 |
+
"success": false,
|
| 61 |
+
"predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"]
|
| 62 |
+
},
|
| 63 |
+
{
|
| 64 |
+
"analogy": "әти:әни = бабай:әби",
|
| 65 |
+
"success": false,
|
| 66 |
+
"predictions": ["бабай-әби", "бабайКар", "бабайКыш"]
|
| 67 |
+
},
|
| 68 |
+
{
|
| 69 |
+
"analogy": "зур:кечкенә = озын:кыска",
|
| 70 |
+
"success": false,
|
| 71 |
+
"predictions": ["озын-озын", "озынрагын", "озыны"]
|
| 72 |
+
},
|
| 73 |
+
{
|
| 74 |
+
"analogy": "Казан:Татарстан = Мәскәү:Россия",
|
| 75 |
+
"success": false,
|
| 76 |
+
"predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"]
|
| 77 |
+
}
|
| 78 |
+
]
|
| 79 |
+
}
|
| 80 |
+
},
|
| 81 |
+
"semantic_similarity": {
|
| 82 |
+
"word2vec": {
|
| 83 |
+
"average": 0.568,
|
| 84 |
+
"pairs": {
|
| 85 |
+
"Казан-Мәскәү": 0.777,
|
| 86 |
+
"татар-башкорт": 0.793,
|
| 87 |
+
"мәктәп-университет": 0.565,
|
| 88 |
+
"укытучы-укучы": 0.742,
|
| 89 |
+
"китап-газета": 0.645,
|
| 90 |
+
"якшы-начар": -0.042,
|
| 91 |
+
"йөгерү-бару": 0.367,
|
| 92 |
+
"алма-груша": 0.693
|
| 93 |
+
}
|
| 94 |
+
},
|
| 95 |
+
"fasttext": {
|
| 96 |
+
"average": 0.582,
|
| 97 |
+
"pairs": {
|
| 98 |
+
"Казан-Мәскәү": 0.736,
|
| 99 |
+
"татар-башкорт": 0.823,
|
| 100 |
+
"мәктәп-университет": 0.621,
|
| 101 |
+
"укытучы-укучы": 0.771,
|
| 102 |
+
"китап-газета": 0.596,
|
| 103 |
+
"якшы-начар": 0.303,
|
| 104 |
+
"йөгерү-бару": 0.545,
|
| 105 |
+
"алма-груша": 0.263
|
| 106 |
+
}
|
| 107 |
+
}
|
| 108 |
+
},
|
| 109 |
+
"oov": {
|
| 110 |
+
"words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"],
|
| 111 |
+
"word2vec": [true, true, true, true, true, true],
|
| 112 |
+
"fasttext": [true, true, true, true, true, true]
|
| 113 |
+
},
|
| 114 |
+
"nearest_neighbours": {
|
| 115 |
+
"word2vec": {
|
| 116 |
+
"татар": [
|
| 117 |
+
{"word": "Татар", "similarity": 0.889},
|
| 118 |
+
{"word": "башкорт", "similarity": 0.793},
|
| 119 |
+
{"word": "урыс", "similarity": 0.788},
|
| 120 |
+
{"word": "татарның", "similarity": 0.783},
|
| 121 |
+
{"word": "рус", "similarity": 0.755}
|
| 122 |
+
],
|
| 123 |
+
"Казан": [
|
| 124 |
+
{"word": "Мәскәү", "similarity": 0.777},
|
| 125 |
+
{"word": "Чаллы", "similarity": 0.771},
|
| 126 |
+
{"word": "Алабуга", "similarity": 0.733},
|
| 127 |
+
{"word": "Чистай", "similarity": 0.717},
|
| 128 |
+
{"word": "Уфа", "similarity": 0.715}
|
| 129 |
+
],
|
| 130 |
+
"мәктәп": [
|
| 131 |
+
{"word": "Мәктәп", "similarity": 0.886},
|
| 132 |
+
{"word": "мәктәпнең", "similarity": 0.878},
|
| 133 |
+
{"word": "гимназия", "similarity": 0.818},
|
| 134 |
+
{"word": "мәктәптә", "similarity": 0.813},
|
| 135 |
+
{"word": "укытучылар", "similarity": 0.797}
|
| 136 |
+
],
|
| 137 |
+
"укытучы": [
|
| 138 |
+
{"word": "Укытучы", "similarity": 0.821},
|
| 139 |
+
{"word": "мәктәптә", "similarity": 0.816},
|
| 140 |
+
{"word": "тәрбияче", "similarity": 0.806},
|
| 141 |
+
{"word": "укытучылар", "similarity": 0.794},
|
| 142 |
+
{"word": "укытучысы", "similarity": 0.788}
|
| 143 |
+
],
|
| 144 |
+
"якшы": [
|
| 145 |
+
{"word": "фикер-ниятенә", "similarity": 0.758},
|
| 146 |
+
{"word": "фильмыМарска", "similarity": 0.744},
|
| 147 |
+
{"word": "1418,", "similarity": 0.731},
|
| 148 |
+
{"word": "«мә-аа-ауу»,", "similarity": 0.728},
|
| 149 |
+
{"word": "(273", "similarity": 0.723}
|
| 150 |
+
]
|
| 151 |
+
},
|
| 152 |
+
"fasttext": {
|
| 153 |
+
"татар": [
|
| 154 |
+
{"word": "милләттатар", "similarity": 0.944},
|
| 155 |
+
{"word": "дтатар", "similarity": 0.940},
|
| 156 |
+
{"word": "—татар", "similarity": 0.938},
|
| 157 |
+
{"word": "–татар", "similarity": 0.938},
|
| 158 |
+
{"word": "Ттатар", "similarity": 0.934}
|
| 159 |
+
],
|
| 160 |
+
"Казан": [
|
| 161 |
+
{"word": "»Казан", "similarity": 0.940},
|
| 162 |
+
{"word": "–Казан", "similarity": 0.937},
|
| 163 |
+
{"word": ".Казан", "similarity": 0.936},
|
| 164 |
+
{"word": ")Казан", "similarity": 0.935},
|
| 165 |
+
{"word": "-Казан", "similarity": 0.935}
|
| 166 |
+
],
|
| 167 |
+
"мәктәп": [
|
| 168 |
+
{"word": "-мәктәп", "similarity": 0.966},
|
| 169 |
+
{"word": "—мәктәп", "similarity": 0.964},
|
| 170 |
+
{"word": "мәктәп—", "similarity": 0.956},
|
| 171 |
+
{"word": "\"мәктәп", "similarity": 0.956},
|
| 172 |
+
{"word": "мәктәп…", "similarity": 0.954}
|
| 173 |
+
],
|
| 174 |
+
"укытучы": [
|
| 175 |
+
{"word": "укытучы-", "similarity": 0.951},
|
| 176 |
+
{"word": "укытучылы", "similarity": 0.945},
|
| 177 |
+
{"word": "укытучы-тәрбияче", "similarity": 0.945},
|
| 178 |
+
{"word": "укытучы-остаз", "similarity": 0.940},
|
| 179 |
+
{"word": "укытучы-хәлфә", "similarity": 0.935}
|
| 180 |
+
],
|
| 181 |
+
"якшы": [
|
| 182 |
+
{"word": "якш", "similarity": 0.788},
|
| 183 |
+
{"word": "як—", "similarity": 0.779},
|
| 184 |
+
{"word": "ягы-ры", "similarity": 0.774},
|
| 185 |
+
{"word": "якй", "similarity": 0.771},
|
| 186 |
+
{"word": "якшмбе", "similarity": 0.768}
|
| 187 |
+
]
|
| 188 |
+
}
|
| 189 |
+
},
|
| 190 |
+
"pca": {
|
| 191 |
+
"word2vec_explained_variance": 0.384,
|
| 192 |
+
"fasttext_explained_variance": 0.412
|
| 193 |
+
},
|
| 194 |
+
"intuitive_tests": {
|
| 195 |
+
"word2vec": {
|
| 196 |
+
"татар_expected": ["башкорт", "рус", "милләт"],
|
| 197 |
+
"татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"],
|
| 198 |
+
"татар_matches": ["башкорт", "рус"],
|
| 199 |
+
"казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
|
| 200 |
+
"казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"],
|
| 201 |
+
"казан_matches": ["Мәскәү", "Уфа"],
|
| 202 |
+
"мәктәп_хастаханә_similarity": 0.490,
|
| 203 |
+
"мәктәп_хастаханә_expected_dissimilar": true
|
| 204 |
+
},
|
| 205 |
+
"fasttext": {
|
| 206 |
+
"татар_expected": ["башкорт", "рус", "милләт"],
|
| 207 |
+
"татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"],
|
| 208 |
+
"татар_matches": [],
|
| 209 |
+
"казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
|
| 210 |
+
"казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"],
|
| 211 |
+
"казан_matches": [],
|
| 212 |
+
"мәктәп_хастаханә_similarity": 0.514,
|
| 213 |
+
"мәктәп_хастаханә_expected_dissimilar": false
|
| 214 |
+
}
|
| 215 |
+
}
|
| 216 |
+
},
|
| 217 |
+
"summary": {
|
| 218 |
+
"metrics": {
|
| 219 |
+
"Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"},
|
| 220 |
+
"Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"},
|
| 221 |
+
"Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582},
|
| 222 |
+
"OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"},
|
| 223 |
+
"Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992},
|
| 224 |
+
"Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323}
|
| 225 |
+
},
|
| 226 |
+
"final_scores": {
|
| 227 |
+
"Word2Vec": 0.635,
|
| 228 |
+
"FastText": 0.487
|
| 229 |
+
},
|
| 230 |
+
"winner": {
|
| 231 |
+
"model": "Word2Vec",
|
| 232 |
+
"name": "w2v_cbow_100",
|
| 233 |
+
"coverage": "100.00%",
|
| 234 |
+
"vocabulary_size": 1293992
|
| 235 |
+
}
|
| 236 |
+
},
|
| 237 |
+
"observations": [
|
| 238 |
+
"Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)",
|
| 239 |
+
"Обе модели имеют одинаковое покрытие словаря (100%)",
|
| 240 |
+
"FastText показывает немного лучшую семантич��скую близость (0.582 vs 0.568)",
|
| 241 |
+
"FastText обучается почти в 2 раза дольше (3323с vs 1760с)",
|
| 242 |
+
"Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)"
|
| 243 |
+
],
|
| 244 |
+
"recommendations": {
|
| 245 |
+
"word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов",
|
| 246 |
+
"fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)"
|
| 247 |
+
},
|
| 248 |
+
"fasttext_problems": [
|
| 249 |
+
"Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов",
|
| 250 |
+
"Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec",
|
| 251 |
+
"Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум",
|
| 252 |
+
"Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее"
|
| 253 |
+
]
|
| 254 |
+
}
|