{ "report_date": "2026-03-04 15:23:06", "author": "Mullosharaf K. Arabov", "total_models_trained": 13, "best_word2vec": { "name": "w2v_cbow_100", "coverage": 1.0, "vocabulary_size": 1293992 }, "best_fasttext": { "name": "ft_cbow_100", "coverage": 1.0, "vocabulary_size": 1293992 }, "tests": { "analogies": { "word2vec": { "accuracy": 0.6, "results": [ { "analogy": "Мәскәү:Россия = Казан:Татарстан", "success": true, "rank": 5, "predictions": ["Федерациясе", "Россиянең", "Республикасы"] }, { "analogy": "укытучы:мәктәп = табиб:хастаханә", "success": true, "rank": 2, "predictions": ["табиблар", "хастаханә", "хастаханәнең"] }, { "analogy": "әти:әни = бабай:әби", "success": true, "rank": 1, "predictions": ["әби", "Бабай", "бабайның"] }, { "analogy": "зур:кечкенә = озын:кыска", "success": false, "predictions": ["буйлы", "итәкле", "Озын"] }, { "analogy": "Казан:Татарстан = Мәскәү:Россия", "success": false, "predictions": ["Русия", "республика", "Русиянең"] } ] }, "fasttext": { "accuracy": 0.0, "results": [ { "analogy": "Мәскәү:Россия = Казан:Татарстан", "success": false, "predictions": [".Россия", ")Россия", ";Россия"] }, { "analogy": "укытучы:мәктәп = табиб:хастаханә", "success": false, "predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"] }, { "analogy": "әти:әни = бабай:әби", "success": false, "predictions": ["бабай-әби", "бабайКар", "бабайКыш"] }, { "analogy": "зур:кечкенә = озын:кыска", "success": false, "predictions": ["озын-озын", "озынрагын", "озыны"] }, { "analogy": "Казан:Татарстан = Мәскәү:Россия", "success": false, "predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"] } ] } }, "semantic_similarity": { "word2vec": { "average": 0.568, "pairs": { "Казан-Мәскәү": 0.777, "татар-башкорт": 0.793, "мәктәп-университет": 0.565, "укытучы-укучы": 0.742, "китап-газета": 0.645, "якшы-начар": -0.042, "йөгерү-бару": 0.367, "алма-груша": 0.693 } }, "fasttext": { "average": 0.582, "pairs": { "Казан-Мәскәү": 0.736, "татар-башкорт": 0.823, "мәктәп-университет": 0.621, "укытучы-укучы": 0.771, "китап-газета": 0.596, "якшы-начар": 0.303, "йөгерү-бару": 0.545, "алма-груша": 0.263 } } }, "oov": { "words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"], "word2vec": [true, true, true, true, true, true], "fasttext": [true, true, true, true, true, true] }, "nearest_neighbours": { "word2vec": { "татар": [ {"word": "Татар", "similarity": 0.889}, {"word": "башкорт", "similarity": 0.793}, {"word": "урыс", "similarity": 0.788}, {"word": "татарның", "similarity": 0.783}, {"word": "рус", "similarity": 0.755} ], "Казан": [ {"word": "Мәскәү", "similarity": 0.777}, {"word": "Чаллы", "similarity": 0.771}, {"word": "Алабуга", "similarity": 0.733}, {"word": "Чистай", "similarity": 0.717}, {"word": "Уфа", "similarity": 0.715} ], "мәктәп": [ {"word": "Мәктәп", "similarity": 0.886}, {"word": "мәктәпнең", "similarity": 0.878}, {"word": "гимназия", "similarity": 0.818}, {"word": "мәктәптә", "similarity": 0.813}, {"word": "укытучылар", "similarity": 0.797} ], "укытучы": [ {"word": "Укытучы", "similarity": 0.821}, {"word": "мәктәптә", "similarity": 0.816}, {"word": "тәрбияче", "similarity": 0.806}, {"word": "укытучылар", "similarity": 0.794}, {"word": "укытучысы", "similarity": 0.788} ], "якшы": [ {"word": "фикер-ниятенә", "similarity": 0.758}, {"word": "фильмыМарска", "similarity": 0.744}, {"word": "1418,", "similarity": 0.731}, {"word": "«мә-аа-ауу»,", "similarity": 0.728}, {"word": "(273", "similarity": 0.723} ] }, "fasttext": { "татар": [ {"word": "милләттатар", "similarity": 0.944}, {"word": "дтатар", "similarity": 0.940}, {"word": "—татар", "similarity": 0.938}, {"word": "–татар", "similarity": 0.938}, {"word": "Ттатар", "similarity": 0.934} ], "Казан": [ {"word": "»Казан", "similarity": 0.940}, {"word": "–Казан", "similarity": 0.937}, {"word": ".Казан", "similarity": 0.936}, {"word": ")Казан", "similarity": 0.935}, {"word": "-Казан", "similarity": 0.935} ], "мәктәп": [ {"word": "-мәктәп", "similarity": 0.966}, {"word": "—мәктәп", "similarity": 0.964}, {"word": "мәктәп—", "similarity": 0.956}, {"word": "\"мәктәп", "similarity": 0.956}, {"word": "мәктәп…", "similarity": 0.954} ], "укытучы": [ {"word": "укытучы-", "similarity": 0.951}, {"word": "укытучылы", "similarity": 0.945}, {"word": "укытучы-тәрбияче", "similarity": 0.945}, {"word": "укытучы-остаз", "similarity": 0.940}, {"word": "укытучы-хәлфә", "similarity": 0.935} ], "якшы": [ {"word": "якш", "similarity": 0.788}, {"word": "як—", "similarity": 0.779}, {"word": "ягы-ры", "similarity": 0.774}, {"word": "якй", "similarity": 0.771}, {"word": "якшмбе", "similarity": 0.768} ] } }, "pca": { "word2vec_explained_variance": 0.384, "fasttext_explained_variance": 0.412 }, "intuitive_tests": { "word2vec": { "татар_expected": ["башкорт", "рус", "милләт"], "татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"], "татар_matches": ["башкорт", "рус"], "казан_expected": ["Мәскәү", "Уфа", "шәһәр"], "казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"], "казан_matches": ["Мәскәү", "Уфа"], "мәктәп_хастаханә_similarity": 0.490, "мәктәп_хастаханә_expected_dissimilar": true }, "fasttext": { "татар_expected": ["башкорт", "рус", "милләт"], "татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"], "татар_matches": [], "казан_expected": ["Мәскәү", "Уфа", "шәһәр"], "казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"], "казан_matches": [], "мәктәп_хастаханә_similarity": 0.514, "мәктәп_хастаханә_expected_dissimilar": false } } }, "summary": { "metrics": { "Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"}, "Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"}, "Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582}, "OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"}, "Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992}, "Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323} }, "final_scores": { "Word2Vec": 0.635, "FastText": 0.487 }, "winner": { "model": "Word2Vec", "name": "w2v_cbow_100", "coverage": "100.00%", "vocabulary_size": 1293992 } }, "observations": [ "Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)", "Обе модели имеют одинаковое покрытие словаря (100%)", "FastText показывает немного лучшую семантическую близость (0.582 vs 0.568)", "FastText обучается почти в 2 раза дольше (3323с vs 1760с)", "Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)" ], "recommendations": { "word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов", "fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)" }, "fasttext_problems": [ "Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов", "Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec", "Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум", "Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее" ] }