| { |
| "report_date": "2026-03-04 15:23:06", |
| "author": "Mullosharaf K. Arabov", |
| "total_models_trained": 13, |
| "best_word2vec": { |
| "name": "w2v_cbow_100", |
| "coverage": 1.0, |
| "vocabulary_size": 1293992 |
| }, |
| "best_fasttext": { |
| "name": "ft_cbow_100", |
| "coverage": 1.0, |
| "vocabulary_size": 1293992 |
| }, |
| "tests": { |
| "analogies": { |
| "word2vec": { |
| "accuracy": 0.6, |
| "results": [ |
| { |
| "analogy": "Мәскәү:Россия = Казан:Татарстан", |
| "success": true, |
| "rank": 5, |
| "predictions": ["Федерациясе", "Россиянең", "Республикасы"] |
| }, |
| { |
| "analogy": "укытучы:мәктәп = табиб:хастаханә", |
| "success": true, |
| "rank": 2, |
| "predictions": ["табиблар", "хастаханә", "хастаханәнең"] |
| }, |
| { |
| "analogy": "әти:әни = бабай:әби", |
| "success": true, |
| "rank": 1, |
| "predictions": ["әби", "Бабай", "бабайның"] |
| }, |
| { |
| "analogy": "зур:кечкенә = озын:кыска", |
| "success": false, |
| "predictions": ["буйлы", "итәкле", "Озын"] |
| }, |
| { |
| "analogy": "Казан:Татарстан = Мәскәү:Россия", |
| "success": false, |
| "predictions": ["Русия", "республика", "Русиянең"] |
| } |
| ] |
| }, |
| "fasttext": { |
| "accuracy": 0.0, |
| "results": [ |
| { |
| "analogy": "Мәскәү:Россия = Казан:Татарстан", |
| "success": false, |
| "predictions": [".Россия", ")Россия", ";Россия"] |
| }, |
| { |
| "analogy": "укытучы:мәктәп = табиб:хастаханә", |
| "success": false, |
| "predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"] |
| }, |
| { |
| "analogy": "әти:әни = бабай:әби", |
| "success": false, |
| "predictions": ["бабай-әби", "бабайКар", "бабайКыш"] |
| }, |
| { |
| "analogy": "зур:кечкенә = озын:кыска", |
| "success": false, |
| "predictions": ["озын-озын", "озынрагын", "озыны"] |
| }, |
| { |
| "analogy": "Казан:Татарстан = Мәскәү:Россия", |
| "success": false, |
| "predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"] |
| } |
| ] |
| } |
| }, |
| "semantic_similarity": { |
| "word2vec": { |
| "average": 0.568, |
| "pairs": { |
| "Казан-Мәскәү": 0.777, |
| "татар-башкорт": 0.793, |
| "мәктәп-университет": 0.565, |
| "укытучы-укучы": 0.742, |
| "китап-газета": 0.645, |
| "якшы-начар": -0.042, |
| "йөгерү-бару": 0.367, |
| "алма-груша": 0.693 |
| } |
| }, |
| "fasttext": { |
| "average": 0.582, |
| "pairs": { |
| "Казан-Мәскәү": 0.736, |
| "татар-башкорт": 0.823, |
| "мәктәп-университет": 0.621, |
| "укытучы-укучы": 0.771, |
| "китап-газета": 0.596, |
| "якшы-начар": 0.303, |
| "йөгерү-бару": 0.545, |
| "алма-груша": 0.263 |
| } |
| } |
| }, |
| "oov": { |
| "words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"], |
| "word2vec": [true, true, true, true, true, true], |
| "fasttext": [true, true, true, true, true, true] |
| }, |
| "nearest_neighbours": { |
| "word2vec": { |
| "татар": [ |
| {"word": "Татар", "similarity": 0.889}, |
| {"word": "башкорт", "similarity": 0.793}, |
| {"word": "урыс", "similarity": 0.788}, |
| {"word": "татарның", "similarity": 0.783}, |
| {"word": "рус", "similarity": 0.755} |
| ], |
| "Казан": [ |
| {"word": "Мәскәү", "similarity": 0.777}, |
| {"word": "Чаллы", "similarity": 0.771}, |
| {"word": "Алабуга", "similarity": 0.733}, |
| {"word": "Чистай", "similarity": 0.717}, |
| {"word": "Уфа", "similarity": 0.715} |
| ], |
| "мәктәп": [ |
| {"word": "Мәктәп", "similarity": 0.886}, |
| {"word": "мәктәпнең", "similarity": 0.878}, |
| {"word": "гимназия", "similarity": 0.818}, |
| {"word": "мәктәптә", "similarity": 0.813}, |
| {"word": "укытучылар", "similarity": 0.797} |
| ], |
| "укытучы": [ |
| {"word": "Укытучы", "similarity": 0.821}, |
| {"word": "мәктәптә", "similarity": 0.816}, |
| {"word": "тәрбияче", "similarity": 0.806}, |
| {"word": "укытучылар", "similarity": 0.794}, |
| {"word": "укытучысы", "similarity": 0.788} |
| ], |
| "якшы": [ |
| {"word": "фикер-ниятенә", "similarity": 0.758}, |
| {"word": "фильмыМарска", "similarity": 0.744}, |
| {"word": "1418,", "similarity": 0.731}, |
| {"word": "«мә-аа-ауу»,", "similarity": 0.728}, |
| {"word": "(273", "similarity": 0.723} |
| ] |
| }, |
| "fasttext": { |
| "татар": [ |
| {"word": "милләттатар", "similarity": 0.944}, |
| {"word": "дтатар", "similarity": 0.940}, |
| {"word": "—татар", "similarity": 0.938}, |
| {"word": "–татар", "similarity": 0.938}, |
| {"word": "Ттатар", "similarity": 0.934} |
| ], |
| "Казан": [ |
| {"word": "»Казан", "similarity": 0.940}, |
| {"word": "–Казан", "similarity": 0.937}, |
| {"word": ".Казан", "similarity": 0.936}, |
| {"word": ")Казан", "similarity": 0.935}, |
| {"word": "-Казан", "similarity": 0.935} |
| ], |
| "мәктәп": [ |
| {"word": "-мәктәп", "similarity": 0.966}, |
| {"word": "—мәктәп", "similarity": 0.964}, |
| {"word": "мәктәп—", "similarity": 0.956}, |
| {"word": "\"мәктәп", "similarity": 0.956}, |
| {"word": "мәктәп…", "similarity": 0.954} |
| ], |
| "укытучы": [ |
| {"word": "укытучы-", "similarity": 0.951}, |
| {"word": "укытучылы", "similarity": 0.945}, |
| {"word": "укытучы-тәрбияче", "similarity": 0.945}, |
| {"word": "укытучы-остаз", "similarity": 0.940}, |
| {"word": "укытучы-хәлфә", "similarity": 0.935} |
| ], |
| "якшы": [ |
| {"word": "якш", "similarity": 0.788}, |
| {"word": "як—", "similarity": 0.779}, |
| {"word": "ягы-ры", "similarity": 0.774}, |
| {"word": "якй", "similarity": 0.771}, |
| {"word": "якшмбе", "similarity": 0.768} |
| ] |
| } |
| }, |
| "pca": { |
| "word2vec_explained_variance": 0.384, |
| "fasttext_explained_variance": 0.412 |
| }, |
| "intuitive_tests": { |
| "word2vec": { |
| "татар_expected": ["башкорт", "рус", "милләт"], |
| "татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"], |
| "татар_matches": ["башкорт", "рус"], |
| "казан_expected": ["Мәскәү", "Уфа", "шәһәр"], |
| "казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"], |
| "казан_matches": ["Мәскәү", "Уфа"], |
| "мәктәп_хастаханә_similarity": 0.490, |
| "мәктәп_хастаханә_expected_dissimilar": true |
| }, |
| "fasttext": { |
| "татар_expected": ["башкорт", "рус", "милләт"], |
| "татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"], |
| "татар_matches": [], |
| "казан_expected": ["Мәскәү", "Уфа", "шәһәр"], |
| "казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"], |
| "казан_matches": [], |
| "мәктәп_хастаханә_similarity": 0.514, |
| "мәктәп_хастаханә_expected_dissimilar": false |
| } |
| } |
| }, |
| "summary": { |
| "metrics": { |
| "Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"}, |
| "Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"}, |
| "Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582}, |
| "OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"}, |
| "Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992}, |
| "Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323} |
| }, |
| "final_scores": { |
| "Word2Vec": 0.635, |
| "FastText": 0.487 |
| }, |
| "winner": { |
| "model": "Word2Vec", |
| "name": "w2v_cbow_100", |
| "coverage": "100.00%", |
| "vocabulary_size": 1293992 |
| } |
| }, |
| "observations": [ |
| "Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)", |
| "Обе модели имеют одинаковое покрытие словаря (100%)", |
| "FastText показывает немного лучшую семантическую близость (0.582 vs 0.568)", |
| "FastText обучается почти в 2 раза дольше (3323с vs 1760с)", |
| "Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)" |
| ], |
| "recommendations": { |
| "word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов", |
| "fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)" |
| }, |
| "fasttext_problems": [ |
| "Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов", |
| "Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec", |
| "Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум", |
| "Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее" |
| ] |
| } |