Tatar
Tatar2Vec / model_comparison_results.json
ArabovMK's picture
Create model_comparison_results.json
e9b26e6 verified
{
"report_date": "2026-03-04 15:23:06",
"author": "Mullosharaf K. Arabov",
"total_models_trained": 13,
"best_word2vec": {
"name": "w2v_cbow_100",
"coverage": 1.0,
"vocabulary_size": 1293992
},
"best_fasttext": {
"name": "ft_cbow_100",
"coverage": 1.0,
"vocabulary_size": 1293992
},
"tests": {
"analogies": {
"word2vec": {
"accuracy": 0.6,
"results": [
{
"analogy": "Мәскәү:Россия = Казан:Татарстан",
"success": true,
"rank": 5,
"predictions": ["Федерациясе", "Россиянең", "Республикасы"]
},
{
"analogy": "укытучы:мәктәп = табиб:хастаханә",
"success": true,
"rank": 2,
"predictions": ["табиблар", "хастаханә", "хастаханәнең"]
},
{
"analogy": "әти:әни = бабай:әби",
"success": true,
"rank": 1,
"predictions": ["әби", "Бабай", "бабайның"]
},
{
"analogy": "зур:кечкенә = озын:кыска",
"success": false,
"predictions": ["буйлы", "итәкле", "Озын"]
},
{
"analogy": "Казан:Татарстан = Мәскәү:Россия",
"success": false,
"predictions": ["Русия", "республика", "Русиянең"]
}
]
},
"fasttext": {
"accuracy": 0.0,
"results": [
{
"analogy": "Мәскәү:Россия = Казан:Татарстан",
"success": false,
"predictions": [".Россия", ")Россия", ";Россия"]
},
{
"analogy": "укытучы:мәктәп = табиб:хастаханә",
"success": false,
"predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"]
},
{
"analogy": "әти:әни = бабай:әби",
"success": false,
"predictions": ["бабай-әби", "бабайКар", "бабайКыш"]
},
{
"analogy": "зур:кечкенә = озын:кыска",
"success": false,
"predictions": ["озын-озын", "озынрагын", "озыны"]
},
{
"analogy": "Казан:Татарстан = Мәскәү:Россия",
"success": false,
"predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"]
}
]
}
},
"semantic_similarity": {
"word2vec": {
"average": 0.568,
"pairs": {
"Казан-Мәскәү": 0.777,
"татар-башкорт": 0.793,
"мәктәп-университет": 0.565,
"укытучы-укучы": 0.742,
"китап-газета": 0.645,
"якшы-начар": -0.042,
"йөгерү-бару": 0.367,
"алма-груша": 0.693
}
},
"fasttext": {
"average": 0.582,
"pairs": {
"Казан-Мәскәү": 0.736,
"татар-башкорт": 0.823,
"мәктәп-университет": 0.621,
"укытучы-укучы": 0.771,
"китап-газета": 0.596,
"якшы-начар": 0.303,
"йөгерү-бару": 0.545,
"алма-груша": 0.263
}
}
},
"oov": {
"words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"],
"word2vec": [true, true, true, true, true, true],
"fasttext": [true, true, true, true, true, true]
},
"nearest_neighbours": {
"word2vec": {
"татар": [
{"word": "Татар", "similarity": 0.889},
{"word": "башкорт", "similarity": 0.793},
{"word": "урыс", "similarity": 0.788},
{"word": "татарның", "similarity": 0.783},
{"word": "рус", "similarity": 0.755}
],
"Казан": [
{"word": "Мәскәү", "similarity": 0.777},
{"word": "Чаллы", "similarity": 0.771},
{"word": "Алабуга", "similarity": 0.733},
{"word": "Чистай", "similarity": 0.717},
{"word": "Уфа", "similarity": 0.715}
],
"мәктәп": [
{"word": "Мәктәп", "similarity": 0.886},
{"word": "мәктәпнең", "similarity": 0.878},
{"word": "гимназия", "similarity": 0.818},
{"word": "мәктәптә", "similarity": 0.813},
{"word": "укытучылар", "similarity": 0.797}
],
"укытучы": [
{"word": "Укытучы", "similarity": 0.821},
{"word": "мәктәптә", "similarity": 0.816},
{"word": "тәрбияче", "similarity": 0.806},
{"word": "укытучылар", "similarity": 0.794},
{"word": "укытучысы", "similarity": 0.788}
],
"якшы": [
{"word": "фикер-ниятенә", "similarity": 0.758},
{"word": "фильмыМарска", "similarity": 0.744},
{"word": "1418,", "similarity": 0.731},
{"word": "«мә-аа-ауу»,", "similarity": 0.728},
{"word": "(273", "similarity": 0.723}
]
},
"fasttext": {
"татар": [
{"word": "милләттатар", "similarity": 0.944},
{"word": "дтатар", "similarity": 0.940},
{"word": "—татар", "similarity": 0.938},
{"word": "–татар", "similarity": 0.938},
{"word": "Ттатар", "similarity": 0.934}
],
"Казан": [
{"word": "»Казан", "similarity": 0.940},
{"word": "–Казан", "similarity": 0.937},
{"word": ".Казан", "similarity": 0.936},
{"word": ")Казан", "similarity": 0.935},
{"word": "-Казан", "similarity": 0.935}
],
"мәктәп": [
{"word": "-мәктәп", "similarity": 0.966},
{"word": "—мәктәп", "similarity": 0.964},
{"word": "мәктәп—", "similarity": 0.956},
{"word": "\"мәктәп", "similarity": 0.956},
{"word": "мәктәп…", "similarity": 0.954}
],
"укытучы": [
{"word": "укытучы-", "similarity": 0.951},
{"word": "укытучылы", "similarity": 0.945},
{"word": "укытучы-тәрбияче", "similarity": 0.945},
{"word": "укытучы-остаз", "similarity": 0.940},
{"word": "укытучы-хәлфә", "similarity": 0.935}
],
"якшы": [
{"word": "якш", "similarity": 0.788},
{"word": "як—", "similarity": 0.779},
{"word": "ягы-ры", "similarity": 0.774},
{"word": "якй", "similarity": 0.771},
{"word": "якшмбе", "similarity": 0.768}
]
}
},
"pca": {
"word2vec_explained_variance": 0.384,
"fasttext_explained_variance": 0.412
},
"intuitive_tests": {
"word2vec": {
"татар_expected": ["башкорт", "рус", "милләт"],
"татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"],
"татар_matches": ["башкорт", "рус"],
"казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
"казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"],
"казан_matches": ["Мәскәү", "Уфа"],
"мәктәп_хастаханә_similarity": 0.490,
"мәктәп_хастаханә_expected_dissimilar": true
},
"fasttext": {
"татар_expected": ["башкорт", "рус", "милләт"],
"татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"],
"татар_matches": [],
"казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
"казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"],
"казан_matches": [],
"мәктәп_хастаханә_similarity": 0.514,
"мәктәп_хастаханә_expected_dissimilar": false
}
}
},
"summary": {
"metrics": {
"Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"},
"Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"},
"Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582},
"OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"},
"Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992},
"Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323}
},
"final_scores": {
"Word2Vec": 0.635,
"FastText": 0.487
},
"winner": {
"model": "Word2Vec",
"name": "w2v_cbow_100",
"coverage": "100.00%",
"vocabulary_size": 1293992
}
},
"observations": [
"Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)",
"Обе модели имеют одинаковое покрытие словаря (100%)",
"FastText показывает немного лучшую семантическую близость (0.582 vs 0.568)",
"FastText обучается почти в 2 раза дольше (3323с vs 1760с)",
"Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)"
],
"recommendations": {
"word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов",
"fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)"
},
"fasttext_problems": [
"Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов",
"Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec",
"Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум",
"Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее"
]
}