Tatar2Vec / model_comparison_results.json

Create model_comparison_results.json

e9b26e6 verified 27 days ago

11.8 kB

	{
	"report_date": "2026-03-04 15:23:06",
	"author": "Mullosharaf K. Arabov",
	"total_models_trained": 13,
	"best_word2vec": {
	"name": "w2v_cbow_100",
	"coverage": 1.0,
	"vocabulary_size": 1293992
	},
	"best_fasttext": {
	"name": "ft_cbow_100",
	"coverage": 1.0,
	"vocabulary_size": 1293992
	},
	"tests": {
	"analogies": {
	"word2vec": {
	"accuracy": 0.6,
	"results": [
	{
	"analogy": "Мәскәү:Россия = Казан:Татарстан",
	"success": true,
	"rank": 5,
	"predictions": ["Федерациясе", "Россиянең", "Республикасы"]
	},
	{
	"analogy": "укытучы:мәктәп = табиб:хастаханә",
	"success": true,
	"rank": 2,
	"predictions": ["табиблар", "хастаханә", "хастаханәнең"]
	},
	{
	"analogy": "әти:әни = бабай:әби",
	"success": true,
	"rank": 1,
	"predictions": ["әби", "Бабай", "бабайның"]
	},
	{
	"analogy": "зур:кечкенә = озын:кыска",
	"success": false,
	"predictions": ["буйлы", "итәкле", "Озын"]
	},
	{
	"analogy": "Казан:Татарстан = Мәскәү:Россия",
	"success": false,
	"predictions": ["Русия", "республика", "Русиянең"]
	}
	]
	},
	"fasttext": {
	"accuracy": 0.0,
	"results": [
	{
	"analogy": "Мәскәү:Россия = Казан:Татарстан",
	"success": false,
	"predictions": [".Россия", ")Россия", ";Россия"]
	},
	{
	"analogy": "укытучы:мәктәп = табиб:хастаханә",
	"success": false,
	"predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"]
	},
	{
	"analogy": "әти:әни = бабай:әби",
	"success": false,
	"predictions": ["бабай-әби", "бабайКар", "бабайКыш"]
	},
	{
	"analogy": "зур:кечкенә = озын:кыска",
	"success": false,
	"predictions": ["озын-озын", "озынрагын", "озыны"]
	},
	{
	"analogy": "Казан:Татарстан = Мәскәү:Россия",
	"success": false,
	"predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"]
	}
	]
	}
	},
	"semantic_similarity": {
	"word2vec": {
	"average": 0.568,
	"pairs": {
	"Казан-Мәскәү": 0.777,
	"татар-башкорт": 0.793,
	"мәктәп-университет": 0.565,
	"укытучы-укучы": 0.742,
	"китап-газета": 0.645,
	"якшы-начар": -0.042,
	"йөгерү-бару": 0.367,
	"алма-груша": 0.693
	}
	},
	"fasttext": {
	"average": 0.582,
	"pairs": {
	"Казан-Мәскәү": 0.736,
	"татар-башкорт": 0.823,
	"мәктәп-университет": 0.621,
	"укытучы-укучы": 0.771,
	"китап-газета": 0.596,
	"якшы-начар": 0.303,
	"йөгерү-бару": 0.545,
	"алма-груша": 0.263
	}
	}
	},
	"oov": {
	"words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"],
	"word2vec": [true, true, true, true, true, true],
	"fasttext": [true, true, true, true, true, true]
	},
	"nearest_neighbours": {
	"word2vec": {
	"татар": [
	{"word": "Татар", "similarity": 0.889},
	{"word": "башкорт", "similarity": 0.793},
	{"word": "урыс", "similarity": 0.788},
	{"word": "татарның", "similarity": 0.783},
	{"word": "рус", "similarity": 0.755}
	],
	"Казан": [
	{"word": "Мәскәү", "similarity": 0.777},
	{"word": "Чаллы", "similarity": 0.771},
	{"word": "Алабуга", "similarity": 0.733},
	{"word": "Чистай", "similarity": 0.717},
	{"word": "Уфа", "similarity": 0.715}
	],
	"мәктәп": [
	{"word": "Мәктәп", "similarity": 0.886},
	{"word": "мәктәпнең", "similarity": 0.878},
	{"word": "гимназия", "similarity": 0.818},
	{"word": "мәктәптә", "similarity": 0.813},
	{"word": "укытучылар", "similarity": 0.797}
	],
	"укытучы": [
	{"word": "Укытучы", "similarity": 0.821},
	{"word": "мәктәптә", "similarity": 0.816},
	{"word": "тәрбияче", "similarity": 0.806},
	{"word": "укытучылар", "similarity": 0.794},
	{"word": "укытучысы", "similarity": 0.788}
	],
	"якшы": [
	{"word": "фикер-ниятенә", "similarity": 0.758},
	{"word": "фильмыМарска", "similarity": 0.744},
	{"word": "1418,", "similarity": 0.731},
	{"word": "«мә-аа-ауу»,", "similarity": 0.728},
	{"word": "(273", "similarity": 0.723}
	]
	},
	"fasttext": {
	"татар": [
	{"word": "милләттатар", "similarity": 0.944},
	{"word": "дтатар", "similarity": 0.940},
	{"word": "—татар", "similarity": 0.938},
	{"word": "–татар", "similarity": 0.938},
	{"word": "Ттатар", "similarity": 0.934}
	],
	"Казан": [
	{"word": "»Казан", "similarity": 0.940},
	{"word": "–Казан", "similarity": 0.937},
	{"word": ".Казан", "similarity": 0.936},
	{"word": ")Казан", "similarity": 0.935},
	{"word": "-Казан", "similarity": 0.935}
	],
	"мәктәп": [
	{"word": "-мәктәп", "similarity": 0.966},
	{"word": "—мәктәп", "similarity": 0.964},
	{"word": "мәктәп—", "similarity": 0.956},
	{"word": "\"мәктәп", "similarity": 0.956},
	{"word": "мәктәп…", "similarity": 0.954}
	],
	"укытучы": [
	{"word": "укытучы-", "similarity": 0.951},
	{"word": "укытучылы", "similarity": 0.945},
	{"word": "укытучы-тәрбияче", "similarity": 0.945},
	{"word": "укытучы-остаз", "similarity": 0.940},
	{"word": "укытучы-хәлфә", "similarity": 0.935}
	],
	"якшы": [
	{"word": "якш", "similarity": 0.788},
	{"word": "як—", "similarity": 0.779},
	{"word": "ягы-ры", "similarity": 0.774},
	{"word": "якй", "similarity": 0.771},
	{"word": "якшмбе", "similarity": 0.768}
	]
	}
	},
	"pca": {
	"word2vec_explained_variance": 0.384,
	"fasttext_explained_variance": 0.412
	},
	"intuitive_tests": {
	"word2vec": {
	"татар_expected": ["башкорт", "рус", "милләт"],
	"татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"],
	"татар_matches": ["башкорт", "рус"],
	"казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
	"казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"],
	"казан_matches": ["Мәскәү", "Уфа"],
	"мәктәп_хастаханә_similarity": 0.490,
	"мәктәп_хастаханә_expected_dissimilar": true
	},
	"fasttext": {
	"татар_expected": ["башкорт", "рус", "милләт"],
	"татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"],
	"татар_matches": [],
	"казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
	"казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"],
	"казан_matches": [],
	"мәктәп_хастаханә_similarity": 0.514,
	"мәктәп_хастаханә_expected_dissimilar": false
	}
	}
	},
	"summary": {
	"metrics": {
	"Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"},
	"Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"},
	"Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582},
	"OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"},
	"Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992},
	"Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323}
	},
	"final_scores": {
	"Word2Vec": 0.635,
	"FastText": 0.487
	},
	"winner": {
	"model": "Word2Vec",
	"name": "w2v_cbow_100",
	"coverage": "100.00%",
	"vocabulary_size": 1293992
	}
	},
	"observations": [
	"Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)",
	"Обе модели имеют одинаковое покрытие словаря (100%)",
	"FastText показывает немного лучшую семантическую близость (0.582 vs 0.568)",
	"FastText обучается почти в 2 раза дольше (3323с vs 1760с)",
	"Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)"
	],
	"recommendations": {
	"word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов",
	"fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)"
	},
	"fasttext_problems": [
	"Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов",
	"Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec",
	"Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум",
	"Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее"
	]
	}