TatarNLPWorld
/

Tatar2Vec

Tatar

Model card Files Files and versions

xet

Community

ArabovMK commited on Mar 8

Commit

e9b26e6

verified ·

1 Parent(s): e24a130

Create model_comparison_results.json

Browse files

Files changed (1) hide show

model_comparison_results.json +254 -0

model_comparison_results.json ADDED Viewed

	@@ -0,0 +1,254 @@

+{
+  "report_date": "2026-03-04 15:23:06",
+  "author": "Mullosharaf K. Arabov",
+  "total_models_trained": 13,
+  "best_word2vec": {
+    "name": "w2v_cbow_100",
+    "coverage": 1.0,
+    "vocabulary_size": 1293992
+  },
+  "best_fasttext": {
+    "name": "ft_cbow_100",
+    "coverage": 1.0,
+    "vocabulary_size": 1293992
+  },
+  "tests": {
+    "analogies": {
+      "word2vec": {
+        "accuracy": 0.6,
+        "results": [
+          {
+            "analogy": "Мәскәү:Россия = Казан:Татарстан",
+            "success": true,
+            "rank": 5,
+            "predictions": ["Федерациясе", "Россиянең", "Республикасы"]
+          },
+          {
+            "analogy": "укытучы:мәктәп = табиб:хастаханә",
+            "success": true,
+            "rank": 2,
+            "predictions": ["табиблар", "хастаханә", "хастаханәнең"]
+          },
+          {
+            "analogy": "әти:әни = бабай:әби",
+            "success": true,
+            "rank": 1,
+            "predictions": ["әби", "Бабай", "бабайның"]
+          },
+          {
+            "analogy": "зур:кечкенә = озын:кыска",
+            "success": false,
+            "predictions": ["буйлы", "итәкле", "Озын"]
+          },
+          {
+            "analogy": "Казан:Татарстан = Мәскәү:Россия",
+            "success": false,
+            "predictions": ["Русия", "республика", "Русиянең"]
+          }
+        ]
+      },
+      "fasttext": {
+        "accuracy": 0.0,
+        "results": [
+          {
+            "analogy": "Мәскәү:Россия = Казан:Татарстан",
+            "success": false,
+            "predictions": [".Россия", ")Россия", ";Россия"]
+          },
+          {
+            "analogy": "укытучы:мәктәп = табиб:хастаханә",
+            "success": false,
+            "predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"]
+          },
+          {
+            "analogy": "әти:әни = бабай:әби",
+            "success": false,
+            "predictions": ["бабай-әби", "бабайКар", "бабайКыш"]
+          },
+          {
+            "analogy": "зур:кечкенә = озын:кыска",
+            "success": false,
+            "predictions": ["озын-озын", "озынрагын", "озыны"]
+          },
+          {
+            "analogy": "Казан:Татарстан = Мәскәү:Россия",
+            "success": false,
+            "predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"]
+          }
+        ]
+      }
+    },
+    "semantic_similarity": {
+      "word2vec": {
+        "average": 0.568,
+        "pairs": {
+          "Казан-Мәскәү": 0.777,
+          "татар-башкорт": 0.793,
+          "мәктәп-университет": 0.565,
+          "укытучы-укучы": 0.742,
+          "китап-газета": 0.645,
+          "якшы-начар": -0.042,
+          "йөгерү-бару": 0.367,
+          "алма-груша": 0.693
+        }
+      },
+      "fasttext": {
+        "average": 0.582,
+        "pairs": {
+          "Казан-Мәскәү": 0.736,
+          "татар-башкорт": 0.823,
+          "мәктәп-университет": 0.621,
+          "укытучы-укучы": 0.771,
+          "китап-газета": 0.596,
+          "якшы-начар": 0.303,
+          "йөгерү-бару": 0.545,
+          "алма-груша": 0.263
+        }
+      }
+    },
+    "oov": {
+      "words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"],
+      "word2vec": [true, true, true, true, true, true],
+      "fasttext": [true, true, true, true, true, true]
+    },
+    "nearest_neighbours": {
+      "word2vec": {
+        "татар": [
+          {"word": "Татар", "similarity": 0.889},
+          {"word": "башкорт", "similarity": 0.793},
+          {"word": "урыс", "similarity": 0.788},
+          {"word": "татарның", "similarity": 0.783},
+          {"word": "рус", "similarity": 0.755}
+        ],
+        "Казан": [
+          {"word": "Мәскәү", "similarity": 0.777},
+          {"word": "Чаллы", "similarity": 0.771},
+          {"word": "Алабуга", "similarity": 0.733},
+          {"word": "Чистай", "similarity": 0.717},
+          {"word": "Уфа", "similarity": 0.715}
+        ],
+        "мәктәп": [
+          {"word": "Мәктәп", "similarity": 0.886},
+          {"word": "мәктәпнең", "similarity": 0.878},
+          {"word": "гимназия", "similarity": 0.818},
+          {"word": "мәктәптә", "similarity": 0.813},
+          {"word": "укытучылар", "similarity": 0.797}
+        ],
+        "укытучы": [
+          {"word": "Укытучы", "similarity": 0.821},
+          {"word": "мәктәптә", "similarity": 0.816},
+          {"word": "тәрбияче", "similarity": 0.806},
+          {"word": "укытучылар", "similarity": 0.794},
+          {"word": "укытучысы", "similarity": 0.788}
+        ],
+        "якшы": [
+          {"word": "фикер-ниятенә", "similarity": 0.758},
+          {"word": "фильмыМарска", "similarity": 0.744},
+          {"word": "1418,", "similarity": 0.731},
+          {"word": "«мә-аа-ауу»,", "similarity": 0.728},
+          {"word": "(273", "similarity": 0.723}
+        ]
+      },
+      "fasttext": {
+        "татар": [
+          {"word": "милләттатар", "similarity": 0.944},
+          {"word": "дтатар", "similarity": 0.940},
+          {"word": "—татар", "similarity": 0.938},
+          {"word": "–татар", "similarity": 0.938},
+          {"word": "Ттатар", "similarity": 0.934}
+        ],
+        "Казан": [
+          {"word": "»Казан", "similarity": 0.940},
+          {"word": "–Казан", "similarity": 0.937},
+          {"word": ".Казан", "similarity": 0.936},
+          {"word": ")Казан", "similarity": 0.935},
+          {"word": "-Казан", "similarity": 0.935}
+        ],
+        "мәктәп": [
+          {"word": "-мәктәп", "similarity": 0.966},
+          {"word": "—мәктәп", "similarity": 0.964},
+          {"word": "мәктәп—", "similarity": 0.956},
+          {"word": "\"мәктәп", "similarity": 0.956},
+          {"word": "мәктәп…", "similarity": 0.954}
+        ],
+        "укытучы": [
+          {"word": "укытучы-", "similarity": 0.951},
+          {"word": "укытучылы", "similarity": 0.945},
+          {"word": "укытучы-тәрбияче", "similarity": 0.945},
+          {"word": "укытучы-остаз", "similarity": 0.940},
+          {"word": "укытучы-хәлфә", "similarity": 0.935}
+        ],
+        "якшы": [
+          {"word": "якш", "similarity": 0.788},
+          {"word": "як—", "similarity": 0.779},
+          {"word": "ягы-ры", "similarity": 0.774},
+          {"word": "якй", "similarity": 0.771},
+          {"word": "якшмбе", "similarity": 0.768}
+        ]
+      }
+    },
+    "pca": {
+      "word2vec_explained_variance": 0.384,
+      "fasttext_explained_variance": 0.412
+    },
+    "intuitive_tests": {
+      "word2vec": {
+        "татар_expected": ["башкорт", "рус", "милләт"],
+        "татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"],
+        "татар_matches": ["башкорт", "рус"],
+        "казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
+        "казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"],
+        "казан_matches": ["Мәскәү", "Уфа"],
+        "мәктәп_хастаханә_similarity": 0.490,
+        "мәктәп_хастаханә_expected_dissimilar": true
+      },
+      "fasttext": {
+        "татар_expected": ["башкорт", "рус", "милләт"],
+        "татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"],
+        "татар_matches": [],
+        "казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
+        "казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"],
+        "казан_matches": [],
+        "мәктәп_хастаханә_similarity": 0.514,
+        "мәктәп_хастаханә_expected_dissimilar": false
+      }
+    }
+  },
+  "summary": {
+    "metrics": {
+      "Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"},
+      "Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"},
+      "Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582},
+      "OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"},
+      "Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992},
+      "Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323}
+    },
+    "final_scores": {
+      "Word2Vec": 0.635,
+      "FastText": 0.487
+    },
+    "winner": {
+      "model": "Word2Vec",
+      "name": "w2v_cbow_100",
+      "coverage": "100.00%",
+      "vocabulary_size": 1293992
+    }
+  },
+  "observations": [
+    "Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)",
+    "Обе модели имеют одинаковое покрытие словаря (100%)",
+    "FastText показывает немного лучшую семантич��скую близость (0.582 vs 0.568)",
+    "FastText обучается почти в 2 раза дольше (3323с vs 1760с)",
+    "Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)"
+  ],
+  "recommendations": {
+    "word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов",
+    "fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)"
+  },
+  "fasttext_problems": [
+    "Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов",
+    "Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec",
+    "Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум",
+    "Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее"
+  ]
+}