{
  "report_date": "2026-03-04 15:23:06",
  "author": "Mullosharaf K. Arabov",
  "total_models_trained": 13,
  "best_word2vec": {
    "name": "w2v_cbow_100",
    "coverage": 1.0,
    "vocabulary_size": 1293992
  },
  "best_fasttext": {
    "name": "ft_cbow_100",
    "coverage": 1.0,
    "vocabulary_size": 1293992
  },
  "tests": {
    "analogies": {
      "word2vec": {
        "accuracy": 0.6,
        "results": [
          {
            "analogy": "Мәскәү:Россия = Казан:Татарстан",
            "success": true,
            "rank": 5,
            "predictions": ["Федерациясе", "Россиянең", "Республикасы"]
          },
          {
            "analogy": "укытучы:мәктәп = табиб:хастаханә",
            "success": true,
            "rank": 2,
            "predictions": ["табиблар", "хастаханә", "хастаханәнең"]
          },
          {
            "analogy": "әти:әни = бабай:әби",
            "success": true,
            "rank": 1,
            "predictions": ["әби", "Бабай", "бабайның"]
          },
          {
            "analogy": "зур:кечкенә = озын:кыска",
            "success": false,
            "predictions": ["буйлы", "итәкле", "Озын"]
          },
          {
            "analogy": "Казан:Татарстан = Мәскәү:Россия",
            "success": false,
            "predictions": ["Русия", "республика", "Русиянең"]
          }
        ]
      },
      "fasttext": {
        "accuracy": 0.0,
        "results": [
          {
            "analogy": "Мәскәү:Россия = Казан:Татарстан",
            "success": false,
            "predictions": [".Россия", ")Россия", ";Россия"]
          },
          {
            "analogy": "укытучы:мәктәп = табиб:хастаханә",
            "success": false,
            "predictions": ["клиника", "поликлиника", "поликлиника-хастаханәләр"]
          },
          {
            "analogy": "әти:әни = бабай:әби",
            "success": false,
            "predictions": ["бабай-әби", "бабайКар", "бабайКыш"]
          },
          {
            "analogy": "зур:кечкенә = озын:кыска",
            "success": false,
            "predictions": ["озын-озын", "озынрагын", "озыны"]
          },
          {
            "analogy": "Казан:Татарстан = Мәскәү:Россия",
            "success": false,
            "predictions": ["МәскәүРусия", "Мәскәү-Татарстан", "Татарстанхөкүмәте"]
          }
        ]
      }
    },
    "semantic_similarity": {
      "word2vec": {
        "average": 0.568,
        "pairs": {
          "Казан-Мәскәү": 0.777,
          "татар-башкорт": 0.793,
          "мәктәп-университет": 0.565,
          "укытучы-укучы": 0.742,
          "китап-газета": 0.645,
          "якшы-начар": -0.042,
          "йөгерү-бару": 0.367,
          "алма-груша": 0.693
        }
      },
      "fasttext": {
        "average": 0.582,
        "pairs": {
          "Казан-Мәскәү": 0.736,
          "татар-башкорт": 0.823,
          "мәктәп-университет": 0.621,
          "укытучы-укучы": 0.771,
          "китап-газета": 0.596,
          "якшы-начар": 0.303,
          "йөгерү-бару": 0.545,
          "алма-груша": 0.263
        }
      }
    },
    "oov": {
      "words": ["Казаннан", "мәктәпләргә", "укыткан", "татарчалаштыру", "китапларыбызны", "йөгергәннәр"],
      "word2vec": [true, true, true, true, true, true],
      "fasttext": [true, true, true, true, true, true]
    },
    "nearest_neighbours": {
      "word2vec": {
        "татар": [
          {"word": "Татар", "similarity": 0.889},
          {"word": "башкорт", "similarity": 0.793},
          {"word": "урыс", "similarity": 0.788},
          {"word": "татарның", "similarity": 0.783},
          {"word": "рус", "similarity": 0.755}
        ],
        "Казан": [
          {"word": "Мәскәү", "similarity": 0.777},
          {"word": "Чаллы", "similarity": 0.771},
          {"word": "Алабуга", "similarity": 0.733},
          {"word": "Чистай", "similarity": 0.717},
          {"word": "Уфа", "similarity": 0.715}
        ],
        "мәктәп": [
          {"word": "Мәктәп", "similarity": 0.886},
          {"word": "мәктәпнең", "similarity": 0.878},
          {"word": "гимназия", "similarity": 0.818},
          {"word": "мәктәптә", "similarity": 0.813},
          {"word": "укытучылар", "similarity": 0.797}
        ],
        "укытучы": [
          {"word": "Укытучы", "similarity": 0.821},
          {"word": "мәктәптә", "similarity": 0.816},
          {"word": "тәрбияче", "similarity": 0.806},
          {"word": "укытучылар", "similarity": 0.794},
          {"word": "укытучысы", "similarity": 0.788}
        ],
        "якшы": [
          {"word": "фикер-ниятенә", "similarity": 0.758},
          {"word": "фильмыМарска", "similarity": 0.744},
          {"word": "1418,", "similarity": 0.731},
          {"word": "«мә-аа-ауу»,", "similarity": 0.728},
          {"word": "(273", "similarity": 0.723}
        ]
      },
      "fasttext": {
        "татар": [
          {"word": "милләттатар", "similarity": 0.944},
          {"word": "дтатар", "similarity": 0.940},
          {"word": "—татар", "similarity": 0.938},
          {"word": "–татар", "similarity": 0.938},
          {"word": "Ттатар", "similarity": 0.934}
        ],
        "Казан": [
          {"word": "»Казан", "similarity": 0.940},
          {"word": "–Казан", "similarity": 0.937},
          {"word": ".Казан", "similarity": 0.936},
          {"word": ")Казан", "similarity": 0.935},
          {"word": "-Казан", "similarity": 0.935}
        ],
        "мәктәп": [
          {"word": "-мәктәп", "similarity": 0.966},
          {"word": "—мәктәп", "similarity": 0.964},
          {"word": "мәктәп—", "similarity": 0.956},
          {"word": "\"мәктәп", "similarity": 0.956},
          {"word": "мәктәп…", "similarity": 0.954}
        ],
        "укытучы": [
          {"word": "укытучы-", "similarity": 0.951},
          {"word": "укытучылы", "similarity": 0.945},
          {"word": "укытучы-тәрбияче", "similarity": 0.945},
          {"word": "укытучы-остаз", "similarity": 0.940},
          {"word": "укытучы-хәлфә", "similarity": 0.935}
        ],
        "якшы": [
          {"word": "якш", "similarity": 0.788},
          {"word": "як—", "similarity": 0.779},
          {"word": "ягы-ры", "similarity": 0.774},
          {"word": "якй", "similarity": 0.771},
          {"word": "якшмбе", "similarity": 0.768}
        ]
      }
    },
    "pca": {
      "word2vec_explained_variance": 0.384,
      "fasttext_explained_variance": 0.412
    },
    "intuitive_tests": {
      "word2vec": {
        "татар_expected": ["башкорт", "рус", "милләт"],
        "татар_found": ["Татар", "башкорт", "урыс", "татарның", "рус"],
        "татар_matches": ["башкорт", "рус"],
        "казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
        "казан_found": ["Мәскәү", "Чаллы", "Алабуга", "Чистай", "Уфа"],
        "казан_matches": ["Мәскәү", "Уфа"],
        "мәктәп_хастаханә_similarity": 0.490,
        "мәктәп_хастаханә_expected_dissimilar": true
      },
      "fasttext": {
        "татар_expected": ["башкорт", "рус", "милләт"],
        "татар_found": ["милләттатар", "дтатар", "—татар", "–татар", "Ттатар"],
        "татар_matches": [],
        "казан_expected": ["Мәскәү", "Уфа", "шәһәр"],
        "казан_found": ["»Казан", "–Казан", ".Казан", ")Казан", "-Казан"],
        "казан_matches": [],
        "мәктәп_хастаханә_similarity": 0.514,
        "мәктәп_хастаханә_expected_dissimilar": false
      }
    }
  },
  "summary": {
    "metrics": {
      "Покрытие словаря": {"Word2Vec": "100.00%", "FastText": "100.00%"},
      "Успешность аналогий": {"Word2Vec": "60.0%", "FastText": "0.0%"},
      "Средняя семантическая близость": {"Word2Vec": 0.568, "FastText": 0.582},
      "OOV (слова вне словаря)": {"Word2Vec": "0/6", "FastText": "0/6"},
      "Размер словаря": {"Word2Vec": 1293992, "FastText": 1293992},
      "Время обучения (сек)": {"Word2Vec": 1760, "FastText": 3323}
    },
    "final_scores": {
      "Word2Vec": 0.635,
      "FastText": 0.487
    },
    "winner": {
      "model": "Word2Vec",
      "name": "w2v_cbow_100",
      "coverage": "100.00%",
      "vocabulary_size": 1293992
    }
  },
  "observations": [
    "Word2Vec значительно лучше справляется с задачами на аналогии (60% против 0%)",
    "Обе модели имеют одинаковое покрытие словаря (100%)",
    "FastText показывает немного лучшую семантическую близость (0.582 vs 0.568)",
    "FastText обучается почти в 2 раза дольше (3323с vs 1760с)",
    "Word2Vec дает более осмысленные ближайшие соседи (настоящие слова, а не вариации с пунктуацией)"
  ],
  "recommendations": {
    "word2vec": "Рекомендуется для большинства задач благодаря лучшей работе с семантическими отношениями (аналогии), более быстрому обучению и более чистым эмбеддингам без шумовых символов",
    "fasttext": "Может быть полезен если важна морфологическая информация (работа с формами слов) или обработка редких слов (хотя в данном случае все слова уже есть в словаре)"
  },
  "fasttext_problems": [
    "Зашумленные ближайшие соседи: FastText часто находит варианты с пунктуацией (например, '-татар', '»Казан', '—мәктәп') вместо настоящих слов",
    "Плохая работа с аналогиями: 0% успешных аналогий против 60% у Word2Vec",
    "Причина: FastText строит эмбеддинги из n-грамм символов, что хорошо для морфологии, но может 'размазывать' семантику и создавать шум",
    "Рекомендация: Для чистых семантических задач Word2Vec предпочтительнее"
  ]
}