FractalGPT
/

SbertDistilV2

@@ -1,199 +1,270 @@
 ---
-library_name: transformers
-tags: []
 ---
-# Model Card for Model ID
-<!-- Provide a quick summary of what the model is/does. -->
-## Model Details
-### Model Description
-<!-- Provide a longer summary of what this model is. -->
-This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated.
-- **Developed by:** [More Information Needed]
-- **Funded by [optional]:** [More Information Needed]
-- **Shared by [optional]:** [More Information Needed]
-- **Model type:** [More Information Needed]
-- **Language(s) (NLP):** [More Information Needed]
-- **License:** [More Information Needed]
-- **Finetuned from model [optional]:** [More Information Needed]
-### Model Sources [optional]
-<!-- Provide the basic links for the model. -->
-- **Repository:** [More Information Needed]
-- **Paper [optional]:** [More Information Needed]
-- **Demo [optional]:** [More Information Needed]
-## Uses
-<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
-### Direct Use
-<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
-[More Information Needed]
-### Downstream Use [optional]
-<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
-[More Information Needed]
-### Out-of-Scope Use
-<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
-[More Information Needed]
-## Bias, Risks, and Limitations
-<!-- This section is meant to convey both technical and sociotechnical limitations. -->
-[More Information Needed]
-### Recommendations
-<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
-Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
-## How to Get Started with the Model
-Use the code below to get started with the model.
-[More Information Needed]
-## Training Details
-### Training Data
-<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
-[More Information Needed]
-### Training Procedure
-<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
-#### Preprocessing [optional]
-[More Information Needed]
-#### Training Hyperparameters
-- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
-#### Speeds, Sizes, Times [optional]
-<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
-[More Information Needed]
-## Evaluation
-<!-- This section describes the evaluation protocols and provides the results. -->
-### Testing Data, Factors & Metrics
-#### Testing Data
-<!-- This should link to a Dataset Card if possible. -->
-[More Information Needed]
-#### Factors
-<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
-[More Information Needed]
-#### Metrics
-<!-- These are the evaluation metrics being used, ideally with a description of why. -->
-[More Information Needed]
-### Results
-[More Information Needed]
-#### Summary
-## Model Examination [optional]
-<!-- Relevant interpretability work for the model goes here -->
-[More Information Needed]
-## Environmental Impact
-<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
-Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
-- **Hardware Type:** [More Information Needed]
-- **Hours used:** [More Information Needed]
-- **Cloud Provider:** [More Information Needed]
-- **Compute Region:** [More Information Needed]
-- **Carbon Emitted:** [More Information Needed]
-## Technical Specifications [optional]
-### Model Architecture and Objective
-[More Information Needed]
-### Compute Infrastructure
-[More Information Needed]
-#### Hardware
-[More Information Needed]
-#### Software
-[More Information Needed]
-## Citation [optional]
-<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
-**BibTeX:**
-[More Information Needed]
-**APA:**
-[More Information Needed]
-## Glossary [optional]
-<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
-[More Information Needed]
-## More Information [optional]
-[More Information Needed]
-## Model Card Authors [optional]
-[More Information Needed]
-## Model Card Contact
-[More Information Needed]

 ---
+license: apache-2.0
+language:
+- ru
+base_model:
+- FractalGPT/SbertDistil
+- intfloat/multilingual-e5-large-instruct
+library_name: sentence-transformers
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- embeddings
+- distillation
+- nli
+- masl
+- task-specification
+- agent
+pipeline_tag: sentence-similarity
 ---
+# SbertDistilV2
+**Автор:** Потанин М. В.
+## Описание модели
+SbertDistilV2 — компактная модель эмбеддингов, специализированная для работы с задачами NLI (Natural Language Interface) и преобразования команд в формат MASL (Multi-agent system language). Модель получена путём двухэтапного обучения с применением дистилляции знаний и дообучения на специализированном датасете.
+### Ключевые характеристики
+- **Базовая модель**: `FractalGPT/SbertDistil`
+- **Модель-учитель**: `intfloat/multilingual-e5-large-instruct`
+- **Размерность эмбеддингов**: 384 (против 1024 у учителя)
+- **Язык**: Русский
+- **Специализация**: NLI задачи, MASL спецификации
+## Архитектура обучения
+Обучение проводилось в **два этапа**:
+### Этап 1: Дистилляция знаний
+Передача знаний от большой модели-учителя (`multilingual-e5-large-instruct`, 1024 dim) к компактной модели-ученику (`SbertDistil`, 384 dim).
+**Метод согласования размерностей:**
+- SVD-проекция для сжатия 1024-мерных эмбеддингов учителя в 384-мерное пространство ученика с минимальными потерями информации
+**Комбинированная функция потерь:**
+$$\mathcal{L}_{\text{total}} = \alpha \cdot \mathcal{L}_{\text{MSE}} + \beta \cdot \mathcal{L}_{\text{cosine}} + \gamma \cdot \mathcal{L}_{\text{InfoNCE}}$$
+Где:
+$$\mathcal{L}_{\text{MSE}}$$ — среднеквадратичная ошибка для прямого согласования эмбеддингов (вес: **1.0**)
+$$\mathcal{L}_{\text{cosine}}$$ — косинусное сходство для сохранения направлений векторов (вес: **0.5**)
+$$\mathcal{L}_{\text{InfoNCE}}$$ — контрастное обучение для улучшения различимости представлений (вес: **0.3**)
+**Датасет:** Запросы на естественном языке
+### Этап 2: Дообучение на MASL
+Специализация модели на задачах преобразования NL-команд в MASL спецификации.
+**Датасет:** Пары "запрос на естественном языке / MASL структура" (9 999 примеров)
+## Датасет
+Модель дообучена на синтетическом датасете NLI Task Specification Dataset (MASL):
+- **Размер**: 9 999 примеров
+- **Структура**: пары "команда → JSON структура"
+- **Формат**: Входные и вых��дные коннекторы с типами данных, семантическими категориями и областями знаний
+Подробнее о датасете см. документацию к [NLI Dataset](https://huggingface.co/datasets/Ponimash/nli_dataset).
+## Использование
+### Установка
+```bash
+pip install sentence-transformers
+```
+### Базовое использование
+```python
+from sentence_transformers import SentenceTransformer
+# Загрузка модели
+model = SentenceTransformer("FractalGPT/SbertDistilV2")
+# Пример команд
+commands = [
+    "Преобразуй эту аудиозапись в текстовый формат",
+    "Создай презентацию с анализом медицинских данных",
+    "Ответь на вопрос о квантовой физике голосом"
+]
+# Получение эмбеддингов
+embeddings = model.encode(commands)
+print(f"Размерность эмбеддингов: {embeddings.shape[1]}")
+print(f"Количество векторов: {embeddings.shape[0]}")
+```
+### Поиск похожих команд
+```python
+from sentence_transformers import SentenceTransformer, util
+import torch
+model = SentenceTransformer("FractalGPT/SbertDistilV2")
+# База команд
+commands_db = [
+    "Преобразуй речь в текст",
+    "Создай презентацию по физике",
+    "Сделай аудио ответ на вопрос",
+    "Проанализируй медицинский документ",
+    "Переведи аудио в текстовый файл"
+]
+# Запрос пользователя
+query = "Транскрибируй голосовое сообщение в txt"
+# Получение эмбеддингов
+query_embedding = model.encode(query, convert_to_tensor=True)
+db_embeddings = model.encode(commands_db, convert_to_tensor=True)
+# Вычисление косинусного сходства
+cosine_scores = util.cos_sim(query_embedding, db_embeddings)[0]
+# Сортировка результатов
+results = torch.argsort(cosine_scores, descending=True)
+print(f"Запрос: {query}\n")
+print("Наиболее похожие команды:")
+for idx in results[:3]:
+    print(f"  {commands_db[idx]} (Score: {cosine_scores[idx]:.4f})")
+```
+### Кластеризация команд
+```python
+from sentence_transformers import SentenceTransformer
+from sklearn.cluster import KMeans
+import numpy as np
+model = SentenceTransformer("FractalGPT/SbertDistilV2")
+commands = [
+    "Преобразуй аудио в текст",
+    "Транскрибируй голос в txt",
+    "Создай презентацию по биологии",
+    "Сделай pptx с анализом данных",
+    "Ответь голосом на вопрос",
+    "Озвучь ответ на запрос"
+]
+# Получение эмбеддингов
+embeddings = model.encode(commands)
+# Кластеризация (3 кластера: транскрипция, презентации, голосовые ответы)
+kmeans = KMeans(n_clusters=3, random_state=42)
+clusters = kmeans.fit_predict(embeddings)
+# Группировка по кластерам
+for i in range(3):
+    cluster_commands = [cmd for cmd, cluster in zip(commands, clusters) if cluster == i]
+    print(f"\nКластер {i+1}:")
+    for cmd in cluster_commands:
+        print(f"  - {cmd}")
+```
+## Применение
+Модель оптимизирована для следующих задач:
+### 1. Семантический поиск команд
+Поиск похожих команд в базе знаний мультиагентной системы для переиспользования существующих решений.
+### 2. Кластеризация задач
+Группировка схожих запросов для оптимизации маршрутизации в агентных системах.
+### 3. Классификация намерений
+Определение типа задачи (транскрипция, генерация отчётов, голосовые ответы и т.д.) по векторному представлению.
+### 4. Ранжирование инструментов
+Поиск наиболее подходящих инструментов для выполнения пользовательской команды на основе семантического сходства.
+### 5. Дедупликация запросов
+Выявление дублирующихся или очень похожих запросов для оптимизации обработки.
+## Технические детали
+### Оптимизации обучения
+- **Mixed Precision Training**: использование bfloat16/float16 для ускорения обучения
+- **Gradient Accumulation**: накопление градиентов для эффективной работы с большими батчами
+- **SVD Projection**: оптимальное сжатие размерности с сохранением максимальной дисперсии
+### Математическое обоснование
+**MSE Loss** (прямое согласование):
+$$\mathcal{L}_{\text{MSE}} = \frac{1}{N} \sum_{i=1}^{N} \|\text{SVD}(\mathbf{h}_{\text{teacher}}^{(i)}) - \mathbf{h}_{\text{student}}^{(i)}\|^2$$
+**Cosine Similarity Loss** (сохранение направлений):
+$$\mathcal{L}_{\text{cosine}} = 1 - \frac{1}{N} \sum_{i=1}^{N} \frac{\mathbf{h}_{\text{teacher}}^{(i)} \cdot \mathbf{h}_{\text{student}}^{(i)}}{\|\mathbf{h}_{\text{teacher}}^{(i)}\| \|\mathbf{h}_{\text{student}}^{(i)}\|}$$
+**InfoNCE Loss** (контрастное обучение):
+$$\mathcal{L}_{\text{InfoNCE}} = -\log \frac{\exp(\text{sim}(\mathbf{h}_i, \mathbf{h}_i^+) / \tau)}{\sum_{j=1}^{N} \exp(\text{sim}(\mathbf{h}_i, \mathbf{h}_j) / \tau)}$$
+Где $\tau$ — температурный параметр контрастного обучения.
+## Ограничения
+- Модель оптимизирована для **русского языка**
+- Специализирована на задачах NLI и MASL, может показывать сниженное качество на общих задачах эмбеддингов
+- Размерность 384 может быть недостаточной для очень сложных семантических различий
+## Связанные модели
+- [Qwen2.5-NLI-7B](https://huggingface.co/Ponimash/Qwen2.5-nli-7b) — генеративная модель для создания MASL спецификаций
+- [FractalGPT/SbertDistil](https://huggingface.co/FractalGPT/SbertDistil) — базовая модель
+- [multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct) — модель-учитель
+## Примеры результатов
+### Пример 1: Транскрипция
+```python
+query = "Преобразуй голосовое сообщение в текст"
+similar = [
+    "Транскрибируй аудио в txt",
+    "Переведи речь в текстовый формат",
+    "Распознай речь и сохрани в файл"
+]
+```
+### Пример 2: Генерация отчётов
+```python
+query = "Создай презентацию с анализом данных"
+similar = [
+    "Сделай pptx с результатами исследования",
+    "Подготовь слайды с выводами",
+    "Оформи отчёт в виде презентации"
+]
+```
+## Цитирование
+```bibtex
+@misc{sbertdistilv2-nli-masl,
+  author = {Потанин, М. В.},
+  title = {SbertDistilV2-NLI-MASL: Compact Embeddings for Natural Language Interface Tasks},
+  year = {2024},
+  publisher = {HuggingFace},
+  howpublished = {\url{https://huggingface.co/FractalGPT/SbertDistilV2}}
+}
+```
+## Лицензия
+Модель распространяется под лицензией Apache 2.0.