--- language: - kk - ru - en license: apache-2.0 tags: - feature-extraction - sentence-similarity - multilingual pipeline_tag: sentence-similarity base_model: BAAI/bge-m3 model-index: - name: darmm-embedding-multilingual results: - task: type: retrieval name: Retrieval metrics: - type: recall_at_1 value: 0.9444 - type: recall_at_3 value: 1.0 - type: recall_at_5 value: 1.0 - type: recall_at_10 value: 1.0 --- # Darmm Multilingual Embedding Multilingual embedding model (Kazakh/Russian/English) fine-tuned from `BAAI/bge-m3` for Darmm FAQ and product content retrieval. ## Usage ### Direct model usage (Hugging Face) ```python from sentence_transformers import SentenceTransformer model = SentenceTransformer("Darmm/darmm-embedding-multilingual") sentences = ["Darmm қызметтері қандай?", "What services does Darmm provide?"] embeddings = model.encode(sentences) print(embeddings.shape) ``` ## Training data (verified) - Darmm landing, academy, and mentor site text extracted from local sources. ## Training setup - Base model: `BAAI/bge-m3`. - Loss: `MultipleNegativesRankingLoss` (default in `scripts/train_embeddings.py`). - Typical training params in this repo: `epochs=3`, `batch_size=2`, `max_seq_length=128`. ## Evaluation Evaluation uses paraphrased FAQ questions mapped to the FAQ corpus: - Corpus: `data/faq_chunks.jsonl` (369 chunks) - Queries: `data/eval_questions.jsonl` (90 questions) ## Paper & Documentation
🇬🇧 English # Darmm: Multilingual Embeddings for FAQ Retrieval ## Abstract We present a multilingual embedding model fine‑tuned for Darmm FAQ and product knowledge retrieval in Kazakh, Russian, and English. The model is based on `BAAI/bge-m3` and trained on Darmm website content and a handcrafted FAQ corpus. We evaluate on paraphrased FAQ questions mapped to the FAQ corpus. ## 1. Dataset - **Sources**: Darmm landing, academy, and mentor site content (local sources) plus handcrafted FAQ data. - **FAQ corpus**: 150 topics × 3 languages = 450 Q/A documents. - **Chunked corpus**: 369 chunks in `data/faq_chunks.jsonl`. ## 2. Training - **Base model**: `BAAI/bge-m3` - **Loss**: `MultipleNegativesRankingLoss` - **Params**: `epochs=3`, `batch_size=2`, `max_seq_length=128` ## 3. Results Evaluation on `data/eval_questions.jsonl` (90 paraphrased queries) against the FAQ corpus: - Recall@1 = 0.9444 - Recall@3/5/10 = 1.0 ## 4. Limitations - Performance depends on query style and corpus quality. - Short UI strings can reduce relevance; prefer richer FAQ or docs. - Validate with real user questions and a held‑out test set.
🇰🇿 Қазақша # Darmm: FAQ іздеуге арналған көптілді эмбеддингтер ## Аңдатпа Бұл модель Darmm‑ның FAQ және өнім білім базасын қазақ, орыс және ағылшын тілдерінде іздеуге арналған. Негізі `BAAI/bge-m3`, оқыту Darmm сайт контенті мен қолмен жасалған FAQ жиынына жүргізілді. Бағалау парафраз сұрақтар арқылы жасалды. ## 1. Деректер - **Көздер**: Darmm landing/academy/mentor сайттарының локал контенті және FAQ жиыны. - **FAQ корпусы**: 150 тақырып × 3 тіл = 450 Q/A құжаты. - **Чанкталған корпус**: `data/faq_chunks.jsonl` ішінде 369 чанк. ## 2. Оқыту - **Негізгі модель**: `BAAI/bge-m3` - **Loss**: `MultipleNegativesRankingLoss` - **Параметрлер**: `epochs=3`, `batch_size=2`, `max_seq_length=128` ## 3. Нәтижелер `data/eval_questions.jsonl` (90 парафраз сұрақ) арқылы бағалау: - Recall@1 = 0.9444 - Recall@3/5/10 = 1.0 ## 4. Шектеулер - Нәтиже сұрақ стилі мен корпус сапасына тәуелді. - Қысқа UI мәтіндері релевантты төмендетуі мүмкін. - Нақты пайдаланушы сұрақтарымен міндетті түрде тексеріңіз.
🇷🇺 Русский # Darmm: Мультиязычные эмбеддинги для FAQ‑поиска ## Аннотация Модель предназначена для поиска по FAQ и базе знаний Darmm на казахском, русском и английском. Основана на `BAAI/bge-m3` и дообучена на локальном контенте сайтов Darmm и ручном FAQ‑корпусе. Оценка проводится на перефразированных вопросах. ## 1. Данные - **Источники**: локальный контент сайтов Darmm и FAQ‑корпус. - **FAQ корпус**: 150 тем × 3 языка = 450 Q/A документов. - **Чанкованный корпус**: 369 чанков в `data/faq_chunks.jsonl`. ## 2. Обучение - **Базовая модель**: `BAAI/bge-m3` - **Loss**: `MultipleNegativesRankingLoss` - **Параметры**: `epochs=3`, `batch_size=2`, `max_seq_length=128` ## 3. Результаты Оценка на `data/eval_questions.jsonl` (90 перефразированных запросов): - Recall@1 = 0.9444 - Recall@3/5/10 = 1.0 ## 4. Ограничения - Результаты зависят от стиля запросов и качества корпуса. - Короткие UI‑строки снижают релевантность. - Проверяйте на реальных пользовательских вопросах.
## Intended use - FAQ search and internal knowledge retrieval across kk/ru/en. - RAG pipelines for Darmm services. ## Limitations - Results depend on corpus quality and query style. - Short UI strings reduce relevance; prefer fuller FAQ or documentation. - For real-world validation, use actual user queries and a held‑out test set.