Modotte
/

SparkEmbedding-300m

@@ -13,7 +13,7 @@ task_categories:
 - retrieval
 - clustering
 tags:
-- XenArcAI
 - SparkEmbedding
 - Embedding
 - embedding
@@ -27,7 +27,7 @@ annotations_creators:
 - machine-generated
 - expert-verified
 source_datasets:
-- XenArcAI internal synthetic generation
 multilinguality:
 - multilingual
 ---
@@ -46,7 +46,7 @@ multilinguality:
 ### Description
-SparkEmbedding-300m is a 300 million parameter multilingual text embedding model with **SoTA cross‑lingual retrieval** developed by the XenArcAI team. Fine-tuned from Google's EmbeddingGemma-300m, it incorporates an additional 1 million curated samples across 119(all 22 Indian languages included) languages, emphasizing data complexity, linguistic diversity, and deep language understanding. This optimization enhances cross-lingual retrieval, producing embeddings with superior semantic alignment and efficacy in multilingual settings.
 The model generates high-dimensional vector representations capturing rich semantic and contextual information, excelling in bridging linguistic gaps for applications like global information retrieval, multilingual question answering, and cross-language semantic search. With a native 2048-token context window, it handles extended inputs (e.g., full articles or documents) while preserving long-range dependencies.
@@ -86,7 +86,7 @@ from sentence_transformers import SentenceTransformer
 import torch
 import numpy as np
-model = SentenceTransformer("XenArcAI/SparkEmbedding-300m", device='cuda' if torch.cuda.is_available() else 'cpu')
 query = "How does artificial intelligence impact global economies?"  # English
 corpus = [
@@ -193,12 +193,12 @@ Qualitative: Tight t-SNE clustering for parallels; excels in complex/mixed-langu
 ### Citation
 ```bibtex
-@misc{xenarcai_sparkembedding_2025,
     title={SparkEmbedding-300m: A Fine-Tuned Multilingual Embedding Model for Cross-Lingual Retrieval},
     author= {Parvesh Rawal}},
     publisher={Hugging Face},
     year={2025},
-    url={https://huggingface.co/XenArcAI/SparkEmbedding-300m}
 }
 ```

 - retrieval
 - clustering
 tags:
+- Modotte
 - SparkEmbedding
 - Embedding
 - embedding
 - machine-generated
 - expert-verified
 source_datasets:
+- Modotte internal synthetic generation
 multilinguality:
 - multilingual
 ---
 ### Description
+SparkEmbedding-300m is a 300 million parameter multilingual text embedding model with **SoTA cross‑lingual retrieval** developed by the Modotte team. Fine-tuned from Google's EmbeddingGemma-300m, it incorporates an additional 1 million curated samples across 119(all 22 Indian languages included) languages, emphasizing data complexity, linguistic diversity, and deep language understanding. This optimization enhances cross-lingual retrieval, producing embeddings with superior semantic alignment and efficacy in multilingual settings.
 The model generates high-dimensional vector representations capturing rich semantic and contextual information, excelling in bridging linguistic gaps for applications like global information retrieval, multilingual question answering, and cross-language semantic search. With a native 2048-token context window, it handles extended inputs (e.g., full articles or documents) while preserving long-range dependencies.
 import torch
 import numpy as np
+model = SentenceTransformer("Modotte/SparkEmbedding-300m", device='cuda' if torch.cuda.is_available() else 'cpu')
 query = "How does artificial intelligence impact global economies?"  # English
 corpus = [
 ### Citation
 ```bibtex
+@misc{Modotte_sparkembedding_2025,
     title={SparkEmbedding-300m: A Fine-Tuned Multilingual Embedding Model for Cross-Lingual Retrieval},
     author= {Parvesh Rawal}},
     publisher={Hugging Face},
     year={2025},
+    url={https://huggingface.co/Modotte/SparkEmbedding-300m}
 }
 ```