Modotte
/

SparkEmbedding-300m

@@ -72,25 +72,6 @@ Built on EmbeddingGemma-300m's decoder-only transformer (inspired by Gemma and T
 No architectural changes during fine-tuning; focuses on embedding head and optimization for cross-lingual gains. Compatible with Hugging Face Transformers.
-### Intended Use Cases
-- Cross-lingual semantic search (e-commerce, news, academic databases).
-- Retrieval-augmented generation (RAG) for diverse queries.
-- Multilingual clustering/topic modeling (social media, content moderation).
-- On-device personalization (translation apps, virtual assistants).
-Leverage MRL for scalability and task-specific prompting for extended utility.
-### Citation
-```bibtex
-@misc{xenarcai_sparkembedding_2025,
-    title={SparkEmbedding-300m: A Fine-Tuned Multilingual Embedding Model for Cross-Lingual Retrieval},
-    author={XenArcAI Team},
-    publisher={Hugging Face},
-    year={2025},
-    url={https://huggingface.co/XenArcAI/SparkEmbedding-300m}
-}
-```
 ## Usage
 ### Installation and Setup
@@ -125,6 +106,14 @@ print(f"Similarity scores: {similarities[top_indices]}")
 ```
 Yields high scores (0.75-0.90) for relevant cross-lingual matches.
 ### Advanced Configurations
 - **Batch Processing:** Up to batch_size=128; use show_progress_bar=True.
 - **Precision:** fp32 default; torch.bfloat16 for memory savings (avoid fp16 for multilingual stability).
@@ -201,5 +190,17 @@ Qualitative: Tight t-SNE clustering for parallels; excels in complex/mixed-langu
 - Responsible Use: Avoid unmonitored high-risk apps; report issues.
 - Transparency: Dataset cards/audits available on request.
 ## Credits and Acknowledgments
 Built on Google's EmbeddingGemma-300m ([arXiv:2509.20354](https://arxiv.org/abs/2509.20354)). Thanks to BibleText project, Hugging Face Transformers/Sentence Transformers, and ML community. Open to collaborations.

 No architectural changes during fine-tuning; focuses on embedding head and optimization for cross-lingual gains. Compatible with Hugging Face Transformers.
 ## Usage
 ### Installation and Setup
 ```
 Yields high scores (0.75-0.90) for relevant cross-lingual matches.
+### Intended Use Cases
+- Cross-lingual semantic search (e-commerce, news, academic databases).
+- Retrieval-augmented generation (RAG) for diverse queries.
+- Multilingual clustering/topic modeling (social media, content moderation).
+- On-device personalization (translation apps, virtual assistants).
+Leverage MRL for scalability and task-specific prompting for extended utility.
 ### Advanced Configurations
 - **Batch Processing:** Up to batch_size=128; use show_progress_bar=True.
 - **Precision:** fp32 default; torch.bfloat16 for memory savings (avoid fp16 for multilingual stability).
 - Responsible Use: Avoid unmonitored high-risk apps; report issues.
 - Transparency: Dataset cards/audits available on request.
+### Citation
+```bibtex
+@misc{xenarcai_sparkembedding_2025,
+    title={SparkEmbedding-300m: A Fine-Tuned Multilingual Embedding Model for Cross-Lingual Retrieval},
+    author={XenArcAI Team},
+    publisher={Hugging Face},
+    year={2025},
+    url={https://huggingface.co/XenArcAI/SparkEmbedding-300m}
+}
+```
 ## Credits and Acknowledgments
 Built on Google's EmbeddingGemma-300m ([arXiv:2509.20354](https://arxiv.org/abs/2509.20354)). Thanks to BibleText project, Hugging Face Transformers/Sentence Transformers, and ML community. Open to collaborations.