Upload Rigveda ONNX embedding model

Browse files

Files changed (7) hide show

.gitattributes +4 -33
README.md +163 -0
config.json +62 -0
model.onnx +3 -0
special_tokens_map.json +33 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,6 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,163 @@

+---
+license: apache-2.0
+library_name: sentence-transformers
+tags:
+- sentence-transformers
+- onnx
+- embedding
+- sanskrit
+- rigveda
+- multilingual
+datasets:
+- custom
+language:
+- sa
+- en
+pipeline_tag: feature-extraction
+---
+# Rigveda Embedding Model (ONNX)
+This is an ONNX-optimized version of the [Ganaraj/rgveda-embedding-gemma](https://huggingface.co/Ganaraj/rgveda-embedding-gemma) model, specifically designed for efficient embedding generation of Sanskrit texts, particularly Rigveda verses.
+## Model Details
+- **Base Model**: Ganaraj/rgveda-embedding-gemma
+- **Architecture**: Gemma-based sentence transformer
+- **Format**: ONNX (Open Neural Network Exchange)
+- **Embedding Dimension**: 768
+- **Language Support**: Sanskrit (primary), English
+- **License**: Apache 2.0
+## Usage
+### Installation
+```bash
+pip install onnxruntime transformers numpy
+```
+### Python Example
+```python
+import numpy as np
+import onnxruntime
+from transformers import AutoTokenizer
+class RigvedaONNXInference:
+    def __init__(self, model_path):
+        # Load tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
+        # Load ONNX model
+        self.session = onnxruntime.InferenceSession(f"{model_path}/model.onnx")
+    def encode_query(self, queries):
+        """Encode queries with task prefix"""
+        texts = [f"task: search result | query: {q}" for q in queries]
+        return self._get_embeddings(texts)
+    def encode_document(self, documents):
+        """Encode documents with title prefix"""
+        texts = [f"title: none | text: {d}" for d in documents]
+        return self._get_embeddings(texts)
+    def _get_embeddings(self, texts):
+        inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors='np')
+        onnx_inputs = {
+            'input_ids': inputs['input_ids'],
+            'attention_mask': inputs['attention_mask']
+        }
+        outputs = self.session.run(None, onnx_inputs)
+        embeddings = outputs[0][:, 0]  # Use [CLS] token
+        # Normalize embeddings
+        return embeddings / np.linalg.norm(embeddings, axis=1, keepdims=True)
+# Usage example
+model = RigvedaONNXInference("./")
+# Sanskrit query about divine phenomena similar to rain and lightning
+query = "वृष्टि-विद्युत्-सदृशं दैविकं आगमनम्"
+# Rigveda verses
+documents = [
+    'असामि हि प्रयज्यवः कण्वं दद प्रचेतसः\nअसामिभिर् मरुत आ न ऊतिभिर् गन्ता वृष्टिं न विद्युतः',
+    'उत द्वार उशतीर् वि श्रयन्ताम् उत देवाṁ उशत आ वहेह',
+    'प्राग्नये बृहते यज्ञियाय ऋतस्य वृष्णे असुराय मन्म\nघृतं न यज्ञ आस्ये सुपूतं गिरम् भरे वृषभाय प्रतीचीम्'
+]
+# Get embeddings
+query_emb = model.encode_query([query])
+doc_emb = model.encode_document(documents)
+# Calculate similarity
+similarities = np.dot(query_emb, doc_emb.T)
+print("Similarities:", similarities)
+```
+## Model Performance
+This ONNX version maintains high fidelity to the original PyTorch model while offering:
+- **Faster inference**: Optimized for CPU and GPU inference
+- **Smaller memory footprint**: Efficient memory usage
+- **Cross-platform compatibility**: Works across different frameworks
+- **Production ready**: Suitable for deployment scenarios
+## Intended Use
+This model is designed for:
+- **Sanskrit text retrieval**: Finding relevant Rigveda verses based on semantic queries
+- **Comparative study**: Analyzing similarities between Sanskrit texts
+- **Digital humanities research**: Supporting Sanskrit scholarship and research
+- **Educational applications**: Helping students and researchers explore Vedic literature
+## Training Data
+The base model was trained on Sanskrit texts with a focus on Rigveda verses, enabling it to understand:
+- Classical Sanskrit vocabulary and grammar
+- Vedic terminology and concepts
+- Semantic relationships in ancient texts
+- Cross-lingual understanding (Sanskrit-English)
+## Limitations
+- Primary focus on Rigveda and classical Sanskrit texts
+- May not perform optimally on modern Sanskrit or non-Vedic texts
+- Limited understanding of highly specialized technical Sanskrit terms
+- Performance may vary with different Sanskrit transliteration schemes
+## Citation
+If you use this model in your research, please cite:
+```bibtex
+@misc{rigveda-onnx-embedding,
+  title={Rigveda Embedding Model (ONNX)},
+  author={Converted from Ganaraj/rgveda-embedding-gemma},
+  year={2024},
+  howpublished={\url{https://huggingface.co/YOUR_USERNAME/rgveda-onnx-model}}
+}
+```
+## Technical Details
+- **Conversion Tool**: Hugging Face Optimum
+- **ONNX Opset**: 18
+- **Precision**: FP32
+- **Input Format**: Tokenized text with attention masks
+- **Output**: Normalized embeddings (768-dimensional)
+## Files Included
+- `model.onnx`: The ONNX model file
+- `config.json`: Model configuration
+- `tokenizer.json`: Fast tokenizer
+- `tokenizer_config.json`: Tokenizer configuration
+- `special_tokens_map.json`: Special token mappings
+## Contact
+For questions about this ONNX conversion, please open an issue in the repository. For questions about the base model, please refer to the original [Ganaraj/rgveda-embedding-gemma](https://huggingface.co/Ganaraj/rgveda-embedding-gemma) model page.

config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3TextModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "dtype": "float32",
+  "eos_token_id": 1,
+  "export_model_type": "transformer",
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 2048,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 257,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.4",
+  "use_bidirectional_attention": true,
+  "use_cache": true,
+  "vocab_size": 262144
+}

model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c8972e56731303d3e166dca4207aa8b8065e999172ed57b71b5f09d1308667e
+size 1231714805

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:216e2a79606fe879c9f17c529c71cd241338407fd5646b595ffd3c4b9ea1d503
+size 33385262

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff