azizdh00
/

MNLP_M2_document_encoder

Model card Files Files and versions

azizdh00 commited on May 27, 2025

Commit

6423c9d

·

verified ·

1 Parent(s): 2a316f2

Update README.md

Files changed (1) hide show

README.md +0 -100

README.md CHANGED Viewed

@@ -1,100 +0,0 @@
----
-library_name: sentence-transformers
-pipeline_tag: sentence-similarity
-tags:
-- sentence-transformers
-- feature-extraction
-- sentence-similarity
-- transformers
-- rag
-- document-embedding
-base_model: sentence-transformers/all-mpnet-base-v2
-license: apache-2.0
----
-# Document Encoder for RAG - MPNet Base V2
-This is a **sentence-transformers** model based on **sentence-transformers/all-mpnet-base-v2**. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for tasks like clustering or semantic search.
-## Model Details
-- **Base Model**: sentence-transformers/all-mpnet-base-v2
-- **Embedding Dimension**: 768
-- **Max Sequence Length**: 384 tokens
-- **Use Case**: Document encoding for RAG (Retrieval-Augmented Generation) systems
-## Usage (Sentence-Transformers)
-Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
-```bash
-pip install -U sentence-transformers
-```
-Then you can use the model like this:
-```python
-from sentence_transformers import SentenceTransformer
-# Load model
-model = SentenceTransformer('azizdh00/MNLP_M2_document_encoder')
-# Encode documents
-documents = [
-    "This is a sample document about artificial intelligence.",
-    "Machine learning is a subset of AI that uses algorithms.",
-    "Natural language processing enables computers to understand text."
-]
-embeddings = model.encode(documents)
-print(f"Embeddings shape: {embeddings.shape}")
-```
-## Usage (HuggingFace Transformers)
-You can also use the model without sentence-transformers:
-```python
-from transformers import AutoTokenizer, AutoModel
-import torch
-# Load model and tokenizer
-tokenizer = AutoTokenizer.from_pretrained('azizdh00/MNLP_M2_document_encoder')
-model = AutoModel.from_pretrained('azizdh00/MNLP_M2_document_encoder')
-# Tokenize and encode
-def encode_text(texts):
-    encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
-    with torch.no_grad():
-        outputs = model(**encoded)
-    # Mean pooling
-    embeddings = outputs.last_hidden_state.mean(dim=1)
-    return embeddings
-# Example usage
-texts = ["Sample document text"]
-embeddings = encode_text(texts)
-```
-## Training Data
-This model was originally trained on a large dataset of sentence pairs for semantic similarity tasks.
-## Performance
-The model achieves strong performance on:
-- Semantic similarity tasks
-- Document retrieval
-- Clustering tasks
-- Information retrieval benchmarks
-## Technical Details
-- **Model Type**: Sentence Transformer (MPNet)
-- **Training Procedure**: Pre-trained on sentence similarity tasks
-- **Intended Uses**: Semantic search, clustering, similarity measurement
-- **Languages**: Primarily English
-## License
-This model is released under the Apache 2.0 License.