Sentence Similarity
sentence-transformers
Safetensors
Vietnamese
English
xlm-roberta
feature-extraction
Generated from Trainer
loss:MatryoshkaLoss
loss:MultipleNegativesRankingLoss
Eval Results (legacy)
text-embeddings-inference
Instructions to use contextboxai/halong_embedding with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use contextboxai/halong_embedding with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("contextboxai/halong_embedding") sentences = [ "Bóng đá có lợi ích gì cho sức khỏe?", "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.", "Bóng đá là môn thể thao phổ biến nhất thế giới.", "Bóng đá có thể giúp bạn kết nối với nhiều người hơn." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Inference
- Notebooks
- Google Colab
- Kaggle
Update README.md
Browse files
README.md
CHANGED
|
@@ -144,6 +144,7 @@ pip install -U sentence-transformers
|
|
| 144 |
Then you can load this model and run inference.
|
| 145 |
```python
|
| 146 |
from sentence_transformers import SentenceTransformer
|
|
|
|
| 147 |
|
| 148 |
# Download from the 🤗 Hub
|
| 149 |
model = SentenceTransformer("hiieu/halong_embedding")
|
|
@@ -179,6 +180,48 @@ for doc, score in zip(sorted_docs, sorted_scores):
|
|
| 179 |
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.4828
|
| 180 |
```
|
| 181 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 182 |
<!--
|
| 183 |
### Direct Usage (Transformers)
|
| 184 |
|
|
|
|
| 144 |
Then you can load this model and run inference.
|
| 145 |
```python
|
| 146 |
from sentence_transformers import SentenceTransformer
|
| 147 |
+
import torch
|
| 148 |
|
| 149 |
# Download from the 🤗 Hub
|
| 150 |
model = SentenceTransformer("hiieu/halong_embedding")
|
|
|
|
| 180 |
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.4828
|
| 181 |
```
|
| 182 |
|
| 183 |
+
### Matryoshka Embeddings Inference
|
| 184 |
+
```python
|
| 185 |
+
from sentence_transformers import SentenceTransformer
|
| 186 |
+
import torch.nn.functional as F
|
| 187 |
+
import torch
|
| 188 |
+
|
| 189 |
+
matryoshka_dim = 64
|
| 190 |
+
model = SentenceTransformer(
|
| 191 |
+
"hiieu/halong_embedding",
|
| 192 |
+
truncate_dim=matryoshka_dim,
|
| 193 |
+
)
|
| 194 |
+
|
| 195 |
+
# Define query and documents
|
| 196 |
+
query = "Bóng đá có lợi ích gì cho sức khỏe?"
|
| 197 |
+
docs = [
|
| 198 |
+
"Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
|
| 199 |
+
"Bóng đá là môn thể thao phổ biến nhất thế giới.",
|
| 200 |
+
"Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
|
| 201 |
+
"Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
|
| 202 |
+
"Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
|
| 203 |
+
]
|
| 204 |
+
|
| 205 |
+
# Encode query and documents
|
| 206 |
+
query_embedding = model.encode([query])
|
| 207 |
+
doc_embeddings = model.encode(docs)
|
| 208 |
+
similarities = model.similarity(query_embedding, doc_embeddings).flatten()
|
| 209 |
+
|
| 210 |
+
# Sort documents by cosine similarity
|
| 211 |
+
sorted_indices = torch.argsort(similarities, descending=True)
|
| 212 |
+
sorted_docs = [docs[idx] for idx in sorted_indices]
|
| 213 |
+
sorted_scores = [similarities[idx].item() for idx in sorted_indices]
|
| 214 |
+
|
| 215 |
+
# Print sorted documents with their cosine scores
|
| 216 |
+
for doc, score in zip(sorted_docs, sorted_scores):
|
| 217 |
+
print(f"Document: {doc} - Cosine Similarity: {score:.4f}")
|
| 218 |
+
|
| 219 |
+
# Document: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Cosine Similarity: 0.8045
|
| 220 |
+
# Document: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Cosine Similarity: 0.7676
|
| 221 |
+
# Document: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Cosine Similarity: 0.6758
|
| 222 |
+
# Document: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Cosine Similarity: 0.5931
|
| 223 |
+
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.5105
|
| 224 |
+
```
|
| 225 |
<!--
|
| 226 |
### Direct Usage (Transformers)
|
| 227 |
|