Sentence Similarity
sentence-transformers
Safetensors
French
xlm-roberta
legal
french
embeddings
retrieval
text-embeddings-inference
Instructions to use IvanDVonga/LegalEmbed with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use IvanDVonga/LegalEmbed with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("IvanDVonga/LegalEmbed") sentences = [ "C'est une personne heureuse", "C'est un chien heureux", "C'est une personne très heureuse", "Aujourd'hui est une journée ensoleillée" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
File size: 1,479 Bytes
e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c e3c5a12 7dee53c | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 | ---
language:
- fr
license: cc-by-4.0
tags:
- sentence-transformers
- legal
- french
- embeddings
- retrieval
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
datasets:
- louisbrulenaudet/legalkit
pipeline_tag: sentence-similarity
---
# LegalEmbed ⚖️
Modèle d'embeddings fine-tuné sur le droit français, à partir de
[`paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2)
et du dataset [`louisbrulenaudet/legalkit`](https://huggingface.co/datasets/louisbrulenaudet/legalkit)
(~53k articles de codes juridiques français).
## Utilisation
```python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("IvanDVonga/LegalEmbed")
query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."
embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")
```
## Préfixes recommandés
| Type de texte | Préfixe |
|---|---|
| Question / requête | `"Question juridique : "` |
| Article de loi / document | `"Texte de loi : "` |
## Entraînement
- **Loss** : `MultipleNegativesRankingLoss` (in-batch negatives)
- **Paires** : (query, article) et (référence, article)
- **Epochs** : 3 — **LR** : 2e-5 — **Batch** : 32 |