LegalEmbed / README.md
IvanDVonga's picture
Add model card
7dee53c verified
---
language:
- fr
license: cc-by-4.0
tags:
- sentence-transformers
- legal
- french
- embeddings
- retrieval
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
datasets:
- louisbrulenaudet/legalkit
pipeline_tag: sentence-similarity
---
# LegalEmbed ⚖️
Modèle d'embeddings fine-tuné sur le droit français, à partir de
[`paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2)
et du dataset [`louisbrulenaudet/legalkit`](https://huggingface.co/datasets/louisbrulenaudet/legalkit)
(~53k articles de codes juridiques français).
## Utilisation
```python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("IvanDVonga/LegalEmbed")
query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."
embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")
```
## Préfixes recommandés
| Type de texte | Préfixe |
|---|---|
| Question / requête | `"Question juridique : "` |
| Article de loi / document | `"Texte de loi : "` |
## Entraînement
- **Loss** : `MultipleNegativesRankingLoss` (in-batch negatives)
- **Paires** : (query, article) et (référence, article)
- **Epochs** : 3 — **LR** : 2e-5 — **Batch** : 32