Sentence Similarity
sentence-transformers
Safetensors
French
xlm-roberta
legal
french
embeddings
retrieval
text-embeddings-inference
Instructions to use IvanDVonga/LegalEmbed with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use IvanDVonga/LegalEmbed with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("IvanDVonga/LegalEmbed") sentences = [ "C'est une personne heureuse", "C'est un chien heureux", "C'est une personne très heureuse", "Aujourd'hui est une journée ensoleillée" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
metadata
language:
- fr
license: cc-by-4.0
tags:
- sentence-transformers
- legal
- french
- embeddings
- retrieval
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
datasets:
- louisbrulenaudet/legalkit
pipeline_tag: sentence-similarity
LegalEmbed ⚖️
Modèle d'embeddings fine-tuné sur le droit français, à partir de
paraphrase-multilingual-mpnet-base-v2
et du dataset louisbrulenaudet/legalkit
(~53k articles de codes juridiques français).
Utilisation
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("IvanDVonga/LegalEmbed")
query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."
embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")
Préfixes recommandés
| Type de texte | Préfixe |
|---|---|
| Question / requête | "Question juridique : " |
| Article de loi / document | "Texte de loi : " |
Entraînement
- Loss :
MultipleNegativesRankingLoss(in-batch negatives) - Paires : (query, article) et (référence, article)
- Epochs : 3 — LR : 2e-5 — Batch : 32