LegalEmbed / README.md
IvanDVonga's picture
Add model card
7dee53c verified
metadata
language:
  - fr
license: cc-by-4.0
tags:
  - sentence-transformers
  - legal
  - french
  - embeddings
  - retrieval
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
datasets:
  - louisbrulenaudet/legalkit
pipeline_tag: sentence-similarity

LegalEmbed ⚖️

Modèle d'embeddings fine-tuné sur le droit français, à partir de paraphrase-multilingual-mpnet-base-v2 et du dataset louisbrulenaudet/legalkit (~53k articles de codes juridiques français).

Utilisation

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("IvanDVonga/LegalEmbed")

query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc   = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."

embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")

Préfixes recommandés

Type de texte Préfixe
Question / requête "Question juridique : "
Article de loi / document "Texte de loi : "

Entraînement

  • Loss : MultipleNegativesRankingLoss (in-batch negatives)
  • Paires : (query, article) et (référence, article)
  • Epochs : 3 — LR : 2e-5 — Batch : 32