LegalEmbed / README.md

IvanDVonga

Add model card

7dee53c verified 14 days ago

preview code

raw

history blame contribute delete

1.48 kB

metadata

language:
  - fr
license: cc-by-4.0
tags:
  - sentence-transformers
  - legal
  - french
  - embeddings
  - retrieval
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
datasets:
  - louisbrulenaudet/legalkit
pipeline_tag: sentence-similarity

LegalEmbed ⚖️

Modèle d'embeddings fine-tuné sur le droit français, à partir de paraphrase-multilingual-mpnet-base-v2 et du dataset louisbrulenaudet/legalkit (~53k articles de codes juridiques français).

Utilisation

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("IvanDVonga/LegalEmbed")

query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc   = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."

embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")

Préfixes recommandés

Type de texte	Préfixe
Question / requête	`"Question juridique : "`
Article de loi / document	`"Texte de loi : "`

Entraînement

Loss : MultipleNegativesRankingLoss (in-batch negatives)
Paires : (query, article) et (référence, article)
Epochs : 3 — LR : 2e-5 — Batch : 32