--- language: - fr license: cc-by-4.0 tags: - sentence-transformers - legal - french - embeddings - retrieval base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2 datasets: - louisbrulenaudet/legalkit pipeline_tag: sentence-similarity --- # LegalEmbed ⚖️ Modèle d'embeddings fine-tuné sur le droit français, à partir de [`paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) et du dataset [`louisbrulenaudet/legalkit`](https://huggingface.co/datasets/louisbrulenaudet/legalkit) (~53k articles de codes juridiques français). ## Utilisation ```python from sentence_transformers import SentenceTransformer model = SentenceTransformer("IvanDVonga/LegalEmbed") query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?" doc = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties." embeddings = model.encode([query, doc], normalize_embeddings=True) similarity = embeddings[0] @ embeddings[1] print(f"Similarité : {similarity:.4f}") ``` ## Préfixes recommandés | Type de texte | Préfixe | |---|---| | Question / requête | `"Question juridique : "` | | Article de loi / document | `"Texte de loi : "` | ## Entraînement - **Loss** : `MultipleNegativesRankingLoss` (in-batch negatives) - **Paires** : (query, article) et (référence, article) - **Epochs** : 3 — **LR** : 2e-5 — **Batch** : 32