Sentence Similarity
sentence-transformers
Safetensors
French
xlm-roberta
legal
french
embeddings
retrieval
text-embeddings-inference
Instructions to use IvanDVonga/LegalEmbed with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use IvanDVonga/LegalEmbed with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("IvanDVonga/LegalEmbed") sentences = [ "C'est une personne heureuse", "C'est un chien heureux", "C'est une personne très heureuse", "Aujourd'hui est une journée ensoleillée" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
| language: | |
| - fr | |
| license: cc-by-4.0 | |
| tags: | |
| - sentence-transformers | |
| - legal | |
| - french | |
| - embeddings | |
| - retrieval | |
| base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2 | |
| datasets: | |
| - louisbrulenaudet/legalkit | |
| pipeline_tag: sentence-similarity | |
| # LegalEmbed ⚖️ | |
| Modèle d'embeddings fine-tuné sur le droit français, à partir de | |
| [`paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) | |
| et du dataset [`louisbrulenaudet/legalkit`](https://huggingface.co/datasets/louisbrulenaudet/legalkit) | |
| (~53k articles de codes juridiques français). | |
| ## Utilisation | |
| ```python | |
| from sentence_transformers import SentenceTransformer | |
| model = SentenceTransformer("IvanDVonga/LegalEmbed") | |
| query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?" | |
| doc = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties." | |
| embeddings = model.encode([query, doc], normalize_embeddings=True) | |
| similarity = embeddings[0] @ embeddings[1] | |
| print(f"Similarité : {similarity:.4f}") | |
| ``` | |
| ## Préfixes recommandés | |
| | Type de texte | Préfixe | | |
| |---|---| | |
| | Question / requête | `"Question juridique : "` | | |
| | Article de loi / document | `"Texte de loi : "` | | |
| ## Entraînement | |
| - **Loss** : `MultipleNegativesRankingLoss` (in-batch negatives) | |
| - **Paires** : (query, article) et (référence, article) | |
| - **Epochs** : 3 — **LR** : 2e-5 — **Batch** : 32 |