Instructions to use ReDiX/Legal-Embedding-ita-0.6B with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use ReDiX/Legal-Embedding-ita-0.6B with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("ReDiX/Legal-Embedding-ita-0.6B") sentences = [ "Quale norma impedisce che l’estinzione riconosciuta a S. sia trasferita a V.?", "https://www.gazzettaufficiale.it/atto/stampa/serie_generale/originario 23/26 ai familiari superstiti, che gia' godono del diritto al collocamento obbligatorio con precedenza rispetto ad ogni altra categoria e preferenza a parita' di titoli, ai sensi dell'articolo 1, comma 2 della legge 23 novembre 1998, n. 407, deve essere garantito un programma di assunzione presso le amministrazioni pubbliche, nei limiti delle relative facolta' assunzionali autorizzate a legislazione vigente, con rispetto della qualifica e delle funzioni corrispondenti al titolo di studio ed alle professionalita' possedute. Le modalita' di attuazione sono stabilite da apposito regolamento adottato ai sensi dell'articolo 17, comma 3, della legge 23 agosto 1988, n. 400, dai Ministri della pubblica amministrazione e dell'interno. Per le assunzioni del personale di cui all'articolo 3 del decreto legislativo 30 marzo 2001, n. 165, restano salve le disposizioni previste dai rispettivi ordinamenti. 2. Il coniuge e i figli dell'invalido riconosciuto vittima del dovere, ai sensi della legge 13 agosto 1980, n. 466, e della legge 23 dicembre 2005, n. 266, possono ottenere l'iscrizione negli elenchi del collocamento obbligatorio di cui all'articolo 8 della legge 12 marzo 1999, n. 68, secondo le modalita' previste per i soggetti di cui alla legge 23 novembre 1998, n. 407. 3. L'articolo 1, comma 2, del decreto del Presidente della Repubblica 10 ottobre 2000, n. 333, si interpreta nel senso che i familiari dell'invalido riconosciuto vittima del dovere possono iscriversi negli elenchi del collocamento obbligatorio di cui all'articolo 8 della legge 12 marzo 1999, n. 68, purche' il dante causa non risulti contestualmente iscritto. 4. I soggetti tenuti all'adempimento dell'obbligo di assunzione devono indicare con cadenza annuale, secondo i parametri di cui al decreto legislativo 27 ottobre 2009, n. 150, e attraverso lo strumento della pubblicazione sui siti istituzionali e mediante una comunicazione al Dipartimento della funzione pubblica della Presidenza del Consiglio dei ministri, la dotazione organica distinta per aree o categorie, il numero dei soggetti da assumere in base alle previsioni dell'articolo 18 della legge 12 marzo 1999, n. 68, il numero dei soggetti gia' reclutati a copertura della quota obbligatoria, le procedure avviate per il collocamento obbligatorio, con indicazione del tipo di avviamento al lavoro. 5. Al fine di garantire l'effettivita' del diritto al collocamento delle vittime del dovere, di cui all'articolo 1, commi 563 e 564, della legge 23 dicembre 2005, n. 266, alle vittime del terrorismo e delle stragi di tale matrice, di cui all'articolo 1 della legge 3 agosto 2004, n. 206, alle vittime della criminalita' organizzata di cui all'articolo 1, comma 2, della legge 20 ottobre 1990, n. 302 in caso di inadempimento delle disposizioni del presente articolo e di quelle di cui all'articolo 5 del decreto legislativo 30 marzo 2001, n. 165 e all'articolo 1, comma 5, del decreto del Presidente della Repubblica 9 maggio 1994, n. 487, un numero di assunzioni corrispondente a quelle che non sono state realizzate sono rese indisponibili nell'ambito delle facolta' assunzionali dell'amministrazione interessata. 6. Alle vittime del dovere ed ai loro familiari, anche superstiti, di cui all'articolo 1, commi 563 e 564, della legge 23 dicembre 2005, n. 266, possono essere riconosciuti permessi orari a recupero per un numero massimo di diciotto ore annue non continuative e comunque in modo tale che non sia necessario procedere alla sostituzione del personale, al fine di partecipare a iniziative pubbliche, anche presso scuole e istituzioni, finalizzate alla diffusione della cultura della legalita' e della memoria delle vittime del dovere, del terrorismo e della criminalita' organizzata, in deroga al limite massimo di ore previsto dal contratto collettivo nazionale di lavoro del comparto di appartenenza. 7. Il permesso di cui al comma 6 viene concesso a semplice richiesta del dipendente avente titolo, salva la produzione di idonea documentazione attestante i motivi dell'assenza come sopra qualificati. 8. Le ore di assenza per la partecipazione alle iniziative pubbliche di cui al comma 6 sono retribuite e soggette a recupero secondo la disciplina contrattuale vigente.", "La declaratoria di tale estinzione, spettante al S., non può peraltro essere estesa anche al V. in forza della regola di estensione di cui all'art. 587 c.p.p., essendosi nei suoi confronti consolidato il giudicato di colpevolezza prima del verificarsi dell'effetto estintivo, venuto a maturazione in ragione del protrarsi del decorso del termine di prescrizione successivamente alla proposizione dei ricorsi (Sez. 2, n. 26708 del 20/05/2009, Borrelli, Rv. 244664; Sez. 6, n. 23251 del 18/03/2003, Cammardella, Rv. 226007; Sez. 1, n. 12369 del 23/10/2000, Russo, Rv. 217393). Ciò chiarito, deve naturalmente anche qui procedersi alla previa verifica dell'insussistenza dei presupposti per pronunciare nei confronti del S. un proscioglimento più favorevole a sensi dell'art. 129 c.p.p., comma 2, (estensibile in ipotesi sicuramente, ove non basato su motivi personali, anche al V., in forza della ricordata regola di cui all'art. 587 c.p.p.). Tali presupposti non sono nella specie ravvisabili. I motivi proposti in ordine al falso, infatti, vuoi quelli intesi a contestare la natura pubblica attestativa del documento redatto dal S. ovvero la effettiva falsità ideologica del passaggio relativo all'avvenuto rimborso da parte del V., vuoi quelli diretti a contestare la sussistenza di un dolo penalmente rilevante, sono basati, quando non su rilievi di merito, su presunti vizi motivazionali - autonomi o collegati a prospettate letture del diritto sostanziale alternative a quella offerta (in conformità alla dominante giurisprudenza) dai giudici di merito - che, se anche sussistenti, sarebbero comunque irrilevanti al fine di impedire la declaratoria della causa estintiva del reato, in quanto comporterebbero un annullamento con rinvio della sentenza impugnata, precluso dall'obbligo di immediata declaratoria della detta causa. La sentenza impugnata deve, pertanto, essere annullata senza rinvio nei confronti del S. in ordine al reato di falso (che resta invece fermo, con la irrogata pena di anni uno e mesi quattro di reclusione, per il V.), perchè estinto per prescrizione.", "dopo che con l’atto di opposizione a decreto penale di condanna l’imputato abbia avanzato la richiesta di ammissione al giudizio abbreviato incondizionato. Tuttavia, nel caso di specie, sembra che permanga il vulnus del diritto di difesa. Difatti, nell’ipotesi di fissazione dell’udienza preliminare l’imputato può chiedere l’ammissione di atti e documenti, ivi compresa la documentazione dell’investigazione difensiva. Quindi, prima che siano formulate le con-clusioni, può avanzare richiesta di giudizio abbreviato non condizionato. In tal caso, gli atti di investi-gazione difensiva sono equiparati agli atti di indagine compiuti dal pubblico ministero, in quanto vi è una rinuncia generalizzata al contraddittorio nella formazione della prova 44. Di tal guisa, l’imputato «si precostituisce le condizioni per essere giudicato allo stato degli atti, garantendosi l’accesso al rito e la tendenziale immutabilità – salvo interventi ex officio del giudice – del quadro probatorio su cui ha fon-dato la scelta della definizione anticipata del processo» 45. Ovviamente, si pone il problema delle modalità attuative del contraddittorio, in quanto qualora la produzione documentale e la richiesta di giudizio abbreviato si susseguano rapidamente il pubblico ministero potrebbe non disporre del tempo necessario per presentare prove contrarie. La soluzione, fra l’altro più aderente al dato normativo, è stata individuata dalla Corte costituzionale, che, nell’ipotesi in parola, ha ritenuto che il giudice sia tenuto, sicuramente, a concedere un termine al pubblico ministero, sempre che questi lo richieda, per confutare gli elementi probatori acquisiti su richiesta della contropar-te 46. Peraltro, la normativa contenuta nel d.d.l. n. 2067 S, approvato al Senato ed ora di nuovo all’esame della Camera dei deputati, all’art. 41, prevede la sostituzione del comma 4 dell’art. 438 c.p.p. con un nuovo comma, che dispone, nell’ipotesi di richiesta di giudizio abbreviato immediatamente dopo il de-posito dei risultati delle indagini difensive, che il giudice provveda solo dopo che sia decorso il termine non superiore a sessanta giorni, eventualmente richiesto dal pubblico ministero, per lo svolgimento di indagini suppletive limitatamente ai temi introdotti dalla difesa. Viceversa, come già esposto e come emerge chiaramente nel caso di specie, nell’ipotesi di giudizio abbreviato atipico, ossia disposto a seguito dell’emissione del decreto penale di condanna, affinché l’imputato possa chiedere l’acquisizione della documentazione difensiva sarà necessario che egli avanzi la richiesta di giudizio abbreviato condizionato, giacché in caso di richiesta di abbreviato incondiziona-to non vi sarebbe alcuno spazio per acquisire documentazioni preventive. Ma, l’integrazione probatoria deve prefigurarsi come «indispensabile ai fini della decisione», cioè oggettivamente idonea ed utile ad assicurare il completo accertamento dei temi rilevanti a norma dell’art. 187 c.p.p. 47 e, pertanto, il giudice può rigettare la richiesta laddove ritenga che non ricorra il re-quisito in parola. Ne consegue che all’imputato potrebbe comunque essere preclusa la possibilità di far acquisire la documentazione difensiva. Appare, quindi, evidente la disparità di trattamento delle due fattispecie processuali, che indurrebbe ad ipotizzare un dubbio di incostituzionalità, che non pare risulti superato neanche dalla normativa, innanzi richiamata, contenuta nel d.d.l. n. 2067 S, atteso che essa si limita ad introdurre la disciplina dell’ipotesi inerente alla richiesta di giudizio abbreviato avanzata immediatamente dopo il deposito della documentazione dell’attività investigativa." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
⚖️🇮🇹 Legal-Embedding-Ita-0.6b
Legal-Embedding-Ita-0.6b is a Sentence Transformers embedding model fine-tuned from Qwen/Qwen3-Embedding-0.6B for Italian retrieval tasks, with a particular focus on the legal domain.
The model maps queries and documents into a 1024-dimensional dense vector space and is designed for semantic search, retrieval-augmented generation (RAG), document ranking, and legal information retrieval in Italian.
⚠️ DISCLAIMER
This model has been created for research purposes. Is under no circumstances intended for use in production environments. By using this model, you accept all liability.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base Model:
Qwen/Qwen3-Embedding-0.6B - Fine-tuned Model:
Legal-Embedding-Ita-0.6b - Organization: ReDiX
- Language: Italian
- Primary Domain: Legal
- Maximum Sequence Length: 1024 tokens
- Output Dimensionality: 1024
- Similarity Function: Cosine Similarity
- Supported Modality: Text
Intended Use
This model is intended for Italian text retrieval tasks, especially in legal and domain-specific RAG pipelines.
Recommended use cases:
- Legal semantic search
- Italian legal document retrieval
- Retrieval-augmented generation over Italian documents
- Dense retrieval benchmarking
- Domain-specific document ranking
- Question-answering retrieval pipelines
This model is not a generative language model. It only produces dense embeddings.
Performance Summary
The model was evaluated against the base qwen3-embedding-0.6b model on Italian MTEB datasets and internal ReDiX domain-specific retrieval benchmarks.
The main improvement is observed on the legal retrieval dataset.
Key Result
On the legal MTEB dataset MuPLeR-retrieval, Legal-Embedding-Ita-0.6b outperforms the base qwen3-embedding-0.6b model by:
+11.45% main score
This indicates a clear gain in Italian legal retrieval performance after fine-tuning.
MTEB Results — Italian Datasets
| Dataset | qwen3-embedding-0.6b | Legal-Embedding-Ita-0.6b | Difference |
|---|---|---|---|
| MintakaRetrieval | 0.36852 | 0.36433 | -0.4% |
| MKQARetrieval | 0.10112 | 0.09974 | -0.13% |
| MuPLeR-retrieval — Legal | 0.76233 | 0.87685 | +11.45% |
| WikipediaRetrievalMultilingual | 0.88135 | 0.90066 | +1.931% |
ReDiX Domain Benchmark Results
Evaluation metric: nDCG@10.
| Domain | qwen3-embedding-0.6b | Legal-Embedding-Ita-0.6b | Difference |
|---|---|---|---|
| Legal | 0.6281 | 0.6751 | +4.70% |
| Finance | 0.6155 | 0.6819 | +6.64% |
| Medical | 0.5855 | 0.6243 | +3.87% |
| STEM | 0.6807 | 0.7258 | +4.51% |
Although the model improves across the internal ReDiX benchmark domains, the model should primarily be considered a legal-focused Italian embedding model, since the fine-tuning process was designed around Italian legal retrieval.
Full Model Architecture
SentenceTransformer(
(0): Transformer({
'transformer_task': 'feature-extraction',
'modality_config': {
'text': {
'method': 'forward',
'method_output_name': 'last_hidden_state'
}
},
'module_output_name': 'token_embeddings',
'architecture': 'Qwen3Model'
})
(1): Pooling({
'embedding_dimension': 1024,
'pooling_mode': 'lasttoken',
'include_prompt': True
})
(2): Normalize({})
)
Usage
Installation
pip install -U sentence-transformers
Direct Usage with Sentence Transformers
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("ReDiX/Legal-Embedding-Ita-0.6b")
queries = [
"Qual è il lasso di tempo obbligatorio prima di ripresentare una domanda di adesione al codice dopo un rifiuto?"
]
documents = [
"L’eventuale mancata conferma della adesione al Codice di condotta presentata da parte di un Produttore del Software deve essere motivata da parte dell’OdM, fermo restando che tale diniego non preclude la possibilità per il Produttore di successiva presentazione della domanda di adesione che può avvenire non prima di un anno unitamente ad una breve nota che illustri le misure adottate per superare le ragioni che avevano condotto al precedente diniego.",
"La Corte costituzionale ha affrontato il tema delle intercettazioni indirette relative ai parlamentari, distinguendo tra intercettazioni fortuite e mirate.",
"Il danneggiato è tenuto a dimostrare davanti al giudice civile la sussistenza del nesso di causalità tra condotta e danno e a quantificare quest’ultimo."
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
Prompt Format
Since the model is based on Qwen3 Embedding, asymmetric retrieval prompting is recommended.
Query Prompt
Instruct: Given an Italian legal search query, retrieve the most relevant legal passage that answers the query.
Query:
Document Prompt:
The document prompt is intentionally empty.
Training Details
Training Dataset
The model was fine-tuned on an Italian retrieval dataset containing:
244,907 training samples Columns: anchor, positive, negative Approximately 120,000 strictly legal-related samples Training format: query, relevant passage, hard negative passage
The evaluation dataset contains:
3,310 evaluation samples Columns: anchor, positive Domain: Italian legal retrieval
Training Loss
The model was trained using a patched version of CachedGISTEmbedLoss.
{
"guide": "SentenceTransformer('intfloat/multilingual-e5-large-instruct')",
"temperature": 0.01,
"mini_batch_size": 32,
"margin_strategy": "absolute",
"margin": 0.0,
"contrast_anchors": true,
"contrast_positives": false,
"gather_across_devices": false
}
Training Hyperparameters
Non-Default Hyperparameters
learning_rate: 2e-06lr_scheduler_type: cosinewarmup_steps: 0.03weight_decay: 0.01gradient_accumulation_steps: 4bf16: Trueload_best_model_at_end: Truedata_seed: 42dataloader_num_workers: 4remove_unused_columns: Falseprompts: {'anchor': 'Instruct: Given an Italian legal search query, retrieve the most relevant legal passage that answers the query.\nQuery: ', 'positive': '', 'negative': ''}batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 8num_train_epochs: 3.0max_steps: -1learning_rate: 2e-06lr_scheduler_type: cosinelr_scheduler_kwargs: Nonewarmup_steps: 0.03optim: adamw_torch_fusedoptim_args: Noneweight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 4average_tokens_across_devices: Truemax_grad_norm: 1.0label_smoothing_factor: 0.0bf16: Truefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneuse_liger_kernel: Falseliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: passivelog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: trackioper_device_eval_batch_size: 8prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Trueignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: 42use_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Falsedataloader_num_workers: 4dataloader_pin_memory: Truedataloader_persistent_workers: Falsedataloader_prefetch_factor: Noneremove_unused_columns: Falselabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_backend: Noneddp_timeout: 1800fsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}deepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: {'anchor': 'Instruct: Given an Italian legal search query, retrieve the most relevant legal passage that answers the query.\nQuery: ', 'positive': '', 'negative': ''}batch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Time
- Training: 1.3 days
- Evaluation: 7.2 hours
- Total: 1.6 days
Framework Versions
- Python: 3.12.3
- Sentence Transformers: 5.4.1
- Transformers: 5.5.4
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Limitations
The model is optimized primarily for Italian legal retrieval. Performance gains on non-legal datasets should be interpreted cautiously. The model may underperform on domains or languages not represented in the fine-tuning data. The model does not generate answers; it only produces embeddings for retrieval. Legal retrieval results do not imply legal correctness or legal advice.
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 237
Model tree for ReDiX/Legal-Embedding-ita-0.6B
Collection including ReDiX/Legal-Embedding-ita-0.6B
Paper for ReDiX/Legal-Embedding-ita-0.6B
Evaluation results
- Main Score on MintakaRetrievalself-reported0.369
- Main Score on MKQARetrievalself-reported0.101
- Main Score on MuPLeR-retrieval (legal)self-reported0.762
- Main Score on WikipediaRetrievalMultilingualself-reported0.881
- NDCG@10 on Legal (ReDiX dataset)self-reported0.628
- NDCG@10 on Finance (ReDiX dataset)self-reported0.615
- NDCG@10 on Medical (ReDiX dataset)self-reported0.586
- NDCG@10 on STEM (ReDiX dataset)self-reported0.681
