SentenceTransformer based on Snowflake/snowflake-arctic-embed-m-v2.0

This is a sentence-transformers model finetuned from Snowflake/snowflake-arctic-embed-m-v2.0. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'GteModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("jurifindit/DAR-legal-it")
# Run inference
queries = [
    "query: Davide vuole costruire contro un muro che il vicino ha costruito a meno di 1,5 metri dal confine. Pu\u00f2 chiedere la comunione del muro?",
]
documents = [
    "Art. 875.\n(Comunione forzosa del muro che non e' sul confine).\nQuando il muro si trova a una distanza dal confine minore di un metro e mezzo ovvero a distanza minore della meta' di quella stabilita dai regolamenti locali, il vicino puo' chiedere la comunione del muro soltanto allo scopo di fabbricare contro il muro stesso, pagando, oltre il valore della meta' del muro, il valore del suolo da occupare con la nuova fabbrica, salvo che il proprietario preferisca estendere il suo muro sino al confine.\nIl vicino che intende domandare la comunione deve interpellare preventivamente il proprietario se preferisca di estendere il muro al confine o di procedere alla sua demolizione. Questi deve manifestare la propria volonta' entro un termine di giorni quindici e deve procedere alla costruzione o alla demolizione entro sei mesi dal giorno in cui ha comunicato la risposta.\n",
    "Articolo 9\nTrattamento di categorie particolari di dati personali\n1. È vietato trattare dati personali che rivelino l'origine razziale o etnica, le opinioni politiche, le convinzioni religiose o filosofiche, o l'appartenenza sindacale, nonché trattare dati genetici, dati biometrici intesi a identificare in modo univoco una persona fisica, dati relativi alla salute o alla vita sessuale o all'orientamento sessuale della persona.\n2. Il paragrafo 1 non si applica se si verifica uno dei seguenti casi:\na) l'interessato ha prestato il proprio consenso esplicito al trattamento di tali dati personali per una o più finalità specifiche, salvo nei casi in cui il diritto dell'Unione o degli Stati membri dispone che l'interessato non possa revocare il divieto di cui al paragrafo 1;\nb) il trattamento è necessario per assolvere gli obblighi ed esercitare i diritti specifici del titolare del trattamento o dell'interessato in materia di diritto del lavoro e della sicurezza sociale e protezione sociale, nella misura in cui sia autorizzato dal diritto dell'Unione o degli Stati membri o da un contratto collettivo ai sensi del diritto degli Stati membri, in presenza di garanzie appropriate per i diritti fondamentali e gli interessi dell'interessato;\nc) il trattamento è necessario per tutelare un interesse vitale dell'interessato o di un'altra persona fisica qualora l'interessato si trovi nell'incapacità fisica o giuridica di prestare il proprio consenso;\nd) il trattamento è effettuato, nell'ambito delle sue legittime attività e con adeguate garanzie, da una fondazione, associazione o altro organismo senza scopo di lucro che persegua finalità politiche, filosofiche, religiose o sindacali, a condizione che il trattamento riguardi unicamente i membri, gli ex membri o le persone che hanno regolari contatti con la fondazione, l'associazione o l'organismo a motivo delle sue finalità e che i dati personali non siano comunicati all'esterno senza il consenso dell'interessato;\ne) il trattamento riguarda dati personali resi manifestamente pubblici dall'interessato;\nf) il trattamento è necessario per accertare, esercitare o difendere un diritto in sede giudiziaria o ogniqualvolta le autorità giurisdizionali esercitino le loro funzioni giurisdizionali;\ng) il trattamento è necessario per motivi di interesse pubblico rilevante sulla base del diritto dell'Unione o degli Stati membri, che deve essere proporzionato alla finalità perseguita, rispettare l'essenza del diritto alla protezione dei dati e prevedere misure appropriate e specifiche per tutelare i diritti fondamentali e gli interessi dell'interessato;\nh) il trattamento è necessario per finalità di medicina preventiva o di medicina del lavoro, valutazione della capacità lavorativa del dipendente, diagnosi, assistenza o terapia sanitaria o sociale ovvero gestione dei sistemi e servizi sanitari o sociali sulla base del diritto dell'Unione o degli Stati membri o conformemente al contratto con un professionista della sanità, fatte salve le condizioni e le garanzie di cui al paragrafo 3;\ni) il trattamento è necessario per motivi di interesse pubblico nel settore della sanità pubblica, quali la protezione da gravi minacce per la salute a carattere transfrontaliero o la garanzia di parametri elevati di qualità e sicurezza dell'assistenza sanitaria e dei medicinali e dei dispositivi medici, sulla base del diritto dell'Unione o degli Stati membri che prevede misure appropriate e specifiche per tutelare i diritti e le libertà dell'interessato, in particolare il segreto professionale;\nj) il trattamento è necessario a fini di archiviazione nel pubblico interesse, di ricerca scientifica o storica o a fini statistici in conformità dell'articolo 89, paragrafo 1, sulla base del diritto dell'Unione o nazionale, che è proporzionato alla finalità perseguita, rispetta l'essenza del diritto alla protezione dei dati e prevede misure appropriate e specifiche per tutelare i diritti fondamentali e gli interessi dell'interessato.\n3. I dati personali di cui al paragrafo 1 possono essere trattati per le finalità di cui al paragrafo 2, lettera h), se tali dati sono trattati da o sotto la responsabilità di un professionista soggetto al segreto professionale conformemente al diritto dell'Unione o degli Stati membri o alle norme stabilite dagli organismi nazionali competenti o da altra persona anch'essa soggetta all'obbligo di segretezza conformemente al diritto dell'Unione o degli Stati membri o alle norme stabilite dagli organismi nazionali competenti.\n4. Gli Stati membri possono mantenere o introdurre ulteriori condizioni, comprese limitazioni, con riguardo al trattamento di dati genetici, dati biometrici o dati relativi alla salute.\n",
    "Sezione II. Contenuto e modalità di esecuzione degli obblighi\nIn caso di utilizzo dei soggetti terzi previsti alla lettera a) della Sezione I, gli obblighi di adeguata verifica si considerano soddisfatti attraverso un'idonea attestazione rilasciata dal terzo che abbia provveduto ad adempierli direttamente in relazione alla costituzione di un rapporto continuativo ovvero all'esecuzione di un'operazione occasionale.\nL'attestazione è chiaramente riconducibile al terzo attestante, attraverso accorgimenti idonei (sottoscrizione da parte del personale a ciò autorizzato, invio con sistemi informatici, ecc.), ed è trasmessa dal terzo attestante e non dal cliente.\nPer standardizzare il processo di acquisizione delle informazioni, il destinatario può predisporre una specifica modulistica per il rilascio delle attestazioni.\nL'attestazione conferma espressamente il corretto adempimento degli obblighi antiriciclaggio da parte dell'attestante, in relazione alle varie attività effettuate. Il contenuto dell'attestazione varia a seconda dello specifico obbligo di adeguata verifica cui essa è diretta; in base a tale criterio, essa contiene:\na) i dati identificativi del cliente, dell'esecutore e del titolare effettivo ai fini dell'adempimento dell'obbligo di identificazione;\nb) l'indicazione delle tipologie delle fonti utilizzate per l'accertamento e per la verifica dell'identità;\nc) le informazioni sulla natura e sullo scopo del rapporto da aprire e dell'operazione occasionale da eseguire ai fini dell'adempimento del relativo obbligo.\nIl destinatario si assicura che, oltre all'attestazione, i terzi siano in grado di trasmettere tempestivamente copia dei documenti e delle informazioni acquisiti, quando il destinatario ne faccia richiesta.\nL'attestazione può essere resa in forma cartacea o informatica, in via autonoma ovvero in connessione con specifiche operazioni.\nIl destinatario rimane responsabile dell'adeguata verifica e valuta se gli elementi raccolti e le verifiche effettuate dai soggetti terzi siano aggiornati, idonei e sufficienti per l'assolvimento degli obblighi previsti dalla legge. In caso contrario il destinatario provvede, a seconda dei casi e delle circostanze, a:\n- informare il terzo attestante delle eventuali irregolarità, carenze o incongruenze riscontrate nella documentazione ricevuta;\n- apportare le necessarie rettifiche o integrazioni;\n- adempiere in via diretta agli obblighi di adeguata verifica;\n- astenersi dall'instaurare il rapporto continuativo o dall'eseguire l'operazione, valutando se effettuare una segnalazione alla UIF se ricorrono i presupposti previsti all'articolo 35 del decreto antiriciclaggio (la scelta di cui al presente alinea è assunta, in particolare, quando l'intermediario si trova nell'impossibilità di rispettare gli obblighi di adeguata verifica).\nIn caso di utilizzo di soggetti terzi che possono effettuare solo l'identificazione del cliente (cfr. Sezione I, lettera b), il destinatario assicura che i terzi gli trasmettano in ogni caso i dati e le informazioni acquisiti, affinché il destinatario stesso possa completare la procedura di adeguata verifica (21).\nNell'ambito delle modalità di raccolta e scambio delle informazioni con i terzi, il destinatario:\n- definisce le fasi dell'adeguata verifica demandate ai terzi, individua i dati e le informazioni che è necessario siano trasmesse dai terzi e le modalità e la tempistica della trasmissione;\n- predispone strumenti, in formato cartaceo o elettronico, per lo scambio tempestivo dei flussi informativi;\n- verifica la veridicità dei documenti ricevuti e la correttezza e attendibilità delle informazioni da essi desunte;\n- acquisisce, ove necessario, informazioni supplementari, dai terzi, dal cliente ovvero da altre fonti.\n",
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.8160,  0.0054, -0.0173]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_recall@3 0.7111
cosine_recall@5 0.7602
cosine_recall@10 0.8037
cosine_recall@20 0.8331
cosine_recall@40 0.8609
cosine_recall@60 0.8861
cosine_recall@80 0.8957
cosine_recall@100 0.9129
cosine_ndcg@5 0.7419
cosine_ndcg@100 0.7459
cosine_mrr@5 0.7719
cosine_mrr@100 0.7780
cosine_map@5 0.6985
cosine_map@100 0.7015

Framework Versions

  • Python: 3.11.8
  • Sentence Transformers: 5.1.0
  • Transformers: 4.55.4
  • PyTorch: 2.5.1
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
170
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jurifindit/DAR-legal-it

Finetuned
(28)
this model

Dataset used to train jurifindit/DAR-legal-it