acostillio/NepaliLegalQueryPara
Viewer • Updated • 14.6k • 4
How to use acostillio/SemantiSearchNepaliSbert with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("acostillio/SemantiSearchNepaliSbert")
sentences = [
"संस्थानमा बढुवा गर्दा ज्येष्ठता र कार्यसम्पादन मूल्याङ्कन दुवैलाई विचार गर्नुपर्ने तर ज्येष्ठताको आधारमा मात्र बढुवा हुनुपर्छ भन्ने नहुने। संस्थानको आफ्नै नियममा स्पष्ट व्यवस्था नभएको खण्डमा लोक सेवा आयोगको सामान्य सिद्धान्तलाई संविधान विपरीत नमानिने।",
"प्रतिवादी चण्डेश्वर राय यादवलाई ज्यानसम्बन्धीको १४ नं. अनुसार सजायँ गरिएको छ, जहाँ हत्याको मनसाय बिना रिसको आवेशमा चोट पुर्याई मृत्यु भएमा सजायको प्रावधान छ। प्रहरी प्रतिवेदनमा प्रतिवादीहरूलाई ज्यानसम्बन्धीको १३(३) बमोजिम सजायँ गर्न माग गरिएको छ, जहाँ ज्यान मार्ने उद्योगको कसूरमा सजायको प्रावधान छ। महोत्तरी जिल्ला अदालतले दिनेश राय यादवलाई ज्यानसम्बन्धीको १७(३) अनुसार सजायँ ठहर गरेको छ, जहाँ मतियारको भूमिकामा सजायको प्रावधान छ। प्रतिवादी चण्डेश्वर राय यादवको पुनरावेदनमा प्रमाण ऐन, २०३१ को दफा ५४ को त्रुटि भएको दाबी गरिएको छ, जसले प्रमाणको मूल्यांकन सम्बन्धी व्यवस्था गर्दछ। प्रतिवादी चण्डेश्वर राय यादवको पुनरावेदनमा अदालत बन्दोबस्तको १८४ (क) को त्रुटि भएको दाबी गरिएको छ। प्रतिवादी चण्डेश्वर राय यादवको पुनरावेदनमा अदालत बन्दोबस्तको १८५ को त्रुटि भएको दाबी गरिएको छ। अ.बं. २०३ नं. ले पुनरावेदन गरे बापत प्र. चण्डेश्वर राय यादवको कैद महीना थप हुन्छ।",
"अदालतले वाँकी रकम असुल गराई पाउँ भन्ने मुद्दामा बादी दावी पुग्ने अवस्था नहुँदै अदालती बन्दोवस्तको १७१क नं. विपरीत जग्गा रोक्का राखेको भन्ने निवेदन दावी आधारहिन देखिएको बताएको छ। रोक्का भएको जग्गाहरुमा सो मुद्दाका प्रतिवादी अर्थात निवेदकका छोराको हक नलाग्ने स्थिति भई निवेदकको मात्र हक लाग्ने अवस्था भए सो को जिकिर लिई रोक्का फुकुवातर्फ प्रचलित कानून बमोजिम निवेदकले कारवाही चलाउन नसक्ने पनि अदालतले उल्लेख गरेको छ। फैसला कार्यान्वयनकै क्रममा समेत रोक्का रहेको जग्गामा प्रतिवादीको हक हिस्साका सम्बन्धमा एकिन गरी सोही बमोजिम बिगो भरीभराउ गरिने हुँदा जग्गा रोक्का राखेकै आधारमा निवेदकको हक हनन् भएको मान्न मिल्ने अवस्था नभएको अदालतको ठहर छ।",
"संस्थानमा बढुवा गर्दा ज्येष्ठता र कार्यसम्पादन मूल्याङ्कन दुवैलाई विचार गर्नुपर्ने, तर ज्येष्ठताको आधारमा मात्र बढुवा हुनुपर्छ भन्ने नहुने। साथै, लोक सेवा आयोगको सामान्य सिद्धान्तलाई संविधान विपरीत नमानिने, विशेषगरी जब संस्थानको आफ्नै नियममा स्पष्ट व्यवस्था नभएको खण्डमा।"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from acostillio/sbert-nepalilaw-genq on the nepali_legal_query_para dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'मालपोत कार्यालयको निर्णय बदर गर्ने सर्वोच्च अदालतको फैसला र कानून बमोजिम निर्णय गर्न पठाई दिने आदेश',
'सर्वोच्च अदालतले मालपोत कार्यालय रौतहटको मिति २०४९।१।९ को निर्णय र पुनरावेदन अदालत हेटौंडाको फैसला वदर हुने ठहर गर्\u200dयो। कानून बमोजिम निर्णय गर्न दुवै पक्षलाई मालपोत कार्यालय रौतहटमा तारेख तोकी पठाई दिने आदेश दियो।',
'यस मुद्दामा, निवेदकले अन्तःशुल्क विभागले अन्तःशुल्क कार्यालयलाई लेखेको पत्र र सो पत्रको आधारमा अन्तःशुल्क कार्यालयले जारी गरेको पत्रहरू बदर गर्न माग गरेका छन्। निवेदकले आर्थिक वर्ष २०३२।३३ मा कबुलियत गरेबमोजिम न्यूनतम अन्तःशुल्क तिर्नुपर्ने भन्ने आदेशलाई चुनौती दिएका छन्।',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
similarity_validationEmbeddingSimilarityEvaluator| Metric | Value |
|---|---|
| pearson_cosine | nan |
| spearman_cosine | nan |
query and passage| query | passage | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | passage |
|---|---|
सरकारी अड्डाको छाप वा कर्मचारीको छाप दस्तखत किर्ते नगरी लाइसेन्स बनाउने प्रयोजनका लागि पेश गरिएको नागरिकताको फोटोकपीलाई किर्ते मान्न मिल्ने नमिल्ने बारे नजिर। |
मुलुकी ऐन, किर्ते कागजको १२ नं. अन्तर्गत थप सजाय हुनका लागि सरकारी अड्डाको छाप वा सरकारी काममा सरकारी कर्मचारीको छाप दस्तखत वा सो छाप दस्तखत भएको सरकारी कागज किर्ते गरेको हुनुपर्छ। लाइसेन्स बनाउने प्रयोजनका लागि पेश गरिएको नागरिकताको फोटोकपीलाई सरकारी अड्डा वा कर्मचारीको छाप दस्तखत किर्ते गरेको मान्न मिल्दैन। |
पितृत्वको ठेगान नभएको नाबालकलाई वंशजको नाताले नागरिकता दिन मिल्छ कि मिल्दैन भन्ने विषयमा केन्द्रित मुद्दाहरूको सारांश खोज्नुहोस्। |
यो मुद्दा नेपाल अधिराज्यको संविधान, २०४७ को धारा ९(२) अनुसार पितृत्वको ठेगान नभएको नाबालकलाई वंशजको नाताले नागरिकता दिने प्रावधानले नेपाली आमाबाट जन्मिएका तर बाबुको ठेगान नभएका नाबालकहरूलाई नागरिकता दिन मिल्छ कि मिल्दैन भन्ने विषयमा केन्द्रित छ। |
पत्नीले परपुरुषसँग करणी गरेको आरोपमा आधारित मुद्दाको संक्षिप्त विवरण खोज |
यस मुद्दामा, वादीले प्रतिवादीहरूले जारी गरेको आरोप लगाएका छन्, जसमा प्रतिवादीहरूले वादीको पत्नीसँग करणी गरेको दावी गरिएको छ। मुद्दाको मुख्य प्रश्न यो हो कि प्रतिवादीहरूले जारी गरेको प्रमाणित हुन्छ कि हुँदैन। |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
query and passage| query | passage | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | passage |
|---|---|
पुनरावेदन गर्न पाउने कानुनी उपचारको बाटो हुँदाहुँदै असाधारण अधिकार क्षेत्रमा प्रवेश गरेको हुनाले रिट निवेदन खारेज हुने ठहरेको मुद्दा। |
अदालतले निवेदकलाई पुनरावेदन गर्न पाउने कानुनी उपचारको बाटो हुँदाहुँदै सो उपयोग नगरी असाधारण अधिकार क्षेत्रमा प्रवेश गरेको हुनाले रिट निवेदनमा माग बमोजिम आदेश जारी गर्न नमिल्ने ठहर गर्यो। रिट निवेदन खारेज हुने निर्णय भयो। |
अ मुलुकी ऐन, न्याय प्रशासन ऐन, प्रमाण ऐन र लेनदेन व्यवहारसँग सम्बन्धित कानूनी प्रावधानहरूको व्याख्या र प्रयोग भएका मुद्दाहरू खोज्नुहोस्। |
यस ऐनको दफा ९(१) (क) बमोजिम पुनरावेदन अदालत, पाटनको फैसला उपर सर्वोच्च अदालतमा पुनरावेदन गरिएको छ। अ.वं. ७२ नं. अनुसार एउटै फिरादमा धेरै दावीहरू समावेश गर्न नमिल्ने भन्ने पुनरावेदकको जिकिरलाई अदालतले अस्वीकार गरेको छ। अ.वं. १८० नं. बमोजिम फिराद खारेज गर्नुपर्ने पुनरावेदकको जिकिरलाई अदालतले अस्वीकार गरेको छ। अ.वं. १८४, १८५ नं. को कानूनी व्याख्याको सवालमा पुनरावेदकको जिकिर रहेको। प्रमाण ऐन, ०३१ को दफा ५४ को विपरित फैसला भएको भन्ने पुनरावेदकको भनाई रहेको। लेनदेन व्यवहारको ४० नं. को म्याद भित्र प्रस्तुत फिराद परेको छैन भन्ने पुनरावेदकको भनाई रहेको। लेनदेन व्यवहारको २ नं. यसमा लाग्न सक्ने होइन भन्ने पुनरावेदकको भनाई रहेको। |
अदालतको विश्लेषणमा, प्रशासनिक निकायले कसैलाई शान्ति सुरक्षाको लागि उपस्थित गराउनुलाई तारेख मान्न नमिल्ने अवस्थाको कानुनी आधार खोज्नुहोस्। |
अदालतले अञ्चलाधीश कार्यालयले निवेदकलाई तारेखमा राखेको भन्ने कुरा खण्डित भएको ठहर गरेको छ। तारेख पर्चा पेश नभएको र शान्ति सुरक्षाको लागि उपस्थित गराएकोलाई मात्र तारेखमा राखिएको भन्न नमिल्ने अदालतको विश्लेषण छ। कुनै हक हनन नभएकोले रिट निवेदन खारेज हुने ठहर छ। |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 4per_device_eval_batch_size: 4learning_rate: 3e-05num_train_epochs: 4warmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 4per_device_eval_batch_size: 4per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 3e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 4max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | Validation Loss | similarity_validation_spearman_cosine |
|---|---|---|---|---|
| 0.0685 | 200 | 0.0621 | - | - |
| 0.1369 | 400 | 0.0467 | - | - |
| 0.2054 | 600 | 0.0349 | - | - |
| 0.2739 | 800 | 0.0849 | - | - |
| 0.3423 | 1000 | 0.1015 | - | - |
| 0.4108 | 1200 | 0.0668 | - | - |
| 0.4793 | 1400 | 0.0854 | - | - |
| 0.5478 | 1600 | 0.071 | - | - |
| 0.6162 | 1800 | 0.0479 | - | - |
| 0.6333 | 1850 | - | 0.0421 | nan |
| 0.6847 | 2000 | 0.0463 | - | - |
| 0.7532 | 2200 | 0.0488 | - | - |
| 0.8216 | 2400 | 0.056 | - | - |
| 0.8901 | 2600 | 0.0322 | - | - |
| 0.9586 | 2800 | 0.041 | - | - |
| 1.0270 | 3000 | 0.0197 | - | - |
| 1.0955 | 3200 | 0.0291 | - | - |
| 1.1640 | 3400 | 0.0268 | - | - |
| 1.2325 | 3600 | 0.0314 | - | - |
| 1.2667 | 3700 | - | 0.0366 | nan |
| 1.3009 | 3800 | 0.0139 | - | - |
| 1.3694 | 4000 | 0.0386 | - | - |
| 1.4379 | 4200 | 0.0124 | - | - |
| 1.5063 | 4400 | 0.0265 | - | - |
| 1.5748 | 4600 | 0.0128 | - | - |
| 1.6433 | 4800 | 0.0263 | - | - |
| 1.7117 | 5000 | 0.0282 | - | - |
| 1.7802 | 5200 | 0.0149 | - | - |
| 1.8487 | 5400 | 0.0126 | - | - |
| 1.9000 | 5550 | - | 0.0365 | nan |
| 1.9172 | 5600 | 0.031 | - | - |
| 1.9856 | 5800 | 0.0217 | - | - |
| 2.0541 | 6000 | 0.0131 | - | - |
| 2.1226 | 6200 | 0.0089 | - | - |
| 2.1910 | 6400 | 0.0099 | - | - |
| 2.2595 | 6600 | 0.0095 | - | - |
| 2.3280 | 6800 | 0.0098 | - | - |
| 2.3964 | 7000 | 0.0109 | - | - |
| 2.4649 | 7200 | 0.0107 | - | - |
| 2.5334 | 7400 | 0.0063 | 0.0323 | nan |
| 2.6018 | 7600 | 0.0154 | - | - |
| 2.6703 | 7800 | 0.0162 | - | - |
| 2.7388 | 8000 | 0.0155 | - | - |
| 2.8073 | 8200 | 0.0054 | - | - |
| 2.8757 | 8400 | 0.0095 | - | - |
| 2.9442 | 8600 | 0.0109 | - | - |
| 3.0127 | 8800 | 0.013 | - | - |
| 3.0811 | 9000 | 0.0058 | - | - |
| 3.1496 | 9200 | 0.0037 | - | - |
| 3.1667 | 9250 | - | 0.0178 | nan |
| 3.2181 | 9400 | 0.0036 | - | - |
| 3.2865 | 9600 | 0.0108 | - | - |
| 3.3550 | 9800 | 0.0114 | - | - |
| 3.4235 | 10000 | 0.0149 | - | - |
| 3.4920 | 10200 | 0.0062 | - | - |
| 3.5604 | 10400 | 0.0131 | - | - |
| 3.6289 | 10600 | 0.0076 | - | - |
| 3.6974 | 10800 | 0.0083 | - | - |
| 3.7658 | 11000 | 0.003 | - | - |
| 3.8001 | 11100 | - | 0.0201 | nan |
| 3.8343 | 11200 | 0.0017 | - | - |
| 3.9028 | 11400 | 0.0012 | - | - |
| 3.9712 | 11600 | 0.0109 | - | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
Yunika/sentence-transformer-nepali