SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cuadron11/jaunbert-bopv-big-ft")
sentences = [
'Zein da epea agindu honen aurkako administrazioarekiko auzi-errekurtsoa aurkezteko?',
'Pertsona fisikoei dagokienez, laguntza soziosanitarioak ez ezik laguntza horiek aplikatzeko baliabideak ere behar dituztenak izango dira onuradun.\nHirugarrena. Agindu hau Euskal Herriko Agintaritzaren Aldizkarian argitaratzea eta fundazioari bidaltzea.\nAgindu honek amaiera ematen dio administrazio-bideari, eta, beraren aurka, berraztertzeko errekurtsoa aurkeztu ahal izango zaio Herri Administrazio eta Justiziako sailburuari, hilabeteko epean, agindua jakinarazi eta biharamunetik aurrera; edo bestela, administrazioarekiko auzi-errekurtsoa aurkez daiteke Euskal Autonomia Erkidegoko Auzitegi Nagusiko Administrazioarekiko Auzietako Salan, bi hilabeteko epean, agindua jakinarazi eta biharamunetik aurrera.\nVitoria-Gasteiz, 2013ko apirilaren 19a.\nHerri Administrazio eta Justiziako sailburua,\nJOSU IÑAKI ERCORECA GERVASIO.',
'Horretarako, agindu honen aurkako administrazioarekiko auzi-errekurtsoa aurkezteko bi hilabeteko epea bukaturik egon beharko da.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
Evaluation
Metrics
Triplet
| Metric |
Value |
| cosine_accuracy |
0.2164 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 9,805 training samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 9 tokens
- mean: 23.5 tokens
- max: 72 tokens
|
- min: 103 tokens
- mean: 398.42 tokens
- max: 892 tokens
|
- Samples:
| anchor |
positive |
Zein da Hezkuntza-orientazioaren espezialitateko Bigarren Hezkuntzako Irakasleen Kidegoko akatsen zuzenketa? |
Bigarren Hezkuntzako katedradun eta irakasleen, Lanbide Heziketako irakasle teknikoen, Hizkuntza Eskola Ofizialetako katedradun eta irakasleen, eta Musikako eta Arte Eszenikoko katedradun eta irakasleen eta Arte Plastikoetako eta Diseinuko katedradun eta irakasleen kidegoetako funtzionarioen arteko lekualdatze-lehiaketarako deialdia egiten duen 2009ko azaroaren 18ko Aginduaren (abenduaren 4ko EHAA) hogeita bigarren oinarrian ezarritakoarekin bat etorriz, 2010eko ekainaren 10eko Aginduaren bitartez aipatu lekualdatze-lehiaketaren behin betiko esleipena argitaratu zen. Bigarren Hezkuntzako Irakasleen Kidegoko Hezkuntza-orientazioaren espezialitatean, akats bat ikusi da Bilboko IES Miguel de Unamuno BHI ikastetxeko 48003163 plazaren behin betiko esleipenean. Plaza hori behin-behinean María Pilar Peña Fernández-Villa andreari esleitu zitzaion. Behin-behineko esleipena argitaratu ondoren, lekualdatze-lehiaketan parte hartzeari uko egiteko epea ireki zen. Jarraian, aipatu 2010eko ekainaren 1... |
Zein dira Etxepare Euskal Institutuak egindako deialdian parte hartzeko behar diren baldintzak? |
Etxepare Euskal Institutua (aurrerantzean EEI) Sortzeko eta Arautzeko 3/2007 Legearen 3.b) artikuluak ondoko helburua xedatzen du aipatutako Institutuarentzat: «Euskal Kultura bere hizkuntza ofizialetako edozeinetan eta zeinahi adierazpen, euskarri, bide eta adierazmoldetan kanpoan ezagutarazten eta hedatzen laguntzea, bereziki euskaraz sortutako kultura-eskaintza sustatuz eta hedatuz». Etxepare Euskal Institutuaren antolaketa- eta jarduera-araudia onartzen duen maiatzaren 13ko 88/2008 Dekretuaren 19. artikuluak xedatzen du Institutuaren helburuen artean dagoela munduan zeharreko unibertsitateetan eta beste zentro batzuetan euskararen presentzia, azterketa eta ikasketak sustatzea, batik bat unibertsitateetan irakurletzak ezartzea bultzatuz. Ondorioz, Etxepare Euskal Institutuari egoki iruditu zaio Euskara eta Euskal Kulturako irakurle bat hautatzeko lehiaketa publikoaren presako deialdia egitea. Hori dela eta, XEDATZEN DUT : 1. artikulua Deialdiaren helburua. Deialdi honen helburua da ... |
Nork onartu du 2021eko irailaren 29an sinatutako hitzarmenaren aldaketa? |
HAUEN IZENEAN ARI DIRA: Lehena, Arabako Foru Aldundiaren ordezkari moduan. Bigarrena, Euskal Autonomia Erkidegoko Ekonomiaren Garapen, Jasangarritasun eta Ingurumen Sailaren izenean eta haren ordezkari moduan. AZALTZEN DUTE: Lehenengoa. 2021eko irailaren 29an sinatu zuten lankidetza-hitzarmena Euskal Autonomia Erkidegoko erakunde ordaintzaileak eta Arabako Foru Aldundiak, FEAGA eta LGENF Europako funtsen kargura finantzatutako zuzeneko laguntzen eta landa-garapeneko neurrien kudeaketari lotutako jarduerak eskuordetzeari buruz. Bigarrena. Hitzarmena sinatu ostean, Europako Batzordeko Nekazaritza eta Landa Garapeneko Zuzendaritza Nagusiak Euskal Autonomia Erkidegoko erakunde ordaintzailearekin egin zuen bilera batean, honako hau adierazi zuen, hiru foru-aldundiek erakunde ordaintzailearen likidazio-bulego ofizial gisa duten eginkizun teknikoari dagokionez: Funtzio hori hitzarmenen 2. kontuan hartuzkoan zerrendatutako eginkizun delegatuetatik argi eta garbi bereizita badago ere, DG AGRI Z... |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Evaluation Dataset
Unnamed Dataset
- Size: 9,844 evaluation samples
- Columns:
anchor, positive, and negative
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
negative |
| type |
string |
string |
string |
| details |
- min: 9 tokens
- mean: 23.14 tokens
- max: 56 tokens
|
- min: 92 tokens
- mean: 393.47 tokens
- max: 949 tokens
|
- min: 7 tokens
- mean: 188.66 tokens
- max: 1151 tokens
|
- Samples:
| anchor |
positive |
negative |
Noiz egingo da alemaneko Gaitasun Mailaren Egiaztagiria (C1) lortzeko idatzizko proba? |
Gaitasun Mailaren Egiaztagiria (C1). Euskara ez beste edozein hizkuntzatan Gaitasun Mailaren Egiaztagiria (C1) eskuratzeko, maila horretan matrikulatutako ikasle libreek ebaluazio positiboa lortu beharko dute trebetasun hauetan: entzumena, irakurmena, idazmena eta mintzamena. Trebetasun horietako edozeinetan ebaluazio negatiboa izanez gero, ikasleak ezingo du egiaztagiria lortu. Trebetasun horiek ebaluatzeko, Gaitasun Mailako ikasle libreek, lehenbizi, idatzizko proba egingo dute; proba horretan mintzamena ez beste trebetasun guztiak ebaluatuko dira. Idatzizko proba bera izango da ikasle guztientzat, eta Ebazpen honen eranskinean zehaztutako datetan egin beharko da, egun eta ordu beretan, eskolek zehaztutako tokietan. Idatzizko probako hiru trebetasunetan ebaluazio positiboa lortzen dutenek ahozko proba egin beharko dute mintzamena ebaluatzeko; eskolek zehaztuko dute non eta noiz (eguna eta ordua) egingo den. Proba horretan ere ebaluazio positiboa lortzen duten ikasleek Gaitasun Mailar... |
Proba gainditzen badute, Gaitasun Mailaren (C1) egiaztagiria eskuratuko dute ikasleek. |
Zein dira Barakaldo-Sestaoko ESIko Ospitalizazioko Gainbegiralea lanpostua lortzeko eskatzen diren gutxieneko baldintzak? |
Barakaldo-Sestaoko ESIko Ospitalizazioko Gainbegiralea lanpostua hutsik dago. Hori dela-eta, Euskadiko Antolamendu Sanitarioari buruzko ekainaren 26ko 8/1997 Legearen 28. artikuluaren hirugarren arau komunean, Osakidetzaren lanpostu funtzionalak arautzen dituen uztailaren 19ko 186/2005 Dekretuan eta azaroaren 11ko 255/1997 Dekretuan ezartzen denaren arabera, lanpostu hori izendapen askez betetzeko deialdi publikoa iragartzea erabaki du Zuzendaritza Gerentzia honek, honako oinarri hauen arabera OINARRIAK Parte hartzeko baldintzak. Deialdi honetan parte hartu ahal izango dute baldintza hauek betetzen dituztela egiaztatzen dutenek: a) Osakidetzako edozein zerbitzu-erakundetako langile finkoa izatea (estatutupekoa, funtzionarioa edo lan-legepeko kontratuduna) eta lanpostua jabetzan edukitzea dagokion B1 lanbide-taldean. b) Titulazio hau edukitzea: B1. c) Lan-esperientzia hau, gutxienez, edukitzea: 3 urte B1 lanbide-taldean. d) Uztailaren 19ko 186/2005 Dekretuaren eta Osakidetzako Euskara P... |
Ikusi ditugu: Ingurumen, Lurralde Plangintza eta Etxebizitzako sailburuaren 2017ko uztailaren 19ko Agindua, han baitaude arauturik eta konbokaturik ebazten ari garen diru-laguntzak, honako hauei zuzenduta daudenak: garapen iraunkorreko ekintzak gauzatzen dituzten udal, mankomunitate eta beste toki-entitate eta tokiko erakunde autonomo, toki-garapenerako agentzia eta tokiko merkataritza-sozietateak; apirilaren 11ko 77/2017 Dekretua, Ingurumen, Lurralde Plangintza eta Etxebizitza Sailaren egitura organiko eta funtzionala ezartzen duena; 24/2016 Dekretua, azaroaren 26koa, Lehendakariarena, Euskal Autonomia Erkidegoko administrazioko sailak sortu, ezabatu eta aldatzen dituena eta haien egitekoak eta jardun-arloak finkatzen dituena; 30/1992 Legea, azaroaren 26koa, Herri Administrazioen Araubide Juridikoaren eta Administrazio Prozedura Erkidearena; 39/2015 Legea, urriaren 1ekoa, Administrazio Publikoen Administrazio Prozedura Erkidearena, eta orokorrean aplikatu beharreko gainerako arauak. H... |
Zein da epea Herri Administrazio eta Justiziako sailburuari gora jotzeko errekurtsoa ezartzeko ebazpen honen kontra? |
Herri Arduralaritzaren Euskal Erakundeko zuzendariak, 2014ko abuztuaren 25eko Ebazpenaz (2014-09-09ko EHAA, 170. zk.), hizkuntza-eskakizunak egiaztatzeko probetarako deia egin zuen. Deialdi honetako ohiko azterketa gainditu zuten azterketarien behin-behineko zerrenda Herri-Arduralaritzaren Euskal Erakundeko zuzendariaren 2014ko abenduaren 15eko Ebazpenaz (2014-12-17ko EHAA, 240. zk.) argitaratu zen. Zerrenda honen kontra erreklamazioak aurkezteko epea amaituta, aurkeztutakoak aztertu egin dira. Gauzak horrela, EBAZTEN DUT : Agintzea hizkuntza-eskakizunak egiaztatzeko azterketen behin-behineko emaitzen kontra jarri eta onartu diren azterketarien erreklamazioen emaitzen argitalpena, www.ivap.euskadi.eus/r61-veuskara/es helbideko Euskara atalaren Hizkuntza-eskakizunak azpiatalean. Gaitzestea hizkuntza-eskakizunak egiaztatzeko azterketen behin-behineko emaitzen kontra aurkeztutako beste erreklamazio guztiak. Behin betiko bihurtzea 2014ko abenduaren 15eko Ebazpenaz argitaratutako behin-behi... |
Ebazpen honetan xedatutakoaren kontra, gora jotzeko errekurtsoa jar dakioke Herri Administrazio eta Justiziako sailburuari, ebazpen hau Euskal Herriko Agintaritzaren Aldizkarian argitaratu eta hilabeteko |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 64
num_train_epochs: 10
learning_rate: 1e-05
warmup_steps: 0.1
eval_strategy: steps
per_device_eval_batch_size: 64
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 64
num_train_epochs: 10
max_steps: -1
learning_rate: 1e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch_fused
optim_args: None
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 1
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: False
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: trackio
eval_strategy: steps
per_device_eval_batch_size: 64
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: False
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 42
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: None
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
jaunbert-bopv-big-ft_cosine_accuracy |
| 3.2468 |
500 |
4.8695 |
7.6625 |
0.2123 |
| 6.4935 |
1000 |
4.2339 |
7.3723 |
0.2158 |
| 9.7403 |
1500 |
4.2090 |
7.3668 |
0.2164 |
Framework Versions
- Python: 3.11.8
- Sentence Transformers: 5.3.0
- Transformers: 5.2.0
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}