SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("cuadron11/jaunbert-bopv-big-ft")
# Run inference
sentences = [
    'Zein da epea agindu honen aurkako administrazioarekiko auzi-errekurtsoa aurkezteko?',
    'Pertsona fisikoei dagokienez, laguntza soziosanitarioak ez ezik laguntza horiek aplikatzeko baliabideak ere behar dituztenak izango dira onuradun.\nHirugarrena. Agindu hau Euskal Herriko Agintaritzaren Aldizkarian argitaratzea eta fundazioari bidaltzea.\nAgindu honek amaiera ematen dio administrazio-bideari, eta, beraren aurka, berraztertzeko errekurtsoa aurkeztu ahal izango zaio Herri Administrazio eta Justiziako sailburuari, hilabeteko epean, agindua jakinarazi eta biharamunetik aurrera; edo bestela, administrazioarekiko auzi-errekurtsoa aurkez daiteke Euskal Autonomia Erkidegoko Auzitegi Nagusiko Administrazioarekiko Auzietako Salan, bi hilabeteko epean, agindua jakinarazi eta biharamunetik aurrera.\nVitoria-Gasteiz, 2013ko apirilaren 19a.\nHerri Administrazio eta Justiziako sailburua,\nJOSU IÑAKI ERCORECA GERVASIO.',
    'Horretarako, agindu honen aurkako administrazioarekiko auzi-errekurtsoa aurkezteko bi hilabeteko epea bukaturik egon beharko da.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[0.9961, 0.7266, 0.9844],
#         [0.7266, 0.9961, 0.7266],
#         [0.9844, 0.7266, 0.9961]], dtype=torch.bfloat16)

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.2164

Training Details

Training Dataset

Unnamed Dataset

  • Size: 9,805 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 9 tokens
    • mean: 23.5 tokens
    • max: 72 tokens
    • min: 103 tokens
    • mean: 398.42 tokens
    • max: 892 tokens
  • Samples:
    anchor positive
    Zein da Hezkuntza-orientazioaren espezialitateko Bigarren Hezkuntzako Irakasleen Kidegoko akatsen zuzenketa? Bigarren Hezkuntzako katedradun eta irakasleen, Lanbide Heziketako irakasle teknikoen, Hizkuntza Eskola Ofizialetako katedradun eta irakasleen, eta Musikako eta Arte Eszenikoko katedradun eta irakasleen eta Arte Plastikoetako eta Diseinuko katedradun eta irakasleen kidegoetako funtzionarioen arteko lekualdatze-lehiaketarako deialdia egiten duen 2009ko azaroaren 18ko Aginduaren (abenduaren 4ko EHAA) hogeita bigarren oinarrian ezarritakoarekin bat etorriz, 2010eko ekainaren 10eko Aginduaren bitartez aipatu lekualdatze-lehiaketaren behin betiko esleipena argitaratu zen.
    Bigarren Hezkuntzako Irakasleen Kidegoko Hezkuntza-orientazioaren espezialitatean, akats bat ikusi da Bilboko IES Miguel de Unamuno BHI ikastetxeko 48003163 plazaren behin betiko esleipenean.
    Plaza hori behin-behinean María Pilar Peña Fernández-Villa andreari esleitu zitzaion.
    Behin-behineko esleipena argitaratu ondoren, lekualdatze-lehiaketan parte hartzeari uko egiteko epea ireki zen. Jarraian, aipatu 2010eko ekainaren 1...
    Zein dira Etxepare Euskal Institutuak egindako deialdian parte hartzeko behar diren baldintzak? Etxepare Euskal Institutua (aurrerantzean EEI) Sortzeko eta Arautzeko 3/2007 Legearen 3.b) artikuluak ondoko helburua xedatzen du aipatutako Institutuarentzat: «Euskal Kultura bere hizkuntza ofizialetako edozeinetan eta zeinahi adierazpen, euskarri, bide eta adierazmoldetan kanpoan ezagutarazten eta hedatzen laguntzea, bereziki euskaraz sortutako kultura-eskaintza sustatuz eta hedatuz».
    Etxepare Euskal Institutuaren antolaketa- eta jarduera-araudia onartzen duen maiatzaren 13ko 88/2008 Dekretuaren 19. artikuluak xedatzen du Institutuaren helburuen artean dagoela munduan zeharreko unibertsitateetan eta beste zentro batzuetan euskararen presentzia, azterketa eta ikasketak sustatzea, batik bat unibertsitateetan irakurletzak ezartzea bultzatuz.
    Ondorioz, Etxepare Euskal Institutuari egoki iruditu zaio Euskara eta Euskal Kulturako irakurle bat hautatzeko lehiaketa publikoaren presako deialdia egitea.
    Hori dela eta,
    XEDATZEN DUT
    :
    1. artikulua
    Deialdiaren helburua.
    Deialdi honen helburua da ...
    Nork onartu du 2021eko irailaren 29an sinatutako hitzarmenaren aldaketa? HAUEN IZENEAN ARI DIRA:
    Lehena, Arabako Foru Aldundiaren ordezkari moduan.
    Bigarrena, Euskal Autonomia Erkidegoko Ekonomiaren Garapen, Jasangarritasun eta Ingurumen Sailaren izenean eta haren ordezkari moduan.
    AZALTZEN DUTE:
    Lehenengoa. 2021eko irailaren 29an sinatu zuten lankidetza-hitzarmena Euskal Autonomia Erkidegoko erakunde ordaintzaileak eta Arabako Foru Aldundiak, FEAGA eta LGENF Europako funtsen kargura finantzatutako zuzeneko laguntzen eta landa-garapeneko neurrien kudeaketari lotutako jarduerak eskuordetzeari buruz.
    Bigarrena. Hitzarmena sinatu ostean, Europako Batzordeko Nekazaritza eta Landa Garapeneko Zuzendaritza Nagusiak Euskal Autonomia Erkidegoko erakunde ordaintzailearekin egin zuen bilera batean, honako hau adierazi zuen, hiru foru-aldundiek erakunde ordaintzailearen likidazio-bulego ofizial gisa duten eginkizun teknikoari dagokionez:
    Funtzio hori hitzarmenen 2. kontuan hartuzkoan zerrendatutako eginkizun delegatuetatik argi eta garbi bereizita badago ere, DG AGRI Z...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 9,844 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 9 tokens
    • mean: 23.14 tokens
    • max: 56 tokens
    • min: 92 tokens
    • mean: 393.47 tokens
    • max: 949 tokens
    • min: 7 tokens
    • mean: 188.66 tokens
    • max: 1151 tokens
  • Samples:
    anchor positive negative
    Noiz egingo da alemaneko Gaitasun Mailaren Egiaztagiria (C1) lortzeko idatzizko proba? Gaitasun Mailaren Egiaztagiria (C1). Euskara ez beste edozein hizkuntzatan Gaitasun Mailaren Egiaztagiria (C1) eskuratzeko, maila horretan matrikulatutako ikasle libreek ebaluazio positiboa lortu beharko dute trebetasun hauetan: entzumena, irakurmena, idazmena eta mintzamena. Trebetasun horietako edozeinetan ebaluazio negatiboa izanez gero, ikasleak ezingo du egiaztagiria lortu.
    Trebetasun horiek ebaluatzeko, Gaitasun Mailako ikasle libreek, lehenbizi, idatzizko proba egingo dute; proba horretan mintzamena ez beste trebetasun guztiak ebaluatuko dira. Idatzizko proba bera izango da ikasle guztientzat, eta Ebazpen honen eranskinean zehaztutako datetan egin beharko da, egun eta ordu beretan, eskolek zehaztutako tokietan.
    Idatzizko probako hiru trebetasunetan ebaluazio positiboa lortzen dutenek ahozko proba egin beharko dute mintzamena ebaluatzeko; eskolek zehaztuko dute non eta noiz (eguna eta ordua) egingo den. Proba horretan ere ebaluazio positiboa lortzen duten ikasleek Gaitasun Mailar...
    Proba gainditzen badute, Gaitasun Mailaren (C1) egiaztagiria eskuratuko dute ikasleek.
    Zein dira Barakaldo-Sestaoko ESIko Ospitalizazioko Gainbegiralea lanpostua lortzeko eskatzen diren gutxieneko baldintzak? Barakaldo-Sestaoko ESIko Ospitalizazioko Gainbegiralea lanpostua hutsik dago. Hori dela-eta, Euskadiko Antolamendu Sanitarioari buruzko ekainaren 26ko 8/1997 Legearen 28. artikuluaren hirugarren arau komunean, Osakidetzaren lanpostu funtzionalak arautzen dituen uztailaren 19ko 186/2005 Dekretuan eta azaroaren 11ko 255/1997 Dekretuan ezartzen denaren arabera, lanpostu hori izendapen askez betetzeko deialdi publikoa iragartzea erabaki du Zuzendaritza Gerentzia honek, honako oinarri hauen arabera
    OINARRIAK
    Parte hartzeko baldintzak.
    Deialdi honetan parte hartu ahal izango dute baldintza hauek betetzen dituztela egiaztatzen dutenek:
    a) Osakidetzako edozein zerbitzu-erakundetako langile finkoa izatea (estatutupekoa, funtzionarioa edo lan-legepeko kontratuduna) eta lanpostua jabetzan edukitzea dagokion B1 lanbide-taldean.
    b) Titulazio hau edukitzea: B1.
    c) Lan-esperientzia hau, gutxienez, edukitzea: 3 urte B1 lanbide-taldean.
    d) Uztailaren 19ko 186/2005 Dekretuaren eta Osakidetzako Euskara P...
    Ikusi ditugu: Ingurumen, Lurralde Plangintza eta Etxebizitzako sailburuaren 2017ko uztailaren 19ko Agindua, han baitaude arauturik eta konbokaturik ebazten ari garen diru-laguntzak, honako hauei zuzenduta daudenak: garapen iraunkorreko ekintzak gauzatzen dituzten udal, mankomunitate eta beste toki-entitate eta tokiko erakunde autonomo, toki-garapenerako agentzia eta tokiko merkataritza-sozietateak; apirilaren 11ko 77/2017 Dekretua, Ingurumen, Lurralde Plangintza eta Etxebizitza Sailaren egitura organiko eta funtzionala ezartzen duena; 24/2016 Dekretua, azaroaren 26koa, Lehendakariarena, Euskal Autonomia Erkidegoko administrazioko sailak sortu, ezabatu eta aldatzen dituena eta haien egitekoak eta jardun-arloak finkatzen dituena; 30/1992 Legea, azaroaren 26koa, Herri Administrazioen Araubide Juridikoaren eta Administrazio Prozedura Erkidearena; 39/2015 Legea, urriaren 1ekoa, Administrazio Publikoen Administrazio Prozedura Erkidearena, eta orokorrean aplikatu beharreko gainerako arauak. H...
    Zein da epea Herri Administrazio eta Justiziako sailburuari gora jotzeko errekurtsoa ezartzeko ebazpen honen kontra? Herri Arduralaritzaren Euskal Erakundeko zuzendariak, 2014ko abuztuaren 25eko Ebazpenaz (2014-09-09ko EHAA, 170. zk.), hizkuntza-eskakizunak egiaztatzeko probetarako deia egin zuen.
    Deialdi honetako ohiko azterketa gainditu zuten azterketarien behin-behineko zerrenda Herri-Arduralaritzaren Euskal Erakundeko zuzendariaren 2014ko abenduaren 15eko Ebazpenaz (2014-12-17ko EHAA, 240. zk.) argitaratu zen.
    Zerrenda honen kontra erreklamazioak aurkezteko epea amaituta, aurkeztutakoak aztertu egin dira. Gauzak horrela,
    EBAZTEN DUT
    :
    Agintzea hizkuntza-eskakizunak egiaztatzeko azterketen behin-behineko emaitzen kontra jarri eta onartu diren azterketarien erreklamazioen emaitzen argitalpena, www.ivap.euskadi.eus/r61-veuskara/es helbideko Euskara atalaren Hizkuntza-eskakizunak azpiatalean.
    Gaitzestea hizkuntza-eskakizunak egiaztatzeko azterketen behin-behineko emaitzen kontra aurkeztutako beste erreklamazio guztiak.
    Behin betiko bihurtzea 2014ko abenduaren 15eko Ebazpenaz argitaratutako behin-behi...
    Ebazpen honetan xedatutakoaren kontra, gora jotzeko errekurtsoa jar dakioke Herri Administrazio eta Justiziako sailburuari, ebazpen hau Euskal Herriko Agintaritzaren Aldizkarian argitaratu eta hilabeteko
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • num_train_epochs: 10
  • learning_rate: 1e-05
  • warmup_steps: 0.1
  • eval_strategy: steps
  • per_device_eval_batch_size: 64
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 64
  • num_train_epochs: 10
  • max_steps: -1
  • learning_rate: 1e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: steps
  • per_device_eval_batch_size: 64
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss jaunbert-bopv-big-ft_cosine_accuracy
3.2468 500 4.8695 7.6625 0.2123
6.4935 1000 4.2339 7.3723 0.2158
9.7403 1500 4.2090 7.3668 0.2164

Framework Versions

  • Python: 3.11.8
  • Sentence Transformers: 5.3.0
  • Transformers: 5.2.0
  • PyTorch: 2.11.0+cu130
  • Accelerate: 1.13.0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
12
Safetensors
Model size
0.3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for cuadron11/jaunbert-bopv-big-ft

Evaluation results