SentenceTransformer based on BSC-LT/MrBERT

This is a sentence-transformers model finetuned from BSC-LT/MrBERT. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BSC-LT/MrBERT
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("cuadron11/jaunbert_berria")
# Run inference
sentences = [
    'Nor dira Hiria lokatzetan podcasteko zuzeneko saioan parte hartuko duten Lokatza podcast feministaren sorkuntza taldeko kideak?',
    'Duela hogei urte pasa New Yorken jaiotako diziplinarteko Zaharregia, txikiegia agian proiektuaren berrinterpretazio bat ere eskainiko dute Loraldian Kirmen Uribe idazleak, Mikel Urdangarin, Rafa Rueda eta Bingen Mendizabal musikariek eta Mikel Valverde artistak. Martxoaren 13an izango da saio hori, Arriaga antzokian, emanaldiaren jatorrizko titulua moldatuta: Munduari begiratzeko.\n\nHiria lokatzetan podcasta zuzenean egingo dute martxoaren 10ean. Lokatza podcast feministaren sorkuntza taldeak hartuko du parte. Bertan izango dira Ainara Lasa, Amagoia Gurrutxaga, Idurre Eskisabel, Lorea Agirre, Miren Narbaiza, Miren Amuriza eta Lizar Begoña. Guggenheim museoaren entzungelan egingo dute zuzeneko saioa.\n\nHorrez gainera, Basabi taldeak emanaldia izango du martxoaren 9an, Neomak taldea ere izango da oholtzan, martxoaren 14an. Jean Mixel Bedaxagarrek martxoaren 16an joko du Itsasmuseumen. Eta Jon Maia bertsolariak martxoaren 23an eskainiko du Kantu berri bat gara emanaldia Euskaldunan. Bilaka kolektiboak Mitologia txikiak dantza emanaldia eskainiko du 19an. Amaraun taularatuko dute Oihana Iguaran eta Amaiur Luluagak 20an, eta dantza bertikaleko ikuskizun hibrido bat aurkeztuko du Harrobia dantza taldeak 23an. Dantzariak ez ezik, bertan izango dira Itziar Ituño aktorea eta Toti Martinez de Lezea idazlea ere.\n\nEuskararen geroa\n\nHiru hitzaldiko ziklo bat ere antolatu dute: Euskara bihar. Hurrengo hamarkadetan jarraitu beharreko norabideaz gogoeta egitea da jaialdiaren asmoa, eta Jon Sarasua, Xan Aire eta Gartzen Garaio Atxurrak ordubeteko hitzaldi bana emango dute. Biran izango dira saio guztiak. Martxoaren 6an ariko da Sarasua, 11n Aire, eta 18an Garaio.',
    'Era berean, saiorako propio sortutakoak izango dira Lasaren bideoak ere.\n\nEta biharkoaren ondoren izango al dira Lokatza gehiago? Ezetz, Agirrek berehala. «Itzulera puntual bat da hau».',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6196, 0.3253],
#         [0.6196, 1.0000, 0.2515],
#         [0.3253, 0.2515, 1.0000]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.868

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,999 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 17.61 tokens
    • max: 37 tokens
    • min: 80 tokens
    • mean: 327.13 tokens
    • max: 483 tokens
  • Samples:
    anchor positive
    Zein da Ondarroako aire zabaleko museo proiektuaren ezaugarri nagusia? Aire zabaleko museo bilakatzen ari da Ondarroa?

    Iaz, nirearen ondoan dagoen beste mural batek munduko hirugarren muralik onenaren saria jaso zuen, eta horrek izena eman zion Ondarroari. Proiektu oso polita da abian dagoena. Kanpoko artistak gonbidatzen dituzte, baina ez da egitasmo inbaditzailea, herriarekin eta auzoarekin harreman bat sortzen baitu sortzaileak, errespetuz. Herriko kultura irudikatzen da proiektuaren bidez, ez dira kanpoko gauzak ekartzen.

    Zer abantaila ditu kalean lan egiteak?

    Nik inoiz ez dut egin estudioko lanik, inoiz ez dut jarri nire artelanik erakusketetan. Nire ibilbide guztia kalean egin dut, eta kalean margotuz; edonork ikusi eta kritikatu dezake nire lana. Besteentzat marrazten dut, herriekin eta auzoekin harremana sortuz, eta nire egoa atzean utziz.

    Zer esanahi du sariak zuretzat?

    Nik beti esan izan dut artea ezin dela saritu. Baina, hala ere, pozgarria da horrelako aitorpen bat jasotzea; nire bizitza osoko lana saritu dutela sentitzen dut. Era berean,...
    Zer ekitaldi antolatu dituzte ikastolan martxorako? Martxoaren 2an Zurak eta ezpalak deitu duten proposamena izango da. Ikastolaren lehen urratsetan jardun zuten haiei ikastetxeko ateak zabalduko dizkiete, eta ikasleei emango diete hitza, aitzindari haiei azal diezaieten zer-nola ikasten duten egun ikastolan. Jai giroan egingo da, «belaunaldien arteko» harremana sustatzeko.

    Martxoaren 10ean Beskoitzera (Lapurdi) bisita egingo dute, hango ikastola egoera zailean baita bertako herriko etxearen erabakien ondorioz. Ikastolen arteko elkartasun keinu bat izango da, eta elkarren berri izatekoa. Martxoaren 14an Korrika hasiko da, eta horren inguruan ere egingo dituzte ekintzak.

    Ekainean jaiaren abestia eta bideoklipa aurkeztuko dituzte.
    Zein da hizkuntza berean ari diren sortzaileak batuko lituzkeen elkarte baten garrantzia? Multzo bateko kide sentitu, jardun berean ari direnei begira ikasi, elkarrekin aurrera egin, mugimendua sortu, jardunaren ikusgarritasuna bilatu, prestigiatu, duindu, presiobidea sortu... Elkarteei dagokien babes hori, gaur, egoera anormal, prekario, injustu eta betikotu honetan, hizkuntza berean ari garen irudigile, musikari, idazle, bertsolari, kazetari eta gainontzekoak batuko lituzkeen elkarteak emango liguke, ofizioz ofizioko zatiketak baino gehiago.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 6,000 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 6 tokens
    • mean: 17.29 tokens
    • max: 35 tokens
    • min: 87 tokens
    • mean: 328.19 tokens
    • max: 526 tokens
    • min: 4 tokens
    • mean: 153.42 tokens
    • max: 551 tokens
  • Samples:
    anchor positive negative
    Noiz iritsi ziren Erromako lehen tropak Ebroko ibarrera? Duela bi mende, Viana eta Logroño arteko errepidea zabaldu zutenean, beroien herria erditik ebaki zuten; ez ziren jabetu zer kalte eragin zuten. 1971n Juan Cruz Labeaga ikerlariak aurkitu zituen material dezente toki horretan, eta orduan jabetu ziren Burdin Aroko herri baten aztarnategi bat zegoela errepideak moztutako eremuan.

    2.000 urtez labore lurrak izan dira, eta aztarnategia ez dago lur azaletik oso sakon. Urteetan «lapurreta handia» izan da inguru horretan, Armendarizen esanetan, eta material arkeologiko ugari galdu da. «La Custodian esku hartu behar zen aspaldi. Ni horregatik hasi nintzen hor lanean, nola zegoen ikusita. Gauza asko suntsitu dira, baina oraindik ere merezi du lanean jarraitzea».

    2017an georradarrarekin eremua aztertu, eta 2018an hasi ziren indusketak egiten; bost kata egin dituzte harrezkero, baina herria zenaren %0,2 besterik ez dute induskatu. «Esfortzua handia da, asko kostatzen da. Baina horrela egin behar dira gauzak, poliki-poliki», azaldu du Armendarize...
    Handik kilometro gutxira, Shengjineko portuan altxatutako lehen identifikazio zentrora, 16 asilo eskatzaile iritsi ziren iragan urriaren 16an.
    Zenbat muga biofisiko gainditu ditugu jada, adituen arabera? Otxandianok balizko trantsizio klimatiko gisa izendatzen duenaz ere badago zer esanik. Energia iturri fosilak ordezkatzeari buruz ari da behin eta berriz, eta jakina, denok ados gaude horretan, baina egiten duen proposamenarekin ez. Egungo larritasun ekologikoa neurtzeko erabiltzen den metodologia ezagunenak bederatzi muga biofisiko hartzen ditu kontuan, eta horietako bakar bat gainditzeak egun ezagutzen dugun oreka ekologikoa apurtzeko arrisku erreala dakarrela diote adituek. Iturri beren arabera, sei gainditu omen ditugu jada. Hori jakinda, Otxandiano eta konpainiaren proposamenak klima larrialdiari erantzuteko pretentsioa du soilik, hau da, sei puntutik bakar bati erantzuteko ahalegina da, berau aurrera eraman ahal izateko egin behar den mineral eta material ezberdinen erauzketak, ekoizpenak eta abarrek beste puntu guztietan arazoa handitzea dakarten bitartean.

    Baina proposamenaren antzutasuna ez da horretara mugatzen. Proposamen hau aurrera eraman ahal izateko egungo energia konts...
    Horren adierazle, parke eolikoen egoera beste inork baino hobeto ezagutzen duten enpresa bazkideek bultzatu dute Renercycle. «Badakite zer behar dagoen. Horregatik inbertitu dute. Badakite badagoela merkatua eta behar horri erantzun beharko zaiola».

    Renercycleren asmoa da parkeen jabeei zerbitzu osoa eskaintzea: «Hor barruan sartuko da makinak desmuntatzea eta zati horiek garraiatzea». Eragozpen handiko operazioak dira. Hasteko, denbora asko pasatu delako parkeak eraiki zirenetik: «Maiz, jabeak aldatu dira, baina ez diote elkarri dokumentaziorik eman, eta zailtasun teknikoak egon ohi dira horregatik». Gainera, inbertsio handia eskatzen dute: «Eraikitzeko erabili ziren tonaje handiko garabiak mobilizatu behar dira». Renercycleren asmoa da «metodo eraginkorrago bat» baliatzea parkea eraiki zenekoa baino.

    Faltzesko logistika gunea

    Legediaren arabera, enpresak behartuta daude mendia zegoen bezala uztera. «Ez dago baimendua —eta ongi dago hala izatea— dorreak moztea eta kutxak desegitea....
    Zein da Ekuadorreko Penitenciaría del Litoral kartzelako presoen bizi-baldintza? Kazetaria. Kazetaritzako irakaslea Euskal Herriko Unibertsitatean

    Ekuador, bere infernuaren preso

    Gas-sukaldea eta mahaiak zituzten jatetxeak, ile apaindegia, denda txiki bat edozein auzotakoa bezalakoa... eta, haren kanpoaldean, korridore luze batean, Portako publizitate-kartel txiki bat zintzilik; orduan, herrialdean telefonia mugikorreko zerbitzuak eskaintzen zituzten hiru konpainietako bat zen Porta. Ez zegoen zalantzarik, hor saltzen ziren, iragarki eta guzti, telefonia mugikorreko aurreordainketako txartelak. Errudun baino errugabe eta sistema ustel baten biktima izatearen susmagarri ziren presoekin harremanetan nengoenez, eskertzen nuen eurek aukera horretaz gozatzea, baina ez nion harritzeari uzten: jakin nezakeen kartzelan une bakoitzean zer gertatzen zen, betiere atxilotuak bere mugikorrean saldoa bazuen. Izan ere, horietako batzuk nire iturri egonkorrak ziren. Noizean behin, funtzionarioek sarekadaren batean konfiskatzen zizkieten telefonoak, barne-ordena mantentzeko baino...
    Salhaketak lan baldintza onak opa dizkie Zaballako langileei, baina eskatu du ez dezatela presoen bizkar presio egin.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • learning_rate: 2e-05
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss jaunbert-berria_cosine_accuracy
0.1333 100 1.735 - -
0.2667 200 0.5189 - -
0.4 300 0.2915 - -
0.5333 400 0.2672 - -
0.6667 500 0.1271 - -
0.8 600 0.1018 - -
0.9333 700 0.0856 - -
1.0 750 - 0.5461 0.8155
1.0667 800 0.0578 - -
1.2 900 0.0282 - -
1.3333 1000 0.0302 - -
1.4667 1100 0.0415 - -
1.6 1200 0.032 - -
1.7333 1300 0.0448 - -
1.8667 1400 0.043 - -
2.0 1500 0.0264 0.4523 0.8348
2.1333 1600 0.0231 - -
2.2667 1700 0.0133 - -
2.4 1800 0.0085 - -
2.5333 1900 0.0139 - -
2.6667 2000 0.0163 - -
2.8 2100 0.0144 - -
2.9333 2200 0.0144 - -
3.0 2250 - 0.4185 0.8495
3.0667 2300 0.0129 - -
3.2 2400 0.0073 - -
3.3333 2500 0.0054 - -
3.4667 2600 0.0149 - -
3.6 2700 0.0117 - -
3.7333 2800 0.0174 - -
3.8667 2900 0.0068 - -
4.0 3000 0.0059 0.3707 0.8628
4.1333 3100 0.0056 - -
4.2667 3200 0.0075 - -
4.4 3300 0.0087 - -
4.5333 3400 0.008 - -
4.6667 3500 0.0084 - -
4.8 3600 0.009 - -
4.9333 3700 0.0063 - -
5.0 3750 - 0.3531 0.8680

Framework Versions

  • Python: 3.9.7
  • Sentence Transformers: 5.0.0
  • Transformers: 4.56.0
  • PyTorch: 2.7.1+cu126
  • Accelerate: 1.5.2
  • Datasets: 4.0.0
  • Tokenizers: 0.22.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
-
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for cuadron11/jaunbert_berria

Base model

BSC-LT/MrBERT
Finetuned
(2)
this model

Papers for cuadron11/jaunbert_berria

Evaluation results