SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("cuadron11/jaunbert-berria-big-ft")
# Run inference
sentences = [
    'Zein dira Manex Goienetxeren iritziz Euskal Herriaren historiaren ezaugarri nagusiak?',
    'Histoire générale du Pays Basque II: Évolution politique et institutionnelle du XVIe au XVIIIe siècle. (1999)\n\n\n\n\n\nHistoire générale du Pays Basque III: Évolution économique et sociale du XVIe au XVIIIe siècle. (2001)\n\n\n\n\n\nHistoire générale du Pays Basque IV: Révolution de 1789. (2002)\n\n\n\n\n\nEuskal Herria XI. mendean: Antso III.a Nagusiaren erregealdia (1004-1035), Roldan Jimeno, Aitor Pescador et Tomas Urtzainki Mina historialariekin. (2004)\n\n\n\n\n\nHistoire générale du Pays Basque V: Le XIXe siècle, 1804-1914. (2005)\n\n\n\nMANEX Goienetxeren zenbait erran\n\n\n\n\nEuskal Herriko eta bere Historiaren ezaugarriez\n\n\n\n«Historia orokorrari buruzko liburuak badaude. Baina berezko ezaugarriak dituen herri bat baldin bada, herri horrek eskatzen du bere historia orokorra eta nazionala egitea».\n\n\n\n«Bizi den herri batek bere memoria historikoa eskuratzeko nahia eta eskubide du, anitzetan itzalperaturik dena, ez bakarrik auzoko beste potentzia batzuengatik, baina ere guhaurrek ahantzi, baztertu, galarazi dugulako, edo batzuek digutelako».\n\n\n\n«Historiak ekartzen duena da Euskal Herri hau izan dela bere historian anitzetako. Lurralde bakoitzak ukan duela eta duela bere nortasuna, bere egoera historiko berezia, bere indar sozial eta ekonomikoetan berezitasuna... Horrek ez du esan nahi herririk ez dagoenik. Herri bat badago, baina egoera anitzetako dena. Niretzat, bederen, hori zorion bat da».\n\n\n\n\n\nEuskal Herriaren Historia Europan',
    'Izan ere, Euskal Herriaren mapak askotarikoak dira euskaldunen imajinarioan.\n\n313 mapa batu dituzte Imago Vasconiae atlasean Oleagak eta Esparzak.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0078, 0.7344, 0.8945],
#         [0.7344, 1.0000, 0.8438],
#         [0.8945, 0.8438, 0.9961]], dtype=torch.bfloat16)

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.2717

Training Details

Training Dataset

Unnamed Dataset

  • Size: 55,297 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 17.45 tokens
    • max: 33 tokens
    • min: 83 tokens
    • mean: 332.34 tokens
    • max: 495 tokens
  • Samples:
    anchor positive
    Zein da Alex Txikonen asmoa bere espedizioa bertan behera utzi ondoren? Kanpaleku nagusitik azaldu dutenez, ez da erabaki erraza izan, eta, gainera, zeruak, azken bi egunetan izan ezik, ez dio orro egiteari utzi. «Ezin dut nire kideen bizitza arriskuan jarri, eta, horregatik, goiz osoa hitz egiten eta hausnartzen eman ondoren, bizitza bermatuari baiezkoa ematea erabaki dugu, eta saiatzen jarraitzeko gure asmoak atzean utziko ditugu».

    Txikonek eskerrak eman dizkie, bereziki, haren lankide guztiei. «Sufritu egin dugu, eta gozatu ere bai». Eskerrak eman dizkie jarraitu dieten guztiei, baita babesleei eta lagunei ere.
    Zein da Guau plataformaren helburua euskal literaturari dagokionez? Audio formatuak gorakada «nabarmena» izan duela eta horren araberako erabakiak hartu behar direla uste du EITBk. «Audioliburuen ekimen honek euskal idazle ospetsuen lanetara hurbiltzeko aukera errazten du, ez bakarrik irakurriz, baita entzunez ere, eta aproposa da irakurketarako zailtasunak dituztenentzat edo audio formatua nahiago dutenentzat».

    Horretaz guztiaz gain, EITBk adierazi du audioliburu berri horien bidez euskarazko sormen industrian laguntzen duela, «idazleei, narratzaileei eta ekoizleei espazioa eskainiz, eta, aldi berean, euskal literatura Euskaditik harago zabaltzeko aukera emanez». Izan ere, Guau plataforma Euskal Herritik kanpo ere erabil daiteke.
    Zein da LAB sindikatuaren proposamena industriaren trantsizio ekosoziala kontrolatzeko? LABek «batzorde ekosozialak» sortzeko eskatu du, industria trantsizioa bideratzeko

    LAB sindikatuak industriak «ezinbestean» jasan beharko duen trantsizio ekosozialera egokituriko politikak eskatu dizkie Eusko Jaurlaritzari eta Nafarroako Gobernuari. Aldarrikatu du plan zehatz bat behar dela industriaren sektore kutsatzaileetan birmoldaketa hori egiteko, eta erakundeek oraindik ez dutela egin. Are gehiago, gehitu du prozesua behar bezala planifikatzen bada enplegu berria sor daitekeela, baina ezinbestekotzat jo du esku hartze publikoa indartzeko beharra. Ildo horretan, figura baten sorrera eskatu du prozesua kontrolatzeko: «Batzorde ekosozialak».

    LAB sindikatuak Sestaon (Bizkaia) egin du bere analisia, zutik gelditzen den labe garai bakarraren aurrean. Cris Gete Industria Federazioko idazkariak jarri dio hitza, eta eskaera zuzena egin die erakundeei. «Industrian epe laburrean eta ertainean ezinbestean gertatu behar diren eraldaketak prestatu egin behar dira; betiere merkatuetatik eta ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 55,324 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 8 tokens
    • mean: 17.45 tokens
    • max: 40 tokens
    • min: 84 tokens
    • mean: 326.35 tokens
    • max: 489 tokens
    • min: 5 tokens
    • mean: 151.83 tokens
    • max: 469 tokens
  • Samples:
    anchor positive negative
    Bilbon bizi diren espainiarren artean, zenbatek dute Euskal Herriaren parte izateko borondatea? Bilbo

    Espainiari ekarpena egitea

    Beste lelo batzuen ondoan, Quiero contribuir a España desde mi profesión ere irakurri zitekeen, argi eta garbi, titulu homologazioa erraztu dezaten Bilbo erdian egindako protestan (2025-04-11). Eta, anekdota hutsa izan beharrean, asmo hori heltzen ari direnentzat sarritan lehentasuna balitz?

    Nabari da populazioa berriz ere handitzen hasi dela, interes ekonomikoen bozeramaile batzuen iritziz behar-beharrezkoa den eboluzio batean. Euskal herritarren kopuruan, berriz, halako joerarik espero behar dugu?

    Zalantzazko kontua da, batez ere, hemen bizi izatea eta lan egitea baino gehiago eskatzen bada. Esate baterako, herri honen parte izateko borondatea ere, betekizun moduan, hainbat erakundek Aberri Eguna dela eta plazaratu duten agirian proposatu den legez.
    Horiek zatitzen dute euskaldun jendea frantses-euskaldun eta espainol-euskaldunen artean.
    Zenbat langile ditu pneumatikoen industriak Europar Batasunean? Txinako pneumatikoen inportazioa ikertuko du Eb-k

    Basauriko Bridgestoneren estuasunak erakusten du Europako pneumatikoen industriak ez duela bere unerik gozoena bizi. Arazoetako batzuk Txinako ekoizleen lehia desleiala ote den ikertzea erabaki du Europako Batasunak, edo, beste era batera esanda, hango ekoizleek laguntza publikoen bitartez lortu ote duten errentagarriak izatea. Hamalau hilabete iraun ditzake ikerketak, eta Txinak dumping egiten duela erabakiz gero, muga zergak handituko dizkiete. Pneumatikoen industriak 75.000 langile ditu EBn, eta horietatik 5.000 inguru daude Euskal Herrian —Michelinek Gasteizen eta Lasarte-Orian (Gipuzkoa) ditu fabrikak, eta Bridgestonek Basaurin eta Usansolon (Bizkaia)—.
    Egun berean, hiru ekitaldi hartuko ditu Modelo aretoak. 12:30ean, Entzuteko liburuak izenburupean, podcasten inguruko solasaldi bat egingo dute: Ainhoa Etxebeste EITB Podkast plataformaren arduradunak gidatuko du saioa, eta Xabier Gantzarainek (Hizlandia), Xabier Etxeberriak (Artxipelagoa) eta Garazi Urkolak (Enkantea) parte hartuko dute.

    Arratsaldean izango dira Modelo aretoko beste bi saioak. 18:00etan, Enplego zoriontsuago bat emanaldia egingo dute Iñigo Astiz idazle eta BERRIAko kazetariak eta Eñaut Elorrieta musikariak —ekitaldi horretarako sarrera 5 eurokoa izango da—. Eta, 22:00etan, berriz, Bertso saio espekulatiboa egingo dute Unai Iturriaga, Nerea Ibarzabal eta Sustrai Colina bertsolariek, Leire Vargasek jarritako gaiei segika —sarrera 8 eurokoa izango da—.

    Amaitzeko, antzerkia

    Igandean izango du segida Literaturiak, eta bi ekitaldi prestatu dituzte jaialdiaren azken egunerako. Goizean, Ihes betea zilegi balitz izendatu duten saioan, Arantxa Urretabizkaia idazlea elkarrizk...
    Noiz izan zen Pop artearen harreraren garapen nabarmena New Yorken? «New Yorken 1963ko erakusketa ireki zenean jendeak esan zuen artelanak lauak, hotzak eta emoziorik gabeak zirela, eta sei urteren buruan guztiak ari ziren Roy Lichtenstein laudatzen artearen mundua irauli zuelako».

    LAUREN HINKSON Komisarioa

    Etengabeak dira 1963ko erakusketa haren erreferentziak zabaldu berri duten erakusketan. Titulutik hasita. Lauren Hinkson eta Joan Young komisarioek azaldu dutenez, hain justu, Ikurrak eta objektuak izan zelako erakusketa hura izendatzeko mahai gainean egon ziren titulu posibleetako bat, azkenean baztertu egin zuten arren. Eta horregatik erabaki dute titulua Bilborako erreskatatzea orain. Memoria keinu modura.

    'Ikurrak eta objektuak. Guggenheim Bildumako Pop artea' erakusketako irudi bat. A. LOIOLA/ FOKU

    Harrera zalantzatia

    Pop artearen harrerak izandako garapena azaltzeko ere baliatu dute 1963ko erakusketa komisarioek. Lauren Hinkson komisarioak eman du datua: «New Yorken erakusketa ireki zenean, jendeak artelanak lauak, hotzak eta emoziorik ga...
    Nazio aitortzan, EBBren ildotik gutxi urrundu da lehendakaritza

    Gernikako Estatutua onartu ondoren EAJk Eusko Jaurlaritzan izan dituen lehendakariek alderdiaren ildo estrategikoari eutsi diote burujabetzari begira, baina izan da EBBren ardatz nagusitik aldendu denik: Carlos Garaikoetxeak alderdia banaketa batera eraman zuen; Juan Jose Ibarretxek, berriz, Iñigo Urkullu buru zuen EBBrekin ezadostasunak zituela erakutsi zuen erabakitzeko eskubidearen estrategia dela eta.

    Carlos Garaikoetxea (Iruñea, 1938)

    1980an izendatu zuten Jaurlaritzako lehendakari. Bere agintaldian, erakundeak martxan jartzeko lana egokitu zitzaion batez ere. Bigarrenez lehendakari izendatu eta urtebetera, 1985ean, Jose Antonio Ardanzak hartu zuen haren lekukoa, Garaikoetxeak ezadostasun nabarmenak zituelako EAJrekin. 1986an abiarazi zuen Eusko Alkartasuna, eta haren lehen artikuluak eskatu zuen «autodeterminazioa euskal estatu bat sortzeko», bide politikoak eta giza eskubideekin batera.

    Jose Antonio Ardanza (Elo...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • num_train_epochs: 10
  • learning_rate: 1e-05
  • warmup_steps: 0.1
  • eval_strategy: steps
  • per_device_eval_batch_size: 64
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 64
  • num_train_epochs: 10
  • max_steps: -1
  • learning_rate: 1e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: steps
  • per_device_eval_batch_size: 64
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss jaunbert-berria-big-ft_cosine_accuracy
0.5780 500 6.1121 9.5410 0.2073
1.1561 1000 4.7849 7.0864 0.2283
1.7341 1500 4.1209 6.6305 0.2480
2.3121 2000 4.0586 6.5009 0.2613
2.8902 2500 4.0332 6.4492 0.2677
3.4682 3000 4.0131 6.4405 0.2695
4.0462 3500 4.0057 6.4349 0.2713
4.6243 4000 4.0115 6.4348 0.2718
5.2023 4500 4.0040 6.4344 0.2720
5.7803 5000 4.0108 6.4340 0.2713
6.3584 5500 4.0014 6.4342 0.2714
6.9364 6000 4.0105 6.4348 0.2719
7.5145 6500 4.0021 6.4350 0.2719
8.0925 7000 4.0002 6.4344 0.2713
8.6705 7500 4.0101 6.4349 0.2719
9.2486 8000 4.0003 6.4344 0.2720
9.8266 8500 4.01 6.4351 0.2717

Framework Versions

  • Python: 3.11.8
  • Sentence Transformers: 5.3.0
  • Transformers: 5.2.0
  • PyTorch: 2.11.0+cu130
  • Accelerate: 1.13.0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
18
Safetensors
Model size
0.3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for cuadron11/jaunbert-berria-big-ft

Evaluation results