SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cuadron11/jaunbert-berria-big-ft")
sentences = [
'Zein dira Manex Goienetxeren iritziz Euskal Herriaren historiaren ezaugarri nagusiak?',
'Histoire générale du Pays Basque II: Évolution politique et institutionnelle du XVIe au XVIIIe siècle. (1999)\n\n\n\n\n\nHistoire générale du Pays Basque III: Évolution économique et sociale du XVIe au XVIIIe siècle. (2001)\n\n\n\n\n\nHistoire générale du Pays Basque IV: Révolution de 1789. (2002)\n\n\n\n\n\nEuskal Herria XI. mendean: Antso III.a Nagusiaren erregealdia (1004-1035), Roldan Jimeno, Aitor Pescador et Tomas Urtzainki Mina historialariekin. (2004)\n\n\n\n\n\nHistoire générale du Pays Basque V: Le XIXe siècle, 1804-1914. (2005)\n\n\n\nMANEX Goienetxeren zenbait erran\n\n\n\n\nEuskal Herriko eta bere Historiaren ezaugarriez\n\n\n\n«Historia orokorrari buruzko liburuak badaude. Baina berezko ezaugarriak dituen herri bat baldin bada, herri horrek eskatzen du bere historia orokorra eta nazionala egitea».\n\n\n\n«Bizi den herri batek bere memoria historikoa eskuratzeko nahia eta eskubide du, anitzetan itzalperaturik dena, ez bakarrik auzoko beste potentzia batzuengatik, baina ere guhaurrek ahantzi, baztertu, galarazi dugulako, edo batzuek digutelako».\n\n\n\n«Historiak ekartzen duena da Euskal Herri hau izan dela bere historian anitzetako. Lurralde bakoitzak ukan duela eta duela bere nortasuna, bere egoera historiko berezia, bere indar sozial eta ekonomikoetan berezitasuna... Horrek ez du esan nahi herririk ez dagoenik. Herri bat badago, baina egoera anitzetako dena. Niretzat, bederen, hori zorion bat da».\n\n\n\n\n\nEuskal Herriaren Historia Europan',
'Izan ere, Euskal Herriaren mapak askotarikoak dira euskaldunen imajinarioan.\n\n313 mapa batu dituzte Imago Vasconiae atlasean Oleagak eta Esparzak.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
Evaluation
Metrics
Triplet
| Metric |
Value |
| cosine_accuracy |
0.2717 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 55,297 training samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 7 tokens
- mean: 17.45 tokens
- max: 33 tokens
|
- min: 83 tokens
- mean: 332.34 tokens
- max: 495 tokens
|
- Samples:
| anchor |
positive |
Zein da Alex Txikonen asmoa bere espedizioa bertan behera utzi ondoren? |
Kanpaleku nagusitik azaldu dutenez, ez da erabaki erraza izan, eta, gainera, zeruak, azken bi egunetan izan ezik, ez dio orro egiteari utzi. «Ezin dut nire kideen bizitza arriskuan jarri, eta, horregatik, goiz osoa hitz egiten eta hausnartzen eman ondoren, bizitza bermatuari baiezkoa ematea erabaki dugu, eta saiatzen jarraitzeko gure asmoak atzean utziko ditugu».
Txikonek eskerrak eman dizkie, bereziki, haren lankide guztiei. «Sufritu egin dugu, eta gozatu ere bai». Eskerrak eman dizkie jarraitu dieten guztiei, baita babesleei eta lagunei ere. |
Zein da Guau plataformaren helburua euskal literaturari dagokionez? |
Audio formatuak gorakada «nabarmena» izan duela eta horren araberako erabakiak hartu behar direla uste du EITBk. «Audioliburuen ekimen honek euskal idazle ospetsuen lanetara hurbiltzeko aukera errazten du, ez bakarrik irakurriz, baita entzunez ere, eta aproposa da irakurketarako zailtasunak dituztenentzat edo audio formatua nahiago dutenentzat».
Horretaz guztiaz gain, EITBk adierazi du audioliburu berri horien bidez euskarazko sormen industrian laguntzen duela, «idazleei, narratzaileei eta ekoizleei espazioa eskainiz, eta, aldi berean, euskal literatura Euskaditik harago zabaltzeko aukera emanez». Izan ere, Guau plataforma Euskal Herritik kanpo ere erabil daiteke. |
Zein da LAB sindikatuaren proposamena industriaren trantsizio ekosoziala kontrolatzeko? |
LABek «batzorde ekosozialak» sortzeko eskatu du, industria trantsizioa bideratzeko
LAB sindikatuak industriak «ezinbestean» jasan beharko duen trantsizio ekosozialera egokituriko politikak eskatu dizkie Eusko Jaurlaritzari eta Nafarroako Gobernuari. Aldarrikatu du plan zehatz bat behar dela industriaren sektore kutsatzaileetan birmoldaketa hori egiteko, eta erakundeek oraindik ez dutela egin. Are gehiago, gehitu du prozesua behar bezala planifikatzen bada enplegu berria sor daitekeela, baina ezinbestekotzat jo du esku hartze publikoa indartzeko beharra. Ildo horretan, figura baten sorrera eskatu du prozesua kontrolatzeko: «Batzorde ekosozialak».
LAB sindikatuak Sestaon (Bizkaia) egin du bere analisia, zutik gelditzen den labe garai bakarraren aurrean. Cris Gete Industria Federazioko idazkariak jarri dio hitza, eta eskaera zuzena egin die erakundeei. «Industrian epe laburrean eta ertainean ezinbestean gertatu behar diren eraldaketak prestatu egin behar dira; betiere merkatuetatik eta ... |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Evaluation Dataset
Unnamed Dataset
- Size: 55,324 evaluation samples
- Columns:
anchor, positive, and negative
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
negative |
| type |
string |
string |
string |
| details |
- min: 8 tokens
- mean: 17.45 tokens
- max: 40 tokens
|
- min: 84 tokens
- mean: 326.35 tokens
- max: 489 tokens
|
- min: 5 tokens
- mean: 151.83 tokens
- max: 469 tokens
|
- Samples:
| anchor |
positive |
negative |
Bilbon bizi diren espainiarren artean, zenbatek dute Euskal Herriaren parte izateko borondatea? |
Bilbo
Espainiari ekarpena egitea
Beste lelo batzuen ondoan, Quiero contribuir a España desde mi profesión ere irakurri zitekeen, argi eta garbi, titulu homologazioa erraztu dezaten Bilbo erdian egindako protestan (2025-04-11). Eta, anekdota hutsa izan beharrean, asmo hori heltzen ari direnentzat sarritan lehentasuna balitz?
Nabari da populazioa berriz ere handitzen hasi dela, interes ekonomikoen bozeramaile batzuen iritziz behar-beharrezkoa den eboluzio batean. Euskal herritarren kopuruan, berriz, halako joerarik espero behar dugu?
Zalantzazko kontua da, batez ere, hemen bizi izatea eta lan egitea baino gehiago eskatzen bada. Esate baterako, herri honen parte izateko borondatea ere, betekizun moduan, hainbat erakundek Aberri Eguna dela eta plazaratu duten agirian proposatu den legez. |
Horiek zatitzen dute euskaldun jendea frantses-euskaldun eta espainol-euskaldunen artean. |
Zenbat langile ditu pneumatikoen industriak Europar Batasunean? |
Txinako pneumatikoen inportazioa ikertuko du Eb-k
Basauriko Bridgestoneren estuasunak erakusten du Europako pneumatikoen industriak ez duela bere unerik gozoena bizi. Arazoetako batzuk Txinako ekoizleen lehia desleiala ote den ikertzea erabaki du Europako Batasunak, edo, beste era batera esanda, hango ekoizleek laguntza publikoen bitartez lortu ote duten errentagarriak izatea. Hamalau hilabete iraun ditzake ikerketak, eta Txinak dumping egiten duela erabakiz gero, muga zergak handituko dizkiete. Pneumatikoen industriak 75.000 langile ditu EBn, eta horietatik 5.000 inguru daude Euskal Herrian —Michelinek Gasteizen eta Lasarte-Orian (Gipuzkoa) ditu fabrikak, eta Bridgestonek Basaurin eta Usansolon (Bizkaia)—. |
Egun berean, hiru ekitaldi hartuko ditu Modelo aretoak. 12:30ean, Entzuteko liburuak izenburupean, podcasten inguruko solasaldi bat egingo dute: Ainhoa Etxebeste EITB Podkast plataformaren arduradunak gidatuko du saioa, eta Xabier Gantzarainek (Hizlandia), Xabier Etxeberriak (Artxipelagoa) eta Garazi Urkolak (Enkantea) parte hartuko dute.
Arratsaldean izango dira Modelo aretoko beste bi saioak. 18:00etan, Enplego zoriontsuago bat emanaldia egingo dute Iñigo Astiz idazle eta BERRIAko kazetariak eta Eñaut Elorrieta musikariak —ekitaldi horretarako sarrera 5 eurokoa izango da—. Eta, 22:00etan, berriz, Bertso saio espekulatiboa egingo dute Unai Iturriaga, Nerea Ibarzabal eta Sustrai Colina bertsolariek, Leire Vargasek jarritako gaiei segika —sarrera 8 eurokoa izango da—.
Amaitzeko, antzerkia
Igandean izango du segida Literaturiak, eta bi ekitaldi prestatu dituzte jaialdiaren azken egunerako. Goizean, Ihes betea zilegi balitz izendatu duten saioan, Arantxa Urretabizkaia idazlea elkarrizk... |
Noiz izan zen Pop artearen harreraren garapen nabarmena New Yorken? |
«New Yorken 1963ko erakusketa ireki zenean jendeak esan zuen artelanak lauak, hotzak eta emoziorik gabeak zirela, eta sei urteren buruan guztiak ari ziren Roy Lichtenstein laudatzen artearen mundua irauli zuelako».
LAUREN HINKSON Komisarioa
Etengabeak dira 1963ko erakusketa haren erreferentziak zabaldu berri duten erakusketan. Titulutik hasita. Lauren Hinkson eta Joan Young komisarioek azaldu dutenez, hain justu, Ikurrak eta objektuak izan zelako erakusketa hura izendatzeko mahai gainean egon ziren titulu posibleetako bat, azkenean baztertu egin zuten arren. Eta horregatik erabaki dute titulua Bilborako erreskatatzea orain. Memoria keinu modura.
'Ikurrak eta objektuak. Guggenheim Bildumako Pop artea' erakusketako irudi bat. A. LOIOLA/ FOKU
Harrera zalantzatia
Pop artearen harrerak izandako garapena azaltzeko ere baliatu dute 1963ko erakusketa komisarioek. Lauren Hinkson komisarioak eman du datua: «New Yorken erakusketa ireki zenean, jendeak artelanak lauak, hotzak eta emoziorik ga... |
Nazio aitortzan, EBBren ildotik gutxi urrundu da lehendakaritza
Gernikako Estatutua onartu ondoren EAJk Eusko Jaurlaritzan izan dituen lehendakariek alderdiaren ildo estrategikoari eutsi diote burujabetzari begira, baina izan da EBBren ardatz nagusitik aldendu denik: Carlos Garaikoetxeak alderdia banaketa batera eraman zuen; Juan Jose Ibarretxek, berriz, Iñigo Urkullu buru zuen EBBrekin ezadostasunak zituela erakutsi zuen erabakitzeko eskubidearen estrategia dela eta.
Carlos Garaikoetxea (Iruñea, 1938)
1980an izendatu zuten Jaurlaritzako lehendakari. Bere agintaldian, erakundeak martxan jartzeko lana egokitu zitzaion batez ere. Bigarrenez lehendakari izendatu eta urtebetera, 1985ean, Jose Antonio Ardanzak hartu zuen haren lekukoa, Garaikoetxeak ezadostasun nabarmenak zituelako EAJrekin. 1986an abiarazi zuen Eusko Alkartasuna, eta haren lehen artikuluak eskatu zuen «autodeterminazioa euskal estatu bat sortzeko», bide politikoak eta giza eskubideekin batera.
Jose Antonio Ardanza (Elo... |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 64
num_train_epochs: 10
learning_rate: 1e-05
warmup_steps: 0.1
eval_strategy: steps
per_device_eval_batch_size: 64
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 64
num_train_epochs: 10
max_steps: -1
learning_rate: 1e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch_fused
optim_args: None
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 1
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: False
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: trackio
eval_strategy: steps
per_device_eval_batch_size: 64
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: False
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 42
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: None
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
jaunbert-berria-big-ft_cosine_accuracy |
| 0.5780 |
500 |
6.1121 |
9.5410 |
0.2073 |
| 1.1561 |
1000 |
4.7849 |
7.0864 |
0.2283 |
| 1.7341 |
1500 |
4.1209 |
6.6305 |
0.2480 |
| 2.3121 |
2000 |
4.0586 |
6.5009 |
0.2613 |
| 2.8902 |
2500 |
4.0332 |
6.4492 |
0.2677 |
| 3.4682 |
3000 |
4.0131 |
6.4405 |
0.2695 |
| 4.0462 |
3500 |
4.0057 |
6.4349 |
0.2713 |
| 4.6243 |
4000 |
4.0115 |
6.4348 |
0.2718 |
| 5.2023 |
4500 |
4.0040 |
6.4344 |
0.2720 |
| 5.7803 |
5000 |
4.0108 |
6.4340 |
0.2713 |
| 6.3584 |
5500 |
4.0014 |
6.4342 |
0.2714 |
| 6.9364 |
6000 |
4.0105 |
6.4348 |
0.2719 |
| 7.5145 |
6500 |
4.0021 |
6.4350 |
0.2719 |
| 8.0925 |
7000 |
4.0002 |
6.4344 |
0.2713 |
| 8.6705 |
7500 |
4.0101 |
6.4349 |
0.2719 |
| 9.2486 |
8000 |
4.0003 |
6.4344 |
0.2720 |
| 9.8266 |
8500 |
4.01 |
6.4351 |
0.2717 |
Framework Versions
- Python: 3.11.8
- Sentence Transformers: 5.3.0
- Transformers: 5.2.0
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}