SentenceTransformer based on ltg/norbert4-large

This is a sentence-transformers model finetuned from ltg/norbert4-large on the nli, group-b-qa and ddsc datasets. It maps sentences & paragraphs to a 960-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: ltg/norbert4-large
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 960 dimensions
  • Similarity Function: Cosine Similarity
  • Training Datasets:
  • Languages: no, da, sv

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'GptBertModel'})
  (1): Pooling({'word_embedding_dimension': 960, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("larsksy/norbert4-large-scandinavian-embedding")
# Run inference
queries = [
    "Hvordan kan maskinl\u00e6ring brukes til \u00e5 detektere kreft tidlig via medisinske bilder?",
]
documents = [
    'Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring er spesielt nyttig for å analysere komplekse medisinske bilder som kan være vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet og respons på behandling. Ved å analysere genetiske data og andre relevante faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere behandlingen og forbedre pasientutfallet.',
    'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra elektroniske pasientjournaler til telemedisin har teknologi endret måten leger behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere store mengder data fra kliniske prøver og medisinske bilder for å identifisere nye biomarkers og behandlingsmål. ',
    'Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse af verden er formet af kulturelle og historiske kontekster.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 960] [3, 960]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.8571, 0.3472, 0.0093]])

Training Details

Training Datasets

nli

  • Dataset: nli at 98cabde
  • Size: 556,367 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 6 tokens
    • mean: 9.53 tokens
    • max: 47 tokens
    • min: 5 tokens
    • mean: 12.03 tokens
    • max: 40 tokens
    • min: 5 tokens
    • mean: 12.7 tokens
    • max: 49 tokens
  • Samples:
    anchor positive negative
    En person på en hest hopper over et havarert fly. En person er utendørs, på en hest. En person er på en diner og bestiller en omelett.
    Barn smiler og vinker til kameraet Det er barn til stede Barna rynker pannen
    En gutt hopper på skateboard midt på en rød bro. Gutten gjør et skateboardtriks. Gutten skater nedover fortauet.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

group-b-qa

  • Dataset: group-b-qa
  • Size: 99,632 training samples
  • Columns: query and positive
  • Approximate statistics based on the first 1000 samples:
    query positive
    type string string
    details
    • min: 4 tokens
    • mean: 22.4 tokens
    • max: 512 tokens
    • min: 1 tokens
    • mean: 212.67 tokens
    • max: 512 tokens
  • Samples:
    query positive
    ok, dette her er en anelse pinligt egentlig men håber i måske har nogle råd. Jeg har tabt over 40 kg over det sidste år og det er jo kanont, men det betyder også at jeg nu får blå mærker af min sadel, helt oppe inderst på lårene og hmm det gør altså ridning knap så sjovt for at være helt ærlig. Sadlen skal skiftes ud med en nyere model på et lidt senere tidspunkt, kræver lige lidt flere penge på opsparingen og også at finde ud af hvad der lige passer min krop og dens problemer samtidig med at sadlen jo skal passe hesten. Nogen, som har prøvet noget lignende og som har en løsning?? vil en såkaldt rumpevarmer måske være en mulighed?? Mvh Mie gået Jeg tænker rumpevarmer eller måske en rumpegelepad.. Det mener jeg i hvert fald at have set en gang..
    Hvad betyder det at en FIFA-dommer er klassificeret som World Class Referee? Det betyder, at den pågældende dommer er en af de bedste internationale dommere og har opnået det højeste niveau for internationale dommere, som er defineret af FIFA.
    Hvilken klub mødte Nottingham Forest i finalen i deres første europæiske fodboldsæson?

    1978-79 sæsonen ville også blive en ikonisk en for klubben, på trods at de måtte nøjes med en andenplads i ligaen. I klubbens første sæson i europæisk fodbold kom de hele vejen til finalen, hvor at de mødte Malmö FF. I en hårdt kæmpet og defensiv kamp, lykkedes det Forest at vinde 1-0, og klubben vandt dermed deres første europæiske mesterskab. Forest forsvarede også deres League Cup-titel, da de vandt over Southampton i finalen.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

ddsc

  • Dataset: ddsc at fb27300
  • Size: 376,262 training samples
  • Columns: query, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    query positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 23.23 tokens
    • max: 72 tokens
    • min: 8 tokens
    • mean: 112.57 tokens
    • max: 512 tokens
    • min: 1 tokens
    • mean: 69.13 tokens
    • max: 322 tokens
  • Samples:
    query positive negative
    Klimatförändringen är en av de största utmaningarna för vår tid. Den påverkar ekosystemen, vår hälsa och den globala ekonomin. Vår tid präglas av klimatförändringen, en enorm utmaning som hotar ekosystemen, människors hälsa och världsekonomin. Fenomenet klimatförändring har blivit en debatt som engagerar forskare, politiker och allmänheten. Dess effekter på miljön är allvarliga och kräver omedelbara åtgärder.
    Hva var den økonomiske betydningen av bomkadeblokkaden av sørstatene under den amerikanske borgerkrigen, og hvordan påvirket det den europeiske tekstilindustrien? Den amerikanske borgerkrigen var en krise for den europeiske tekstilindustrien. Unionens blokade av Sørstatene førte til knapphet på bomull, Sørstatenes viktigste avling. Storbritannia, som var avhengig av sørlig bomull, opplevde en kraftig reduksjon i produksjonen. Fabrikkene stengte, arbeidsledigheten steg og den britiske industrien ble hardt rammet. Mange europeiske land søkte nye bomkullsleverandører, men ingen klarte å erstatte den amerikanske bomullen fullt ut. Dette førte til en global bomullskrise som varte i flere år. Avhengigheten av en enkelt leverandør viste seg å være sårbart, og europeiske land begynte å investere i bomullsdyrking i koloniene sine for å sikre fremtidige forsyninger. Den amerikanske borgerkrigen var en blodig konflikt som ravde landet i fire år. Slavene i Sørstatene ble frigjort avgjørende Deklarasjon om frigjøring, men den fullstendige avskaffelsen av slaveriet ble først sikret med den 13. grunnloven. Krigen endte med en nordlig seier, men den etterlot dype sår og en nasjon i ruiner. Reconstructing the South and reintegrating the former Confederate states into the Union, proved to be a lengthy and complex process.
    Familien samles rundt bordet for å spise middag, og stemningen er varm og koselig. Middagsbordet er dekket, og familien er samlet for å nyte en deilig måltid sammen. Han tok en bit av kaken og satt seg ved vinduet for å lese en bok.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Evaluation Datasets

nli

  • Dataset: nli at 98cabde
  • Size: 1,000 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 5 tokens
    • mean: 17.72 tokens
    • max: 74 tokens
    • min: 4 tokens
    • mean: 8.98 tokens
    • max: 31 tokens
    • min: 3 tokens
    • mean: 9.5 tokens
    • max: 29 tokens
  • Samples:
    anchor positive negative
    Mann i skjelett-trykt lærantrekk som sitter på en rød motorsykkel. En mann sitter på en motorsykkel. Mannen er naken.
    En far hjelper sønnen sin med å sykle over tørr og støvete jord, akkompagnert av søsteren hans kledd i en grønn kjole. En far hjelper sønnen sin Noen sover
    En afroamerikaner med en rød ryggsekk ser på fotografen mens han går forbi en betongvegg dekket av graffiti. en person har på seg en ryggsekk en asiatisk person har en rød ryggsekk
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

group-b-qa

  • Dataset: group-b-qa
  • Size: 500 evaluation samples
  • Columns: query and positive
  • Approximate statistics based on the first 500 samples:
    query positive
    type string string
    details
    • min: 6 tokens
    • mean: 14.81 tokens
    • max: 76 tokens
    • min: 8 tokens
    • mean: 60.66 tokens
    • max: 512 tokens
  • Samples:
    query positive


    Niks.

    Han ba meg dra til helvete.



    Han bad mig skride ad helvede til.


    Da har du vel ledd hele dagen.


    Så har du vel grinet hele dagen.


    Alle som skrev, ble belønnet før eller senere.



    Alle, som skrev blev belønnet før eller siden.

  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

ddsc

  • Dataset: ddsc at fb27300
  • Size: 500 evaluation samples
  • Columns: query, positive, and negative
  • Approximate statistics based on the first 500 samples:
    query positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 22.44 tokens
    • max: 67 tokens
    • min: 8 tokens
    • mean: 111.34 tokens
    • max: 512 tokens
    • min: 8 tokens
    • mean: 68.43 tokens
    • max: 278 tokens
  • Samples:
    query positive negative
    Postmodernismen udfordrer den traditionelle opfattelse af meta-fortællinger og privilegerede perspektiver. Postmodernismens afvisning af universelle sandheder og fokus på fragmenterede identiteter gør den til en kompleks filosofisk strømning. Mange litterære værker fra 20. århundredede reflekterer postmodernismens fokus på subjektivitet og dekonstruktionsmetoder.
    Drengen legede sin blå bold i vandet Bøgen spillede med den blå bold på græsset Pigen løb med sin gule bold i haven
    Nya upptäckter rymden Det senaste decenniet har varit en guldålder för rymdforskning. Nyligen lanserade teleskop, som James Webb Space Telescope, har gett oss bilder av universum med en detaljeradhet vi aldrig tidigare sett. Dessutom har rymdsonder samlat in värdefulla data om planeter utanför vårt solsystem, exoplaneter. Forskarna har även gjort framsteg i förståelsen av svarta hål, mörk materia och universums ut expansion. Astronomi är en fascinerande vetenskap som studerar himlakroppar och fenomen. Det finns många olika grenar inom astronomi, inklusive stjärnklara, planetvetenskap och kosmologi. Teleskop är viktiga verktyg för astronomer, och de har utvecklats enormt sedan det första teleskopet uppfanns.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • gradient_accumulation_steps: 4
  • learning_rate: 2.5e-05
  • weight_decay: 0.01
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • load_best_model_at_end: True
  • push_to_hub: True
  • hub_model_id: larsksy/norbert4-large-scandinavian-embedding
  • hub_strategy: end
  • hub_private_repo: False
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2.5e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: larsksy/norbert4-large-scandinavian-embedding
  • hub_strategy: end
  • hub_private_repo: False
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss nli loss group-b-qa loss ddsc loss
0.0017 1 5.2598 - - -
0.0856 50 - 1.6665 0.5553 0.7149
0.1712 100 2.161 1.0022 0.2776 0.3488
0.2567 150 - 0.8971 0.2214 0.2978
0.3423 200 0.5349 0.8485 0.2162 0.2871
0.4279 250 - 0.8076 0.2000 0.2671
0.5135 300 0.468 0.7993 0.1811 0.2470
0.5991 350 - 0.7764 0.1801 0.2526
0.6846 400 0.4488 0.7709 0.1751 0.2469
0.7702 450 - 0.7701 0.1834 0.2357
0.8558 500 0.4274 0.7536 0.1756 0.2311
0.9414 550 - 0.7475 0.1792 0.2270

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.0
  • Transformers: 4.57.3
  • PyTorch: 2.9.1+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.4.2
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
20
Safetensors
Model size
0.4B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for larsksy/norbert4-large-scandinavian-embedding

Base model

ltg/norbert4-large
Finetuned
(2)
this model

Datasets used to train larsksy/norbert4-large-scandinavian-embedding

Papers for larsksy/norbert4-large-scandinavian-embedding