SentenceTransformer based on ltg/norbert4-large

This is a sentence-transformers model finetuned from ltg/norbert4-large on the nli, group-b-qa and ddsc datasets. It maps sentences & paragraphs to a 960-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: ltg/norbert4-large
Maximum Sequence Length: 512 tokens
Output Dimensionality: 960 dimensions
Similarity Function: Cosine Similarity
Training Datasets:
- nli
- group-b-qa
- ddsc
Languages: no, da, sv

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'GptBertModel'})
  (1): Pooling({'word_embedding_dimension': 960, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("larsksy/norbert4-large-scandinavian-embedding")
# Run inference
queries = [
    "Hvordan kan maskinl\u00e6ring brukes til \u00e5 detektere kreft tidlig via medisinske bilder?",
]
documents = [
    'Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring er spesielt nyttig for å analysere komplekse medisinske bilder som kan være vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet og respons på behandling. Ved å analysere genetiske data og andre relevante faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere behandlingen og forbedre pasientutfallet.',
    'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra elektroniske pasientjournaler til telemedisin har teknologi endret måten leger behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere store mengder data fra kliniske prøver og medisinske bilder for å identifisere nye biomarkers og behandlingsmål. ',
    'Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse af verden er formet af kulturelle og historiske kontekster.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 960] [3, 960]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.8571, 0.3472, 0.0093]])

Training Details

Training Datasets

nli

Dataset: nli at 98cabde
Size: 556,367 training samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 6 tokens mean: 9.53 tokens max: 47 tokens	min: 5 tokens mean: 12.03 tokens max: 40 tokens	min: 5 tokens mean: 12.7 tokens max: 49 tokens

Samples:

anchor	positive	negative
`En person på en hest hopper over et havarert fly.`	`En person er utendørs, på en hest.`	`En person er på en diner og bestiller en omelett.`
`Barn smiler og vinker til kameraet`	`Det er barn til stede`	`Barna rynker pannen`
`En gutt hopper på skateboard midt på en rød bro.`	`Gutten gjør et skateboardtriks.`	`Gutten skater nedover fortauet.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

group-b-qa

Dataset: group-b-qa
Size: 99,632 training samples
Columns: query and positive
Approximate statistics based on the first 1000 samples:
query positive
type string string
details
min: 4 tokens
mean: 22.4 tokens
max: 512 tokens

min: 1 tokens
mean: 212.67 tokens
max: 512 tokens

	query	positive
type	string	string
details	min: 4 tokens mean: 22.4 tokens max: 512 tokens	min: 1 tokens mean: 212.67 tokens max: 512 tokens

Samples:

query	positive
ok, dette her er en anelse pinligt egentlig men håber i måske har nogle råd. Jeg har tabt over 40 kg over det sidste år og det er jo kanont, men det betyder også at jeg nu får blå mærker af min sadel, helt oppe inderst på lårene og hmm det gør altså ridning knap så sjovt for at være helt ærlig. Sadlen skal skiftes ud med en nyere model på et lidt senere tidspunkt, kræver lige lidt flere penge på opsparingen og også at finde ud af hvad der lige passer min krop og dens problemer samtidig med at sadlen jo skal passe hesten. Nogen, som har prøvet noget lignende og som har en løsning?? vil en såkaldt rumpevarmer måske være en mulighed?? Mvh Mie	`gået Jeg tænker rumpevarmer eller måske en rumpegelepad.. Det mener jeg i hvert fald at have set en gang..`
`Hvad betyder det at en FIFA-dommer er klassificeret som World Class Referee?`	`Det betyder, at den pågældende dommer er en af de bedste internationale dommere og har opnået det højeste niveau for internationale dommere, som er defineret af FIFA.`
`Hvilken klub mødte Nottingham Forest i finalen i deres første europæiske fodboldsæson?`	`1978-79 sæsonen ville også blive en ikonisk en for klubben, på trods at de måtte nøjes med en andenplads i ligaen. I klubbens første sæson i europæisk fodbold kom de hele vejen til finalen, hvor at de mødte Malmö FF. I en hårdt kæmpet og defensiv kamp, lykkedes det Forest at vinde 1-0, og klubben vandt dermed deres første europæiske mesterskab. Forest forsvarede også deres League Cup-titel, da de vandt over Southampton i finalen.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

ddsc

Dataset: ddsc at fb27300
Size: 376,262 training samples
Columns: query, positive, and negative

Approximate statistics based on the first 1000 samples:

	query	positive	negative
type	string	string	string
details	min: 3 tokens mean: 23.23 tokens max: 72 tokens	min: 8 tokens mean: 112.57 tokens max: 512 tokens	min: 1 tokens mean: 69.13 tokens max: 322 tokens

Samples:

query	positive	negative
`Klimatförändringen är en av de största utmaningarna för vår tid. Den påverkar ekosystemen, vår hälsa och den globala ekonomin.`	`Vår tid präglas av klimatförändringen, en enorm utmaning som hotar ekosystemen, människors hälsa och världsekonomin.`	`Fenomenet klimatförändring har blivit en debatt som engagerar forskare, politiker och allmänheten. Dess effekter på miljön är allvarliga och kräver omedelbara åtgärder.`
`Hva var den økonomiske betydningen av bomkadeblokkaden av sørstatene under den amerikanske borgerkrigen, og hvordan påvirket det den europeiske tekstilindustrien?`	Den amerikanske borgerkrigen var en krise for den europeiske tekstilindustrien. Unionens blokade av Sørstatene førte til knapphet på bomull, Sørstatenes viktigste avling. Storbritannia, som var avhengig av sørlig bomull, opplevde en kraftig reduksjon i produksjonen. Fabrikkene stengte, arbeidsledigheten steg og den britiske industrien ble hardt rammet. Mange europeiske land søkte nye bomkullsleverandører, men ingen klarte å erstatte den amerikanske bomullen fullt ut. Dette førte til en global bomullskrise som varte i flere år. Avhengigheten av en enkelt leverandør viste seg å være sårbart, og europeiske land begynte å investere i bomullsdyrking i koloniene sine for å sikre fremtidige forsyninger.	`Den amerikanske borgerkrigen var en blodig konflikt som ravde landet i fire år. Slavene i Sørstatene ble frigjort avgjørende Deklarasjon om frigjøring, men den fullstendige avskaffelsen av slaveriet ble først sikret med den 13. grunnloven. Krigen endte med en nordlig seier, men den etterlot dype sår og en nasjon i ruiner. Reconstructing the South and reintegrating the former Confederate states into the Union, proved to be a lengthy and complex process.`
`Familien samles rundt bordet for å spise middag, og stemningen er varm og koselig.`	`Middagsbordet er dekket, og familien er samlet for å nyte en deilig måltid sammen.`	`Han tok en bit av kaken og satt seg ved vinduet for å lese en bok.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Evaluation Datasets

nli

Dataset: nli at 98cabde
Size: 1,000 evaluation samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 5 tokens mean: 17.72 tokens max: 74 tokens	min: 4 tokens mean: 8.98 tokens max: 31 tokens	min: 3 tokens mean: 9.5 tokens max: 29 tokens

Samples:

anchor	positive	negative
`Mann i skjelett-trykt lærantrekk som sitter på en rød motorsykkel.`	`En mann sitter på en motorsykkel.`	`Mannen er naken.`
`En far hjelper sønnen sin med å sykle over tørr og støvete jord, akkompagnert av søsteren hans kledd i en grønn kjole.`	`En far hjelper sønnen sin`	`Noen sover`
`En afroamerikaner med en rød ryggsekk ser på fotografen mens han går forbi en betongvegg dekket av graffiti.`	`en person har på seg en ryggsekk`	`en asiatisk person har en rød ryggsekk`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

group-b-qa

Dataset: group-b-qa
Size: 500 evaluation samples
Columns: query and positive
Approximate statistics based on the first 500 samples:
query positive
type string string
details
min: 6 tokens
mean: 14.81 tokens
max: 76 tokens

min: 8 tokens
mean: 60.66 tokens
max: 512 tokens

	query	positive
type	string	string
details	min: 6 tokens mean: 14.81 tokens max: 76 tokens	min: 8 tokens mean: 60.66 tokens max: 512 tokens

Samples:

query	positive
`Niks. Han ba meg dra til helvete.`	`Han bad mig skride ad helvede til.`
`Da har du vel ledd hele dagen.`	`Så har du vel grinet hele dagen.`
`Alle som skrev, ble belønnet før eller senere.`	`Alle, som skrev blev belønnet før eller siden.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

ddsc

Dataset: ddsc at fb27300
Size: 500 evaluation samples
Columns: query, positive, and negative

Approximate statistics based on the first 500 samples:

	query	positive	negative
type	string	string	string
details	min: 3 tokens mean: 22.44 tokens max: 67 tokens	min: 8 tokens mean: 111.34 tokens max: 512 tokens	min: 8 tokens mean: 68.43 tokens max: 278 tokens

Samples:

query	positive	negative
`Postmodernismen udfordrer den traditionelle opfattelse af meta-fortællinger og privilegerede perspektiver.`	`Postmodernismens afvisning af universelle sandheder og fokus på fragmenterede identiteter gør den til en kompleks filosofisk strømning.`	`Mange litterære værker fra 20. århundredede reflekterer postmodernismens fokus på subjektivitet og dekonstruktionsmetoder.`
`Drengen legede sin blå bold i vandet`	`Bøgen spillede med den blå bold på græsset`	`Pigen løb med sin gule bold i haven`
`Nya upptäckter rymden`	`Det senaste decenniet har varit en guldålder för rymdforskning. Nyligen lanserade teleskop, som James Webb Space Telescope, har gett oss bilder av universum med en detaljeradhet vi aldrig tidigare sett. Dessutom har rymdsonder samlat in värdefulla data om planeter utanför vårt solsystem, exoplaneter. Forskarna har även gjort framsteg i förståelsen av svarta hål, mörk materia och universums ut expansion.`	`Astronomi är en fascinerande vetenskap som studerar himlakroppar och fenomen. Det finns många olika grenar inom astronomi, inklusive stjärnklara, planetvetenskap och kosmologi. Teleskop är viktiga verktyg för astronomer, och de har utvecklats enormt sedan det första teleskopet uppfanns.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
gradient_accumulation_steps: 4
learning_rate: 2.5e-05
weight_decay: 0.01
num_train_epochs: 1
warmup_ratio: 0.1
load_best_model_at_end: True
push_to_hub: True
hub_model_id: larsksy/norbert4-large-scandinavian-embedding
hub_strategy: end
hub_private_repo: False
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 4
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2.5e-05
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
project: huggingface
trackio_space_id: trackio
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: True
resume_from_checkpoint: None
hub_model_id: larsksy/norbert4-large-scandinavian-embedding
hub_strategy: end
hub_private_repo: False
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: no
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: True
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: round_robin
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	Training Loss	nli loss	group-b-qa loss	ddsc loss
0.0017	1	5.2598	-	-	-
0.0856	50	-	1.6665	0.5553	0.7149
0.1712	100	2.161	1.0022	0.2776	0.3488
0.2567	150	-	0.8971	0.2214	0.2978
0.3423	200	0.5349	0.8485	0.2162	0.2871
0.4279	250	-	0.8076	0.2000	0.2671
0.5135	300	0.468	0.7993	0.1811	0.2470
0.5991	350	-	0.7764	0.1801	0.2526
0.6846	400	0.4488	0.7709	0.1751	0.2469
0.7702	450	-	0.7701	0.1834	0.2357
0.8558	500	0.4274	0.7536	0.1756	0.2311
0.9414	550	-	0.7475	0.1792	0.2270

Framework Versions

Python: 3.12.12
Sentence Transformers: 5.2.0
Transformers: 4.57.3
PyTorch: 2.9.1+cu128
Accelerate: 1.12.0
Datasets: 4.4.2
Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Downloads last month: 564

Safetensors

Model size

0.4B params

Tensor type

F32

Model tree for larsksy/norbert4-large-scandinavian-embedding

Base model

ltg/norbert4-large

Finetuned

(2)

this model

Datasets used to train larsksy/norbert4-large-scandinavian-embedding

Papers for larsksy/norbert4-large-scandinavian-embedding

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Paper • 1908.10084 • Published Aug 27, 2019 • 16

Efficient Natural Language Response Suggestion for Smart Reply

Paper • 1705.00652 • Published May 1, 2017