BjarneNPO-28_08_2025_10_06_45 / README.md

BjarneNPO

finetune_28_08_2025_10_06_45

8d2dcad verified 4 months ago

preview code

raw

history blame contribute delete

27.4 kB

metadata

tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:72349
  - loss:MultipleNegativesRankingLoss
base_model: Snowflake/snowflake-arctic-embed-m-v2.0
widget:
  - source_sentence: Userin kann die eingetragene AU nicht löschen.
    sentences:
      - "Userin muss über das Drei Punkte System gehen und dann über Abwesenheitszeitraum eintragen und als Art Einträge löschen auswählen.\r\nMit Userin die AU zusammen gelöscht."
      - >-
        Hier muss bei allen Kindern der Haken bei "förderfähig" in der BI
        gesetzt werden.
      - "Userin an ihren Träger verwiesen. \r\nUserin erklärt, dass die AWO keinen Support über uns hat."
  - source_sentence: User möchte EL für BV freischalten.
    sentences:
      - >-
        Userin hatte in der Beschäftigung zu wenige Stunden für den bestimmten
        Zeitraum hinterlegt. Sie muss passend zu der Erstattung auch passende
        Stunden hinterlegen.
      - Anwenderin musst den Filter weiter zurückstellen.
      - >-
        Die Rolle Einrichtung kann keinen Zugriff dazu erhalten. Das ist so
        konzeptionell vom LJA so festgesetzt.
  - source_sentence: >-
      Userin kann EVN nicht freigeben. Sie wird gebeten, dass sie die
      Monatsdaten neu erstellt und freigibt. Das System macht dies aber nicht.
      Sie bekommt auch keine Fehlermeldung.
    sentences:
      - >-
        Kidz hatte zum Zeitpunkt des Anrufs eine Störung, die vermutlich zu
        diesem Problem geführt hat. Userin leider nicht mehr erreicht, daher
        wird der Anruf geschlossen.
      - >-
        Nein, wenn nur auf der kitaplus-Verwaltungsseite, wird als Wunsch für
        die GAPP weitergegeben.
      - Ja im Berichtsgenerator kann sie sich eine entsprechende Liste ziehen
  - source_sentence: >-
      Er kann einen Antrag auf Personalausnahme nicht freigeben. Trotz Setzung
      der Haken über Beschäftigungsinformationen können die Daten nicht
      gespeichert werden.
    sentences:
      - >-
        Es  handelt sich um ein lokales Problem. Die Seite baut sich nach dem
        Löschen mit der aktualisierten Zahl nicht automatisch wieder auf. Durch
        die Taste F5 wird die Seite neu geladen.
      - >-
        Sie kann Vertretung wählen oder ggf eine andere und die Qualifikation
        muss die Mitarbeiterin ihr nennen. Sonst kann sie dazu beim Landesamt
        nachfragen, da inhaltliche Fragen
      - >-
        Er speichert diese über Einrichtungsdaten speichern. Danach konnte der
        Antrag freigegeben werden.
  - source_sentence: "Ein Vater taucht nicht auf bei den Eltern im Elternbeirat \r\n\r\nAußerdem auf die Kinder mit archivierten Angehörigen hingewiesen und ihr gezeigt"
    sentences:
      - "1. Vorlage da. Userin auch gezeigt wie sie die verwanden kann\r\n2. Als Wunsch weitergegeben."
      - >-
        In der Kinderliste haben Kinder gefehlt. Userin muss die Daten in der
        Kinderliste hinterlegen.
      - >-
        Weil er keinen Zugang zur EAPP hat, Außerdem auf die Kinder mit
        archivierten Angehörigen hingewiesen und ihr gezeigt wie sie das lösen
        kann
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: SentenceTransformer based on Snowflake/snowflake-arctic-embed-m-v2.0
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: Snowflake/snowflake arctic embed m v2.0
          type: Snowflake/snowflake-arctic-embed-m-v2.0
        metrics:
          - type: cosine_accuracy@1
            value: 0.3188405797101449
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.5652173913043478
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.6521739130434783
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.7246376811594203
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.3188405797101449
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.30917874396135264
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.2695652173913043
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.1797101449275362
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.028097563135926307
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.08291316526610643
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.10822842971180567
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.14144218952403093
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.23799844543048393
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.4672245226593052
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.13972487355759985
            name: Cosine Map@100

SentenceTransformer based on Snowflake/snowflake-arctic-embed-m-v2.0

This is a sentence-transformers model finetuned from Snowflake/snowflake-arctic-embed-m-v2.0. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: Snowflake/snowflake-arctic-embed-m-v2.0
Maximum Sequence Length: 8192 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'GteModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("BjarneNPO-28_08_2025_10_06_45")
# Run inference
queries = [
    "Ein Vater taucht nicht auf bei den Eltern im Elternbeirat \r\n\r\nAu\u00dferdem auf die Kinder mit archivierten Angeh\u00f6rigen hingewiesen und ihr gezeigt",
]
documents = [
    'Weil er keinen Zugang zur EAPP hat, Außerdem auf die Kinder mit archivierten Angehörigen hingewiesen und ihr gezeigt wie sie das lösen kann',
    '1. Vorlage da. Userin auch gezeigt wie sie die verwanden kann\r\n2. Als Wunsch weitergegeben.',
    'In der Kinderliste haben Kinder gefehlt. Userin muss die Daten in der Kinderliste hinterlegen.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.5580, 0.0497, 0.0296]])

Evaluation

Metrics

Information Retrieval

Dataset: Snowflake/snowflake-arctic-embed-m-v2.0
Evaluated with scripts.InformationRetrievalEvaluatorCustom.InformationRetrievalEvaluatorCustom with these parameters:
```
{
    "query_prompt_name": "query",
    "corpus_prompt_name": "document"
}
```

Metric	Value
cosine_accuracy@1	0.3188
cosine_accuracy@3	0.5652
cosine_accuracy@5	0.6522
cosine_accuracy@10	0.7246
cosine_precision@1	0.3188
cosine_precision@3	0.3092
cosine_precision@5	0.2696
cosine_precision@10	0.1797
cosine_recall@1	0.0281
cosine_recall@3	0.0829
cosine_recall@5	0.1082
cosine_recall@10	0.1414
cosine_ndcg@10	0.238
cosine_mrr@10	0.4672
cosine_map@100	0.1397

Training Details

Training Dataset

Unnamed Dataset

Size: 72,349 training samples
Columns: query and answer
Approximate statistics based on the first 1000 samples:
query answer
type string string
details
min: 6 tokens
mean: 49.26 tokens
max: 4339 tokens

min: 6 tokens
mean: 28.66 tokens
max: 238 tokens

	query	answer
type	string	string
details	min: 6 tokens mean: 49.26 tokens max: 4339 tokens	min: 6 tokens mean: 28.66 tokens max: 238 tokens

Samples:

query	answer
`Nun ist die Monatsmeldung erfolgt, aber rote Ausrufezeichen tauchen auf.`	`Userin an das JA verwiesen, diese müssten ihr die Schloss-Monate zur Überarbeitung im Kibiz.web zurückgeben. Userin dazu empfohlen, die Kinder die nicht in kitaplus sind, aber in Kibiz.web - im KiBiz.web zu entfernen, wenn diese nicht vorhanden sind.`
`Die Feiertage in den Stammdaten stimmen nicht.`	`Es besteht bereits ein Ticket dafür.`
`Abrechnung kann nicht final freigegeben werden, es wird aber keiner Fehlermeldung angeziegt`	`im Hintergrund ist eine Fehlermeldung zu sehen. An Entwickler weitergeleitet.`
Korrektur vorgenommen.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: epoch
per_device_train_batch_size: 64
per_device_eval_batch_size: 64
gradient_accumulation_steps: 4
learning_rate: 4e-05
weight_decay: 0.01
lr_scheduler_type: cosine
warmup_ratio: 0.08
bf16: True
tf32: True
load_best_model_at_end: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: epoch
prediction_loss_only: True
per_device_train_batch_size: 64
per_device_eval_batch_size: 64
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 4
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 4e-05
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 3
max_steps: -1
lr_scheduler_type: cosine
lr_scheduler_kwargs: {}
warmup_ratio: 0.08
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: True
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	Training Loss	Snowflake/snowflake-arctic-embed-m-v2.0_cosine_ndcg@10
0.0354	10	2.7716	-
0.0707	20	2.5555	-
0.1061	30	2.3268	-
0.1415	40	2.2795	-
0.1768	50	1.9576	-
0.2122	60	1.8784	-
0.2476	70	1.6965	-
0.2829	80	1.6722	-
0.3183	90	1.5223	-
0.3537	100	1.4994	-
0.3890	110	1.4426	-
0.4244	120	1.398	-
0.4598	130	1.2812	-
0.4951	140	1.33	-
0.5305	150	1.2428	-
0.5659	160	1.2386	-
0.6012	170	1.2143	-
0.6366	180	1.1463	-
0.6720	190	1.1798	-
0.7073	200	1.1332	-
0.7427	210	1.1419	-
0.7781	220	1.1563	-
0.8134	230	1.1375	-
0.8488	240	1.1038	-
0.8842	250	1.1077	-
0.9195	260	1.0595	-
0.9549	270	1.0734	-
0.9903	280	1.0307	-
1.0	283	-	0.2348
1.0248	290	0.9228	-
1.0601	300	0.9237	-
1.0955	310	0.9092	-
1.1309	320	0.8995	-
1.1662	330	0.8697	-
1.2016	340	0.8666	-
1.2370	350	0.8393	-
1.2723	360	0.8781	-
1.3077	370	0.8784	-
1.3431	380	0.8994	-
1.3784	390	0.838	-
1.4138	400	0.8405	-
1.4492	410	0.8342	-
1.4845	420	0.8511	-
1.5199	430	0.8514	-
1.5553	440	0.8367	-
1.5906	450	0.7763	-
1.6260	460	0.8952	-
1.6614	470	0.8301	-
1.6967	480	0.8524	-
1.7321	490	0.8282	-
1.7675	500	0.8229	-
1.8028	510	0.8113	-
1.8382	520	0.8168	-
1.8736	530	0.7861	-
1.9089	540	0.7592	-
1.9443	550	0.7634	-
1.9797	560	0.8149	-
2.0	566	-	0.2395
2.0141	570	0.7468	-
2.0495	580	0.6887	-
2.0849	590	0.7067	-
2.1202	600	0.7102	-
2.1556	610	0.6817	-
2.1910	620	0.6696	-
2.2263	630	0.66	-
2.2617	640	0.7324	-
2.2971	650	0.663	-
2.3324	660	0.6876	-
2.3678	670	0.7153	-
2.4032	680	0.6525	-
2.4385	690	0.6825	-
2.4739	700	0.6487	-
2.5093	710	0.6914	-
2.5447	720	0.7076	-
2.5800	730	0.7042	-
2.6154	740	0.6453	-
2.6508	750	0.6713	-
2.6861	760	0.6642	-
2.7215	770	0.6828	-
2.7569	780	0.6662	-
2.7922	790	0.643	-
2.8276	800	0.6922	-
2.8630	810	0.6825	-
2.8983	820	0.7167	-
2.9337	830	0.7226	-
2.9691	840	0.689	-
3.0	849	-	0.2380

The bold row denotes the saved checkpoint.

Framework Versions

Python: 3.10.11
Sentence Transformers: 5.1.0
Transformers: 4.55.2
PyTorch: 2.8.0+cu129
Accelerate: 1.10.0
Datasets: 3.6.0
Tokenizers: 0.21.4

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}