SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'pendidikan minimal d3 administrasi, manajemen / terkait. pengalaman di bidang administrasi pabrik diutamakan. mampu mengoperasikan microsoft excel, word, dan software pelaporan produksi. teliti dalam pencatatan data bahan baku, hasil produksi, dan efisiensi kerja. mampu berkoordinasi dengan bagian produksi, quality control, dan warehouse.',
    'saya adalah seorang f resh graduate dengan pendidikan s1 administrasi perkantoran . saya m emiliki pengalaman magang di pabrik makanan selama 6 bulan sebagai admin produksi . saya merupakan pribadi yang c epat belajar dan teliti dalam pencatatan data . pengalaman admin produksi (juli 2023 januari 2024) asistensi dalam pencatatan data produksi harian . membantu membuat laporan inventory bahan baku . menginput data kedalam sistem sap . membuat laporan reject produksi mingguan . pendidikan universitas (2024) s1 administrasi perkantoran. smk (2020) otomatisasi dan tata kelola perkantoran (otkp) . keterampilan microsoft office (word, excel, powerpoint) google workspace typing 60 wpm administrasi perkantoran inventory management bahasa bahasa indonesia (native), bahasa inggris (profesional) . sertifikasi microsoft excel, word,...',
    'organisasi 2019 2020pendidikan universitas s1 teknologi pangan 2018 2022 sma jurusan ipa 2015 2018 keahlian kemampuan memecahkan masalah dengan cepat dan tepat kemampuan perencanaan yang mendekati aktual.pengalaman quality control incoming material',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6263, 0.2981],
#         [0.6263, 1.0000, 0.4317],
#         [0.2981, 0.4317, 1.0000]])

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.7867
spearman_cosine 0.8582

Training Details

Training Dataset

Unnamed Dataset

  • Size: 217 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 217 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 55 tokens
    • mean: 65.8 tokens
    • max: 75 tokens
    • min: 38 tokens
    • mean: 104.02 tokens
    • max: 128 tokens
    • min: 0.01
    • mean: 0.34
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    pendidikan minimal s1 teknologi pangan, kimia, atau sejenis. fresh graduate dipersilakan melamar, memiliki pengalaman di bidang terkait menjadi nilai tambah. teliti, jujur, dan mampu bekerja di lingkungan berbau kuat. terampil memastikan hasil akhir memenuhi standar mutu perusahaan. memahami gmp, haccp, dan prosedur kontrol mutu bahan mentah. pengalaman kerja 2024 teknisi listrik (magang) mengecek sambungan kabel dan panel ringan. membersihkan box panel terminal listrik. mengukur voltase menggunakan multitester. mendukung teknisi senior saat perbaikan mesin produksi. 2023 helper produksi mengecek stop kontak peralatan listrik kecil. memastikan ar ea produksi aman dari hubungan pendek. melakukan pembersihan alat pasca produksi. memindahkan peralatan produksi sesuai permintaan. pendidikan smk 2021 2024 smk teknik elektro nilai: 82,25 anggota osis divisi logistik keterampilan wiring dasar instalasi kontrol sederhana pemeliharaan motor listrik penggunaan multitester keselamatan kerja listrik fresh graduate 0.3466162618930005
    pendidikan minimal s1 teknologi pangan, kimia, atau sejenis. fresh graduate dipersilakan melamar, memiliki pengalaman di bidang terkait menjadi nilai tambah. teliti, jujur, dan mampu bekerja di lingkungan berbau kuat. terampil memastikan hasil akhir memenuhi standar mutu perusahaan. memahami gmp, haccp, dan prosedur kontrol mutu bahan mentah. skills analis mutu dengan 5 tahun pengalaman mengelola panel uji organoleptik, baik internal maupun eksternal, untuk produk makanan fermentasi dan bumbu. mampu merancang form penilaian sederhana, mengkoordinasi panelis, serta menganalisis data penilaian sensori untuk mendukung keputusan mutu. memiliki sensitivitas tinggi terhadap perubahan rasa, aroma, dan warna produk. uji organoleptik (rasa, aroma, warna, tekstur) penyusunan form penilaian panel education mengelola sesi uji organoleptik untuk produk baru dan existing. menilai konsistensi rasa dan aroma batch ke batch. mengolah data penilaian panel menjadi laporan sederhana. berkoordinasi dengan r d untuk perbaikan formulasi. melakukan uji kadar air, kadar garam, dan ph. menguji warna dan tekstur produk jadi. menyusun laporan uji harian dan mingguan. membantu uji kecil organoleptik internal. ... 0.3949887113923309
    pendidikan minimal sma/smk sederajat. pengalaman sebagai staf warehouse di industri makanan diutamakan. menguasai pencatatan stok menggunakan microsoft excel. teliti dan memahami sistem penyimpanan bahan pangan (fifo/fefo). bertanggung jawab terhadap laporan stok harian dan stok opname berkala. skills pemeriksaan verifikasi form quality control penyusunan laporan mutu berkala persiapan audit internal eksternal uji kadar air/garam/ph/organoleptik penerapan gmp dan dasar qa languages english (fluent) german (basic) french (fluent) w ork experience 2019 2024 senior quality analyst mengawasi konsistensi hasil uji yang dilakukan oleh tim analis junior. memeriksa kelengkapan dokumen mutu sebelum audit. membantu qa dalam investigasi penyebab komplain mutu. memberikan masukan perbaikan form dan prosedur quality control. 2016 2019 quality control analyst melakukan uji rutin kadar air, kadar garam, dan ph. menguji warna dan aroma produk terasi. mengarsipkan hasil uji sesuai sistem penyimpanan dokumen. mendukung audit internal dengan menyiapkan dokumen terkait mutu. 2014 2016 quality control junior mengambil sampel bahan baku dan produk jadi. menguji parameter mutu sederhana. education 2010... 0.0431926040368358
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 10
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_ratio: None
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • enable_jit_checkpoint: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • use_cpu: False
  • seed: 42
  • data_seed: None
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: -1
  • ddp_backend: None
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • auto_find_batch_size: False
  • full_determinism: False
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • use_cache: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step val-sim_spearman_cosine
0.5 7 0.8582

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.2
  • Transformers: 5.0.0
  • PyTorch: 2.9.0+cpu
  • Accelerate: 1.12.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
22
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for lilcoderi/cv-matcher-model

Space using lilcoderi/cv-matcher-model 1

Paper for lilcoderi/cv-matcher-model

Evaluation results