Matryoshka Representation Learning
Paper • 2205.13147 • Published • 25
This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/gte-multilingual-base-finetuned-amharic")
# Run inference
sentences = [
'ሁለት የብአዴን አመራሮች ላይ ያነጣጠረ ጥቃት በደብረ ማርቆስ መፈጸሙ ተሰማ',
'ሁለት የብሔረ አማራ ዴሞክራሲያዊ ንቅናቄ (ብአዴን) ከፍተኛ አመራሮች ላይ ያነጣጠረ የጥቃት ሙከራ በደብረ ማርቆስ ከተማ መፈጸሙ ተሰማ።የጥቃት ሙከራው የብአዴን መስራችና የቀድሞ የፖሊሲ ጥናትና ምርምር ማዕከል ምክትል ዋና ዳይሬክተርና የመንግሥት ኮሙዩኒኬሽን ጉዳዮች ሚኒስትር የነበሩት አቶ በረከት ስምዖንና ሌላ የብአዴን ማዕከላዊ ኮሚቴ አባል በሆኑት አቶ ምግባሩ ከበደ ላይ መሆኑን ከክልሉ መንግሥት የኮሙዩኒኬሽን ጉዳዮች ቢሮ ኃላፊ አቶ ንጉሡ ጥላሁን ያገኘነው መረጃ ያመለክታል።ሁለቱ የብአዴን አባላት በከተማው ታይተዋል የሚል ወሬ በማኅበራዊ ድረ ገጾች መናፈሱን ተከትሎ፣ ግለሰቦቹ ለሌላ ተልዕኮ እየተንቀሳቀሱ እንደሆኑ የጠረጠሩ የከተማው ነዋሪዎች በደብረ ማርቆስ ሆቴል ላይ ጉዳት ሲያደርሱ ትኩረት ከተደረገባቸው ፖለቲከኞች የአንዱ ነው ተብሎ የተጠረጠረ ተሽከርካሪ በእሳት ማቃጠላቸውንም ለማወቅ ተችሏል።አቶ ንጉሡ ድርጊቱን ያወገዙ ሲሆን፣ በከተማው ታይተዋል ከተባሉ አመራሮች አንዱ አቶ ምግባሩ በባህር ዳር የክልሉ ምክር ቤት ስብሰባ ላይ አብረዋቸው እየተሳተፉ እንደሚገኙ ገልጸዋል።‹‹ማንኛውም አመራርም ሆነ ዜጋ በየትኛውም ቦታ የመንቀሳቀስ መብቱን ሊገድብ የሚችል ነገር ሊኖር አይገባም፤›› ያሉት አቶ ንጉሡ፣ ‹‹ሰሞኑን የአንዳንድ አመራሮች ስም እየተጠቀሰ ሕዝቡን በማደናገርና ብጥብጥ በማንገስ በክልላችን የተገኘውን ሰላም ለመቀልበስ የሐሰት መረጃዎች እየተናፈሱ በመሆኑ ሕዝባችን ታላቅ ጥንቃቄ ማድረግ ይገባዋል፤›› ሲሉ አሳስበዋል።ሁለቱ የብአዴን ፖለቲከኞች ለራሳቸው የፖለቲካ ፍላጎት በደብረ ማርቆስ ከተማ በድብቅ ሕዝብ በማወያየት ላይ እንደሚገኙ የሚገልጽ ሐሰተኛ ወሬ የጥቃቱ ምክንያት እንደሆነ ተገልጿል።',
'የእንግሊዙ ጠቅላይ ሚኒስትር ቦሪስ ጆንሰን የጣሉትን ጥብቅ የእንቅስቃሴ እና የጉዞ እገዳ በመተላለፍ ወደ ቤተሰባቸው አቅንተዋል የተባሉ አማካሪያቸውን ከኃላፊነት እንዲያነሱ የቀረበላቸውን ጥሪ ውድቅ አድርገዋል፡፡\nየ2016ቱን የእንግሊዝን ከአውሮፓ ህብረት የመነጠል ሂደት (ብሬግዚት) በበላይነት የመሩት ዶሚኒኪ ከሚንግስ 400 ኪሎ ሜትሮችን አቆራርጠው በሰሜናዊ እንግሊዝ ዱርሃም ወደሚገኙ ቤተሰቦቻቸው ያቀኑት ጆንሰን እገዳውን ባስተላለፉበት ባሳለፍነው ወርሃ መጋቢት ነበር፡፡\nበወቅቱ የከሚንግስ ባለቤት የኮሮና ህመም ምልክቶችን ያሳዩ ነበር የተባለ ሲሆን የአንድ ልጃቸውን ሁኔታ ለመመልከት ወደ ቤተሰባቸው ማቅናታቸውም ይነገራል፡፡\nሆኖም የልጃቸውን ሁኔታ ቤተሰባቸው ሊከታተል እንደሚችል የሚናገሩ የተፎካካሪ ፖለቲካ ፓርቲዎች እገዳውን በመተላለፋቸው ከኃላፊነት ሊነሱ ይገባል ሲሉ ድምጻቸውን አሰምተዋል፡፡\nየጠቅላይ ሚኒስትሩ ጽህፈት ቤት ግን ጥያቄውን አልተቀበለም ሮይተርስ እንደዘገበው ከሆነ፡፡\nአማካሪው የጥንቃቄ መርሆዎችን አክብረው የልጃቸውን ሁኔታ ለመመልከት ወደ ቤተሰባቸው ቢያቀኑም በአጎራባች መንደሮች ሆነው ሁኔታዎችን ከመከታተል ውጪ ከቤተሰባቸው እንዳልተቀላቀሉም አስታውቋል፡፡\nከአማካሪያቸው ጉዞ ጥቂት ቀናት በፊት እገዳ ስለመጣላቸው አስታውቀው የነበሩት ጆንሰን ራሳቸው በቫይረሱ ተይዘው እንደነበር የሚታወስ ነው፡፡\n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
dim_768 and dim_128InformationRetrievalEvaluator| Metric | dim_768 | dim_128 |
|---|---|---|
| cosine_accuracy@1 | 0.7183 | 0.6866 |
| cosine_accuracy@3 | 0.8348 | 0.8024 |
| cosine_accuracy@5 | 0.8691 | 0.8402 |
| cosine_accuracy@10 | 0.9034 | 0.8816 |
| cosine_precision@5 | 0.1738 | 0.168 |
| cosine_precision@10 | 0.0903 | 0.0882 |
| cosine_precision@50 | 0.0192 | 0.0189 |
| cosine_precision@100 | 0.0098 | 0.0096 |
| cosine_recall@5 | 0.8691 | 0.8402 |
| cosine_recall@10 | 0.9034 | 0.8816 |
| cosine_recall@50 | 0.9618 | 0.9464 |
| cosine_recall@100 | 0.9791 | 0.9644 |
| cosine_ndcg@10 | 0.8131 | 0.784 |
| cosine_ndcg@100 | 0.8292 | 0.8018 |
| cosine_mrr@10 | 0.7839 | 0.7528 |
| cosine_mrr@100 | 0.7872 | 0.7564 |
| cosine_map@100 | 0.7872 | 0.7564 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
የዱር እንስሳት ከሰዎች ጋር በሚኖራቸው ቁርኝት ለኮሮናቫይረስ ተጋላጭ እንዳይሆኑ የመከላከል ተግባራትን እያከናወኑ መሆኑን ባለስልጣኑ አስታወቀ፡፡ |
ባሕርዳር፡ ግንቦት 18/2012 ዓ.ም (አብመድ) የአማራ ክልል የአካባቢ፣ የደንና የዱር እንስሳት ጥበቃና ልማት ባለስልጣን በሚያስተዳድራቸው ብሔራዊ ፓርኮች እና የማኅበረሰብ ጥብቅ ሥፍራዎች ከኮሮናቫይረስ ተጋላጭነት ለመከላከል እየሠራ መሆኑን አስታውቋል፡፡የባለስልጣኑ የኮሙዩኒኬሽን ዳይሬክተር ጋሻው እሸቱ 10 በሚሆኑ ብሔራዊ ፓርኮችና የማኅበረሰብ ጥብቅ ሥፍራዎች የኮሮና ቫይረስን መከላከል በሚቻልባቸው ቅድመ ተግባራት እና ርምጃዎች ላይ መምከራቸውን ተናግረዋል፡፡ የዱር እንስሳት በመንጋ የሚኖሩ፣ እርስ በርሳቸው ተመጋጋቢ፣ ከሰዎች እና ከቤት እንስሳቶች ጋር ሊቀላቀሉ የሚችሉ በመሆናቸው በኮሮናቫይረስ ከተጋለጡ ‘‘የኮሮናቫይረስ ተጋላጭነት በብርቅየ የዱር እንስሳት ብዝኃ ሕይወት ላይ ስጋት መሆን የለበትም’’ ያሉት አቶ ጋሻው በፓርኮቹ ውስጥ ለሚሠሩ የጥበቃ፣ ስካውት እና ለጽሕፈት ቤት ሠራተኞች በዘርፉ ላይ ያተኮረ የኮሮናቫይረስ መከላከያ ትምህርቶችን እና የቁሳቁስ ድጋፎችን ማድረጋቸውን አስታውቀዋል፡፡ |
የትግራይ ክልል የአየር መሥመር ለአገልግሎት ክፍት ሆነ፡፡ |
|
የአውሮፓ ኢንቨስትመንት ባንክ ለመንግሥት 76 ሚሊዮን ዶላር ሊያበድር ነው |
በዳዊት እንደሻውየአውሮፓ ኢንቨስትመንት ባንክ ጽሕፈት ቤቱን በአዲስ አበባ ከከፈተ ከሁለት ዓመት በኋላ ትልቅ ነው የተባለለትን የ76 ሚሊዮን ዶላር ብድር ስምምነት ለመፈራረም፣ ኃላፊዎቹን ወደ ኢትዮጵያ ይልካል፡፡ከወር በፊት በኢትዮጵያ መንግሥትና በባንኩ መካከል የተደረገው ይኼ የብድር ስምምነት፣ የኢትዮጵያ ልማት ባንክ በሊዝ ፋይናንሲንግ ለአነስተኛና ለመካከለኛ ኢንተርፕራይዞች ለሚያደርገው እገዛ ይውላል፡፡የአውሮፓ ኢንቨስትመንት ባንክ ምክትል ፕሬዚዳንት ፒም ቫን በሌኮም፣ እንዲሁም ሌሎች ኃላፊዎች ይመጣሉ ተብሎ ይጠበቃል፡፡በዚህም መሠረት የባንኩ ኃላፊዎች ከገንዘብና ኢኮኖሚ ትብብር ሚኒስቴር ጋር አድርገውት ከነበረው ስምምነት የሚቀጥልና ተመሳሳይ የሆነ ስምምነት፣ ከኢትዮጵያ ልማት ባንክ ጋር እንደሚያደርጉ ይጠበቃል፡፡እ.ኤ.አ. እስከ 2022 ድረስ የሚቀጥለው አነስተኛና መካከለኛ ኢንተርፕራይዞችን የማገዝ ፕሮጀክት 276 ሚሊዮን ዶላር ወጪ የሚያስወጣ ሲሆን፣ ባለፈው ዓመት የዓለም ባንክ ወደ 200 ሚሊዮን ዶላር ብድር ሰጥቷል፡፡በአውሮፓ ኢንቨስትመንት ባንክ የሚሰጠው ብድር፣ የኢትዮጵያ ልማት ባንክን የሊዝ ፋይናንሲንግ ሥራ እንደሚያግዝ ጉዳዩ የሚመለከታቸው የልማት ባንክ ኃላፊዎች ለሪፖርተር ተናግረዋል፡፡ ‹‹በተጨማሪም የውጭ ምንዛሪ እጥረቱን ለማቃለል ያግዛል፤›› ሲሉ ኃላፊው ገልጸዋል፡፡በልማት ባንክ በኩል የሚደረገው እገዛ በሁለት መስኮቶች የሚወጣ ሲሆን፣ አንደኛው በቀጥታ በባንክ እንደ ሊዝ ፋይናንሲንግ ሲሰጥ ሌላው ደግሞ እንደ መሥሪያ ካፒታል ልማት ባንክ ለመረጣቸው 12 ባንኮችና ዘጠኝ ማይክሮ ፋይናንሶች ይሰጣል፡፡የአውሮፓ ኢንቨስትመንት ባንክ በኢትዮጵያ መንቀሳቀስ ከጀመረ ከ1980ዎቹ ጀምሮ ወደ ግማሽ ቢሊዮን ዶላር የሚጠጋ ለኃይል፣ ለኮሙዩኒኬሽንና ለግሉ ዘርፍ ኢ... |
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
128
],
"matryoshka_weights": [
1,
1
],
"n_dims_per_step": -1
}
eval_strategy: epochper_device_train_batch_size: 32per_device_eval_batch_size: 64gradient_accumulation_steps: 4lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: Trueload_best_model_at_end: Trueoptim: adamw_torch_fusedbatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 4eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | dim_768_cosine_ndcg@100 | dim_128_cosine_ndcg@100 |
|---|---|---|---|---|
| 0.0456 | 10 | 4.4431 | - | - |
| 0.0912 | 20 | 2.9024 | - | - |
| 0.1368 | 30 | 1.6097 | - | - |
| 0.1824 | 40 | 1.1869 | - | - |
| 0.2281 | 50 | 1.2144 | - | - |
| 0.2737 | 60 | 0.9749 | - | - |
| 0.3193 | 70 | 1.0655 | - | - |
| 0.3649 | 80 | 1.1162 | - | - |
| 0.4105 | 90 | 0.9775 | - | - |
| 0.4561 | 100 | 1.034 | - | - |
| 0.5017 | 110 | 0.9311 | - | - |
| 0.5473 | 120 | 0.8444 | - | - |
| 0.5929 | 130 | 0.7158 | - | - |
| 0.6385 | 140 | 0.8255 | - | - |
| 0.6842 | 150 | 0.9804 | - | - |
| 0.7298 | 160 | 0.7188 | - | - |
| 0.7754 | 170 | 0.7155 | - | - |
| 0.8210 | 180 | 0.7736 | - | - |
| 0.8666 | 190 | 0.6608 | - | - |
| 0.9122 | 200 | 0.7058 | - | - |
| 0.9578 | 210 | 0.691 | - | - |
| 1.0 | 220 | 0.5458 | 0.8138 | 0.7827 |
| 1.0456 | 230 | 0.3499 | - | - |
| 1.0912 | 240 | 0.3814 | - | - |
| 1.1368 | 250 | 0.3523 | - | - |
| 1.1824 | 260 | 0.2445 | - | - |
| 1.2281 | 270 | 0.3511 | - | - |
| 1.2737 | 280 | 0.3602 | - | - |
| 1.3193 | 290 | 0.3312 | - | - |
| 1.3649 | 300 | 0.4093 | - | - |
| 1.4105 | 310 | 0.312 | - | - |
| 1.4561 | 320 | 0.3038 | - | - |
| 1.5017 | 330 | 0.3356 | - | - |
| 1.5473 | 340 | 0.3174 | - | - |
| 1.5929 | 350 | 0.2237 | - | - |
| 1.6385 | 360 | 0.3872 | - | - |
| 1.6842 | 370 | 0.3198 | - | - |
| 1.7298 | 380 | 0.3592 | - | - |
| 1.7754 | 390 | 0.3249 | - | - |
| 1.8210 | 400 | 0.2903 | - | - |
| 1.8666 | 410 | 0.3085 | - | - |
| 1.9122 | 420 | 0.3823 | - | - |
| 1.9578 | 430 | 0.348 | - | - |
| 2.0 | 440 | 0.2489 | 0.8275 | 0.8001 |
| 2.0456 | 450 | 0.1428 | - | - |
| 2.0912 | 460 | 0.1459 | - | - |
| 2.1368 | 470 | 0.1268 | - | - |
| 2.1824 | 480 | 0.1414 | - | - |
| 2.2281 | 490 | 0.1485 | - | - |
| 2.2737 | 500 | 0.149 | - | - |
| 2.3193 | 510 | 0.1755 | - | - |
| 2.3649 | 520 | 0.2325 | - | - |
| 2.4105 | 530 | 0.1779 | - | - |
| 2.4561 | 540 | 0.1273 | - | - |
| 2.5017 | 550 | 0.1587 | - | - |
| 2.5473 | 560 | 0.1881 | - | - |
| 2.5929 | 570 | 0.167 | - | - |
| 2.6385 | 580 | 0.204 | - | - |
| 2.6842 | 590 | 0.1544 | - | - |
| 2.7298 | 600 | 0.1869 | - | - |
| 2.7754 | 610 | 0.1854 | - | - |
| 2.8210 | 620 | 0.1731 | - | - |
| 2.8666 | 630 | 0.1575 | - | - |
| 2.9122 | 640 | 0.1527 | - | - |
| 2.9578 | 650 | 0.1554 | - | - |
| 2.9897 | 657 | - | 0.8292 | 0.8018 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
Alibaba-NLP/gte-multilingual-base