Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use JonasGru/lt-gte with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("JonasGru/lt-gte", trust_remote_code=True)
sentences = [
"query: honda s800",
"passage: steno valingas graikų mitologijoje viena iš trijų seserų gorgonių keto ir forkino dukra steno seserys yra medūza ir eurialė steno ir eurialė buvo nemirtingos ir tik vienintelė medūza buvo mirtinga steno galva buvo demonstruojama po to kai ji mirė išjuokdama visus dievus gorgonė vaizduojama plačiu veidu išplėstomis akimis auksiniais sparnais kūną dengė slibino žvynai rankos varinės su aštriais nagais vietoj plaukų ant jų galvų augo nuodingos gyvatės pražiotoje burnoje styrojo aštrios kaip durklai iltys raudonas liežuvis karojo iš plačios burnos gorgonė steno kategorija graikų mitinės būtybės",
"passage: lenktyninė tai sportinė mašina pristatyta tokijo automobilių parodoje pakeitė sėkmingą hondą kaip kompanijos įvaizdžio mašina kaip ir ją buvo galima įsigyti kaip dengtą dvivietį automobilį arba rodsterį honda automobilyje ir toliau buvo vykdomos pažangios technologijos kaip ir jo pirmtakė cc straight variklis pagamindavo kw esant rpm išjudindamas automobilį iki km ankstesni modeliai vis dar naudojo grandininį važiavimą chain drive ir nepriklausomą pakabą independent suspension užpakalinėje dalyje tačiau pasirodžius naujoms roadsters ir coupes mašinoms honda perėjo prie tradicinės užpakalinės varomosios ašies su keturiom stipinų traukėm ir panhard strypu rodsteris ir dengtas dvivietis automobilis buvo pagaminti naudojant šiuos įrengimus kol stabdžių diskai pakeitė priekinius stabdžius buvo pristatyta su rankenėlėmis įmontuotomis duris išoriniais žibintais dvidubos grandinės stabdžiais ir karbiuratoriumi po gaubtuvu ir beskeveldriu stiklu šios permainos buvo padarytos amerikos rinkai tačiau oficialiai mašina niekada nebuvo importuota produkcija pasibaigė gegužę kai jau buvo pagaminta vienetų nuorodos honda nuotraukos honda klubas kategorija sportiniai automobiliai kategorija lenktyniniai automobiliai",
"passage: px varnių regioninis parkas regioninis parkas vakarų lietuvoje parko teritorija užima ha buferinės apsaugos zona ha direkcija ožtakių kaime dumbrių įsteigtas rugsėjo siekiant išsaugoti žemaičių centrinio ežeruoto kalvyno kraštovaizdį jo gamtinę ekosistemą ir kultūros paveldo vertybes gamtos vertybės takas moteraičio piliakalnį įspūdingas žemaičių aukštumos kraštovaizdis su medvėgalio aukštagirės gaudkalnio moteraičio sprūdės kalnais raiškiais plokščiakalvių kompleksais didžiausiame žemaitijos natūraliame ežere lūksto ežere randama gintaro netoli telkšo debesnų pelkė su kurios vertybėmis galima susipažinti botaniniame take varnių duburyje tyvuliuojantys paršežerio biržulio ir stervo ežerai bei pelkynai yra vienos vertingiausių teritorijų paukščiams lietuvoje parkas pasižymi kalkingomis žemapelkėmis su labai retomis augalų rūšimis ir jų bendrijomis nereti juodieji apolonai spalvingi machaonai randami natūraliose pievose kultūros paveldas varnių šv apaštalų petro ir pauliaus bažnyčia vaizdas pavandenės kaimas alkakalnis mauzoliejus jpg miniatiūra px right sakelių mauzoliejus prie pavandenės pabiržulio archeologiniame draustinyje saugomas akmens amžiaus stovyklaviečių kompleksas alkakalnio ir donkalnio alkavietės daug kovų su kryžiuočiais mena vembūtų burbiškių bilionių moteraičio sprūdės medvėgalio kalnai ir piliakalniai kūjainių medgrinda sietuvos lūksto ir medvėgalio kūlgrindos vertingi parke esantys senosios architektūros paminklai daug koplytėlių kapinynai požerės miestelio medinė bažnyčia varniuose yra seniausia žemaitijoje bažnyčia kunigų seminarijos rūmai valančiaus gyvenimo ir kūrybos vietos pavandenės miestelyje stovi puiki šv onos bažnyčia ant gludo ežero kranto yra įdomi sakelių kapavietė mauzoliejus laisvalaikis ir pramogos parke yra puikios sąlygos žvejybai prie lūksto ir paršežerio įrengtos"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'query: allianz arena pavyzdžiai',
'passage: allianz arena futbolo stadionas vokietijoje šiaurinėje miuncheno miesto dalyje stadione yra sėdima vieta šiame stadione buvo sužaistos šešios pasaulio čempionato varžybos savo namų rungtynes čia žaidžia bayern münchen futbolo klubas iki bayern dalijosi stadionu su tsv münchen prieš tai abi komandos žaidė miuncheno olimpiniame stadione nuo iki istorija stadionas buvo pradėtas statyti spalio atidarytas gegužės statybos kainavo milijonus eurų pavadinimas allianz kompanija yra nusipirkusi teisę vadinti šį stadioną savo vardu iai metų tačiau pasaulio čempionato metu stadionas oficialiai vadintas fifa world cup stadium munich nes rėmėjo vardas remiantis fifa įstatais negali figūruoti panašiai yra ir su uefa čempionų lyga rungtynių metu šis stadionas žinomas kaip munich arena miuncheno arena nuorodos pasaulio čempionato svetainė apie allianz areną oficialus allianz arenos tinklalapis išnašos kategorija vokietijos futbolo stadionai kategorija miuncheno sportas kategorija pasaulio futbolo čempionatų stadionai',
'passage: guns roses jav sunkiojo roko muzikos grupė įkurta xx dešimtečio viduryje joje susivienijo įvairių holivudo muzikos grupių nariai grupė jau buvo pagarsėjusi gyvo garso koncertais kai pasirašė pirmąjį kontraktą apie grupę tracii guns ir rob gardner negalėjo dalyvauti viename koncertų kuris vyko sietle axl rose paskambino gitaristui slash ir būgnininkui steven adler su kuriais buvo atsitiktinai susipažinęs ir pasiteiravo ar jie nenorėtų prisijungti vienam koncertui šie sutiko taip los andžele susikūrė susikūrė guns roses grįždami iš los andželo jie parašė žodžius dainai welcome to the jungle kuri tapo jų daina parašu grupės unikalus stilius apėmė punk bliuzą ir netgi tų dienų populiarųjį sunkųjį metalą grupę sudarė vokalas axl rose gitaristai tracii guns ir izzy stradlin bosistas ole beich vėliau pakeistas duff mckagan ir būgnininkas rob gardner grupės pavadinimas kilo iš dviejų grupių sujungtų pavadinimų hollywood rose ir guns kurių nariai ir grojo naujai susikūrusiame kolektyve pakilimas metais grupė išleido albumą ep live like suicide kuris pasiekė įrašų kompanijos geffen records atstovus šie pasiūlė grupei kontraktą tais pačiais metais alan niven tapo grupės vadybininku grupės albumas appetite for destruction pasirodė metų rugpjūčio albumas buvo parduotas milijonų tiražu ir pakilo pirmąją chart vietą albumo žinomesnės dainos welcome to the jungle sweet child mine ir paradise city visos trys dainos buvo billboard chart dešimtukuose metais apetite for destruction išliko geriausiai parduodamu visų laikų',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
query: palangos miesto taryba 1990–1995 m. apibrėžimas |
passage: palangos miesto savivaldybės taryba palangos miesto savivaldybės atstovaujamoji institucija išrinkta kovo pilnas pavadinimas palangos miesto liaudies deputatų taryba nuo balandžio mėn palangos miesto taryba nuo liepos mėn palangos miesto savivaldybės taryba teisinis pagrindas vietos savivaldos pagrindų įstatymu priimtu vasario savivaldybės suskirstytos žemesniosios pakopos savivaldybes apylinkės gyvenvietės valsčiai rajono apskrities miestai ir aukštesniosios pakopos savivaldybes rajonai apskritys respublikos miestai palangai priskirtas aukštesniosios pakopos savivaldybės statusas rinkimai vadovaujantis lietuvos trs aukščiausiosios tarybos gruodžio priimtu lietuvos tarybų socialistinės respublikos vietinių liaudies deputatų tarybų rinkimų įstatymu vyko pagal mažoritarinę sistemą kandidatus kelti galėjo renkamos tarybos teritorijoje esančių visuomeninių politinių organizacijų visuomeninių judėjimų rajonų ir miestų organai taip pat ne mažiau kaip darbo ar gyvenamosios vietos piliečių susirinkimas tai buvo pirmieji laisvi ir demokratiški rinkimai po savivaldybių tarybų rinkimų rinkimai įvyko kovo pakartotinis balsavimas ii turas balandžio tačiau kai kuriose rinkimų apygardose rinkimai neįvyko kitose daputatas nebuvo išrinktas arba buvo paskirtas miesto valdybos nariu pakartotiniai rinkimai neužimtas deputatų vietas vyko gegužės ir lapkričio tarybos deputatai bronius martinkus palangos miesto tarybos pirmininkas rimantas antanas mikalkėnas nuorodos oficiali svetainė kategorija lietuvos savivaldybių tarybų rinkimai |
query: kas yra hellgate: london |
passage: hellgate london veiksmo žaidimas vaidmenimis rpg skirtas microsoft windows operaciniai sistemai trumpai žaidimą galima apibūdinti kaip modernų diablo tiek grafikos tiek siužeto prasme žaidėjui tenka vaduoti londoną nuo gausybės pragaro monstrų ir kitų negyvelių žaidimas įdomus tuo kad jį galima žaisti iš trečiojo asmens arba iš pirmojo asmens kaip šaudyklės perspektyvos veikėjų klasės blademaster kovotojas puola su dviem kardais evoker magas naudoja magiją summoner magas iškviečia kovai monstrus marksman šaulys naudojasi ginklais engeneer šaulys naudojasi robotais bei kai kuriomis karinėmis priemonėmis guardian gynybinis kovotojas naudojasi kardu ir skydu bei auromis kategorija kompiuteriniai žaidimai kategorija kompiuteriniai vaidmenų žaidimai kategorija mokslinės fantastikos kompiuteriniai žaidimai |
query: jurgis dovydaitis pavyzdžiai |
passage: jurgis dovydaitis prie darbo stalo xx deš jurgis dovydaitis spalio runkiai višakio rūdos valsčius rugpjūčio vilnius lietuvos tautosakininkas biografija gimė motiejaus ir marijos dovydaičių šeimoje buvo keturioliktas vaikas brolis lietuvos akto signataras ministras pirmininkas pranas dovydaitis gimtasis kaimas buvo sunaikintas sovietmečiu kazlų rūdos miškus pavertus kariniu poligonu žmona mokytoja marcelė kirdeikytė dovydaitienė vaizdas višakio rūda paminklas jpg miniatiūra px left medinis paminklas dovydaičiui višakio rūdoje baigė kauno aušros gimnaziją vilniaus universitetą vilniaus universiteto ir vilniaus pedagoginio instituto dėstytojas tautosaką rinkti paskatino rašytojas vincas krėvė nuo sukauptas tautosakos kūrinių archyvas yra seniausias ir didžiausias vieno žmogaus sukauptas tautosakos archyvas lietuvoje surinkta kūrinių tai dainų tekstai ir jų melodijos žaidimai pasakos padavimai sakmės pasakojimai anekdotai patarlės burtai prietarai mįslės atsiminimai etnografiniai aprašymai raudos papročių aprašai gamtos garsų pamėgdžiojimai oracijos archyvą padovanojo lietuvių literatūros ir tautosakos institutui archyve rankraščių virš magnetinių juostų juostelių kuriose užfiksuoti tautosakos pateikėjai ir su tautosakos gyvavimu susiję faktai bei daug kitos medžiagos lietuvių kalbos žodyno kartotekai užrašė apie žodžių parašė straipsnių apie tautosakos gyvavimą rinkimą pateikėjus papročius įvertinimas valstybinė jono basanavičiaus premija skirta už nuopelnus lietuvių etninei kultūrai renkant ir skelbiant tautosaką mato slančiausko premija nuo kraštotyros draugijos garbės narys apie jurgį dovydaitį sukurtas kino filmas palikimas algirdo tarvydo studija režisierius algirdas tarvydas minint jurgio dovydaičio ąsias gimimo metines višakio rūdoje pastatytas paminklas jo vardu pavadinta kazlų rūdos |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 12per_device_eval_batch_size: 12num_train_epochs: 1fp16: Truemulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 12per_device_eval_batch_size: 12per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falsebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin| Epoch | Step | Training Loss |
|---|---|---|
| 0.0300 | 500 | 0.0908 |
| 0.0600 | 1000 | 0.0114 |
| 0.0900 | 1500 | 0.008 |
| 0.1200 | 2000 | 0.0079 |
| 0.1500 | 2500 | 0.0049 |
| 0.1800 | 3000 | 0.0046 |
| 0.2100 | 3500 | 0.0031 |
| 0.2400 | 4000 | 0.0047 |
| 0.2700 | 4500 | 0.003 |
| 0.3000 | 5000 | 0.0035 |
| 0.3300 | 5500 | 0.0034 |
| 0.3600 | 6000 | 0.0019 |
| 0.3900 | 6500 | 0.0031 |
| 0.4200 | 7000 | 0.002 |
| 0.4500 | 7500 | 0.0023 |
| 0.4800 | 8000 | 0.0015 |
| 0.5100 | 8500 | 0.0009 |
| 0.5400 | 9000 | 0.0019 |
| 0.5700 | 9500 | 0.0013 |
| 0.6000 | 10000 | 0.0009 |
| 0.6300 | 10500 | 0.0006 |
| 0.6600 | 11000 | 0.0009 |
| 0.6900 | 11500 | 0.001 |
| 0.7200 | 12000 | 0.0014 |
| 0.7500 | 12500 | 0.0027 |
| 0.7800 | 13000 | 0.0012 |
| 0.8100 | 13500 | 0.0009 |
| 0.8400 | 14000 | 0.001 |
| 0.8700 | 14500 | 0.0004 |
| 0.9000 | 15000 | 0.0006 |
| 0.9300 | 15500 | 0.0006 |
| 0.9600 | 16000 | 0.0019 |
| 0.9900 | 16500 | 0.0013 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
Alibaba-NLP/gte-multilingual-base