Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use selmanbaysan/multilingual-e5-base_contrastive_loss_training with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("selmanbaysan/multilingual-e5-base_contrastive_loss_training")
sentences = [
"“Kendilerine güveniyorlarsa teklifimi kabul etsinler, her şey ortaya çıksın!”",
"CHP Balıkesir Milletvekili ve Parti Meclisi Üyesi Mehmet Tüm, Cumhurbaşkanı ve Başbakanın örtülü ödenek harcamalarında bir yıllık ödeneği 8 ayda bitirdiğini belirtti ve örtülü ödeneğin TBMM tarafından denetlenmesi için kanun teklifi verdi. Maliye Bakanlığının açıkladığı Ocak-Ağustos dönemi bütçe gerçekleşme sonuçlarına göre, Cumhurbaşkanı Tayyip Erdoğan ile Başbakan Binali Yıldırım'ın kullanma yetkisinde örtülü ödenekten bu yılın ilk 8 ayında yapılan toplam harcama geçen yıla göre yüzde 60,7 oranında artarak 1 milyar 319 milyon liradan, 2 milyar 121 milyona liraya yükseldi. Tayyip Erdoğan’ın başbakanlığı ve cumhurbaşkanlığı döneminde kırdığı harcama rekorlara dikkat çeken CHP’li Tüm, şu açıklamalarda bulundu: “Örtülü ödenek harcamaları geçen yıla göre yüzde 60,7 oranında artarak 1 milyar 319 milyon liradan 2 milyar 121 milyon liraya yükseldi. Bu hızla giderse harcamalar yeni bir rekorla 3 milyar TL’yi de geçmiş olacak. Maliye Bakanlığının verileri dikkate alındığında, bu rakamların TBMM, MİT ve birçok bakanlığın bütçesini geçtiğini görüyoruz. Saray rejimi, asgari ücrete yılda %5 zammı çok görürken, kendi örtülü ödeneğinde %65 artış yapmayı her şeyden daha zaruri görüyor. Ödeneklerdeki bu artış, halkın parasının açık ve net bir şekilde israf edilmesidir. Devlet bütçesini kimse babasının çiftliği değildir. AKP Genel Başkanı ve yöneticilerinin ne için harcadığını bilmediğimiz bu paraların denetimi şeffaf bir şekilde yapılmalıdır. Eğer AKP’li vekiller bu konuda kendilerine güveniyorlarsa verdiğim kanun teklifini kabul etsinler ve her şey açık ve şeffaf bir şekilde ortaya çıksın.” CHP’li Mehmet Tüm, TBMM Başkanlığına sunduğu kanun teklifinde örtülü ödenek harcamalarının Meclis'te kurulacak bir komisyonla denetlenmesini ve harcamaların toplam bütçe harcamalarının binde ikisini aşmayacak şekilde sınırlandırılmasını istedi. İşte CHP’li Tüm’ün örtülü ödeneği denetimine ilişkin kanun teklifi: 10/12/2003 tarihli ve 5018 sayılı Kamu Malî Yönetimi ve Kontrol Kanununun 24’üncü Maddesinde yer alan “binde beşini” ibaresi “binde ikisini” olarak değiştirilmiştir. 10/12/2003 tarihli ve 5018 sayılı Kamu Malî Yönetimi ve Kontrol Kanununa aşağıdaki ek madde eklenmiştir: Bu kanunun 24’üncü Maddesi hükümlerine göre Cumhurbaşkanlığı ve Başbakanlık bütçelerine konulan örtülü ödeneklerin harcama sonrası denetimi, Türkiye Büyük Millet Meclisi’nde bulunan siyasi parti gruplarının güçleri oranında temsil edileceği bir komisyon marifetiyle yapılır. Komisyon tarafından yapılan denetim sonrası Türkiye Büyük Millet Meclisi Başkanlığına sunulmak üzere bir rapor hazırlanır. Başkanlık, bu raporu Sayıştay Uygunluk Bildirimi ile birlikte Plan ve Bütçe Komisyonuna havale eder. Denetim raporu Plan ve Bütçe Komisyonunun kapalı oturumunda görüşülür. Komisyon üyeleri üçte iki çoğunlukla alınacak kararla, raporun bazı kısımlarına ilişkin ayrıntıların açıklanmasına gizlilik kuralları getirebilir.” Bu Kanun yayımı tarihinde yürürlüğe girer. Bu Kanun hükümlerini Bakanlar Kurulu yürütür.",
"Ligdeki son galibiyetini, 8. haftada Trabzonspor'a konuk olduğu müsabakada 6-1 gibi farklı bir skorla alan Teleset Mobilya Akhisarspor, bu önemli sonucun ardından yaptığı 7 karşılaşmada da 3 puan elde edemedi. Teleset Mobilya Akhisarspor, Trabzonspor zaferinin ardından, Gençlerbirliği ile 3-3 berabere kaldıktan sonra, Medipol Başakşehir'e 2-1, Aytemiz Alanyaspor'a 4-0 yenildi. Beşiktaş'la golsüz berabere kalan ve Göztepe'ye 2-0 mağlup olan yeşil-siyahlı ekip, geçen haftaki golsüz Evkur Yeni Malatyaspor beraberliğinin ardından, dün de Galatasaray'a 4-2 mağlup oldu. Son 7 maçta sadece 3 puan toplayabilen Ege temsilcisi, 15. haftayı 19 puanla tamamladı. Yeşil-siyahlılar, Galatasaray'a yenilmesine karşın, 4 maçtır devam eden gol hasretini ise sonlandırdı. Ligin 10. haftasındaki Medipol Başakşehir maçının 59. dakikasında Paulo Henrique ile rakip ağları havalandırılması sonrası, ardından yapılan 4 maçta da skor üretemeyen Teleset Mobilya Akhisarspor, Galatasaray müsabakasının 17. dakikasında Maicon'un topu kendi filelerine göndermesiyle, 408 dakika sonra gol sevinci yaşamış oldu. Öte yandan, eski takımı Galatasaray'a karşı takımının 2. golünü kaydeden Olcan Adın, Süper Lig'de 50. golüne ulaştı. Daha önce Trabzonspor formasıyla da Galatasaray'a golü bulunan Olcan Adın, Akhisarspor'da toplam 6., bu sezon ise ilk golünü attı. Dünkü maçta gördüğü sarı kartla cezalı duruma düşen Abdoulwahid Sissoko, 17 Aralık Pazar günü Manisa'da oynanacak Kayserispor maçında forma giyemeyecek. Kırmızı kart gören Miguel Lopes ise Ziraat Türkiye Kupası'nda 13 Aralık Çarşamba günü Ankara Demirspor ile oynanacak maçta oynayamayacak. Portekizli futbolcu Profesyonel Futbol Disiplin Kurulundan ceza alması halinde ligde de mücadele edemeyecek.",
"MHP Genel Başkanı Devlet Bahçeli, partisinin grup toplantısında konuşma yaptı. Devlet Bahçeli, CHP'den gelen \"Hakikat Komisyonu kurulsun\" önerisine de sert tepki gösterdi. AK Parti ve CHP'nin birlikte hareket ettiğini savunan Bahçeli, şunları söyledi: \"İkisinin de kafasında İmralı canisinin affı vardır. Başbakan Erdoğan'ın değişken sözleri ve CHP lderinin sözleri birebir örtüşmektedir. Hakikat Komisyonu'nun kurulmasıyla ilgili CHP önerisini milletimizi büyük bir kaygıyla beklemektedir. TSK da terör örgütü de silah bıraksın diyen bir CHP zihniyeti nasıl Atatürk'ün kurduğu bir parti olabilir? Bundan sonra CHP ne diyecektir. AKP'nin izinden yürüyen CHP'nin kabullerden saptığı, üniter devlet yapısını fantazi olarak görmektedirler. Önde kavga ederken arkada Türkiye'nin gizli planlarını yapmaktadırlar. Türkiye'nin temellerinden oynama yaparak kaynaşma yapacağını sananlar milletimizden en sert cevabı alacağından kuşkumuz yoktur.\""
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/multilingual-e5-base_contrastive_loss_training")
# Run inference
sentences = [
'Rusya Devlet Başkanı Vladimir Putin, "Türk yönetimi, uçağımızı düşürdü ve büyük bir hata yaptı. Dahası, korudukları kişiler de karadan pilotumuza ateş açtı. Bu askeri suç karşısında verdiğimiz yanıt, ihtiyatlı olmaktan da öteydi" dedi.',
'\' Rusya Halk Cephesi 1. Bölgelerarası Forumu\'nda konuşan Rus lider, Türkiye\'ye yönelik önlemlerin inşaat alanında yürürlükte olan anlaşmaları etkilemeyeceğini belirterek, Türkiye\'ye inşaat sektöründe getirilen yaptırımların ardından Rusya\'da 87 bin kişilik istihdam kontenjanının açılacağını kaydetti. Putin, şöyle konuştu: "Şu anda 300 Türk şirketinin Rusya\'da sözleşmeleri bulunuyor. Bunların toplam tutarı yaklaşık 50 milyar dolar. Mevcut sözleşmeleri feshetmeme kararı aldık. Çünkü bu sadece Türk iktidarının eylemine verilmiş bir yanıt olmayacak, biz de bundan zarar görebiliriz. Ancak bundan sonra Türk şirketleriyle yeni anlaşma imzalamayacağız." Rusya Devlet Başkanı\'nın gündeminde Suriye\'deki terörle mücadele çalışmaları da vardı. Putin, "Terörle mücadelede dikkatli ancak güçlü bir şekilde hareket edeceğiz. Verdiğiniz destek için sizlere ve gösterdikleri çabalar için Rus askerlerine teşekkür ediyorum" dedi.',
'Bordo-mavili takımın başkanı Muharrem Usta, Galatasaray\'dan Çin ekibi Pekin Guoan\'a transfer olan Burak Yılmaz\'a teşekkür mesajı yayınladı. Usta mesajında, "Burak Yılmaz... Yolun açık olsun, dönmek istersen Trabzonspor\'un kapısı sana her zaman açık olacak. Her şey için teşekkürler" dedi. 8 milyon Euro karşılığında Çin\'e giden Burak sözleşmesindeki yüzde 25\'lik opsiyon sayesinde bu transferle Trabzonspor\'a da 2 milyon Euro daha kazandırmıştı.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
devBinaryClassificationEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.8556 |
| cosine_accuracy_threshold | 0.6373 |
| cosine_f1 | 0.86 |
| cosine_f1_threshold | 0.6255 |
| cosine_precision | 0.8364 |
| cosine_recall | 0.885 |
| cosine_ap | 0.9172 |
| cosine_mcc | 0.7118 |
devBinaryClassificationEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.8517 |
| cosine_accuracy_threshold | 0.6502 |
| cosine_f1 | 0.854 |
| cosine_f1_threshold | 0.6246 |
| cosine_precision | 0.8155 |
| cosine_recall | 0.8963 |
| cosine_ap | 0.9087 |
| cosine_mcc | 0.6985 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Malafa |
, Hakan Günday'ın kuyumcular (ve halıcılar) üzerinden satış dünyası ile yaşam arasında paralellikler kurarak pazarlama ve satış dünyasını anlattığı, okuyucuya değişik bir dünyanın kapılarını açan romanı. Çoğunlukla Ermenice kelimelerden oluşan kuyumcu argosunun ağırlıklı olarak kullanıldığı romanda, büyük bir kuyumcu mağazasında çalışan "tezgahtar"ların ve alışverişe ge(tiri)len "turist"lerin bir günlük macerası anlatılır. |
Sarıyatak, Elbistan |
Sarıyatak, Kahramanmaraş ilinin Elbistan ilçesine bağlı bir mahalledir. |
Åsane |
, Norveç'in Bergen şehrinin bir kasabasıdır. Şehrin kuzeyindeki bu kasaba 1972'ye kadar ayrı bir şehir idi. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
sentence1, sentence2, and label| sentence1 | sentence2 | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| sentence1 | sentence2 | label |
|---|---|---|
Kriz tüm dünyayı sarsarken futbol kulüpleri değerlerini yüzde 8 artırdı. En değerli kulüp yine Manchester United oldu. |
Fenerbahçe, derbideki galibiyetinin ardından, İMKB'deki artışıyla da yatırımcısının yüzünü güldürdü. Galatasaray-Fenerbahçe derbisinin ardından, bugün İMKB'de işlem gören Fenerbahçe hisselerinde yüzde 8 oranında artış yaşandı. Hisse değeri 55,25 TL'ye kadar yükseldi. Kulübün piyasa değeri 1 milyar 381 milyon 250 bin lira değerinde bulunuyor. Derbide kaybeden Galatasaray ise en çok değer kaybeden beşinci hisse konumunda. Galatasaray hisseleri yüzde 4.9 düşüşle 213,50 TL'ye geriledi. |
0 |
İstanbul Sarıyer’de ormanda bulunan yakılmış cesedin 50 yaşındaki Yusuf Işık’a ait olduğu öne sürülüyor. Işık, eş bulmak için Hatay’a giden gençleri anlaşmalı olduğu Suriyeli kadınlarla buluşturup onlarca kişiyi dolandırmakla suçlanıyor. |
Zonguldak'ta ormanlık alanda cesedi yırtıcı hayvanlarca parçalanmış halde bulunan şahıs hakkındaki gerçek otopsi sonucu ortaya çıktı. Av tüfeğiyle öldürüldüğü tespit edilen adamın katili köyündeki komşusu çıktı. İHA'nın haberine göre olay, 10 gün önce Çaycuma ilçesine bağlı Perşembe beldesi Koramanlar köyünde yaşandı. 55 yaşındaki Sezai Karaca'nın cesedi ormanlık alanda yabani hayvanlarca parçalanmış halde bulundu. Jandarma ekiplerince yapılan incelemenin ardından Karaca'nın cesedi otopsi için hastane morguna kaldırıldı. Otopside Sezai Karaca'nın av tüfeği ile öldürüldüğü tespit edilerek vücudundan silahtan çıktığı belirlenen saçmalara rastlandı. Soruşturmayı derinleştiren jandarma ekipleri olayla ilgili Sezai Karaca'nın komşusu Veli B.'yi gözaltına aldı. İlçe Jandarma Komutanlığı'ndaki sorgusunda uzun süre konuşmayan Veli B. bir süre sonra cinayeti itiraf etti. Veli B.'ye, çelik yelek giydirilerek olay yerinde keşif yaptırıldı. Sağlık kontrolünden geçirilen zanlı, işlemlerinin ardın... |
0 |
İdlib'de merkezindeki bombalı saldırıda ilk belirlemelere göre 7 kişi hayatını kaybetti. |
Suriye'nin kuzeyindeki İdlib il merkezinde düzenlenen bombalı saldırıda ilk belirlemelere göre 7 kişinin öldüğü, 30 kişinin yaralandığı bildirildi. İdlib Sivil Savunma (Beyaz Baretliler) Müdürü Mustafa Hac Yusuf, öğle saatlerinde kent merkezindeki "Saat Kavşağı" bölgesine yerleştirilen bombanın patlatılması sonucu en az 7 sivilin hayatını kaybettiği ve 30 sivilin yaralandığını ifade etti. Olayı henüz üstlenen üstlenmedi. Türkiye sınırında bulunan İdlib, Kazakistan'ın başkenti Astana'da 4-5 Mayıs 2017'deki toplantıda, Türkiye, Rusya ve İran tarafından "gerginliği azaltma bölgesi" ilan edilmişti. |
1 |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 2e-05num_train_epochs: 1warmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | Validation Loss | dev_cosine_ap |
|---|---|---|---|---|
| 0.4709 | 15000 | 0.1047 | 0.2651 | 0.9158 |
| 0.4866 | 15500 | 0.0953 | 0.2666 | 0.9173 |
| 0.5023 | 16000 | 0.0923 | 0.2622 | 0.9143 |
| 0.5180 | 16500 | 0.0964 | 0.2698 | 0.9147 |
| 0.5337 | 17000 | 0.0984 | 0.2643 | 0.9125 |
| 0.5494 | 17500 | 0.0968 | 0.2773 | 0.9149 |
| 0.5651 | 18000 | 0.1025 | 0.2624 | 0.9140 |
| 0.5808 | 18500 | 0.1044 | 0.2641 | 0.9082 |
| 0.5965 | 19000 | 0.106 | 0.2641 | 0.9119 |
| 0.6122 | 19500 | 0.1041 | 0.2750 | 0.9175 |
| 0.6279 | 20000 | 0.1021 | 0.2697 | 0.9165 |
| 0.6436 | 20500 | 0.1016 | 0.2804 | 0.9158 |
| 0.6593 | 21000 | 0.1025 | 0.2676 | 0.9182 |
| 0.6750 | 21500 | 0.0979 | 0.2728 | 0.9168 |
| 0.6907 | 22000 | 0.0978 | 0.2641 | 0.9168 |
| 0.7064 | 22500 | 0.0976 | 0.2725 | 0.9128 |
| 0.7221 | 23000 | 0.0968 | 0.2824 | 0.9115 |
| 0.7378 | 23500 | 0.0941 | 0.2759 | 0.9125 |
| 0.7535 | 24000 | 0.0983 | 0.2770 | 0.9130 |
| 0.7692 | 24500 | 0.0975 | 0.2577 | 0.9144 |
| 0.7849 | 25000 | 0.0939 | 0.2598 | 0.9172 |
| 0.8006 | 25500 | 0.092 | 0.2661 | 0.9151 |
| 0.8163 | 26000 | 0.0906 | 0.2657 | 0.9160 |
| 0.8320 | 26500 | 0.0931 | 0.2553 | 0.9167 |
| 0.8477 | 27000 | 0.0917 | 0.2649 | 0.9164 |
| 0.8634 | 27500 | 0.092 | 0.2643 | 0.9169 |
| 0.8791 | 28000 | 0.0931 | 0.2640 | 0.9166 |
| 0.8948 | 28500 | 0.0915 | 0.2743 | 0.9148 |
| 0.9105 | 29000 | 0.0872 | 0.2663 | 0.9197 |
| 0.9262 | 29500 | 0.0867 | 0.2668 | 0.9174 |
| 0.9419 | 30000 | 0.086 | 0.2648 | 0.9171 |
| 0.9576 | 30500 | 0.0873 | 0.2625 | 0.9127 |
| 0.9733 | 31000 | 0.0877 | 0.2643 | 0.9171 |
| 0.9890 | 31500 | 0.0916 | 0.2709 | 0.9172 |
| -1 | -1 | - | - | 0.9087 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}