langtech-innovation/trilingual_query_relevance
Viewer • Updated • 76.6k • 14 • 1
How to use langtech-innovation/mRoBERTA_retrieval with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("langtech-innovation/mRoBERTA_retrieval")
sentences = [
"El agua se volvió turbia desde que uso el ozono. ¿A qué se debe?",
"27 de septiembre de 2009 27 de septiembre de 2009Tegucigalpa, Honduras — En un comunicado del gobierno de facto hondureño, encabezado por Roberto Micheletti, se ha decretado un ultimatum de 10 días para que la embajada de Brasil defina el estatus del depuesto presidente Manuel Zelaya, quien permanece en la sede diplomática desde el lunes pasado. En el texto del comunicado se afirma: \"ningún país puede tolerar que una embajada extranjera sea utilizada como base de mando para generar violencia y romper la tranquilidad, como el señor Zelaya lo ha estado haciendo desde su ingreso al territorio nacional\", agregando: \"nos veremos obligados a tomar medidas adicionales conforme al derecho internacional\".",
"La nubosidad es una señal de que el ozono está haciendo su trabajo. Continúe ejecutando el filtro y desaparecerá en un par de días. La nubosidad también puede indicar un problema en el filtro. Verifique el filtro por daños y operación apropiada. Retrolavado si es necesario.",
"El filòsof i periodista Jordi Graupera ha guanyat la votació de Primàries Catalunya a Barcelona, amb 7.715 vots. El segon candidat més votat ha estat Adrià Alsina, ex-membre del secretariat de l'ANC, amb 1.933 vots. La votació va començar divendres a les 20.00 i s'ha acabat avui a les 20.00."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from BSC-LT/mRoBERTa on the trilingual_query_relevance dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("langtech-innovation/mRoBERTA_retrieval")
# Run inference
query ="Com ha dit Juncker que havia sigut Georgieva com a vicepresidenta?"
sentences = ["La vicepresidenta de la Comissió Europea i responsable de Pressupostos i Recursos Humans, Kristalina Georgieva, ha presentat aquest divendres la seva dimissió i deixarà el càrrec a finals d'any per treballar al Banc Mundial. El president de la CE, Jean-Claude Juncker, ha anunciat en un comunicat que el comissari alemany Günther H. Oettinger assumirà la carpeta de Georgieva, a qui ha definit com una 'excel·lent vicepresidenta'. Amb la vacant de Georgieva, s'iniciarà el procés per nomenar un nou comissari búlgar, que haurà de ser avalat pel Parlament Europeu.",\
"El infierno del Atlético en Segunda División es especialmente duro para Kiko, precisamente el jugador que prestó su imagen a la campaña publicitaria con la que el club madrileño buscó el respaldo de su afición. El más carismático jugador rojiblanco hasta hace unos meses fue objeto el sábado por la noche de un intento de agresión a la salida del estadio, después de la humillante derrota ante el Murcia. Un grupo de los más radicales miembros del Frente Atlético le acusó de ser el principal responsable del descenso y le reprochó con suma dureza no colaborar económicamente con la peña para sufragar sus desplazamientos.",\
"Tras el infructuoso intento de realizar la marcha del domingo, los organizadores lanzaron un comunicado diciendo que 'no estamos asustados, estamos aquí, no cambiaremos (...) Ustedes están asustados, cambiarán y se acostumbrarán'. El İstanbul Onur Yürüyüşü, nombre local de la marcha del orgullo gay, fue organizado por primera vez en 2003, atrayendo según los reportes, entre decenas de miles y cien mil personas en 2014, año en que se celebró el último desfile y se toparía con una serie de bloqueos en los tres años siguientes. El año pasado, a los organizadores no se les brindó permiso para hacer la marcha tras los ataques militares que enfrentó Estambul, y en 2015 la marcha fue detenida cuando iba a comenzar, y la policía empleó chorros de agua y gas lacrimógeno para dispersar a los manifestantes."]
embeddings_sentences = model.encode(sentences)
embeddings_query = model.encode(query)
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings_sentences, embeddings_query)
similarities
tensor([[0.9194],
[0.5663],
[0.4800]])
trilingual_query_relevance_devBinaryClassificationEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.9214 |
| cosine_accuracy_threshold | 0.7342 |
| cosine_f1 | 0.9215 |
| cosine_f1_threshold | 0.7342 |
| cosine_precision | 0.9202 |
| cosine_recall | 0.9229 |
| cosine_ap | 0.9763 |
| cosine_mcc | 0.8428 |
sentence1, sentence2, and label| sentence1 | sentence2 | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| sentence1 | sentence2 | label |
|---|---|---|
Olvidé que tenía un bono e hice una nueva reserva. ¿Se puede aplicar mi bono y obtener un reembolso? |
No, no puede aplicar el bono a una reserva que ya se ha pagado. |
1 |
De quina època és típic el clarobscur naturalista en l'obra de Velázquez? |
La llum principal, com es dedueix per les ombres que s'aprecien, ve de davant de l'escena. En aquest quadre, ja s'observa l'inici de l'abandonament del clarobscur naturalista de la seva època sevillana. Els focus de llum que més destaquen formen una composició entre la corona d'Apol·lo, la llum de les flames del foc i els reflexos de l'armadura. |
1 |
How Much is The Distance from Nathia Gali to Murree? |
The distance from Nathia Gali to Murree is approximately 35 kilometers. |
1 |
ContrastiveLoss with these parameters:{
"distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
"margin": 0.5,
"size_average": true
}
sentence1, sentence2, and label| sentence1 | sentence2 | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| sentence1 | sentence2 | label |
|---|---|---|
¿Cómo se cancela Diri? |
Diri no es un servicio que requiere de un contrato forzoso, así que para cancelarlo solo se debe dejar de pagar. Al dejar de usar la línea por un tiempo de 12 meses, el servicio pasará a inactivo de forma automática. |
1 |
How did whitehead define "experience"? |
He also argued that the most basic elements of reality can all be regarded as experiential, indeed that everything is constituted by its experience. He used the term "experience" very broadly, so that even inanimate processes such as electron collisions are said to manifest some degree of experience. In this, he went against Descartes' separation of two different kinds of real existence, either exclusively material or else exclusively mental. |
1 |
¿Cómo te llaman? |
Y tú con tus caras y tus nombres, nos dejaste tutearte. Fran, Bebeto, Aldana, Nando, Djukic, Mauro Silva... |
1 |
ContrastiveLoss with these parameters:{
"distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
"margin": 0.5,
"size_average": true
}
eval_strategy: stepsper_device_train_batch_size: 2per_device_eval_batch_size: 2num_train_epochs: 4warmup_ratio: 0.1fp16: Trueload_best_model_at_end: Truegradient_checkpointing: Trueoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 2per_device_eval_batch_size: 2per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 4max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Truegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@inproceedings{hadsell2006dimensionality,
author={Hadsell, R. and Chopra, S. and LeCun, Y.},
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
title={Dimensionality Reduction by Learning an Invariant Mapping},
year={2006},
volume={2},
number={},
pages={1735-1742},
doi={10.1109/CVPR.2006.100}
}