SentenceTransformer based on intfloat/multilingual-e5-large

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large on 19 datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("iara-project/e5-large-sts-pt-v2")
# Run inference
sentences = [
    'Os elefantes estão caminhando por uma trilha.',
    'Uma manada de elefantes está caminhando ao longo de uma trilha.',
    'Uma praça movimentada em um país asiático.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9377, 0.2518],
#         [0.9377, 1.0000, 0.2596],
#         [0.2518, 0.2596, 1.0000]])

Evaluation

Metrics

Semantic Similarity

Metric stsb-pt-dev assin2-dev iris_sts-dev sick_br_dev
pearson_cosine 0.8825 0.9631 0.8234 0.8905
spearman_cosine 0.8833 0.9564 0.8187 0.8606

Training Details

Training Datasets

nli_pt_anli

nli_pt_anli

  • Dataset: nli_pt_anli at 510a233
  • Size: 7,995 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 23 tokens
    • mean: 84.43 tokens
    • max: 512 tokens
    • min: 6 tokens
    • mean: 16.3 tokens
    • max: 93 tokens
  • Samples:
    anchor positive
    Descrito como "o mentor que fez Shirley Temple a estrela infantil mais famosa da história, Betty Grable um GI Joe pinup menina e Marilyn Monroe uma deusa do sexo", Brand foi o chefe de publicidade na 20th Century Fox de 1935 até 1962. Harry Brand viveu na América.
    O acidente de jet skibr>Wendy era apenas um motorista de jet ski amador que gostava da velocidade. Ela era jovem e descuidada e muitas vezes andava muito rápido. Um dia ela não escutava seus amigos e continuava a acelerar. Ela tentou fazer um salto perto de uma rocha e caiu horrivelmente. Seus amigos tentaram salvá-la, mas era tarde demais, ela estava morta. wendy dirigiu muito rápido enquanto em um jet ski
    Como jogar bejeweled 2 deluxebr>Mude gemas clicando sobre elas e, em seguida, clicando em uma gema adjacente (esquerda, direita, para cima ou para baixo) para trocar seus lugares para formar uma cadeia de três ou mais gemas. Quanto mais gemas você cadeia, mais pontos você ganha. [subeta] 5 gemas em uma linha produz um hiper cubo. Quanto mais gemas você acorrentar dois ou mais, mais pontos você ganha.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_pt_fever

nli_pt_fever

  • Dataset: nli_pt_fever at 510a233
  • Size: 14,684 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 13 tokens
    • mean: 69.74 tokens
    • max: 146 tokens
    • min: 6 tokens
    • mean: 13.57 tokens
    • max: 35 tokens
  • Samples:
    anchor positive
    O morcego de nariz de porco de Kitti ( Craseonycteris thonglongyai ), também conhecido como morcego de abelha, é uma espécie vulnerável de morcego e o único membro existente da família Craseonycteridae. O morcego com nariz de porco de Kitti é uma espécie de morcego que é categorizada como vulnerável.
    Gangster é um filme de crime romântico indiano de 2006 que estreou em 28 de abril. Kangana Ranaut. Após o treinamento sob o diretor de teatro Arvind Gaur, Ranaut fez sua estréia no cinema no thriller de 2006 Gangster, pelo qual ela foi premiada com o Filmfare Award de Melhor Estreia Feminina. A estreia do longa-metragem de Kangana Ranaut foi em um filme de crime romântico indiano.
    No Japão, eles se tornaram o primeiro girl group não-japonês a ter três álbuns número um na Japanese Oricon Albums Chart, e suas três turnês de concertos japoneses atraiu um recorde de 550.000 espectadores, mais do que qualquer outro grupo feminino coreano. Kwon Yu-ri (nascido em 5 de dezembro de 1989 ), mais conhecido pelo monônimo Yuri, é um cantor e atriz sul-coreana. A geração das meninas tem meninas.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_pt_ling

nli_pt_ling

  • Dataset: nli_pt_ling at 510a233
  • Size: 1,678 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 31.96 tokens
    • max: 114 tokens
    • min: 4 tokens
    • mean: 16.42 tokens
    • max: 68 tokens
  • Samples:
    anchor positive
    Ah, é sempre o grande, mas. Nunca é pequeno, mas
    A Suprema Corte de Vermont concedeu aos gays maiores direitos de parceria. Em Vermont, os gays agora têm mais direitos de parceria.
    Mas um verdadeiro predador que conheço está usando, vendendo e quase certamente cometendo outros crimes. Um predador que eu conheço está cometendo crimes.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_pt_mnli

nli_pt_mnli

  • Dataset: nli_pt_mnli at 510a233
  • Size: 8,301 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 4 tokens
    • mean: 29.15 tokens
    • max: 128 tokens
    • min: 5 tokens
    • mean: 16.1 tokens
    • max: 45 tokens
  • Samples:
    anchor positive
    Mesmo o funcionário mais caloroso pode parecer indiferente em relação aos clientes que estão mal vestidos. Clientes mal vestidos ainda parecerão ser julgados até mesmo pelos funcionários mais legais.
    Lesões em acidentes de trânsito duplicaram entre 1996 e 1997. Entre 1996 e 1997, os acidentes de trânsito duplicaram.
    As principais mudanças não foram para tarefas e rotinas diárias, mas para a base de poder político, que mudou regularmente e não necessariamente pacificamente ao longo dos tempos. A base do poder político mudou muito.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_pt_wanli

nli_pt_wanli

  • Dataset: nli_pt_wanli at 510a233
  • Size: 9,329 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 25.02 tokens
    • max: 101 tokens
    • min: 5 tokens
    • mean: 14.59 tokens
    • max: 73 tokens
  • Samples:
    anchor positive
    Uma preocupação mais prática é que as regras de etiqueta são tão complicadas que, mesmo que você as conheça, talvez não seja possível aplicá-las corretamente. É difícil seguir as regras da etiqueta.
    Como eu já disse antes, estamos todos sobre a criação de novas oportunidades para aqueles que querem tirar proveito deles. Somos todos sobre a criação de novas oportunidades para aqueles que querem tirar proveito deles.
    E se não o fizermos, então teremos que aceitar a conclusão de que nossa inteligência é inadequada. Nossa inteligência é inadequada.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_boolq_pt-BR

qa_extraglue_boolq_pt-BR

  • Dataset: qa_extraglue_boolq_pt-BR at d3d7ee1
  • Size: 5,874 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 14.5 tokens
    • max: 30 tokens
    • min: 22 tokens
    • mean: 153.89 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    O Irã e o Afeganistão falam o mesmo idioma? Língua persa -- O persa (/ˈpɜːrʒən, -ʃən/), também conhecido pelo seu endônimo farsi (فارسی fārsi (fɒːɾˈsiː) ( ouvir)), é uma das línguas iranianas ocidentais dentro do ramo indo-iraniano da família de línguas indo-europeias. É falado principalmente no Irã, no Afeganistão (oficialmente conhecido como dari desde 1958) e no Tajiquistão (oficialmente conhecido como tajiki desde a era soviética), além de algumas outras regiões que historicamente eram sociedades persas e consideradas parte do Grande Irã. Ele é escrito no alfabeto persa, uma variante modificada da escrita árabe, que evoluiu do alfabeto aramaico.
    As leis do bom samaritano protegem aqueles que ajudam em um acidente? Lei do Bom Samaritano -- As leis do Bom Samaritano oferecem proteção legal às pessoas que prestam assistência razoável àqueles que estão, ou que acreditam estar, feridos, doentes, em perigo ou incapacitados de alguma forma. A proteção tem o objetivo de reduzir a hesitação dos espectadores em ajudar, por medo de serem processados ou processados por lesões não intencionais ou morte por negligência. Um exemplo dessa lei em áreas de direito consuetudinário do Canadá: a doutrina do bom samaritano é um princípio jurídico que impede que um socorrista que tenha ajudado voluntariamente uma vítima em perigo seja processado por um delito. Seu objetivo é evitar que as pessoas relutem em ajudar um estranho em necessidade por medo de repercussões legais caso cometam algum erro no tratamento. Por outro lado, uma lei de obrigação de resgate exige que as pessoas ofereçam assistência e responsabiliza aqueles que não o fizerem.
    O Windows Movie Maker faz parte do Windows Essentials? Windows Movie Maker -- O Windows Movie Maker (anteriormente conhecido como Windows Live Movie Maker no Windows 7) é um software de edição de vídeo descontinuado da Microsoft. Ele faz parte do pacote de software Windows Essentials e oferece a capacidade de criar e editar vídeos, além de publicá-los no OneDrive, Facebook, Vimeo, YouTube e Flickr.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_qnli_pt-BR

qa_extraglue_qnli_pt-BR

  • Dataset: qa_extraglue_qnli_pt-BR at d3d7ee1
  • Size: 52,366 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 16.78 tokens
    • max: 37 tokens
    • min: 7 tokens
    • mean: 42.76 tokens
    • max: 159 tokens
  • Samples:
    anchor positive
    Quando começou a terceira série Digimon? Diferentemente das duas temporadas anteriores e da maioria das temporadas seguintes, Digimon Tamers adota uma abordagem mais sombria e realista em sua história, apresentando Digimon que não reencarnam após suas mortes e um desenvolvimento de personagem mais complexo no original japonês.
    Quais baterias de mísseis geralmente têm lançadores individuais a vários quilômetros de distância uns dos outros? Quando os MANPADS são operados por especialistas, as baterias podem ter várias dezenas de equipes posicionadas separadamente em pequenas seções; as armas de defesa aérea autopropelidas podem ser posicionadas em pares.
    Que palácio famoso está localizado em Londres? Londres contém quatro locais de Patrimônio Mundial: a Torre de Londres; Kew Gardens; o local que compreende o Palácio de Westminster, a Abadia de Westminster e a Igreja de Santa Margarida; e o assentamento histórico de Greenwich (no qual o Observatório Real de Greenwich marca o Meridiano Principal, 0° de longitude e GMT).
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_mrpc_pt-BR

qa_extraglue_mrpc_pt-BR

  • Dataset: qa_extraglue_mrpc_pt-BR at d3d7ee1
  • Size: 2,474 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 14 tokens
    • mean: 34.08 tokens
    • max: 69 tokens
    • min: 12 tokens
    • mean: 34.13 tokens
    • max: 71 tokens
  • Samples:
    anchor positive
    Amrozi acusou seu irmão, a quem chamou de "a testemunha", de distorcer deliberadamente seu depoimento. Referindo-se a ele apenas como "a testemunha", Amrozi acusou seu irmão de distorcer deliberadamente suas provas.
    Eles haviam publicado um anúncio na Internet em 10 de junho, oferecendo a carga para venda, acrescentou. Em 10 de junho, os proprietários do navio publicaram um anúncio na Internet, oferecendo os explosivos para venda.
    As ações subiram US$ 2,11, ou cerca de 11%, para fechar a sexta-feira em US$ 21,51 na Bolsa de Valores de Nova York. As ações da PG & E Corp. saltaram US$ 1,63, ou 8%, para US$ 21,03 na Bolsa de Valores de Nova York na sexta-feira.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_copa_pt-BR

qa_extraglue_copa_pt-BR

  • Dataset: qa_extraglue_copa_pt-BR at d3d7ee1
  • Size: 400 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 400 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 11.67 tokens
    • max: 21 tokens
    • min: 5 tokens
    • mean: 10.04 tokens
    • max: 18 tokens
  • Samples:
    anchor positive
    Meu corpo projetava uma sombra sobre a grama. O sol estava nascendo.
    A mulher tolerou o comportamento difícil de sua amiga. A mulher sabia que a amiga estava passando por um momento difícil.
    O corredor usava shorts. A previsão do tempo previa altas temperaturas.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_multirc_pt-BR

qa_extraglue_multirc_pt-BR

  • Dataset: qa_extraglue_multirc_pt-BR at d3d7ee1
  • Size: 12,025 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 19.13 tokens
    • max: 72 tokens
    • min: 192 tokens
    • mean: 430.18 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    O que incluiu o esforço de alto nível para persuadir o Paquistão? Parágrafo: Enquanto esse processo avançava, a diplomacia continuava suas atividades. A pressão direta sobre o Talibã não teve sucesso. Como disse uma nota da equipe do NSC: "Sob o Talibã, o Afeganistão não é tanto um Estado patrocinador do terrorismo, mas um Estado patrocinado por terroristas". No início de 2000, os Estados Unidos iniciaram um esforço de alto nível para persuadir o Paquistão a usar sua influência sobre o Talibã. Em janeiro de 2000, o Secretário de Estado Assistente, Karl Inderfurth, e o coordenador de contraterrorismo do Departamento de Estado, Michael Sheehan, reuniram-se com o General Musharraf em Islamabad, oferecendo a ele a possibilidade de uma visita presidencial em março como recompensa pela cooperação paquistanesa. Essa visita era cobiçada por Musharraf, em parte como um sinal da legitimidade de seu governo. Ele disse aos dois enviados que se encontraria com Mullah Omar e o pressionaria sobre Bin Laden. No entanto, eles foram embora informando a Washington que ...
    O que incluiu o esforço de alto nível para persuadir o Paquistão? Parágrafo: Enquanto esse processo avançava, a diplomacia continuava suas atividades. A pressão direta sobre o Talibã não teve sucesso. Como disse uma nota da equipe do NSC: "Sob o Talibã, o Afeganistão não é tanto um Estado patrocinador do terrorismo, mas um Estado patrocinado por terroristas". No início de 2000, os Estados Unidos iniciaram um esforço de alto nível para persuadir o Paquistão a usar sua influência sobre o Talibã. Em janeiro de 2000, o Secretário de Estado Assistente, Karl Inderfurth, e o coordenador de contraterrorismo do Departamento de Estado, Michael Sheehan, reuniram-se com o General Musharraf em Islamabad, oferecendo a ele a possibilidade de uma visita presidencial em março como recompensa pela cooperação paquistanesa. Essa visita era cobiçada por Musharraf, em parte como um sinal da legitimidade de seu governo. Ele disse aos dois enviados que se encontraria com Mullah Omar e o pressionaria sobre Bin Laden. No entanto, eles foram embora informando a Washington que ...
    O que incluiu o esforço de alto nível para persuadir o Paquistão? Parágrafo: Enquanto esse processo avançava, a diplomacia continuava suas atividades. A pressão direta sobre o Talibã não teve sucesso. Como disse uma nota da equipe do NSC: "Sob o Talibã, o Afeganistão não é tanto um Estado patrocinador do terrorismo, mas um Estado patrocinado por terroristas". No início de 2000, os Estados Unidos iniciaram um esforço de alto nível para persuadir o Paquistão a usar sua influência sobre o Talibã. Em janeiro de 2000, o Secretário de Estado Assistente, Karl Inderfurth, e o coordenador de contraterrorismo do Departamento de Estado, Michael Sheehan, reuniram-se com o General Musharraf em Islamabad, oferecendo a ele a possibilidade de uma visita presidencial em março como recompensa pela cooperação paquistanesa. Essa visita era cobiçada por Musharraf, em parte como um sinal da legitimidade de seu governo. Ele disse aos dois enviados que se encontraria com Mullah Omar e o pressionaria sobre Bin Laden. No entanto, eles foram embora informando a Washington que ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_extraglue_cb_pt-BR

nli_extraglue_cb_pt-BR

  • Dataset: nli_extraglue_cb_pt-BR at d3d7ee1
  • Size: 115 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 115 samples:
    anchor positive
    type string string
    details
    • min: 26 tokens
    • mean: 71.91 tokens
    • max: 190 tokens
    • min: 5 tokens
    • mean: 12.9 tokens
    • max: 33 tokens
  • Samples:
    anchor positive
    Era uma linguagem complexa. Não era escrita, mas transmitida. Pode-se dizer que ela foi descascada. o idioma foi descascado
    Isso faz parte da religião deles, uma religião da qual eu não zombo, pois contém muitos elementos que combinam com a nossa, embora não tenha a verdade da nossa. Em um de seus grandes festivais, eles têm o ritual de expulsar os demônios de seus corpos. Primeiro entram os tocadores de tambor - posso dizer que nenhuma mulher tem permissão para participar desse ritual e as senhoras aqui talvez concordem comigo que elas são afortunadas com essa omissão. não é permitido que mulheres participem desse ritual
    A ferrovia de Paris a Rouen estava sendo estendida até Le Havre, e a linha cortava diretamente as terras do Dr. Flaubert. Parte delas seria comprada compulsoriamente. Pode-se dizer que a epilepsia levou Gustave ao retiro criativo em Croisset. Gustave foi levado ao retiro criativo em Croisset por causa da epilepsia
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_extraglue_rte_pt-BR

nli_extraglue_rte_pt-BR

  • Dataset: nli_extraglue_rte_pt-BR at d3d7ee1
  • Size: 1,249 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 12 tokens
    • mean: 71.8 tokens
    • max: 271 tokens
    • min: 6 tokens
    • mean: 16.24 tokens
    • max: 46 tokens
  • Samples:
    anchor positive
    Um lugar de tristeza, após a morte do Papa João Paulo II, tornou-se um lugar de celebração, quando os fiéis católicos romanos se reuniram no centro de Chicago para marcar a posse do novo Papa Bento XVI. O Papa Bento XVI é o novo líder da Igreja Católica Romana.
    O Herceptin já foi aprovado para tratar as pacientes mais doentes com câncer de mama, e a empresa disse, na segunda-feira, que discutirá com os órgãos reguladores federais a possibilidade de prescrever o medicamento para mais pacientes com câncer de mama. O Herceptin pode ser usado para tratar o câncer de mama.
    Judie Vivian, diretora executiva da ProMedica, uma empresa de serviços médicos que ajuda a manter o Vietnam Heart Institute na cidade de Ho Chi Minh (antiga Saigon), com 2 anos de existência, disse que até agora cerca de 1.500 crianças receberam tratamento. O nome anterior da cidade de Ho Chi Minh era Saigon.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_extraglue_wnli_pt-BR

nli_extraglue_wnli_pt-BR

  • Dataset: nli_extraglue_wnli_pt-BR at d3d7ee1
  • Size: 312 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 312 samples:
    anchor positive
    type string string
    details
    • min: 10 tokens
    • mean: 29.0 tokens
    • max: 83 tokens
    • min: 6 tokens
    • mean: 13.73 tokens
    • max: 52 tokens
  • Samples:
    anchor positive
    Enfiei um alfinete em uma cenoura. Quando tirei o alfinete, ele tinha um furo. A cenoura tinha um buraco.
    John não conseguia ver o palco com Billy à sua frente porque ele é muito baixo. John é muito baixo.
    A polícia prendeu todos os membros da gangue. Eles estavam tentando acabar com o tráfico de drogas no bairro. A polícia estava tentando acabar com o tráfico de drogas no bairro.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
extraglue_stsb

extraglue_stsb

  • Dataset: extraglue_stsb at d3d7ee1
  • Size: 5,749 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 7 tokens
    • mean: 12.04 tokens
    • max: 36 tokens
    • min: 7 tokens
    • mean: 11.97 tokens
    • max: 32 tokens
    • min: 0.0
    • mean: 0.45
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Um avião está decolando. Um avião está decolando. 1.0
    Um homem está tocando uma flauta grande. Um homem está tocando uma flauta. 0.7599999904632568
    Um homem está espalhando queijo ralado em uma pizza. Um homem está espalhando queijo ralado em uma pizza não cozida. 0.7599999904632568
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
assin1

assin1

  • Dataset: assin1 at 6535e48
  • Size: 5,000 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 9 tokens
    • mean: 21.98 tokens
    • max: 42 tokens
    • min: 8 tokens
    • mean: 19.39 tokens
    • max: 37 tokens
    • min: 0.2
    • mean: 0.61
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    A gente faz o aporte financeiro, é como se a empresa fosse parceira do Monte Cristo. Fernando Moraes afirma que não tem vínculo com o Monte Cristo além da parceira. 0.4
    Em 2013, a história de como Walt Disney convenceu P.L. P.L.Travers era completamente contra a adaptação de Walt Disney. 0.45
    David Silva bateu escanteio, Kompany escalou as costas de Chiellini e o zagueiro marcou contra. David Silva cobrou escanteio, o zagueiro se apoiou em Chiellini e cabeceou. 0.75
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
assin2

assin2

  • Dataset: assin2 at 0ff9c86
  • Size: 6,500 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 6 tokens
    • mean: 14.86 tokens
    • max: 37 tokens
    • min: 6 tokens
    • mean: 14.0 tokens
    • max: 38 tokens
    • min: 0.3
    • mean: 0.93
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Uma criança risonha está segurando uma pistola de água e sendo espirrada com água Uma criança está segurando uma pistola de água 0.9
    Os homens estão cuidadosamente colocando as malas no porta-malas de um carro Os homens estão colocando bagagens dentro do porta-malas de um carro 0.9
    Uma pessoa tem cabelo loiro e esvoaçante e está tocando violão Um guitarrista tem cabelo loiro e esvoaçante 0.9399999618530274
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
IRIS_sts

IRIS_sts

  • Dataset: IRIS_sts at 8adf343
  • Size: 1,667 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 14 tokens
    • mean: 32.78 tokens
    • max: 57 tokens
    • min: 13 tokens
    • mean: 32.37 tokens
    • max: 67 tokens
    • min: 0.0
    • mean: 0.52
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    A questão da existência de uma presunção constitui antecedente lógico da elisão dessa presunção. Constitui requisito de existência da presunção de aceitação do despedimento por extinção do posto de trabalho, a que se refere o art. 0.483483258943473
    Com efeito, nesse caso do que se tratará será de uma errada aplicação do direito aos factos, designadamente aos considerados provados. Isto é: não se extraíram as consequências jurídicas adequadas do que provado se considerou. 0.4286842926170479
    II - É nula a sentença de regulação das responsabilidades parentais cuja motivação se apoia em relatórios do ISS de cujo teor as partes não foram notificadas. II - A decisão sobre as responsabilidades parentais é inválida se ela foi baseada em relatórios do ISS que as partes não foram informadas. 0.816343029699518
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
sick_br

sick_br

  • Dataset: sick_br at 0cdfb1d
  • Size: 4,439 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 7 tokens
    • mean: 15.19 tokens
    • max: 35 tokens
    • min: 7 tokens
    • mean: 14.72 tokens
    • max: 36 tokens
    • min: 0.2
    • mean: 0.68
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Um grupo de crianças está brincando em um quintal e um homem velho está parado ao fundo Um grupo de meninos em um quintal está brincando e um homem está de pé ao fundo 0.9
    Um grupo de crianças está brincando na casa e não tem nenhum homem parado ao fundo Um grupo de crianças está brincando em um quintal e um homem velho está parado ao fundo 0.64
    Os meninos jovens estão brincando ao ar livre e o homem está sorrindo por perto As crianças estão brincando ao ar livre perto de um homem com um sorriso 0.9400000000000001
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
nli_mldr

nli_mldr

  • Dataset: nli_mldr at 40ad767
  • Size: 1,845 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 6 tokens
    • mean: 18.28 tokens
    • max: 101 tokens
    • min: 512 tokens
    • mean: 512.0 tokens
    • max: 512 tokens
    • min: 512 tokens
    • mean: 512.0 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    Quais são os principais mecanismos usados pela fagocitose para remover patógenos e restos celulares? Fagocitose

    Fagocitose ( do grego antigo, "φαγεῖν" (phagein), "devorar" , "κύτος" (kytos), "células") é o processo pelo qual uma célula usa sua membrana plasmática para englobar partículas grandes (≥ 0,5 μm), dando origem a um compartimento interno chamado fagossoma.
    Nos sistemas imunológicos de organismos multicelulares, a fagocitose é um dos principais mecanismos usados para remover patógenos e restos celulares. O material ingerido é então digerido no fagossoma. Bactérias, células de tecidos mortos e pequenas partículas minerais são exemplos de objetos que podem ser fagocitados. Alguns protozoários usam a fagocitose como meio de obter nutrientes.
    História.
    A fagocitose foi observada pela primeira vez pelo médico canadense William Osler (1876), e mais tarde estudada e nomeada por Élie Metchnikoff (1880, 1883).
    No sistema imunológico.
    A fagocitose é um dos principais mecanismos da resposta imune inata. É um dos primeiros mecanismos de resposta à infecção e um dos ramos iniciais de uma ...
    Vespa

    Vespa, marimbondo ou cabatão é o nome comum aplicado a diversas espécies de insetos pertencentes à subordem Apocrita da ordem Hymenoptera. Na definição mais abrangente, este nome é utilizado para se referir a qualquer himenóptero que não é abelha nem formiga. Em geral, faz-se a distinção das vespas-serra, himenópteros sem pecíolo que são considerados como uma subordem distinta, Symphyta. As vespas não constituem um clado, ou seja, o termo não representa um grupo natural de organismos que inclui todos os descendentes de um grupo ancestral.
    As vespas mais popularmente conhecidas pertencem à família Vespidae e são eusociais, vivendo juntas em um ninho com uma rainha que põe ovos e operárias que não se reproduzem. No entanto, a maioria das espécies de vespas são solitárias, com cada fêmea adulta vivendo e se reproduzindo independentemente. As vespas desempenham muitos papéis ecológicos, incluindo espécies tanto fitófagas quanto entomófagas. Muitas, como as vespas-cuco, são cleptopar...
    Quais são as características principais do cálcio? Cálcio

    O cálcio é um elemento químico, símbolo Ca, de número atómico 20 (20 prótons e 20 elétrons) e massa atómica 40u. É um metal da família dos alcalino-terrosos, pertencente ao grupo 2 da classificação periódica dos elementos químicos.
    Foi isolado pela primeira vez em 1808, em uma forma impura, pelo químico britânico Humphry Davy mediante a eletrólise de uma amálgama de mercúrio (HgO) e cal (CaO).
    Características principais.
    O cálcio é um metal alcalino-terroso, mole, maleável e dúctil que arde com chama vermelha formando óxido de cálcio e nitreto.
    As superfícies são de coloração branca prateada que rapidamente se tornam levemente amareladas quando
    expostas ao ar, finalmente com coloração cinza ou branca devido à formação de hidróxido ao reagir com a umidade ambiental. Reage violentamente com a água para formar o hidróxido de cálcio, Ca(OH)2, com desprendimento de hidrogênio.
    Papel biológico.
    O cálcio (Ca2+) é um elemento regulador universal que acopla intimamente os sinais biótico...
    Humidade

    A é a quantidade de vapor de água na atmosfera. Fisicamente, a humidade relativa é definida como a razão da quantidade de vapor de água presente numa porção da atmosfera (pressão parcial de vapor) com a quantidade máxima de vapor de água que a atmosfera pode suportar a uma determinada temperatura (pressão de vapor). A humidade relativa é uma importante variável (medida) usada na previsão do tempo, e indica a possibilidade de precipitação (chuva, neve, granizo, entre outros), orvalho ou nevoeiro.
    A alta humidade durante dias quentes faz a sensação térmica aumentar, ou seja, a pessoa tem a impressão de que está mais calor, devido à redução da eficácia da transpiração da pele, e assim reduzindo o resfriamento corporal. Por outro lado, a baixa humidade dos desertos causa uma grande diferença de temperatura entre o dia e a noite. Este efeito é calculado pela tabela de índice de calor.
    Tipos de humidade.
    Humidade absoluta (base volumétrica).
    A humidade absoluta em uma base volumétr...
    Quais são os ésteres mais comuns encontrados na natureza? Éster

    Na química, a função éster é caracterizada pela estrutura R-COOR'. Os ésteres carboxílicos apresentam uma alcoxila ligada à uma carbonila e são usualmente resultantes de uma reação entre álcoois (em alguns casos, fenóis) e ácidos carboxílico, e o resultado é a substituição de um átomo de hidrogênio presente na carboxila (-COOH) dos ácidos carboxílicos por um grupo alquila (R) ou arila (Ar). Já os ésteres inorgânicos resultam de reações entre álcoois e oxiácidos inorgânicos, de modo que o ácido perde um próton (H+) e se liga à cadeia que outrora pertencia a um álcool, após a perda da hidroxila (OH-) por esta molécula. Assim, reações de esterificação - como são denominadas as reações entre álcoois/fenóis e ácidos -também produzem água (HOH ou H2O).
    Os ésteres mais comuns que se encontram na natureza são os triglicerídeos - triésteres de glicerina - constituintes de óleos e gorduras indispensáveis à alimentação humana. Além disso, também ocorrem no aroma das flores e no sabor dos f...
    Literatura

    A Literatura é a arte que usa a linguagem escrita como meio de expressão, seja em prosa ou em verso, de acordo com princípios teóricos e práticos; sendo o conjunto de obras escritas ou orais às quais reconhecemos um valor estético. A Literatura abrange qualquer coleção de obras escritas, incluindo escrita impressa e digital.
    Etimologia.
    A palavra Literatura vem do latim "litteris" que significa "Letras", e possivelmente uma tradução do grego "grammatikee". Em latim, literatura significa uma instrução ou um conjunto de saberes ou habilidades de escrever e ler bem, e se relaciona com as técnicas da gramática, da retórica e da poética. Por extensão, se refere especificamente ao ofício de escrever. O termo Literatura também é usado como referência a um conjunto escolhido de textos, por exemplo a literatura portuguesa, a literatura espanhola, a literatura inglesa, a literatura brasileira, a literatura japonesa, etc.
    Definição.
    Mais produtivo do que tentar definir Literatura talv...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Evaluation Datasets

qa_extraglue_boolq_pt-BR

qa_extraglue_boolq_pt-BR

  • Dataset: qa_extraglue_boolq_pt-BR at d3d7ee1
  • Size: 2,033 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 6 tokens
    • mean: 14.35 tokens
    • max: 28 tokens
    • min: 24 tokens
    • mean: 157.23 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    O imposto residencial e o imposto predial são iguais? Imposto sobre a propriedade - O imposto sobre a propriedade ou "imposto sobre a casa" é um imposto local sobre edifícios, juntamente com a terra anexa. Ele é imposto ao Possuidor (e não ao guardião da propriedade, conforme a 44ª emenda da constituição de 1978). Ele se assemelha ao imposto sobre a riqueza do tipo americano e difere da taxa do tipo imposto de consumo do Reino Unido. O poder tributário é conferido aos estados e delegado a órgãos locais, especificando o método de avaliação, a faixa de alíquota e os procedimentos de cobrança. A base tributária é o valor de aluguel anual (ARV) ou a classificação baseada na área. As propriedades ocupadas pelo proprietário e outras que não produzem aluguel são avaliadas pelo custo e depois convertidas em ARV aplicando-se uma porcentagem do custo, geralmente 4%. Terrenos vagos geralmente são isentos. As propriedades do governo central são isentas. Em vez disso, uma "taxa de serviço" é permitida por ordem executiva. As propriedades de missões es...
    Há dor em uma parte do corpo que está faltando ou em uma área paralisada? Dor fantasma - As sensações de dor fantasma são descritas como percepções que um indivíduo tem em relação a um membro ou órgão que não faz parte do corpo fisicamente. A perda do membro é resultado da remoção por amputação ou da deficiência congênita do membro. Entretanto, as sensações de membros fantasmas também podem ocorrer após avulsão de nervos ou lesão da medula espinhal.
    harry potter e a fuga de gringotts é uma montanha-russa? Harry Potter and the Escape from Gringotts -- Harry Potter and the Escape from Gringotts é uma montanha-russa de aço interna do Universal Studios Florida, um parque temático localizado no Universal Orlando Resort. Semelhante aos dark rides, a montanha-russa utiliza efeitos especiais em um ambiente de iluminação controlada e também emprega projeção 3D baseada em movimento de sequências de animação e ação ao vivo para aprimorar a experiência. O passeio, que tem como tema o Gringotts Wizarding Bank, tornou-se a atração principal do Wizarding World of Harry Potter expandido quando foi inaugurado em 8 de julho de 2014.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_qnli_pt-BR

qa_extraglue_qnli_pt-BR

  • Dataset: qa_extraglue_qnli_pt-BR at d3d7ee1
  • Size: 2,761 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 17.39 tokens
    • max: 45 tokens
    • min: 6 tokens
    • mean: 44.31 tokens
    • max: 216 tokens
  • Samples:
    anchor positive
    Qual é a primeira grande cidade no córrego do Reno? Os afluentes mais importantes nessa área são o Ill abaixo de Estrasburgo, o Neckar em Mannheim e o Main em Mainz.
    Qual é o mínimo exigido para lecionar no Canadá? Na maioria das províncias, é necessário um segundo diploma de bacharelado, como o Bacharelado em Educação, para se tornar um professor qualificado.
    Como Herr Gott, dich loben wir ficou conhecido? Ele parafraseou o Te Deum como "Herr Gott, dich loben wir" com uma forma simplificada da melodia.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_mrpc_pt-BR

qa_extraglue_mrpc_pt-BR

  • Dataset: qa_extraglue_mrpc_pt-BR at d3d7ee1
  • Size: 279 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 279 samples:
    anchor positive
    type string string
    details
    • min: 13 tokens
    • mean: 34.88 tokens
    • max: 70 tokens
    • min: 14 tokens
    • mean: 34.47 tokens
    • max: 68 tokens
  • Samples:
    anchor positive
    Ele disse que o negócio de tortas para serviços de alimentação não se encaixa na estratégia de crescimento de longo prazo da empresa. " O negócio de tortas para serviços de alimentação não se encaixa em nossa estratégia de crescimento de longo prazo.
    A AFL-CIO está esperando até outubro para decidir se vai endossar um candidato. A AFL-CIO anunciou na quarta-feira que decidirá em outubro se endossará um candidato antes das primárias.
    O Wal-Mart disse que verificaria todos os seus mais de um milhão de empregados domésticos para garantir que estivessem legalmente empregados. O Wal-Mart também disse que verificaria todos os seus mais de 1 milhão de empregados domésticos para garantir que eles tenham status legal.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_copa_pt-BR

qa_extraglue_copa_pt-BR

  • Dataset: qa_extraglue_copa_pt-BR at d3d7ee1
  • Size: 100 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 100 samples:
    anchor positive
    type string string
    details
    • min: 6 tokens
    • mean: 11.48 tokens
    • max: 19 tokens
    • min: 6 tokens
    • mean: 10.25 tokens
    • max: 17 tokens
  • Samples:
    anchor positive
    A mulher se aposentou. Recebeu sua pensão.
    Duvidei da proposta do vendedor. Recusei sua oferta.
    Decidi passar a noite em casa. A previsão era de tempestades.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
qa_extraglue_multirc_pt-BR

qa_extraglue_multirc_pt-BR

  • Dataset: qa_extraglue_multirc_pt-BR at d3d7ee1
  • Size: 2,075 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 17.73 tokens
    • max: 74 tokens
    • min: 152 tokens
    • mean: 375.35 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    A massa da bola de beisebol afetaria a força que você precisa usar para pegá-la? Parágrafo: O que causa uma mudança no movimento? A aplicação de uma força. Sempre que um objeto muda de movimento, uma força foi aplicada. De que forma isso pode acontecer? A força pode fazer com que um objeto em repouso comece a se mover. As forças podem fazer com que os objetos aumentem ou diminuam a velocidade. As forças podem fazer com que um objeto em movimento pare. As forças também podem causar uma mudança de direção. Em resumo, as forças causam mudanças no movimento. O objeto em movimento pode mudar sua velocidade, sua direção ou ambas. Sabemos que as mudanças no movimento exigem uma força. Sabemos que o tamanho da força determina a mudança no movimento. O quanto o movimento de um objeto muda quando uma força é aplicada depende de duas coisas. Depende da intensidade da força. Também depende da massa do objeto. Pense em algumas tarefas simples que você faz regularmente. Você pode pegar uma bola de beisebol. Isso requer apenas uma força muito pequena. Resposta: Sim
    A massa da bola de beisebol afetaria a força que você precisa usar para pegá-la? Parágrafo: O que causa uma mudança no movimento? A aplicação de uma força. Sempre que um objeto muda de movimento, uma força foi aplicada. De que forma isso pode acontecer? A força pode fazer com que um objeto em repouso comece a se mover. As forças podem fazer com que os objetos aumentem ou diminuam a velocidade. As forças podem fazer com que um objeto em movimento pare. As forças também podem causar uma mudança de direção. Em resumo, as forças causam mudanças no movimento. O objeto em movimento pode mudar sua velocidade, sua direção ou ambas. Sabemos que as mudanças no movimento exigem uma força. Sabemos que o tamanho da força determina a mudança no movimento. O quanto o movimento de um objeto muda quando uma força é aplicada depende de duas coisas. Depende da intensidade da força. Também depende da massa do objeto. Pense em algumas tarefas simples que você pode fazer regularmente. Você pode pegar uma bola de beisebol. Isso requer apenas uma força muito pequena. Resposta: Quanto meno...
    O que você aplica a um objeto para fazê-lo se mover ou parar? Parágrafo: O que causa uma mudança no movimento? A aplicação de uma força. Sempre que um objeto muda de movimento, uma força foi aplicada. De que forma isso pode acontecer? A força pode fazer com que um objeto em repouso comece a se mover. As forças podem fazer com que os objetos aumentem ou diminuam a velocidade. As forças podem fazer com que um objeto em movimento pare. As forças também podem causar uma mudança de direção. Em resumo, as forças causam mudanças no movimento. O objeto em movimento pode mudar sua velocidade, sua direção ou ambas. Sabemos que as mudanças no movimento exigem uma força. Sabemos que o tamanho da força determina a mudança no movimento. O quanto o movimento de um objeto muda quando uma força é aplicada depende de duas coisas. Depende da intensidade da força. Também depende da massa do objeto. Pense em algumas tarefas simples que você faz regularmente. Você pode pegar uma bola de beisebol. Isso requer apenas uma força muito pequena. Resposta: Aplicar força sobr...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_extraglue_cb_pt-BR

nli_extraglue_cb_pt-BR

  • Dataset: nli_extraglue_cb_pt-BR at d3d7ee1
  • Size: 23 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 23 samples:
    anchor positive
    type string string
    details
    • min: 33 tokens
    • mean: 87.57 tokens
    • max: 194 tokens
    • min: 5 tokens
    • mean: 11.87 tokens
    • max: 22 tokens
  • Samples:
    anchor positive
    ``Mas meu pai sempre me ensinou a nunca ter medo de apontar o óbvio. Tenho certeza de que você percebeu a implicação da carta, que o escritor de fato observou Jenny se despindo para dormir? Eu só queria saber se você também sabia, como tenho certeza que sabe, que o quarto dela fica nos fundos da casa? O quarto de Jenny fica nos fundos da casa
    R: E esse tipo de rolamento, uh, B: Terreno. R: Sim. é bastante familiar. O que achei interessante foi que os críticos, aparentemente, vão ganhar tudo. B: Sério? R: Uh, e me disseram que você não notaria que ele tinha três horas de duração, e tudo isso, mais ou menos, tinha três horas de duração
    Ele cresceu com uma velocidade incrível, e ela estava indo em sua direção. Ela precisava diminuir a velocidade ou perderia o sinal. Ela tirou o pé do acelerador e o colocou no freio e, quando o carro diminuiu a velocidade, ela pôde ver que era uma criança, um bebê com um gorro de lã vermelho. era uma criança
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_extraglue_rte_pt-BR

nli_extraglue_rte_pt-BR

  • Dataset: nli_extraglue_rte_pt-BR at d3d7ee1
  • Size: 146 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 146 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 69.34 tokens
    • max: 227 tokens
    • min: 8 tokens
    • mean: 15.68 tokens
    • max: 36 tokens
  • Samples:
    anchor positive
    No entanto, agora estamos descobrindo que os antibióticos estão perdendo sua eficácia contra doenças. As bactérias causadoras de doenças estão sofrendo mutações mais rapidamente do que podemos criar novos antibióticos para combater as novas variações. As bactérias estão vencendo a guerra contra os antibióticos.
    As forças de segurança estavam em alerta máximo após uma campanha eleitoral na qual mais de 1.000 pessoas, incluindo sete candidatos, foram mortas. As forças de segurança estavam em alerta máximo após uma campanha marcada pela violência.
    Em 1979, os líderes assinaram o tratado de paz Egito-Israel no gramado da Casa Branca. Tanto o presidente Begin quanto Sadat receberam o Prêmio Nobel da Paz por seu trabalho. As duas nações mantêm relações pacíficas até hoje. O Acordo de Paz entre Israel e Egito foi assinado em 1979.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
nli_extraglue_wnli_pt-BR

nli_extraglue_wnli_pt-BR

  • Dataset: nli_extraglue_wnli_pt-BR at d3d7ee1
  • Size: 31 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 31 samples:
    anchor positive
    type string string
    details
    • min: 16 tokens
    • mean: 28.97 tokens
    • max: 64 tokens
    • min: 7 tokens
    • mean: 12.1 tokens
    • max: 21 tokens
  • Samples:
    anchor positive
    Jane bateu na porta de Susan, mas ela não atendeu. Susan não respondeu.
    Ninguém entra no Facebook para ficar triste e solitário. Mas um novo estudo do psicólogo George Lincoln, da Universidade de Wisconsin, argumenta que é exatamente assim que ele nos faz sentir. É exatamente assim que o Facebook nos faz sentir.
    O homem não conseguia levantar seu filho porque ele era muito pesado. O filho era muito pesado.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
extraglue_stsb

extraglue_stsb

  • Dataset: extraglue_stsb at d3d7ee1
  • Size: 1,500 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 7 tokens
    • mean: 17.88 tokens
    • max: 49 tokens
    • min: 7 tokens
    • mean: 17.8 tokens
    • max: 48 tokens
    • min: 0.0
    • mean: 0.42
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Um homem com um capacete está dançando. Um homem usando um capacete duro está dançando. 1.0
    Uma criança está montada em um cavalo. Uma criança está montando um cavalo. 0.95
    Um homem está dando um rato para uma cobra. O homem está alimentando a cobra com um rato. 1.0
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
assin2

assin2

  • Dataset: assin2 at 0ff9c86
  • Size: 500 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 500 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 6 tokens
    • mean: 14.13 tokens
    • max: 31 tokens
    • min: 6 tokens
    • mean: 14.01 tokens
    • max: 35 tokens
    • min: 0.2
    • mean: 0.79
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Uma pequena menina está sorrindo e usando um nariz falso e óculos A menina pequena está sorrindo e usando um nariz falso e óculos 0.9800000190734863
    Um grupo de pessoas jogando futebol está correndo no campo Um grupo de jogadores de futebol está correndo no campo 0.9600000381469727
    O homem está empinando uma motocicleta num chão que é praticamente árido O homem está desmontando de uma moto para um chão que é praticamente árido 0.7199999809265136
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
IRIS_sts

IRIS_sts

  • Dataset: IRIS_sts at 8adf343
  • Size: 556 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 556 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 15 tokens
    • mean: 32.46 tokens
    • max: 62 tokens
    • min: 14 tokens
    • mean: 32.12 tokens
    • max: 67 tokens
    • min: 0.0
    • mean: 0.5
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Nos termos do disposto no artigo 1083. do CPC, constituindo, como é o caso, dependência de outro processo judicial, a competência para o inventário é exclusiva dos tribunais cfr. Essa norma existe relativamente à provisão para despesas, pois que o n 10 do art. 0.09996932915109477
    II - Da insolvência de um dos ex-cônjuges não decorre necessariamente a insolvência do património comum do ex-casal, não obstante, como é sabido, o art. II - A apensação de processos de expropriação de parcelas contíguas e do mesmo dono resulta do art. 0.15428183762417896
    44, n. 1, do suscitar antecipadamente nove questões de inconstitucionalidade, nos termos e para os efeitos dos art.os 7, n. 1, al. 41, do CPP, oportunidade que o mesmo aproveitou reiterando a arguição das inconstitucionalidades. 0.2198436643850504
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    
sick_br

sick_br

  • Dataset: sick_br at 0cdfb1d
  • Size: 495 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 495 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 6 tokens
    • mean: 15.25 tokens
    • max: 39 tokens
    • min: 7 tokens
    • mean: 14.64 tokens
    • max: 39 tokens
    • min: 0.2
    • mean: 0.72
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Os meninos jovens estão brincando ao ar livre e o homem está sorrindo por perto Não tem nenhum menino brincando ao ar livre e não tem nenhum homem sorrindo 0.72
    Uma pessoa de blusa preta está fazendo truques em uma moto Uma pessoa habilidosa está andando de bicicleta sobre uma roda 0.6799999999999999
    Quatro crianças estão fazendo ponte na academia Quatro garotas estão fazendo ponte e brincando ao ar livre 0.76
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • num_train_epochs: 20
  • learning_rate: 0.0001
  • warmup_steps: 0.1
  • weight_decay: 0.2
  • gradient_accumulation_steps: 8
  • fp16: True
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: {'use_reentrant': False}
  • eval_strategy: steps

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 64
  • num_train_epochs: 20
  • max_steps: -1
  • learning_rate: 0.0001
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.2
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 8
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: True
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: {'use_reentrant': False}
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: steps
  • per_device_eval_batch_size: 8
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss qa extraglue boolq pt-BR loss qa extraglue qnli pt-BR loss qa extraglue mrpc pt-BR loss qa extraglue copa pt-BR loss qa extraglue multirc pt-BR loss nli extraglue cb pt-BR loss nli extraglue rte pt-BR loss nli extraglue wnli pt-BR loss extraglue stsb loss assin2 loss IRIS sts loss sick br loss stsb-pt-dev_spearman_cosine assin2-dev_spearman_cosine iris_sts-dev_spearman_cosine sick_br_dev_spearman_cosine
0.3592 100 2.1379 - - - - - - - - - - - - - - - -
0.7185 200 1.4749 - - - - - - - - - - - - - - - -
1.0754 300 1.4877 - - - - - - - - - - - - - - - -
1.4347 400 1.5517 - - - - - - - - - - - - - - - -
1.7939 500 1.4924 - - - - - - - - - - - - - - - -
2.1509 600 1.3022 - - - - - - - - - - - - - - - -
2.5101 700 1.2973 - - - - - - - - - - - - - - - -
2.8693 800 1.5573 - - - - - - - - - - - - - - - -
3.2263 900 1.4302 - - - - - - - - - - - - - - - -
3.5855 1000 1.3131 0.0107 0.2236 0.0007 0.4970 0.0939 0.2127 0.0294 0.0085 3.5628 2.4999 3.7906 2.7400 0.8603 0.9019 0.7972 0.8565
3.9448 1100 1.3044 - - - - - - - - - - - - - - - -
4.3018 1200 1.2518 - - - - - - - - - - - - - - - -
4.6610 1300 1.2873 - - - - - - - - - - - - - - - -
5.0180 1400 1.2544 - - - - - - - - - - - - - - - -
5.3772 1500 1.1469 - - - - - - - - - - - - - - - -
5.7364 1600 1.3771 - - - - - - - - - - - - - - - -
6.0934 1700 1.1997 - - - - - - - - - - - - - - - -
6.4526 1800 1.1478 - - - - - - - - - - - - - - - -
6.8119 1900 1.2238 - - - - - - - - - - - - - - - -
7.1688 2000 1.2151 0.0095 0.2402 0.0021 0.4899 0.0973 0.1583 0.0564 0.0335 3.3777 2.3098 3.4076 2.7131 0.8742 0.9294 0.8094 0.8697
7.5281 2100 1.2494 - - - - - - - - - - - - - - - -
7.8873 2200 1.1482 - - - - - - - - - - - - - - - -
8.2443 2300 1.1465 - - - - - - - - - - - - - - - -
8.6035 2400 1.2112 - - - - - - - - - - - - - - - -
8.9627 2500 1.1347 - - - - - - - - - - - - - - - -
9.3197 2600 1.2081 - - - - - - - - - - - - - - - -
9.6789 2700 1.1349 - - - - - - - - - - - - - - - -
10.0359 2800 1.1195 - - - - - - - - - - - - - - - -
10.3952 2900 1.2147 - - - - - - - - - - - - - - - -
10.7544 3000 1.1246 0.0096 0.2459 0.0005 0.5120 0.0885 0.0851 0.0401 0.0057 3.8159 2.1983 3.6909 2.9525 0.8675 0.9447 0.8044 0.8474
11.1114 3100 0.9701 - - - - - - - - - - - - - - - -
11.4706 3200 1.1550 - - - - - - - - - - - - - - - -
11.8298 3300 1.0367 - - - - - - - - - - - - - - - -
12.1868 3400 1.0826 - - - - - - - - - - - - - - - -
12.5460 3500 1.0510 - - - - - - - - - - - - - - - -
12.9053 3600 1.1717 - - - - - - - - - - - - - - - -
13.2622 3700 1.0124 - - - - - - - - - - - - - - - -
13.6215 3800 1.0852 - - - - - - - - - - - - - - - -
13.9807 3900 1.1504 - - - - - - - - - - - - - - - -
14.3377 4000 0.9482 0.0090 0.2385 0.0002 0.5334 0.0903 0.0893 0.0381 0.0038 3.9122 2.0987 4.3010 3.2579 0.8691 0.9511 0.8008 0.8455
14.6969 4100 1.1594 - - - - - - - - - - - - - - - -
15.0539 4200 1.1118 - - - - - - - - - - - - - - - -
15.4131 4300 0.8689 - - - - - - - - - - - - - - - -
15.7723 4400 1.1186 - - - - - - - - - - - - - - - -
16.1293 4500 1.0035 - - - - - - - - - - - - - - - -
16.4885 4600 0.9126 - - - - - - - - - - - - - - - -
16.8478 4700 1.1020 - - - - - - - - - - - - - - - -
17.2048 4800 1.0188 - - - - - - - - - - - - - - - -
17.5640 4900 1.0631 - - - - - - - - - - - - - - - -
17.9232 5000 0.9760 0.0079 0.2442 0.0001 0.4924 0.0873 0.1078 0.0341 0.0059 3.9413 2.0914 4.5109 3.5379 0.8833 0.9564 0.8187 0.8606
18.2802 5100 0.8979 - - - - - - - - - - - - - - - -
18.6394 5200 1.0216 - - - - - - - - - - - - - - - -
18.9987 5300 0.8920 - - - - - - - - - - - - - - - -
19.3556 5400 0.9346 - - - - - - - - - - - - - - - -
19.7149 5500 0.9487 - - - - - - - - - - - - - - - -

Framework Versions

  • Python: 3.11.12
  • Sentence Transformers: 5.3.0
  • Transformers: 5.3.0
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0
  • Datasets: 4.8.3
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}

CoSENTLoss

@article{10531646,
    author={Huang, Xiang and Peng, Hao and Zou, Dongcheng and Liu, Zhiwei and Li, Jianxin and Liu, Kay and Wu, Jia and Su, Jianlin and Yu, Philip S.},
    journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
    title={CoSENT: Consistent Sentence Embedding via Similarity Ranking},
    year={2024},
    doi={10.1109/TASLP.2024.3402087}
}
Downloads last month
-
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for iara-project/e5-large-sts-pt-v2

Finetuned
(164)
this model

Datasets used to train iara-project/e5-large-sts-pt-v2

Papers for iara-project/e5-large-sts-pt-v2

Evaluation results