SentenceTransformer based on jhu-clsp/mmBERT-base

This is a sentence-transformers model finetuned from jhu-clsp/mmBERT-base on the nli_pt_anli, nli_pt_fever, nli_pt_ling, nli_pt_mnli, nli_pt_wanli, assin1, IRIS_sts and mldr datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("iara-project/mmBERT-base-sts-pt")
# Run inference
sentences = [
    '16, n. 1, al., do CP, na redacção da Lei n. 59/2007, de 15-03, foi o arguido absolvido em 1 instância por falência de prova.',
    'Em recurso, o tribunal da Relação alterou a matéria de facto e condenou o arguido pela autoria material de crime de coacção sexual p. e p. pelo art.',
    '5. do CPC que o tribunal deve considerar na sentença factos não alegados pelas partes.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6277, 0.5318],
#         [0.6277, 1.0000, 0.4612],
#         [0.5318, 0.4612, 1.0000]])

Evaluation

Metrics

Semantic Similarity

  • Datasets: stsb-pt-dev-768, assin2-dev-768, iris_sts-dev-768, sick_br_dev-768, stsb-test-768, assin2-test-768, iris_sts-test-768 and sick_br_dev-768
  • Evaluated with EmbeddingSimilarityEvaluator with these parameters:
    {
        "truncate_dim": 768
    }
    
Metric stsb-pt-dev-768 assin2-dev-768 iris_sts-dev-768 sick_br_dev-768 stsb-test-768 assin2-test-768 iris_sts-test-768
pearson_cosine 0.814 0.785 0.8215 0.7842 0.7838 0.7587 0.8174
spearman_cosine 0.8138 0.7452 0.8155 0.7052 0.7769 0.6792 0.8114

Semantic Similarity

  • Datasets: stsb-pt-dev-512, assin2-dev-512, iris_sts-dev-512, sick_br_dev-512, stsb-test-512, assin2-test-512, iris_sts-test-512 and sick_br_dev-512
  • Evaluated with EmbeddingSimilarityEvaluator with these parameters:
    {
        "truncate_dim": 512
    }
    
Metric stsb-pt-dev-512 assin2-dev-512 iris_sts-dev-512 sick_br_dev-512 stsb-test-512 assin2-test-512 iris_sts-test-512
pearson_cosine 0.8097 0.7823 0.8212 0.7813 0.7796 0.7573 0.8177
spearman_cosine 0.8109 0.7436 0.8156 0.7041 0.7741 0.6783 0.8138

Semantic Similarity

  • Datasets: stsb-pt-dev-256, assin2-dev-256, iris_sts-dev-256, sick_br_dev-256, stsb-test-256, assin2-test-256, iris_sts-test-256 and sick_br_dev-256
  • Evaluated with EmbeddingSimilarityEvaluator with these parameters:
    {
        "truncate_dim": 256
    }
    
Metric stsb-pt-dev-256 assin2-dev-256 iris_sts-dev-256 sick_br_dev-256 stsb-test-256 assin2-test-256 iris_sts-test-256
pearson_cosine 0.8 0.7769 0.8134 0.7751 0.7661 0.7547 0.8122
spearman_cosine 0.8031 0.7422 0.8112 0.7039 0.7627 0.6805 0.8109

Semantic Similarity

  • Datasets: stsb-pt-dev-128, assin2-dev-128, iris_sts-dev-128, sick_br_dev-128, stsb-test-128, assin2-test-128, iris_sts-test-128 and sick_br_dev-128
  • Evaluated with EmbeddingSimilarityEvaluator with these parameters:
    {
        "truncate_dim": 128
    }
    
Metric stsb-pt-dev-128 assin2-dev-128 iris_sts-dev-128 sick_br_dev-128 stsb-test-128 assin2-test-128 iris_sts-test-128
pearson_cosine 0.7865 0.7686 0.8044 0.7664 0.7521 0.7468 0.7963
spearman_cosine 0.7932 0.7448 0.81 0.6996 0.7519 0.6794 0.7991

Semantic Similarity

  • Datasets: stsb-pt-dev-64, assin2-dev-64, iris_sts-dev-64, sick_br_dev-64, stsb-test-64, assin2-test-64, iris_sts-test-64 and sick_br_dev-64
  • Evaluated with EmbeddingSimilarityEvaluator with these parameters:
    {
        "truncate_dim": 64
    }
    
Metric stsb-pt-dev-64 assin2-dev-64 iris_sts-dev-64 sick_br_dev-64 stsb-test-64 assin2-test-64 iris_sts-test-64
pearson_cosine 0.786 0.7625 0.7952 0.7572 0.7573 0.7366 0.776
spearman_cosine 0.7951 0.7403 0.8013 0.6921 0.7553 0.6752 0.7875

Training Details

Training Datasets

nli_pt_anli

nli_pt_anli

  • Dataset: nli_pt_anli at 510a233
  • Size: 7,995 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 24 tokens
    • mean: 84.33 tokens
    • max: 524 tokens
    • min: 6 tokens
    • mean: 15.99 tokens
    • max: 91 tokens
  • Samples:
    anchor positive
    Descrito como "o mentor que fez Shirley Temple a estrela infantil mais famosa da história, Betty Grable um GI Joe pinup menina e Marilyn Monroe uma deusa do sexo", Brand foi o chefe de publicidade na 20th Century Fox de 1935 até 1962. Harry Brand viveu na América.
    O acidente de jet skibr>Wendy era apenas um motorista de jet ski amador que gostava da velocidade. Ela era jovem e descuidada e muitas vezes andava muito rápido. Um dia ela não escutava seus amigos e continuava a acelerar. Ela tentou fazer um salto perto de uma rocha e caiu horrivelmente. Seus amigos tentaram salvá-la, mas era tarde demais, ela estava morta. wendy dirigiu muito rápido enquanto em um jet ski
    Como jogar bejeweled 2 deluxebr>Mude gemas clicando sobre elas e, em seguida, clicando em uma gema adjacente (esquerda, direita, para cima ou para baixo) para trocar seus lugares para formar uma cadeia de três ou mais gemas. Quanto mais gemas você cadeia, mais pontos você ganha. [subeta] 5 gemas em uma linha produz um hiper cubo. Quanto mais gemas você acorrentar dois ou mais, mais pontos você ganha.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
nli_pt_fever

nli_pt_fever

  • Dataset: nli_pt_fever at 510a233
  • Size: 14,684 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 72.25 tokens
    • max: 139 tokens
    • min: 5 tokens
    • mean: 13.09 tokens
    • max: 41 tokens
  • Samples:
    anchor positive
    O morcego de nariz de porco de Kitti ( Craseonycteris thonglongyai ), também conhecido como morcego de abelha, é uma espécie vulnerável de morcego e o único membro existente da família Craseonycteridae. O morcego com nariz de porco de Kitti é uma espécie de morcego que é categorizada como vulnerável.
    Gangster é um filme de crime romântico indiano de 2006 que estreou em 28 de abril. Kangana Ranaut. Após o treinamento sob o diretor de teatro Arvind Gaur, Ranaut fez sua estréia no cinema no thriller de 2006 Gangster, pelo qual ela foi premiada com o Filmfare Award de Melhor Estreia Feminina. A estreia do longa-metragem de Kangana Ranaut foi em um filme de crime romântico indiano.
    No Japão, eles se tornaram o primeiro girl group não-japonês a ter três álbuns número um na Japanese Oricon Albums Chart, e suas três turnês de concertos japoneses atraiu um recorde de 550.000 espectadores, mais do que qualquer outro grupo feminino coreano. Kwon Yu-ri (nascido em 5 de dezembro de 1989 ), mais conhecido pelo monônimo Yuri, é um cantor e atriz sul-coreana. A geração das meninas tem meninas.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
nli_pt_ling

nli_pt_ling

  • Dataset: nli_pt_ling at 510a233
  • Size: 1,678 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 30.91 tokens
    • max: 111 tokens
    • min: 4 tokens
    • mean: 15.82 tokens
    • max: 67 tokens
  • Samples:
    anchor positive
    Ah, é sempre o grande, mas. Nunca é pequeno, mas
    A Suprema Corte de Vermont concedeu aos gays maiores direitos de parceria. Em Vermont, os gays agora têm mais direitos de parceria.
    Mas um verdadeiro predador que conheço está usando, vendendo e quase certamente cometendo outros crimes. Um predador que eu conheço está cometendo crimes.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
nli_pt_mnli

nli_pt_mnli

  • Dataset: nli_pt_mnli at 510a233
  • Size: 8,301 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 4 tokens
    • mean: 28.44 tokens
    • max: 120 tokens
    • min: 5 tokens
    • mean: 15.6 tokens
    • max: 46 tokens
  • Samples:
    anchor positive
    Mesmo o funcionário mais caloroso pode parecer indiferente em relação aos clientes que estão mal vestidos. Clientes mal vestidos ainda parecerão ser julgados até mesmo pelos funcionários mais legais.
    Lesões em acidentes de trânsito duplicaram entre 1996 e 1997. Entre 1996 e 1997, os acidentes de trânsito duplicaram.
    As principais mudanças não foram para tarefas e rotinas diárias, mas para a base de poder político, que mudou regularmente e não necessariamente pacificamente ao longo dos tempos. A base do poder político mudou muito.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
nli_pt_wanli

nli_pt_wanli

  • Dataset: nli_pt_wanli at 510a233
  • Size: 9,329 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 24.53 tokens
    • max: 113 tokens
    • min: 5 tokens
    • mean: 14.25 tokens
    • max: 71 tokens
  • Samples:
    anchor positive
    Uma preocupação mais prática é que as regras de etiqueta são tão complicadas que, mesmo que você as conheça, talvez não seja possível aplicá-las corretamente. É difícil seguir as regras da etiqueta.
    Como eu já disse antes, estamos todos sobre a criação de novas oportunidades para aqueles que querem tirar proveito deles. Somos todos sobre a criação de novas oportunidades para aqueles que querem tirar proveito deles.
    E se não o fizermos, então teremos que aceitar a conclusão de que nossa inteligência é inadequada. Nossa inteligência é inadequada.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
assin1

assin1

  • Dataset: assin1 at 6535e48
  • Size: 5,000 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 9 tokens
    • mean: 22.71 tokens
    • max: 48 tokens
    • min: 8 tokens
    • mean: 19.91 tokens
    • max: 40 tokens
    • min: 0.2
    • mean: 0.61
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    A gente faz o aporte financeiro, é como se a empresa fosse parceira do Monte Cristo. Fernando Moraes afirma que não tem vínculo com o Monte Cristo além da parceira. 0.4
    Em 2013, a história de como Walt Disney convenceu P.L. P.L.Travers era completamente contra a adaptação de Walt Disney. 0.45
    David Silva bateu escanteio, Kompany escalou as costas de Chiellini e o zagueiro marcou contra. David Silva cobrou escanteio, o zagueiro se apoiou em Chiellini e cabeceou. 0.75
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CoSENTLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
IRIS_sts

IRIS_sts

  • Dataset: IRIS_sts at 8adf343
  • Size: 1,667 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 14 tokens
    • mean: 33.43 tokens
    • max: 77 tokens
    • min: 14 tokens
    • mean: 33.26 tokens
    • max: 88 tokens
    • min: 0.0
    • mean: 0.52
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    A questão da existência de uma presunção constitui antecedente lógico da elisão dessa presunção. Constitui requisito de existência da presunção de aceitação do despedimento por extinção do posto de trabalho, a que se refere o art. 0.483483258943473
    Com efeito, nesse caso do que se tratará será de uma errada aplicação do direito aos factos, designadamente aos considerados provados. Isto é: não se extraíram as consequências jurídicas adequadas do que provado se considerou. 0.4286842926170479
    II - É nula a sentença de regulação das responsabilidades parentais cuja motivação se apoia em relatórios do ISS de cujo teor as partes não foram notificadas. II - A decisão sobre as responsabilidades parentais é inválida se ela foi baseada em relatórios do ISS que as partes não foram informadas. 0.816343029699518
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CoSENTLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
mldr

mldr

  • Dataset: mldr at 40ad767
  • Size: 1,845 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 5 tokens
    • mean: 16.97 tokens
    • max: 94 tokens
    • min: 1045 tokens
    • mean: 4172.31 tokens
    • max: 8192 tokens
    • min: 956 tokens
    • mean: 4016.09 tokens
    • max: 8192 tokens
  • Samples:
    anchor positive negative
    Quais são os principais mecanismos usados pela fagocitose para remover patógenos e restos celulares? Fagocitose

    Fagocitose ( do grego antigo, "φαγεῖν" (phagein), "devorar" , "κύτος" (kytos), "células") é o processo pelo qual uma célula usa sua membrana plasmática para englobar partículas grandes (≥ 0,5 μm), dando origem a um compartimento interno chamado fagossoma.
    Nos sistemas imunológicos de organismos multicelulares, a fagocitose é um dos principais mecanismos usados para remover patógenos e restos celulares. O material ingerido é então digerido no fagossoma. Bactérias, células de tecidos mortos e pequenas partículas minerais são exemplos de objetos que podem ser fagocitados. Alguns protozoários usam a fagocitose como meio de obter nutrientes.
    História.
    A fagocitose foi observada pela primeira vez pelo médico canadense William Osler (1876), e mais tarde estudada e nomeada por Élie Metchnikoff (1880, 1883).
    No sistema imunológico.
    A fagocitose é um dos principais mecanismos da resposta imune inata. É um dos primeiros mecanismos de resposta à infecção e um dos ramos iniciais de uma ...
    Vespa

    Vespa, marimbondo ou cabatão é o nome comum aplicado a diversas espécies de insetos pertencentes à subordem Apocrita da ordem Hymenoptera. Na definição mais abrangente, este nome é utilizado para se referir a qualquer himenóptero que não é abelha nem formiga. Em geral, faz-se a distinção das vespas-serra, himenópteros sem pecíolo que são considerados como uma subordem distinta, Symphyta. As vespas não constituem um clado, ou seja, o termo não representa um grupo natural de organismos que inclui todos os descendentes de um grupo ancestral.
    As vespas mais popularmente conhecidas pertencem à família Vespidae e são eusociais, vivendo juntas em um ninho com uma rainha que põe ovos e operárias que não se reproduzem. No entanto, a maioria das espécies de vespas são solitárias, com cada fêmea adulta vivendo e se reproduzindo independentemente. As vespas desempenham muitos papéis ecológicos, incluindo espécies tanto fitófagas quanto entomófagas. Muitas, como as vespas-cuco, são cleptopar...
    Quais são as características principais do cálcio? Cálcio

    O cálcio é um elemento químico, símbolo Ca, de número atómico 20 (20 prótons e 20 elétrons) e massa atómica 40u. É um metal da família dos alcalino-terrosos, pertencente ao grupo 2 da classificação periódica dos elementos químicos.
    Foi isolado pela primeira vez em 1808, em uma forma impura, pelo químico britânico Humphry Davy mediante a eletrólise de uma amálgama de mercúrio (HgO) e cal (CaO).
    Características principais.
    O cálcio é um metal alcalino-terroso, mole, maleável e dúctil que arde com chama vermelha formando óxido de cálcio e nitreto.
    As superfícies são de coloração branca prateada que rapidamente se tornam levemente amareladas quando
    expostas ao ar, finalmente com coloração cinza ou branca devido à formação de hidróxido ao reagir com a umidade ambiental. Reage violentamente com a água para formar o hidróxido de cálcio, Ca(OH)2, com desprendimento de hidrogênio.
    Papel biológico.
    O cálcio (Ca2+) é um elemento regulador universal que acopla intimamente os sinais biótico...
    Humidade

    A é a quantidade de vapor de água na atmosfera. Fisicamente, a humidade relativa é definida como a razão da quantidade de vapor de água presente numa porção da atmosfera (pressão parcial de vapor) com a quantidade máxima de vapor de água que a atmosfera pode suportar a uma determinada temperatura (pressão de vapor). A humidade relativa é uma importante variável (medida) usada na previsão do tempo, e indica a possibilidade de precipitação (chuva, neve, granizo, entre outros), orvalho ou nevoeiro.
    A alta humidade durante dias quentes faz a sensação térmica aumentar, ou seja, a pessoa tem a impressão de que está mais calor, devido à redução da eficácia da transpiração da pele, e assim reduzindo o resfriamento corporal. Por outro lado, a baixa humidade dos desertos causa uma grande diferença de temperatura entre o dia e a noite. Este efeito é calculado pela tabela de índice de calor.
    Tipos de humidade.
    Humidade absoluta (base volumétrica).
    A humidade absoluta em uma base volumétr...
    Quais são os ésteres mais comuns encontrados na natureza? Éster

    Na química, a função éster é caracterizada pela estrutura R-COOR'. Os ésteres carboxílicos apresentam uma alcoxila ligada à uma carbonila e são usualmente resultantes de uma reação entre álcoois (em alguns casos, fenóis) e ácidos carboxílico, e o resultado é a substituição de um átomo de hidrogênio presente na carboxila (-COOH) dos ácidos carboxílicos por um grupo alquila (R) ou arila (Ar). Já os ésteres inorgânicos resultam de reações entre álcoois e oxiácidos inorgânicos, de modo que o ácido perde um próton (H+) e se liga à cadeia que outrora pertencia a um álcool, após a perda da hidroxila (OH-) por esta molécula. Assim, reações de esterificação - como são denominadas as reações entre álcoois/fenóis e ácidos -também produzem água (HOH ou H2O).
    Os ésteres mais comuns que se encontram na natureza são os triglicerídeos - triésteres de glicerina - constituintes de óleos e gorduras indispensáveis à alimentação humana. Além disso, também ocorrem no aroma das flores e no sabor dos f...
    Literatura

    A Literatura é a arte que usa a linguagem escrita como meio de expressão, seja em prosa ou em verso, de acordo com princípios teóricos e práticos; sendo o conjunto de obras escritas ou orais às quais reconhecemos um valor estético. A Literatura abrange qualquer coleção de obras escritas, incluindo escrita impressa e digital.
    Etimologia.
    A palavra Literatura vem do latim "litteris" que significa "Letras", e possivelmente uma tradução do grego "grammatikee". Em latim, literatura significa uma instrução ou um conjunto de saberes ou habilidades de escrever e ler bem, e se relaciona com as técnicas da gramática, da retórica e da poética. Por extensão, se refere especificamente ao ofício de escrever. O termo Literatura também é usado como referência a um conjunto escolhido de textos, por exemplo a literatura portuguesa, a literatura espanhola, a literatura inglesa, a literatura brasileira, a literatura japonesa, etc.
    Definição.
    Mais produtivo do que tentar definir Literatura talv...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

IRIS_sts

  • Dataset: IRIS_sts at 8adf343
  • Size: 556 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 556 samples:
    sentence1 sentence2 label
    type string string float
    details
    • min: 16 tokens
    • mean: 33.32 tokens
    • max: 77 tokens
    • min: 14 tokens
    • mean: 33.03 tokens
    • max: 105 tokens
    • min: 0.0
    • mean: 0.5
    • max: 1.0
  • Samples:
    sentence1 sentence2 label
    Nos termos do disposto no artigo 1083. do CPC, constituindo, como é o caso, dependência de outro processo judicial, a competência para o inventário é exclusiva dos tribunais cfr. Essa norma existe relativamente à provisão para despesas, pois que o n 10 do art. 0.09996932915109477
    II - Da insolvência de um dos ex-cônjuges não decorre necessariamente a insolvência do património comum do ex-casal, não obstante, como é sabido, o art. II - A apensação de processos de expropriação de parcelas contíguas e do mesmo dono resulta do art. 0.15428183762417896
    44, n. 1, do suscitar antecipadamente nove questões de inconstitucionalidade, nos termos e para os efeitos dos art.os 7, n. 1, al. 41, do CPP, oportunidade que o mesmo aproveitou reiterando a arguição das inconstitucionalidades. 0.2198436643850504
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CoSENTLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • num_train_epochs: 30
  • warmup_steps: 0.1
  • weight_decay: 0.2
  • gradient_accumulation_steps: 128
  • fp16: True
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: {'use_reentrant': False}
  • eval_strategy: steps

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 4
  • num_train_epochs: 30
  • max_steps: -1
  • learning_rate: 5e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.2
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 128
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: True
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: {'use_reentrant': False}
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: steps
  • per_device_eval_batch_size: 8
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss IRIS sts loss stsb-pt-dev-768_spearman_cosine assin2-dev-768_spearman_cosine iris_sts-dev-768_spearman_cosine sick_br_dev-768_spearman_cosine stsb-pt-dev-512_spearman_cosine assin2-dev-512_spearman_cosine iris_sts-dev-512_spearman_cosine sick_br_dev-512_spearman_cosine stsb-pt-dev-256_spearman_cosine assin2-dev-256_spearman_cosine iris_sts-dev-256_spearman_cosine sick_br_dev-256_spearman_cosine stsb-pt-dev-128_spearman_cosine assin2-dev-128_spearman_cosine iris_sts-dev-128_spearman_cosine sick_br_dev-128_spearman_cosine stsb-pt-dev-64_spearman_cosine assin2-dev-64_spearman_cosine iris_sts-dev-64_spearman_cosine sick_br_dev-64_spearman_cosine stsb-test-768_spearman_cosine assin2-test-768_spearman_cosine iris_sts-test-768_spearman_cosine stsb-test-512_spearman_cosine assin2-test-512_spearman_cosine iris_sts-test-512_spearman_cosine stsb-test-256_spearman_cosine assin2-test-256_spearman_cosine iris_sts-test-256_spearman_cosine stsb-test-128_spearman_cosine assin2-test-128_spearman_cosine iris_sts-test-128_spearman_cosine stsb-test-64_spearman_cosine assin2-test-64_spearman_cosine iris_sts-test-64_spearman_cosine
1.0101 100 2.6308 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
2.0203 200 1.2953 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
2.5271 250 - 17.9406 0.8035 0.7415 0.7799 0.7318 0.8000 0.7349 0.7840 0.7273 0.7898 0.7302 0.7695 0.7281 0.7816 0.7340 0.7646 0.7271 0.7782 0.7219 0.7532 0.7246 - - - - - - - - - - - - - - -
3.0304 300 1.0662 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
4.0405 400 0.9868 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
5.0507 500 0.8540 20.9231 0.8104 0.7260 0.7964 0.7152 0.8085 0.7244 0.7987 0.7154 0.8041 0.7234 0.7888 0.7181 0.7944 0.7277 0.7817 0.7241 0.7907 0.7265 0.7689 0.7230 - - - - - - - - - - - - - - -
6.0608 600 0.7829 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
7.0710 700 0.7641 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
7.5778 750 - 19.3799 0.8199 0.7286 0.8002 0.7292 0.8201 0.7244 0.7987 0.7272 0.8144 0.7212 0.7862 0.7266 0.8058 0.7246 0.7817 0.7262 0.7990 0.7176 0.7675 0.7248 - - - - - - - - - - - - - - -
8.0811 800 0.7118 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
9.0912 900 0.6319 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
10.1014 1000 0.6182 20.9481 0.8053 0.7329 0.8000 0.7195 0.8029 0.7318 0.7991 0.7183 0.7950 0.7314 0.7924 0.7190 0.7882 0.7339 0.7901 0.7154 0.7845 0.7271 0.7847 0.7101 - - - - - - - - - - - - - - -
11.1115 1100 0.5753 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
12.1216 1200 0.5511 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
12.6284 1250 - 23.9226 0.8109 0.7440 0.8107 0.7288 0.8090 0.7416 0.8113 0.7252 0.8004 0.7405 0.8082 0.7252 0.7902 0.7389 0.8033 0.7233 0.7913 0.7344 0.7939 0.7234 - - - - - - - - - - - - - - -
13.1318 1300 0.5351 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
14.1419 1400 0.5135 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
15.1520 1500 0.4900 23.8017 0.8031 0.7438 0.8176 0.7336 0.7994 0.7402 0.8171 0.7302 0.7922 0.7397 0.8103 0.7315 0.7820 0.7410 0.8078 0.7302 0.7843 0.7332 0.7995 0.7273 - - - - - - - - - - - - - - -
16.1622 1600 0.4692 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
17.1723 1700 0.4637 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
17.6791 1750 - 23.3104 0.8104 0.7330 0.8130 0.7229 0.8079 0.7312 0.8147 0.7215 0.7993 0.7291 0.8068 0.7230 0.7926 0.7323 0.8014 0.7238 0.7913 0.7265 0.7893 0.7279 - - - - - - - - - - - - - - -
18.1825 1800 0.4121 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
19.1926 1900 0.3909 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
20.2027 2000 0.3836 24.5567 0.8123 0.7412 0.8101 0.7301 0.8100 0.7401 0.8107 0.7310 0.7999 0.7385 0.8042 0.7291 0.7913 0.7396 0.8026 0.7289 0.7941 0.7325 0.7911 0.7275 - - - - - - - - - - - - - - -
21.2129 2100 0.3390 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
22.2230 2200 0.3513 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
22.7298 2250 - 25.6095 0.8131 0.7535 0.8108 0.7387 0.8103 0.7506 0.8110 0.7381 0.8026 0.7499 0.8060 0.7393 0.7945 0.7523 0.8030 0.7388 0.7922 0.7454 0.7958 0.7381 - - - - - - - - - - - - - - -
23.2331 2300 0.3336 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
24.2433 2400 0.2815 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
25.2534 2500 0.2767 27.4196 0.8137 0.7472 0.8142 0.7417 0.8108 0.7457 0.8149 0.7410 0.8023 0.7447 0.8113 0.7418 0.7909 0.7469 0.8091 0.7395 0.7946 0.7421 0.8012 0.7423 - - - - - - - - - - - - - - -
26.2635 2600 0.2578 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
27.2737 2700 0.2536 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
27.7805 2750 - 27.9049 0.8138 0.7452 0.8155 0.7365 0.8109 0.7436 0.8156 0.7360 0.8031 0.7422 0.8112 0.7381 0.7932 0.7448 0.8100 0.7360 0.7951 0.7403 0.8013 0.7392 - - - - - - - - - - - - - - -
28.2838 2800 0.2474 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
29.2939 2900 0.2307 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
-1 -1 - - - - - 0.7052 - - - 0.7041 - - - 0.7039 - - - 0.6996 - - - 0.6921 0.7769 0.6792 0.8114 0.7741 0.6783 0.8138 0.7627 0.6805 0.8109 0.7519 0.6794 0.7991 0.7553 0.6752 0.7875

Framework Versions

  • Python: 3.11.12
  • Sentence Transformers: 5.3.0
  • Transformers: 5.3.0
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}

CoSENTLoss

@article{10531646,
    author={Huang, Xiang and Peng, Hao and Zou, Dongcheng and Liu, Zhiwei and Li, Jianxin and Liu, Kay and Wu, Jia and Su, Jianlin and Yu, Philip S.},
    journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
    title={CoSENT: Consistent Sentence Embedding via Similarity Ranking},
    year={2024},
    doi={10.1109/TASLP.2024.3402087}
}
Downloads last month
-
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for iara-project/mmBERT-base-sts-pt

Finetuned
(86)
this model

Datasets used to train iara-project/mmBERT-base-sts-pt

Papers for iara-project/mmBERT-base-sts-pt

Evaluation results