Upload 9 files
Browse files- 1_Pooling/config.json +10 -0
- README.md +379 -0
- config.json +30 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- tokenizer.json +0 -0
- tokenizer_config.json +16 -0
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 384,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,379 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:1936
|
| 9 |
+
- loss:MultipleNegativesRankingLoss
|
| 10 |
+
base_model: sentence-transformers/multi-qa-MiniLM-L6-cos-v1
|
| 11 |
+
widget:
|
| 12 |
+
- source_sentence: A contraceção de longa duração (LARC – long-acting reversible contraception)
|
| 13 |
+
que envolve implantes subcutâneos, DIU de cobre e SIU com levonorgestrel, são
|
| 14 |
+
ultimamente recomendados pela OMS para mulheres mais jovens, devido maior falha
|
| 15 |
+
dos métodos tradicionais, como ocorre com os contracetivos hormonais orais quando
|
| 16 |
+
usados nessa faixa etária, levando assim ao risco de gravidez indesejada. Sobre
|
| 17 |
+
os LARC, qual a alternativa correta dentre as abaixo relacionadas?
|
| 18 |
+
sentences:
|
| 19 |
+
- O teste consiste em aferir a oximetria de pulso na mão direita (MSD) e num dos
|
| 20 |
+
pés (MI) do recém-nascido, e considera-se como normal a SpO2 maior ou igual a
|
| 21 |
+
95% e uma diferença de SpO2 entre o membro superior direito e um dos membros inferiores
|
| 22 |
+
menor ou igual a 3%.
|
| 23 |
+
- Trata-se de iminência de eclâmpsia, sendo necessário administração de sulfato
|
| 24 |
+
de magnésio, hipotensor de ação rápida e avaliação do quadro materno e fetal com
|
| 25 |
+
análises laboratoriais e de vitalidade fetal após estabilização, para definir
|
| 26 |
+
melhor conduta.
|
| 27 |
+
- O DIU de cobre e o SIU com levonorgestrel podem ser utilizados em mulheres nulíparas
|
| 28 |
+
que desejam contraceção.
|
| 29 |
+
- source_sentence: 'Menino, 6 anos, queixando-se que teve dor e tumefação no joelho
|
| 30 |
+
esquerdo há 10 dias, com duração de 3 dias e que há 7 dias apresentou dor de forte
|
| 31 |
+
intensidade e tumefação no tornozelo esquerdo durando 2 dias, com melhoria espontânea.
|
| 32 |
+
Há 3 dias dor e tumefação no joelho direito, dificultando a marcha. Nega febre.
|
| 33 |
+
A preocupação maior ao exame físico é avaliar:'
|
| 34 |
+
sentences:
|
| 35 |
+
- Auscultação cardíaca.
|
| 36 |
+
- Deverá ser submetida a cirurgia de colectomia subtotal com ileostomia terminal.
|
| 37 |
+
- Espetante, visto que recebeu imunoglobulina anti-D no pré-natal.
|
| 38 |
+
- source_sentence: 'Criança de quatro anos chega à consulta externa de Pediatria,
|
| 39 |
+
acompanhada pela mãe, com história de febre intermitente há duas semanas, manchas
|
| 40 |
+
purpúricas pelo corpo e em membros superiores e inferiores, além de inapetência
|
| 41 |
+
e perda de peso. Exame físico: Inspeção: Estado geral razoável, pálida 3+/4+,
|
| 42 |
+
eupneica, com presença de petéquias principalmente em MMII. Palpação: Adenomegalia
|
| 43 |
+
cervical, supraclavicular e inguinal. Na palpação abdominal, presença de hepatoesplenomegalia.
|
| 44 |
+
Exames Laboratoriais: Hemograma: Hb: 5,2 g/dL / Ht: 18% / Leucócitos: 57.200/mm3.
|
| 45 |
+
Neutrófilos: 572 mm3 (1%) / Neutrófilos em banda: 0 mm3 (0%). Segmentados: 572
|
| 46 |
+
mm3 (1%) Linfócitos típicos: 16.016 mm3 (28%). Linfócitos atípicos: 0 mm3 (0%)
|
| 47 |
+
Blastos: 39.468 mm3 (69%). Plaquetas: 49.000 mm3. O quadro clínico desta criança
|
| 48 |
+
é compatível com:'
|
| 49 |
+
sentences:
|
| 50 |
+
- Aplicar soro e vacina antirrábica e reforço da vacinação antitetânica.
|
| 51 |
+
- Rutura de aneurisma da aorta abdominal.
|
| 52 |
+
- Leucemia Linfoide Aguda (LLA)
|
| 53 |
+
- source_sentence: 'Homem, 45 anos, chega ao serviço de urgência proveniente de um
|
| 54 |
+
consultório de medicina dentária, onde aspirou uma prótese dentária. Caso venha
|
| 55 |
+
a ocorrer obstrução completa do brônquio principal, uma radiografia do tórax desse
|
| 56 |
+
doente poderá revelar, mais provavelmente:'
|
| 57 |
+
sentences:
|
| 58 |
+
- Desvio do mediastino para o lado direito e atelectasia pulmonar.
|
| 59 |
+
- Seta 1 indica mucosa com epitélio simples cilíndrico, tecido conjuntivo frouxo,
|
| 60 |
+
criptas e glândulas.
|
| 61 |
+
- A furosemida apresenta o seu mecanismo inibindo o cotransporte localizado na ansa
|
| 62 |
+
de Henle, o que faz com que esse diurético possua utilização importante na insuficiência
|
| 63 |
+
cardíaca.
|
| 64 |
+
- source_sentence: 'Os indicadores de saúde são parâmetros utilizados com a finalidade
|
| 65 |
+
de avaliar, sob o ponto de vista sanitário, a higidez de agregados humanos, bem
|
| 66 |
+
como de fornecer subsídios aos planeamentos de saúde. A respeito desses indicadores,
|
| 67 |
+
é correto afirmar que:'
|
| 68 |
+
sentences:
|
| 69 |
+
- Internamento com início imediato de penicilina cristalina e preparação do colo
|
| 70 |
+
para interrupção da gestação.
|
| 71 |
+
- A taxa de mortalidade infantil estima o risco de um nado-vivo morrer durante o
|
| 72 |
+
seu primeiro ano de vida e reflete o nível de saúde e as condições de vida da
|
| 73 |
+
população.
|
| 74 |
+
- A suplementação recomendada para a prevenção da anemia materna é de 30mg de ferro
|
| 75 |
+
elementar por dia, para doentes sem anemia e geralmente iniciando no segundo trimestre.
|
| 76 |
+
pipeline_tag: sentence-similarity
|
| 77 |
+
library_name: sentence-transformers
|
| 78 |
+
---
|
| 79 |
+
|
| 80 |
+
# SentenceTransformer based on sentence-transformers/multi-qa-MiniLM-L6-cos-v1
|
| 81 |
+
|
| 82 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/multi-qa-MiniLM-L6-cos-v1](https://huggingface.co/sentence-transformers/multi-qa-MiniLM-L6-cos-v1). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 83 |
+
|
| 84 |
+
## Model Details
|
| 85 |
+
|
| 86 |
+
### Model Description
|
| 87 |
+
- **Model Type:** Sentence Transformer
|
| 88 |
+
- **Base model:** [sentence-transformers/multi-qa-MiniLM-L6-cos-v1](https://huggingface.co/sentence-transformers/multi-qa-MiniLM-L6-cos-v1) <!-- at revision b207367332321f8e44f96e224ef15bc607f4dbf0 -->
|
| 89 |
+
- **Maximum Sequence Length:** 128 tokens
|
| 90 |
+
- **Output Dimensionality:** 384 dimensions
|
| 91 |
+
- **Similarity Function:** Cosine Similarity
|
| 92 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 93 |
+
<!-- - **Language:** Unknown -->
|
| 94 |
+
<!-- - **License:** Unknown -->
|
| 95 |
+
|
| 96 |
+
### Model Sources
|
| 97 |
+
|
| 98 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 99 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
|
| 100 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 101 |
+
|
| 102 |
+
### Full Model Architecture
|
| 103 |
+
|
| 104 |
+
```
|
| 105 |
+
SentenceTransformer(
|
| 106 |
+
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'BertModel'})
|
| 107 |
+
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 108 |
+
(2): Normalize()
|
| 109 |
+
)
|
| 110 |
+
```
|
| 111 |
+
|
| 112 |
+
## Usage
|
| 113 |
+
|
| 114 |
+
### Direct Usage (Sentence Transformers)
|
| 115 |
+
|
| 116 |
+
First install the Sentence Transformers library:
|
| 117 |
+
|
| 118 |
+
```bash
|
| 119 |
+
pip install -U sentence-transformers
|
| 120 |
+
```
|
| 121 |
+
|
| 122 |
+
Then you can load this model and run inference.
|
| 123 |
+
```python
|
| 124 |
+
from sentence_transformers import SentenceTransformer
|
| 125 |
+
|
| 126 |
+
# Download from the 🤗 Hub
|
| 127 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
| 128 |
+
# Run inference
|
| 129 |
+
sentences = [
|
| 130 |
+
'Os indicadores de saúde são parâmetros utilizados com a finalidade de avaliar, sob o ponto de vista sanitário, a higidez de agregados humanos, bem como de fornecer subsídios aos planeamentos de saúde. A respeito desses indicadores, é correto afirmar que:',
|
| 131 |
+
'A taxa de mortalidade infantil estima o risco de um nado-vivo morrer durante o seu primeiro ano de vida e reflete o nível de saúde e as condições de vida da população.',
|
| 132 |
+
'A suplementação recomendada para a prevenção da anemia materna é de 30mg de ferro elementar por dia, para doentes sem anemia e geralmente iniciando no segundo trimestre.',
|
| 133 |
+
]
|
| 134 |
+
embeddings = model.encode(sentences)
|
| 135 |
+
print(embeddings.shape)
|
| 136 |
+
# [3, 384]
|
| 137 |
+
|
| 138 |
+
# Get the similarity scores for the embeddings
|
| 139 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 140 |
+
print(similarities)
|
| 141 |
+
# tensor([[ 1.0000, 0.3131, -0.0188],
|
| 142 |
+
# [ 0.3131, 1.0000, 0.1022],
|
| 143 |
+
# [-0.0188, 0.1022, 1.0000]])
|
| 144 |
+
```
|
| 145 |
+
|
| 146 |
+
<!--
|
| 147 |
+
### Direct Usage (Transformers)
|
| 148 |
+
|
| 149 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 150 |
+
|
| 151 |
+
</details>
|
| 152 |
+
-->
|
| 153 |
+
|
| 154 |
+
<!--
|
| 155 |
+
### Downstream Usage (Sentence Transformers)
|
| 156 |
+
|
| 157 |
+
You can finetune this model on your own dataset.
|
| 158 |
+
|
| 159 |
+
<details><summary>Click to expand</summary>
|
| 160 |
+
|
| 161 |
+
</details>
|
| 162 |
+
-->
|
| 163 |
+
|
| 164 |
+
<!--
|
| 165 |
+
### Out-of-Scope Use
|
| 166 |
+
|
| 167 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 168 |
+
-->
|
| 169 |
+
|
| 170 |
+
<!--
|
| 171 |
+
## Bias, Risks and Limitations
|
| 172 |
+
|
| 173 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 174 |
+
-->
|
| 175 |
+
|
| 176 |
+
<!--
|
| 177 |
+
### Recommendations
|
| 178 |
+
|
| 179 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 180 |
+
-->
|
| 181 |
+
|
| 182 |
+
## Training Details
|
| 183 |
+
|
| 184 |
+
### Training Dataset
|
| 185 |
+
|
| 186 |
+
#### Unnamed Dataset
|
| 187 |
+
|
| 188 |
+
* Size: 1,936 training samples
|
| 189 |
+
* Columns: <code>sentence_0</code> and <code>sentence_1</code>
|
| 190 |
+
* Approximate statistics based on the first 1000 samples:
|
| 191 |
+
| | sentence_0 | sentence_1 |
|
| 192 |
+
|:--------|:-------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 193 |
+
| type | string | string |
|
| 194 |
+
| details | <ul><li>min: 21 tokens</li><li>mean: 116.02 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 29.88 tokens</li><li>max: 128 tokens</li></ul> |
|
| 195 |
+
* Samples:
|
| 196 |
+
| sentence_0 | sentence_1 |
|
| 197 |
+
|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------|
|
| 198 |
+
| <code>Mulher, 54 anos, faz acompanhamento na Unidade de Saúde Familiar há seis anos por hipertensão arterial, em uso de losartan 100mg/dia. O seu peso é normal, não fuma e pratica caminhada de 40 minutos durante cinco dias da semana. Os exames de laboratório solicitados, de acordo com as Diretrizes Brasileiras de Hipertensão Arterial, estão normais. Porém, nos últimos três meses, os níveis tensionais estão em elevação. As duas últimas medidas chegaram a 160x100mmHg. O médico optou então por acrescentar um segundo fármaco ao esquema terapêutico. Dos grupos farmacológicos listados e disponíveis na Unidade de Saúde, qual o mais apropriado?</code> | <code>Diuréticos tiazídicos (hidroclorotiazida)</code> |
|
| 199 |
+
| <code>Menino, 5 anos, residente na zona urbana do centro-oeste paulista, compareceu ao Centro de Saúde apresentando quadro de febre não medida há 1 mês. Há 15 dias, a mãe também observou perda do apetite e emagrecimento, além de episódios de diarreia. Exame físico: regular estado geral, sinais vitais preservados, mucosas descoradas 2+/4+ e hepatoesplenomegalia. O hemograma revelou anemia, leucopenia e trombocitopenia. Considerando que o doente nunca se ausentou da cidade, nunca recebeu transfusão sanguínea, mora em casa de alvenaria, e os aspetos clínicos e epidemiológicos, a conduta é:</code> | <code>Realização de teste rápido para leishmaniose e pesquisa de leishmania em esfregaço de aspirado de medula óssea.</code> |
|
| 200 |
+
| <code>Na avaliação diagnóstica da endometriose, está correto afirmar que:</code> | <code>Valores de CA 125 guardam baixa correlação com o diagnóstico.</code> |
|
| 201 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 202 |
+
```json
|
| 203 |
+
{
|
| 204 |
+
"scale": 20.0,
|
| 205 |
+
"similarity_fct": "cos_sim",
|
| 206 |
+
"gather_across_devices": false
|
| 207 |
+
}
|
| 208 |
+
```
|
| 209 |
+
|
| 210 |
+
### Training Hyperparameters
|
| 211 |
+
#### Non-Default Hyperparameters
|
| 212 |
+
|
| 213 |
+
- `fp16`: True
|
| 214 |
+
- `multi_dataset_batch_sampler`: round_robin
|
| 215 |
+
|
| 216 |
+
#### All Hyperparameters
|
| 217 |
+
<details><summary>Click to expand</summary>
|
| 218 |
+
|
| 219 |
+
- `do_predict`: False
|
| 220 |
+
- `eval_strategy`: no
|
| 221 |
+
- `prediction_loss_only`: True
|
| 222 |
+
- `per_device_train_batch_size`: 8
|
| 223 |
+
- `per_device_eval_batch_size`: 8
|
| 224 |
+
- `gradient_accumulation_steps`: 1
|
| 225 |
+
- `eval_accumulation_steps`: None
|
| 226 |
+
- `torch_empty_cache_steps`: None
|
| 227 |
+
- `learning_rate`: 5e-05
|
| 228 |
+
- `weight_decay`: 0.0
|
| 229 |
+
- `adam_beta1`: 0.9
|
| 230 |
+
- `adam_beta2`: 0.999
|
| 231 |
+
- `adam_epsilon`: 1e-08
|
| 232 |
+
- `max_grad_norm`: 1
|
| 233 |
+
- `num_train_epochs`: 3
|
| 234 |
+
- `max_steps`: -1
|
| 235 |
+
- `lr_scheduler_type`: linear
|
| 236 |
+
- `lr_scheduler_kwargs`: None
|
| 237 |
+
- `warmup_ratio`: None
|
| 238 |
+
- `warmup_steps`: 0
|
| 239 |
+
- `log_level`: passive
|
| 240 |
+
- `log_level_replica`: warning
|
| 241 |
+
- `log_on_each_node`: True
|
| 242 |
+
- `logging_nan_inf_filter`: True
|
| 243 |
+
- `enable_jit_checkpoint`: False
|
| 244 |
+
- `save_on_each_node`: False
|
| 245 |
+
- `save_only_model`: False
|
| 246 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 247 |
+
- `use_cpu`: False
|
| 248 |
+
- `seed`: 42
|
| 249 |
+
- `data_seed`: None
|
| 250 |
+
- `bf16`: False
|
| 251 |
+
- `fp16`: True
|
| 252 |
+
- `bf16_full_eval`: False
|
| 253 |
+
- `fp16_full_eval`: False
|
| 254 |
+
- `tf32`: None
|
| 255 |
+
- `local_rank`: -1
|
| 256 |
+
- `ddp_backend`: None
|
| 257 |
+
- `debug`: []
|
| 258 |
+
- `dataloader_drop_last`: False
|
| 259 |
+
- `dataloader_num_workers`: 0
|
| 260 |
+
- `dataloader_prefetch_factor`: None
|
| 261 |
+
- `disable_tqdm`: False
|
| 262 |
+
- `remove_unused_columns`: True
|
| 263 |
+
- `label_names`: None
|
| 264 |
+
- `load_best_model_at_end`: False
|
| 265 |
+
- `ignore_data_skip`: False
|
| 266 |
+
- `fsdp`: []
|
| 267 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 268 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 269 |
+
- `parallelism_config`: None
|
| 270 |
+
- `deepspeed`: None
|
| 271 |
+
- `label_smoothing_factor`: 0.0
|
| 272 |
+
- `optim`: adamw_torch_fused
|
| 273 |
+
- `optim_args`: None
|
| 274 |
+
- `group_by_length`: False
|
| 275 |
+
- `length_column_name`: length
|
| 276 |
+
- `project`: huggingface
|
| 277 |
+
- `trackio_space_id`: trackio
|
| 278 |
+
- `ddp_find_unused_parameters`: None
|
| 279 |
+
- `ddp_bucket_cap_mb`: None
|
| 280 |
+
- `ddp_broadcast_buffers`: False
|
| 281 |
+
- `dataloader_pin_memory`: True
|
| 282 |
+
- `dataloader_persistent_workers`: False
|
| 283 |
+
- `skip_memory_metrics`: True
|
| 284 |
+
- `push_to_hub`: False
|
| 285 |
+
- `resume_from_checkpoint`: None
|
| 286 |
+
- `hub_model_id`: None
|
| 287 |
+
- `hub_strategy`: every_save
|
| 288 |
+
- `hub_private_repo`: None
|
| 289 |
+
- `hub_always_push`: False
|
| 290 |
+
- `hub_revision`: None
|
| 291 |
+
- `gradient_checkpointing`: False
|
| 292 |
+
- `gradient_checkpointing_kwargs`: None
|
| 293 |
+
- `include_for_metrics`: []
|
| 294 |
+
- `eval_do_concat_batches`: True
|
| 295 |
+
- `auto_find_batch_size`: False
|
| 296 |
+
- `full_determinism`: False
|
| 297 |
+
- `ddp_timeout`: 1800
|
| 298 |
+
- `torch_compile`: False
|
| 299 |
+
- `torch_compile_backend`: None
|
| 300 |
+
- `torch_compile_mode`: None
|
| 301 |
+
- `include_num_input_tokens_seen`: no
|
| 302 |
+
- `neftune_noise_alpha`: None
|
| 303 |
+
- `optim_target_modules`: None
|
| 304 |
+
- `batch_eval_metrics`: False
|
| 305 |
+
- `eval_on_start`: False
|
| 306 |
+
- `use_liger_kernel`: False
|
| 307 |
+
- `liger_kernel_config`: None
|
| 308 |
+
- `eval_use_gather_object`: False
|
| 309 |
+
- `average_tokens_across_devices`: True
|
| 310 |
+
- `use_cache`: False
|
| 311 |
+
- `prompts`: None
|
| 312 |
+
- `batch_sampler`: batch_sampler
|
| 313 |
+
- `multi_dataset_batch_sampler`: round_robin
|
| 314 |
+
- `router_mapping`: {}
|
| 315 |
+
- `learning_rate_mapping`: {}
|
| 316 |
+
|
| 317 |
+
</details>
|
| 318 |
+
|
| 319 |
+
### Training Logs
|
| 320 |
+
| Epoch | Step | Training Loss |
|
| 321 |
+
|:------:|:----:|:-------------:|
|
| 322 |
+
| 2.0661 | 500 | 1.3616 |
|
| 323 |
+
|
| 324 |
+
|
| 325 |
+
### Framework Versions
|
| 326 |
+
- Python: 3.12.12
|
| 327 |
+
- Sentence Transformers: 5.2.3
|
| 328 |
+
- Transformers: 5.0.0
|
| 329 |
+
- PyTorch: 2.10.0+cu128
|
| 330 |
+
- Accelerate: 1.12.0
|
| 331 |
+
- Datasets: 4.0.0
|
| 332 |
+
- Tokenizers: 0.22.2
|
| 333 |
+
|
| 334 |
+
## Citation
|
| 335 |
+
|
| 336 |
+
### BibTeX
|
| 337 |
+
|
| 338 |
+
#### Sentence Transformers
|
| 339 |
+
```bibtex
|
| 340 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 341 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 342 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 343 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 344 |
+
month = "11",
|
| 345 |
+
year = "2019",
|
| 346 |
+
publisher = "Association for Computational Linguistics",
|
| 347 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 348 |
+
}
|
| 349 |
+
```
|
| 350 |
+
|
| 351 |
+
#### MultipleNegativesRankingLoss
|
| 352 |
+
```bibtex
|
| 353 |
+
@misc{henderson2017efficient,
|
| 354 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
| 355 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
| 356 |
+
year={2017},
|
| 357 |
+
eprint={1705.00652},
|
| 358 |
+
archivePrefix={arXiv},
|
| 359 |
+
primaryClass={cs.CL}
|
| 360 |
+
}
|
| 361 |
+
```
|
| 362 |
+
|
| 363 |
+
<!--
|
| 364 |
+
## Glossary
|
| 365 |
+
|
| 366 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 367 |
+
-->
|
| 368 |
+
|
| 369 |
+
<!--
|
| 370 |
+
## Model Card Authors
|
| 371 |
+
|
| 372 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 373 |
+
-->
|
| 374 |
+
|
| 375 |
+
<!--
|
| 376 |
+
## Model Card Contact
|
| 377 |
+
|
| 378 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 379 |
+
-->
|
config.json
ADDED
|
@@ -0,0 +1,30 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"add_cross_attention": false,
|
| 3 |
+
"architectures": [
|
| 4 |
+
"BertModel"
|
| 5 |
+
],
|
| 6 |
+
"attention_probs_dropout_prob": 0.1,
|
| 7 |
+
"bos_token_id": null,
|
| 8 |
+
"classifier_dropout": null,
|
| 9 |
+
"dtype": "float32",
|
| 10 |
+
"eos_token_id": null,
|
| 11 |
+
"gradient_checkpointing": false,
|
| 12 |
+
"hidden_act": "gelu",
|
| 13 |
+
"hidden_dropout_prob": 0.1,
|
| 14 |
+
"hidden_size": 384,
|
| 15 |
+
"initializer_range": 0.02,
|
| 16 |
+
"intermediate_size": 1536,
|
| 17 |
+
"is_decoder": false,
|
| 18 |
+
"layer_norm_eps": 1e-12,
|
| 19 |
+
"max_position_embeddings": 512,
|
| 20 |
+
"model_type": "bert",
|
| 21 |
+
"num_attention_heads": 12,
|
| 22 |
+
"num_hidden_layers": 6,
|
| 23 |
+
"pad_token_id": 0,
|
| 24 |
+
"position_embedding_type": "absolute",
|
| 25 |
+
"tie_word_embeddings": true,
|
| 26 |
+
"transformers_version": "5.0.0",
|
| 27 |
+
"type_vocab_size": 2,
|
| 28 |
+
"use_cache": true,
|
| 29 |
+
"vocab_size": 30522
|
| 30 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "5.2.3",
|
| 4 |
+
"transformers": "5.0.0",
|
| 5 |
+
"pytorch": "2.10.0+cu128"
|
| 6 |
+
},
|
| 7 |
+
"model_type": "SentenceTransformer",
|
| 8 |
+
"prompts": {
|
| 9 |
+
"query": "",
|
| 10 |
+
"document": ""
|
| 11 |
+
},
|
| 12 |
+
"default_prompt_name": null,
|
| 13 |
+
"similarity_fn_name": "cosine"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:6eb0dfd3400cca6406cc1190f84626758ea31b51a48b309e7bd1f2085a0fa218
|
| 3 |
+
size 90864176
|
modules.json
ADDED
|
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
},
|
| 14 |
+
{
|
| 15 |
+
"idx": 2,
|
| 16 |
+
"name": "2",
|
| 17 |
+
"path": "2_Normalize",
|
| 18 |
+
"type": "sentence_transformers.models.Normalize"
|
| 19 |
+
}
|
| 20 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 128,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
tokenizer.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"backend": "tokenizers",
|
| 3 |
+
"cls_token": "[CLS]",
|
| 4 |
+
"do_basic_tokenize": true,
|
| 5 |
+
"do_lower_case": true,
|
| 6 |
+
"is_local": false,
|
| 7 |
+
"mask_token": "[MASK]",
|
| 8 |
+
"model_max_length": 512,
|
| 9 |
+
"never_split": null,
|
| 10 |
+
"pad_token": "[PAD]",
|
| 11 |
+
"sep_token": "[SEP]",
|
| 12 |
+
"strip_accents": null,
|
| 13 |
+
"tokenize_chinese_chars": true,
|
| 14 |
+
"tokenizer_class": "BertTokenizer",
|
| 15 |
+
"unk_token": "[UNK]"
|
| 16 |
+
}
|