fkrasnov2
/

SBE

Sentence Similarity

Model card Files Files and versions

fkrasnov2 commited on Sep 28, 2024

Commit

6990fe5

·

verified ·

1 Parent(s): 9eb685c

Update README.md

Files changed (1) hide show

README.md +5 -1

README.md CHANGED Viewed

@@ -6,8 +6,11 @@ Encoder-model for search query similarity task.
 Fast and accurate.
-Sentence Piece fitted on 269 million Russian search queries log.
 ```python
 from transformers import AutoModel, AutoTokenizer
@@ -17,6 +20,7 @@ tokenizer = AutoTokenizer.from_pretrained('fkrasnov2/SBE')
 input_ids = tokenizer.encode("чёрное платье", max_length=model.config.max_position_embeddings, truncation=True, return_tensors='pt')
 vector = model(input_ids=input_ids, attention_mask=input_ids>3)[0][0,0]
 assert model.config.hidden_size == vector.shape[0]

 Fast and accurate.
+Sentencepiece tokenizer fitted on 269 million Russian search queries log.
+DeBERTaV2 with a short context length to save the memory.
+|![Sample preference dataset](https://huggingface.co/fkrasnov2/SBE/bvf_recall1k_query_len_eng.svg)|
 ```python
 from transformers import AutoModel, AutoTokenizer
 input_ids = tokenizer.encode("чёрное платье", max_length=model.config.max_position_embeddings, truncation=True, return_tensors='pt')
+model.eval()
 vector = model(input_ids=input_ids, attention_mask=input_ids>3)[0][0,0]
 assert model.config.hidden_size == vector.shape[0]