lamarr-llm-development
/

elbedding

@@ -14,7 +14,7 @@ For more technical details, refer to our paper: ...
 - Maximum context length: 512
 - Embedding Dimension: 4096
-# How to use?
 ```python
 from typing import List
@@ -46,31 +46,35 @@ def pool(last_hidden_state: torch.Tensor, attention_mask: torch.Tensor, do_norma
     return embeddings
-model = AutoModel.from_pretrained(pretrained_model_name_or_path="lamarr-llm-development/elbembedding", trust_remote_code=True, token=xxx)
-tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="lamarr-llm-development/elbembedding", trust_remote_code=True, token=xxx)
 model = model.to("cuda")
-queries = [
-  "Wer war der erste Bundeskanzler der Bundesrepublik Deutschland?",
-  "Welche deutsche Stadt ist für ihre Bratwürste bekannt?"
-]
-queries = get_detailed_instruct(queries)
-queries_inputs = tokenize(sentences=queries, tokenizer=tokenizer)
-queries_outputs = model(**queries_inputs)
-queries_embs = pool(last_hidden_state=queries_outputs.last_hidden_state, attention_mask=queries_inputs.attention_mask)
-passages = [
-  "Konrad Adenauer (geboren am 5. Januar 1876 in Köln; gestorben am 19. April 1967 in Rhöndorf) war ein deutscher Politiker und der erste Bundeskanzler der Bundesrepublik Deutschland von 1949 bis 1963. Er war einer der Gründerväter der Bundesrepublik von Deutschland und spielte eine Schlüsselrolle beim Wiederaufbau nach dem Zweiten Weltkrieg.",
-  "Nürnberg ist eine Stadt im deutschen Bundesland Bayern. Es ist bekannt für seine historische Altstadt, mittelalterliche Befestigungsanlagen und seinen jährlichen Weihnachtsmarkt. Nürnberg ist auch für seine Bratwurst bekannt, eine Wurstsorte, die in Deutschland ein beliebtes Streetfood ist."
-]
-passages_inputs = tokenize(sentences=passages, tokenizer=tokenizer)
-passages_outputs = model(**passages_inputs)
-passages_embs = pool(last_hidden_state=passages_outputs.last_hidden_state, attention_mask=passages_inputs.attention_mask)
-scores = (queries_embs @ passages_embs.T) * 100
-print(scores.tolist())
 ```
 ## Supported Languages
 ...

 - Maximum context length: 512
 - Embedding Dimension: 4096
+# How to use with Transformers?
 ```python
 from typing import List
     return embeddings
+model = AutoModel.from_pretrained(pretrained_model_name_or_path="lamarr-llm-development/elbedding", trust_remote_code=True)
+tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="lamarr-llm-development/elbedding", trust_remote_code=True)
 model = model.to("cuda")
+sentences = ["Hi how are you doing?"]
+# sentences = get_detailed_instruct(sentences) # if the sentence is a query
+sentences_inputs = tokenize(sentences=sentences, tokenizer=tokenizer)
+sentences_outputs = model(**sentences_inputs)
+embeddings = pool(
+    last_hidden_state=sentences_outputs.last_hidden_state,
+    attention_mask=sentences_inputs.attention_mask,
+)
+print(embeddings)
 ```
+# How to use with Sentence Transformers?
+```python
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("lamarr-llm-development/elbedding", trust_remote_code=True)
+# sentences = get_detailed_instruct(sentences) # if the sentence is a query
+sentences = ["Hi how are you doing?"]
+embeddings = model.encode(sentences=sentences, normalize_embeddings=True)
+print(embeddings)
+```
 ## Supported Languages
 ...