p0x0q-dev
/

bge-m3-sparse-experimental

Sentence Similarity

sentence-transformers

feature-extraction

text-embeddings-inference

Model card Files Files and versions

p0x0q commited on Sep 14, 2024

Commit

cb9cb86

·

1 Parent(s): ac38f7f

feat: テキストのスパースエンコーディングを追加

Files changed (1) hide show

sample-encoding-sparse.py +25 -0

sample-encoding-sparse.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import torch
+import torch.nn as nn
+from transformers import AutoModel, AutoTokenizer
+model_name = "."
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# マージされたモデルのロード
+merged_model = AutoModel.from_pretrained(model_name)
+merged_model.load_state_dict(torch.load("merged_pytorch_model.bin"))
+# テキストのエンコード
+def encode_text(text):
+    inputs = tokenizer(text, return_tensors="pt")
+    outputs = merged_model(**inputs)
+    dense_embeddings = outputs.last_hidden_state
+    # Sparseベクトルへの変換
+    sparse_embeddings = merged_model.sparse_linear(dense_embeddings)
+    return dense_embeddings
+# テキストのエンコード例
+text = "こんにちは"
+sparse_embeddings = encode_text(text)
+print(sparse_embeddings)