Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

config.json +30 -0
model.safetensors +3 -0
modeling_simcse.py +48 -0
special_tokens_map.json +7 -0
tokenizer_config.json +64 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "DualEncoderSimCSEModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "input_encoder_name": "tohoku-nlp/bert-base-japanese-v3",
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_encoder_name": "tohoku-nlp/bert-base-japanese-v3",
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "simcse_temperature": 0.05,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32768,
+  "auto_map": {
+    "AutoModel": "modeling_simcse.SimCSEInferenceModel"
+  }
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63fecadbccad33f96a05ca8f8eb94e50e6a8f397d8ae2b83fc2d2fa9257be24a
+size 894432952

modeling_simcse.py ADDED Viewed

	@@ -0,0 +1,48 @@

+from __future__ import annotations
+from transformers import (
+    BertModel,
+    BertConfig,
+    PreTrainedModel,
+)
+from transformers.tokenization_utils_base import BatchEncoding
+import torch, torch.nn as nn, torch.nn.functional as F
+class SimCSEInferenceModel(PreTrainedModel):
+    config_class = BertConfig          # 推論時は BERT Config と合わせる
+    def __init__(self, config):
+        super().__init__(config)
+        # 追加ダウンロードを避けるため from_config で空モデルを組み立てる
+        base_cfg = BertConfig(**config.to_dict())
+        self.encoder_input  = BertModel(base_cfg)
+        self.encoder_output = BertModel(base_cfg)
+        hidden = self.encoder_input.config.hidden_size
+        self.dense_input  = nn.Linear(hidden, hidden)
+        self.dense_output = nn.Linear(hidden, hidden)
+        self.activation   = nn.Tanh()
+        self.temperature  = getattr(config, "simcse_temperature", 0.05)
+    @torch.no_grad()
+    def encode_input(self, tok: BatchEncoding) -> torch.Tensor:
+        h = self.encoder_input(**tok).last_hidden_state[:, 0]
+        return self.activation(self.dense_input(h))
+    @torch.no_grad()
+    def encode_output(self, tok: BatchEncoding) -> torch.Tensor:
+        h = self.encoder_output(**tok).last_hidden_state[:, 0]
+        return self.activation(self.dense_output(h))
+    def forward(
+        self,
+        tokenized_texts_1: BatchEncoding,
+        tokenized_texts_2: BatchEncoding,
+        labels: torch.Tensor,
+        **_
+    ):
+        device = next(self.parameters()).device
+        z1 = F.normalize(self.encode_input(tokenized_texts_1.to(device)), dim=-1)
+        z2 = F.normalize(self.encode_output(tokenized_texts_2.to(device)), dim=-1)
+        sim = torch.matmul(z1, z2.T)
+        loss = F.cross_entropy(sim / self.temperature, labels.to(device))
+        return {"loss": loss, "logits": sim}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "do_subword_tokenize": true,
+  "do_word_tokenize": true,
+  "extra_special_tokens": {},
+  "jumanpp_kwargs": null,
+  "mask_token": "[MASK]",
+  "mecab_kwargs": {
+    "mecab_dic": "unidic_lite"
+  },
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "subword_tokenizer_type": "wordpiece",
+  "sudachi_kwargs": null,
+  "tokenizer_class": "BertJapaneseTokenizer",
+  "unk_token": "[UNK]",
+  "word_tokenizer_type": "mecab"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff