bongsoo
/

mbertV2.0

Fill-Mask

Transformers

PyTorch

bert

Model card Files Files and versions

xet

Community

bongsoo commited on Sep 16, 2022

Commit

1f14af8

1 Parent(s): b3de27a

Update README.md

Browse files

Files changed (1) hide show

README.md +54 -1

README.md CHANGED Viewed

@@ -13,6 +13,56 @@ tags:
 - **vocab: 152,537개**(기존 bert 모델 vocab(119,548개)에 32,989개 vocab 추가)
 ## Usage (HuggingFace Transformers)
 - 평균 폴링(mean_pooling) 방식 사용. ([cls 폴링](https://huggingface.co/sentence-transformers/bert-base-nli-cls-token), [max 폴링](https://huggingface.co/sentence-transformers/bert-base-nli-max-tokens))
 ```python
@@ -54,7 +104,10 @@ cosine_scores = 1 - (paired_cosine_distances(sentence_embeddings[0].reshape(1,-1
 print(f'*cosine_score:{cosine_scores[0]}')
 ```
 ## Training
 **MLM(Masked Langeuage Model) 훈련**

 - **vocab: 152,537개**(기존 bert 모델 vocab(119,548개)에 32,989개 vocab 추가)
 ## Usage (HuggingFace Transformers)
+### 1. MASK 예시
+```python
+from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
+import torch
+import torch.nn.functional as F
+tokenizer = AutoTokenizer.from_pretrained('bongsoo/mbertV2.0', do_lower_case=False)
+model = BertForMaskedLM.from_pretrained('bongsoo/mbertV2.0')
+text = ['한국의 수도는 [MASK] 이다', '에펠탑은 [MASK]에 있다', '충무공 이순신은 [MASK]에 최고의 장수였다']
+tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
+outputs = model(**tokenized_input)
+logits = outputs.logits
+mask_idx_list = []
+for tokens in tokenized_input['input_ids'].tolist():
+    token_str = [tokenizer.convert_ids_to_tokens(s) for s in tokens]
+    # **위 token_str리스트에서 [MASK] 인덱스를 구함
+    # => **해당 [MASK] 안덱스 값 mask_idx 에서는 아래 출력하는데 사용됨
+    mask_idx = token_str.index('[MASK]')
+    mask_idx_list.append(mask_idx)
+for idx, mask_idx in enumerate(mask_idx_list):
+    logits_pred=torch.argmax(F.softmax(logits[idx]), dim=1)
+    mask_logits_idx = int(logits_pred[mask_idx])
+    # [MASK]에 해당하는 token 구함
+    mask_logits_token = tokenizer.convert_ids_to_tokens(mask_logits_idx)
+    # 결과 출력
+    print('\n')
+    print('*Input: {}'.format(text[idx]))
+    print('*[MASK] : {} ({})'.format(mask_logits_token, mask_logits_idx))
+```
+- 결과
+```
+*Input: 한국의 수도는 [MASK] 이다
+*[MASK] : 서울 (48253)
+*Input: 에펠탑은 [MASK]에 있다
+*[MASK] : 런던 (120350)
+*Input: 충무공 이순신은 [MASK]에 최고의 장수였다
+*[MASK] : 조선 (59906)
+```
+### 2. 임베딩 예시
 - 평균 폴링(mean_pooling) 방식 사용. ([cls 폴링](https://huggingface.co/sentence-transformers/bert-base-nli-cls-token), [max 폴링](https://huggingface.co/sentence-transformers/bert-base-nli-max-tokens))
 ```python
 print(f'*cosine_score:{cosine_scores[0]}')
 ```
+- 결과
+```
+*cosine_score:0.5596463680267334
+```
 ## Training
 **MLM(Masked Langeuage Model) 훈련**