Update README.md
Browse files
README.md
CHANGED
|
@@ -9,7 +9,7 @@ tags:
|
|
| 9 |
widget:
|
| 10 |
- text: 한국 수도는 [MASK] 입니다.
|
| 11 |
---
|
| 12 |
-
#
|
| 13 |
- Bert-base 한국어 scratch 모델
|
| 14 |
- [ai_hub 웹데이터 기반 한국어 말뭉치 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=624) (약 52M Text) 말뭉치로 NSP, MLM 훈련시킨 모델
|
| 15 |
- vocab: 30,022개 (BertTokenizer)
|
|
@@ -20,8 +20,8 @@ widget:
|
|
| 20 |
from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
|
| 21 |
import torch
|
| 22 |
import torch.nn.functional as F
|
| 23 |
-
tokenizer = AutoTokenizer.from_pretrained('bongsoo/
|
| 24 |
-
model = BertForMaskedLM.from_pretrained('bongsoo/
|
| 25 |
text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
|
| 26 |
tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
|
| 27 |
outputs = model(**tokenized_input)
|
|
|
|
| 9 |
widget:
|
| 10 |
- text: 한국 수도는 [MASK] 입니다.
|
| 11 |
---
|
| 12 |
+
# bert-base-kor-v1
|
| 13 |
- Bert-base 한국어 scratch 모델
|
| 14 |
- [ai_hub 웹데이터 기반 한국어 말뭉치 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=624) (약 52M Text) 말뭉치로 NSP, MLM 훈련시킨 모델
|
| 15 |
- vocab: 30,022개 (BertTokenizer)
|
|
|
|
| 20 |
from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
|
| 21 |
import torch
|
| 22 |
import torch.nn.functional as F
|
| 23 |
+
tokenizer = AutoTokenizer.from_pretrained('bongsoo/bert-base-kor-v1', do_lower_case=False)
|
| 24 |
+
model = BertForMaskedLM.from_pretrained('bongsoo/bert-base-kor-v1')
|
| 25 |
text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
|
| 26 |
tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
|
| 27 |
outputs = model(**tokenized_input)
|