bongsoo
/

bert-base-kor-v1

Model card Files Files and versions

bongsoo commited on Dec 8, 2022

Commit

7314ec3

·

1 Parent(s): 4339fff

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ tags:
 widget:
   - text: 한국 수도는 [MASK] 입니다.
 ---
-# Bert-base-kor-v1
 - Bert-base 한국어 scratch 모델
 - [ai_hub 웹데이터 기반 한국어 말뭉치 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=624) (약 52M Text) 말뭉치로 NSP, MLM  훈련시킨 모델
 - vocab: 30,022개 (BertTokenizer)
@@ -20,8 +20,8 @@ widget:
 from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
 import torch
 import torch.nn.functional as F
-tokenizer = AutoTokenizer.from_pretrained('bongsoo/Bert-base-kor-v1', do_lower_case=False)
-model = BertForMaskedLM.from_pretrained('bongsoo/Bert-base-kor-v1')
 text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
 tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
 outputs = model(**tokenized_input)

 widget:
   - text: 한국 수도는 [MASK] 입니다.
 ---
+# bert-base-kor-v1
 - Bert-base 한국어 scratch 모델
 - [ai_hub 웹데이터 기반 한국어 말뭉치 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=624) (약 52M Text) 말뭉치로 NSP, MLM  훈련시킨 모델
 - vocab: 30,022개 (BertTokenizer)
 from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
 import torch
 import torch.nn.functional as F
+tokenizer = AutoTokenizer.from_pretrained('bongsoo/bert-base-kor-v1', do_lower_case=False)
+model = BertForMaskedLM.from_pretrained('bongsoo/bert-base-kor-v1')
 text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
 tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
 outputs = model(**tokenized_input)