bongsoo commited on
Commit
7314ec3
·
1 Parent(s): 4339fff

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -3
README.md CHANGED
@@ -9,7 +9,7 @@ tags:
9
  widget:
10
  - text: 한국 수도는 [MASK] 입니다.
11
  ---
12
- # Bert-base-kor-v1
13
  - Bert-base 한국어 scratch 모델
14
  - [ai_hub 웹데이터 기반 한국어 말뭉치 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=624) (약 52M Text) 말뭉치로 NSP, MLM 훈련시킨 모델
15
  - vocab: 30,022개 (BertTokenizer)
@@ -20,8 +20,8 @@ widget:
20
  from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
21
  import torch
22
  import torch.nn.functional as F
23
- tokenizer = AutoTokenizer.from_pretrained('bongsoo/Bert-base-kor-v1', do_lower_case=False)
24
- model = BertForMaskedLM.from_pretrained('bongsoo/Bert-base-kor-v1')
25
  text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
26
  tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
27
  outputs = model(**tokenized_input)
 
9
  widget:
10
  - text: 한국 수도는 [MASK] 입니다.
11
  ---
12
+ # bert-base-kor-v1
13
  - Bert-base 한국어 scratch 모델
14
  - [ai_hub 웹데이터 기반 한국어 말뭉치 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=624) (약 52M Text) 말뭉치로 NSP, MLM 훈련시킨 모델
15
  - vocab: 30,022개 (BertTokenizer)
 
20
  from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
21
  import torch
22
  import torch.nn.functional as F
23
+ tokenizer = AutoTokenizer.from_pretrained('bongsoo/bert-base-kor-v1', do_lower_case=False)
24
+ model = BertForMaskedLM.from_pretrained('bongsoo/bert-base-kor-v1')
25
  text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
26
  tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
27
  outputs = model(**tokenized_input)