joonhan commited on
Commit
df85c06
·
1 Parent(s): 07658e8

add tokenizer

Browse files
added_tokens.json CHANGED
@@ -1 +1 @@
1
- {"맥스트": 32015, "무신사": 32011, "우드매킨지": 32008, "바이오젠": 32000, "끌림벤처스": 32018, "제주맥주": 32001, "큐라클": 32010, "D램익스체인지": 32024, "웅진북센": 32006, "쏘카": 32029, "아이도트": 32012, "휴마시스": 32003, "모더나": 32004, "신한금융지주": 32020, "우드맥킨지": 32007, "핀다": 32027, "픽사": 32025, "파미오": 32009, "이그잭스": 32002, "카뱅": 32022, "야놀자": 32017, "삼성정밀화학": 32014, "GE헬스케어": 32030, "블루런벤처스": 32021, "비보": 32026, "마그나": 32019, "넵튠": 32031, "가우리안": 32013, "한미글로벌": 32016, "휴온스바이오파마": 32028, "보령컨슈머헬스케어": 32023, "삼성바이오로직스": 32005}
 
1
+ {"큐라클": 32010, "셀트리온헬스케어": 32033, "끌림벤처스": 32018, "신한금융지주": 32020, "가우리안": 32013, "핀다": 32027, "휴온스바이오파마": 32028, "보령컨슈머헬스케어": 32023, "에네르마": 32032, "삼성정밀화학": 32014, "제주맥주": 32001, "넥센타이어": 32035, "바이오젠": 32000, "삼성바이오로직스": 32005, "픽사": 32025, "카뱅": 32022, "블루런벤처스": 32021, "비보": 32026, "이그잭스": 32002, "웅진북센": 32006, "쏘카": 32029, "우드매킨지": 32008, "마그나": 32019, "무신사": 32011, "D램익스체인지": 32024, "게이트비전": 32034, "파미오": 32009, "모더나": 32004, "GE헬스케어": 32030, "넵튠": 32031, "한미글로벌": 32016, "휴마시스": 32003, "우드맥킨지": 32007, "야놀자": 32017, "맥스트": 32015, "아이도트": 32012}
special_tokens_map.json CHANGED
@@ -1 +1 @@
1
- {"bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "additional_special_tokens": ["바이오젠", "제주맥주", "이그잭스", "휴마시스", "모더나", "삼성바이오로직스", "웅진북센", "우드맥킨지", "우드매킨지", "파미오", "큐라클", "무신사", "아이도트", "가우리안", "삼성정밀화학", "맥스트", "삼성전기", "교보문고", "한미글로벌", "야놀자", "끌림벤처스", "마그나", "신한금융지주", "블루런벤처스", "카뱅", "보령컨슈머헬스케어", "D램익스체인지", "픽사", "비보", "핀다", "휴온스바이오파마", "쏘카", "GE헬스케어", "넵튠"]}
 
1
+ {"bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "additional_special_tokens": ["바이오젠", "제주맥주", "이그잭스", "휴마시스", "모더나", "삼성바이오로직스", "웅진북센", "우드맥킨지", "우드매킨지", "파미오", "큐라클", "무신사", "아이도트", "가우리안", "삼성정밀화학", "맥스트", "삼성전기", "교보문고", "한미글로벌", "야놀자", "끌림벤처스", "마그나", "신한금융지주", "블루런벤처스", "카뱅", "보령컨슈머헬스케어", "D램익스체인지", "픽사", "비보", "핀다", "휴온스바이오파마", "쏘카", "GE헬스케어", "넵튠", "에네르마", "셀트리온헬스케어", "게이트비전", "넥센타이어"]}
tokenizer.json CHANGED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json CHANGED
@@ -1 +1 @@
1
- {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "do_basic_tokenize": true, "never_split": null, "bos_token": "[CLS]", "eos_token": "[SEP]", "model_max_length": 512, "additional_special_tokens": ["바이오젠", "제주맥주", "이그잭스", "휴마시스", "모더나", "삼성바이오로직스", "웅진북센", "우드맥킨지", "우드매킨지", "파미오", "큐라클", "무신사", "아이도트", "가우리안", "삼성정밀화학", "맥스트", "삼성전기", "교보문고", "한미글로벌", "야놀자", "끌림벤처스", "마그나", "신한금융지주", "블루런벤처스", "카뱅", "보령컨슈머헬스케어", "D램익스체인지", "픽사", "비보", "핀다", "휴온스바이오파마", "쏘카", "GE헬스케어", "넵튠"], "special_tokens_map_file": "/home/roa/.cache/huggingface/transformers/1a24ab4628028ed80dea35ce3334a636dc656fd9a17a09bad377f88f0cbecdac.70c17d6e4d492c8f24f5bb97ab56c7f272e947112c6faf9dd846da42ba13eb23", "name_or_path": "klue/roberta-large", "tokenizer_class": "BertTokenizer"}
 
1
+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "do_basic_tokenize": true, "never_split": null, "bos_token": "[CLS]", "eos_token": "[SEP]", "model_max_length": 512, "additional_special_tokens": ["바이오젠", "제주맥주", "이그잭스", "휴마시스", "모더나", "삼성바이오로직스", "웅진북센", "우드맥킨지", "우드매킨지", "파미오", "큐라클", "무신사", "아이도트", "가우리안", "삼성정밀화학", "맥스트", "삼성전기", "교보문고", "한미글로벌", "야놀자", "끌림벤처스", "마그나", "신한금융지주", "블루런벤처스", "카뱅", "보령컨슈머헬스케어", "D램익스체인지", "픽사", "비보", "핀다", "휴온스바이오파마", "쏘카", "GE헬스케어", "넵튠", "에네르마", "셀트리온헬스케어", "게이트비전", "넥센타이어"], "special_tokens_map_file": "/home/roa/.cache/huggingface/transformers/1a24ab4628028ed80dea35ce3334a636dc656fd9a17a09bad377f88f0cbecdac.70c17d6e4d492c8f24f5bb97ab56c7f272e947112c6faf9dd846da42ba13eb23", "name_or_path": "klue/roberta-large", "tokenizer_class": "BertTokenizer"}