ner-kor-roberta_aihub_094_208_90k
ํ๊ตญ์ด ๊ฐ์ฒด๋ช ์ธ์(NER) ๋ชจ๋ธ์ ๋๋ค. KLUE RoBERTa-base๋ฅผ ๋ฐฑ๋ณธ์ผ๋ก, AIHub ํ๊ตญ์ด NER ๋ฐ์ดํฐ์ (์ฝ 90๋ง ๋ฌธ์ฅ)์ผ๋ก ํ์ธํ๋ํ์์ต๋๋ค. spaCy 3.8 + spacy-transformers ํ์ดํ๋ผ์ธ์ผ๋ก ํ์ต๋์์ต๋๋ค.
์ง์ ๋ ์ด๋ธ
| ๋ ์ด๋ธ | ์๋ฏธ | ์์ |
|---|---|---|
PER |
์ธ๋ฌผ (Person) | ์ด์์ , ํ๊ธธ๋ |
ORG |
๊ธฐ๊ดยท์กฐ์ง (Organization) | ์ผ์ฑ์ ์, ๊ตญ๋ฆฝ์ค์๋ฐ๋ฌผ๊ด |
LOC |
์ฅ์ยท์ง๋ช (Location) | ์์ธ, ํ๊ฐ, ์ฌ์ |
ADD |
์ฃผ์ (Address) | ์์ธํน๋ณ์ ๊ฐ๋จ๊ตฌ ํ ํค๋๋ก |
DAT |
๋ ์งยท๊ธฐ๊ฐ (Date) | 2024๋ 1์, ์ง๋์ฃผ |
TIM |
์๊ฐ (Time) | ์คํ 3์, ์๋ฒฝ |
QT |
์๋ยท์์น (Quantity) | 3kg, 100๋ช , 5์ฒ์ |
PHN |
์ ํ๋ฒํธ (Phone) | 010-1234-5678 |
URL |
URLยท์ด๋ฉ์ผ (URL) | www.example.com |
ํ์ต ๋ฐ์ดํฐ ์์
{"text": "๊ด๊ด์ง๋ช 38ํด๋ณ", "entities": [[5, 9, "LOC"]]}
์ฑ๋ฅ (test set, 90,873 ๋ฌธ์ฅ)
| ๋ ์ด๋ธ | Precision | Recall | F1 |
|---|---|---|---|
| ์ ์ฒด | 0.8795 | 0.9312 | 0.9046 |
| ADD | 0.9990 | 0.9997 | 0.9994 |
| PHN | 0.9873 | 0.9915 | 0.9894 |
| URL | 0.9793 | 0.9833 | 0.9813 |
| TIM | 0.9202 | 0.9122 | 0.9162 |
| DAT | 0.8245 | 0.9659 | 0.8896 |
| QT | 0.8147 | 0.9163 | 0.8625 |
| LOC | 0.8182 | 0.8840 | 0.8498 |
| PER | 0.6778 | 0.7847 | 0.7273 |
| ORG | 0.6807 | 0.7338 | 0.7063 |
์ฌ์ฉ๋ฒ
spaCy๋ก ์ง์ ์ฌ์ฉ
import spacy
nlp = spacy.load("๊ฒฝ๋ก/๋๋/๋ชจ๋ธ๋ช
")
doc = nlp("์ด์์ ์ฅ๊ตฐ์ ์ ๋ผ๋ ์ฌ์์์ ์ธ์ ๋ค.")
for ent in doc.ents:
print(ent.text, ent.label_)
# ์ด์์ PER
# ์ ๋ผ๋ LOC
# ์ฌ์์์ LOC
ํ์ต ์ ๋ณด
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ๋ฐฑ๋ณธ ๋ชจ๋ธ | klue/roberta-base |
| ํ๋ ์์ํฌ | spaCy 3.8 + spacy-transformers |
| ํ์ต ๋ฐ์ดํฐ | AIHub ํ๊ตญ์ด NER ๋ฐ์ดํฐ์ |
| ํ์ต ๋ฌธ์ฅ ์ | 726,972 |
| ๊ฒ์ฆ ๋ฌธ์ฅ ์ | 90,871 |
| ํ ์คํธ ๋ฌธ์ฅ ์ | 90,873 |
| ์ด ํ์ต ์คํ | 20,000 |
| ์ตํฐ๋ง์ด์ | Adam (lr=5e-5, warmup 250 steps) |
| Mixed Precision | FP16 (mixed_precision = true) |
| Batch ์ ๋ต | batch_by_padded (size=2000) |
| Gradient ๋์ | 3 subbatch |
๋ชจ๋ธ ํ์ผ ๊ตฌ์กฐ
์ด ๋ชจ๋ธ์ spaCy ํฌ๋งท์ผ๋ก ์ ์ฅ๋์ด ์์ผ๋ฉฐ spacy.load()๋ก ์ง์ ๋ก๋ํ ์ ์์ต๋๋ค.
model-best/
โโโ config.cfg # spaCy ํ์ดํ๋ผ์ธ ์ค์
โโโ meta.json # ๋ชจ๋ธ ๋ฉํ๋ฐ์ดํฐ ๋ฐ ์ฑ๋ฅ ๊ธฐ๋ก
โโโ transformer/ # klue/roberta-base ํ์ธํ๋ ๊ฐ์ค์น (444MB)
โโโ ner/ # NER ์ ์ด ํ์ ๊ฐ์ค์น
โโโ doc_cleaner/ # ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ์ปดํฌ๋ํธ
โโโ vocab/ # ์ดํ ์ฌ์
๋ผ์ด์ ์ค
MIT
- Downloads last month
- -
Model tree for HERIUN/ner-kor-roberta_aihub_094_208_90k
Base model
klue/roberta-baseEvaluation results
- F1 (overall)self-reported0.905
- Precision (overall)self-reported0.879
- Recall (overall)self-reported0.931