|
|
--- |
|
|
license: apache-2.0 |
|
|
base_model: IRI2070/fa-address-bert-small-pytorch |
|
|
tags: |
|
|
- generated_from_trainer |
|
|
metrics: |
|
|
- precision |
|
|
- recall |
|
|
- f1 |
|
|
- accuracy |
|
|
model-index: |
|
|
- name: fa-address-bert-small-pytorch-finetuned-ner |
|
|
results: [] |
|
|
language: |
|
|
- fa |
|
|
pipeline_tag: token-classification |
|
|
--- |
|
|
|
|
|
<div dir="rtl"> |
|
|
|
|
|
# 📑 مدل NER اختصاصی برای آدرسهای فارسی |
|
|
|
|
|
## 🏛 معرفی |
|
|
این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است. هدف اصلی از تولید این مدل، تشخیص موجودیتهای نامدار در آدرسهای فارسی شامل **مناطق جغرافیایی، معابر و اماکن** است. این مدل برای استفاده در فرآیندهای **استانداردسازی و استخراج اطلاعات مکانی** طراحی شده است. |
|
|
|
|
|
--- |
|
|
|
|
|
## 📂 دادههای آموزشی |
|
|
مدل روی حدود **10,000 آدرس واقعی حاشیه نویسی شده** آموزش دیده است. دادهها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و بهصورت دستی حاشیه نویسی شدهاند تا موجودیتهایی مانند: |
|
|
- تقسیمات کشوری |
|
|
- معابر |
|
|
- اماکن |
|
|
|
|
|
تشخیص داده شوند. |
|
|
|
|
|
--- |
|
|
|
|
|
## ⚙️ معماری و پایه مدل |
|
|
- Base model: [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) |
|
|
- Tokenizer: اختصاصی بر اساس آدرسهای فارسی |
|
|
- Framework: PyTorch |
|
|
- Task: Named Entity Recognition (NER) |
|
|
|
|
|
--- |
|
|
|
|
|
## 🧪 ارزیابی عملکرد |
|
|
نتایج ارزیابی کارایی مدل روی دادههای اعتبارسنجی به شرح زیر است: |
|
|
| معیار | مقدار | |
|
|
|---------------|-----------| |
|
|
| Loss | 0.2014 | |
|
|
| Precision | 0.9304 | |
|
|
| Recall | 0.9463 | |
|
|
| F1 Score | 0.9383 | |
|
|
| Accuracy | 0.9689 | |
|
|
|
|
|
--- |
|
|
|
|
|
## 🧾 نحوه استفاده |
|
|
|
|
|
</div> |
|
|
|
|
|
```python |
|
|
import spacy |
|
|
from transformers import pipeline |
|
|
|
|
|
ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple") |
|
|
|
|
|
text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴" |
|
|
hf_entities = ner_pipeline(text) |
|
|
|
|
|
nlp = spacy.blank("fa") |
|
|
doc = nlp(text) |
|
|
|
|
|
spans = [] |
|
|
for ent in hf_entities: |
|
|
start = ent['start'] |
|
|
end = ent['end'] |
|
|
label = ent['entity_group'] |
|
|
span = doc.char_span(start, end, label=label) |
|
|
if span: |
|
|
spans.append(span) |
|
|
|
|
|
doc.ents = spacy.util.filter_spans(spans) |
|
|
|
|
|
print(doc.ents) |
|
|
# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده) |
|
|
``` |
|
|
<div dir="rtl"> |
|
|
|
|
|
--- |
|
|
|
|
|
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده** توسعه یافته است. |
|
|
|
|
|
</div> |