IRI2070's picture
Update README.md
bcfa206 verified
---
license: apache-2.0
base_model: IRI2070/fa-address-bert-small-pytorch
tags:
- generated_from_trainer
metrics:
- precision
- recall
- f1
- accuracy
model-index:
- name: fa-address-bert-small-pytorch-finetuned-ner
results: []
language:
- fa
pipeline_tag: token-classification
---
<div dir="rtl">
# 📑 مدل NER اختصاصی برای آدرس‌های فارسی
## 🏛 معرفی
این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است. هدف اصلی از تولید این مدل، تشخیص موجودیت‌های نامدار در آدرس‌های فارسی شامل **مناطق جغرافیایی، معابر و اماکن** است. این مدل برای استفاده در فرآیندهای **استانداردسازی و استخراج اطلاعات مکانی** طراحی شده است.
---
## 📂 داده‌های آموزشی
مدل روی حدود **10,000 آدرس واقعی حاشیه نویسی شده** آموزش دیده است. داده‌ها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و به‌صورت دستی حاشیه نویسی شده‌اند تا موجودیت‌هایی مانند:
- تقسیمات کشوری
- معابر
- اماکن
تشخیص داده شوند.
---
## ⚙️ معماری و پایه مدل
- Base model: [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small)
- Tokenizer: اختصاصی بر اساس آدرس‌های فارسی
- Framework: PyTorch
- Task: Named Entity Recognition (NER)
---
## 🧪 ارزیابی عملکرد
نتایج ارزیابی کارایی مدل روی داده‌های اعتبارسنجی به شرح زیر است:
| معیار | مقدار |
|---------------|-----------|
| Loss | 0.2014 |
| Precision | 0.9304 |
| Recall | 0.9463 |
| F1 Score | 0.9383 |
| Accuracy | 0.9689 |
---
## 🧾 نحوه استفاده
</div>
```python
import spacy
from transformers import pipeline
ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple")
text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴"
hf_entities = ner_pipeline(text)
nlp = spacy.blank("fa")
doc = nlp(text)
spans = []
for ent in hf_entities:
start = ent['start']
end = ent['end']
label = ent['entity_group']
span = doc.char_span(start, end, label=label)
if span:
spans.append(span)
doc.ents = spacy.util.filter_spans(spans)
print(doc.ents)
# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده)
```
<div dir="rtl">
---
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.
</div>