metadata
license: apache-2.0
base_model: IRI2070/fa-address-bert-small-pytorch
tags:
- generated_from_trainer
metrics:
- precision
- recall
- f1
- accuracy
model-index:
- name: fa-address-bert-small-pytorch-finetuned-ner
results: []
language:
- fa
pipeline_tag: token-classification
📑 مدل NER اختصاصی برای آدرسهای فارسی
🏛 معرفی
این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه fa-address-bert-small است. هدف اصلی از تولید این مدل، تشخیص موجودیتهای نامدار در آدرسهای فارسی شامل مناطق جغرافیایی، معابر و اماکن است. این مدل برای استفاده در فرآیندهای استانداردسازی و استخراج اطلاعات مکانی طراحی شده است.
📂 دادههای آموزشی
مدل روی حدود 10,000 آدرس واقعی حاشیه نویسی شده آموزش دیده است. دادهها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و بهصورت دستی حاشیه نویسی شدهاند تا موجودیتهایی مانند:
- تقسیمات کشوری
- معابر
- اماکن
تشخیص داده شوند.
⚙️ معماری و پایه مدل
- Base model:
fa-address-bert-small - Tokenizer: اختصاصی بر اساس آدرسهای فارسی
- Framework: PyTorch
- Task: Named Entity Recognition (NER)
🧪 ارزیابی عملکرد
نتایج ارزیابی کارایی مدل روی دادههای اعتبارسنجی به شرح زیر است:
| معیار | مقدار |
|---|---|
| Loss | 0.2014 |
| Precision | 0.9304 |
| Recall | 0.9463 |
| F1 Score | 0.9383 |
| Accuracy | 0.9689 |
🧾 نحوه استفاده
import spacy
from transformers import pipeline
ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple")
text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴"
hf_entities = ner_pipeline(text)
nlp = spacy.blank("fa")
doc = nlp(text)
spans = []
for ent in hf_entities:
start = ent['start']
end = ent['end']
label = ent['entity_group']
span = doc.char_span(start, end, label=label)
if span:
spans.append(span)
doc.ents = spacy.util.filter_spans(spans)
print(doc.ents)
# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده)
© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده توسعه یافته است.