IRI2070's picture
Update README.md
bcfa206 verified
metadata
license: apache-2.0
base_model: IRI2070/fa-address-bert-small-pytorch
tags:
  - generated_from_trainer
metrics:
  - precision
  - recall
  - f1
  - accuracy
model-index:
  - name: fa-address-bert-small-pytorch-finetuned-ner
    results: []
language:
  - fa
pipeline_tag: token-classification

📑 مدل NER اختصاصی برای آدرس‌های فارسی

🏛 معرفی

این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه fa-address-bert-small است. هدف اصلی از تولید این مدل، تشخیص موجودیت‌های نامدار در آدرس‌های فارسی شامل مناطق جغرافیایی، معابر و اماکن است. این مدل برای استفاده در فرآیندهای استانداردسازی و استخراج اطلاعات مکانی طراحی شده است.


📂 داده‌های آموزشی

مدل روی حدود 10,000 آدرس واقعی حاشیه نویسی شده آموزش دیده است. داده‌ها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و به‌صورت دستی حاشیه نویسی شده‌اند تا موجودیت‌هایی مانند:

  • تقسیمات کشوری
  • معابر
  • اماکن

تشخیص داده شوند.


⚙️ معماری و پایه مدل

  • Base model: fa-address-bert-small
  • Tokenizer: اختصاصی بر اساس آدرس‌های فارسی
  • Framework: PyTorch
  • Task: Named Entity Recognition (NER)

🧪 ارزیابی عملکرد

نتایج ارزیابی کارایی مدل روی داده‌های اعتبارسنجی به شرح زیر است:

معیار مقدار
Loss 0.2014
Precision 0.9304
Recall 0.9463
F1 Score 0.9383
Accuracy 0.9689

🧾 نحوه استفاده

import spacy
from transformers import pipeline

ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple")

text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴"
hf_entities = ner_pipeline(text)

nlp = spacy.blank("fa")
doc = nlp(text)

spans = []
for ent in hf_entities:
    start = ent['start']
    end = ent['end']
    label = ent['entity_group']
    span = doc.char_span(start, end, label=label)
    if span:
        spans.append(span)

doc.ents = spacy.util.filter_spans(spans)

print(doc.ents)
# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده)

© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده توسعه یافته است.