Fa Address BERT
Collection
This collection is a set of proprietary Persian address models developed using government and non-government data.
•
3 items
•
Updated
این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه fa-address-bert-small است. هدف اصلی از تولید این مدل، تشخیص موجودیتهای نامدار در آدرسهای فارسی شامل مناطق جغرافیایی، معابر و اماکن است. این مدل برای استفاده در فرآیندهای استانداردسازی و استخراج اطلاعات مکانی طراحی شده است.
مدل روی حدود 10,000 آدرس واقعی حاشیه نویسی شده آموزش دیده است. دادهها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و بهصورت دستی حاشیه نویسی شدهاند تا موجودیتهایی مانند:
تشخیص داده شوند.
fa-address-bert-smallنتایج ارزیابی کارایی مدل روی دادههای اعتبارسنجی به شرح زیر است:
| معیار | مقدار |
|---|---|
| Loss | 0.2014 |
| Precision | 0.9304 |
| Recall | 0.9463 |
| F1 Score | 0.9383 |
| Accuracy | 0.9689 |
import spacy
from transformers import pipeline
ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple")
text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴"
hf_entities = ner_pipeline(text)
nlp = spacy.blank("fa")
doc = nlp(text)
spans = []
for ent in hf_entities:
start = ent['start']
end = ent['end']
label = ent['entity_group']
span = doc.char_span(start, end, label=label)
if span:
spans.append(span)
doc.ents = spacy.util.filter_spans(spans)
print(doc.ents)
# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده)
© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده توسعه یافته است.