fa-address-bert-small-ner / README.md

IRI2070

Update README.md

bcfa206 verified about 1 month ago

preview code

raw

history blame contribute delete

3.19 kB

metadata

license: apache-2.0
base_model: IRI2070/fa-address-bert-small-pytorch
tags:
  - generated_from_trainer
metrics:
  - precision
  - recall
  - f1
  - accuracy
model-index:
  - name: fa-address-bert-small-pytorch-finetuned-ner
    results: []
language:
  - fa
pipeline_tag: token-classification

📑 مدل NER اختصاصی برای آدرس‌های فارسی

🏛 معرفی

این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه fa-address-bert-small است. هدف اصلی از تولید این مدل، تشخیص موجودیت‌های نامدار در آدرس‌های فارسی شامل مناطق جغرافیایی، معابر و اماکن است. این مدل برای استفاده در فرآیندهای استانداردسازی و استخراج اطلاعات مکانی طراحی شده است.

📂 داده‌های آموزشی

مدل روی حدود 10,000 آدرس واقعی حاشیه نویسی شده آموزش دیده است. داده‌ها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و به‌صورت دستی حاشیه نویسی شده‌اند تا موجودیت‌هایی مانند:

تقسیمات کشوری
معابر
اماکن

تشخیص داده شوند.

⚙️ معماری و پایه مدل

Base model: fa-address-bert-small
Tokenizer: اختصاصی بر اساس آدرس‌های فارسی
Framework: PyTorch
Task: Named Entity Recognition (NER)

🧪 ارزیابی عملکرد

نتایج ارزیابی کارایی مدل روی داده‌های اعتبارسنجی به شرح زیر است:

معیار	مقدار
Loss	0.2014
Precision	0.9304
Recall	0.9463
F1 Score	0.9383
Accuracy	0.9689

🧾 نحوه استفاده

import spacy
from transformers import pipeline

ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple")

text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴"
hf_entities = ner_pipeline(text)

nlp = spacy.blank("fa")
doc = nlp(text)

spans = []
for ent in hf_entities:
    start = ent['start']
    end = ent['end']
    label = ent['entity_group']
    span = doc.char_span(start, end, label=label)
    if span:
        spans.append(span)

doc.ents = spacy.util.filter_spans(spans)

print(doc.ents)
# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده)