IRI2070
/

fa-address-bert-small-ner

Token Classification

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

fa-address-bert-small-ner / README.md

IRI2070's picture

Update README.md

bcfa206 verified about 2 months ago

|

history blame contribute delete

3.19 kB

	---
	license: apache-2.0
	base_model: IRI2070/fa-address-bert-small-pytorch
	tags:
	- generated_from_trainer
	metrics:
	- precision
	- recall
	- f1
	- accuracy
	model-index:
	- name: fa-address-bert-small-pytorch-finetuned-ner
	results: []
	language:
	- fa
	pipeline_tag: token-classification
	---

	<div dir="rtl">

	# 📑 مدل NER اختصاصی برای آدرس‌های فارسی

	## 🏛 معرفی
	این مدل محصول جانبی و ریز تنظیم شده شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است. هدف اصلی از تولید این مدل، تشخیص موجودیت‌های نامدار در آدرس‌های فارسی شامل مناطق جغرافیایی، معابر و اماکن است. این مدل برای استفاده در فرآیندهای استانداردسازی و استخراج اطلاعات مکانی طراحی شده است.

	---

	## 📂 داده‌های آموزشی
	مدل روی حدود 10,000 آدرس واقعی حاشیه نویسی شده آموزش دیده است. داده‌ها شامل طیف وسیعی از ساختارهای آدرس واقعی در ایران بوده و به‌صورت دستی حاشیه نویسی شده‌اند تا موجودیت‌هایی مانند:
	- تقسیمات کشوری
	- معابر
	- اماکن

	تشخیص داده شوند.

	---

	## ⚙️ معماری و پایه مدل
	- Base model: [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small)
	- Tokenizer: اختصاصی بر اساس آدرس‌های فارسی
	- Framework: PyTorch
	- Task: Named Entity Recognition (NER)

	---

	## 🧪 ارزیابی عملکرد
	نتایج ارزیابی کارایی مدل روی داده‌های اعتبارسنجی به شرح زیر است:
	\| معیار \| مقدار \|
	\|---------------\|-----------\|
	\| Loss \| 0.2014 \|
	\| Precision \| 0.9304 \|
	\| Recall \| 0.9463 \|
	\| F1 Score \| 0.9383 \|
	\| Accuracy \| 0.9689 \|

	---

	## 🧾 نحوه استفاده

	</div>

	```python
	import spacy
	from transformers import pipeline

	ner_pipeline = pipeline("ner", model="IRI2070/fa-address-bert-small-ner", aggregation_strategy="simple")

	text = "تهران کارون نرسیده به خ آذربایجان جنب بیمارستان شهریار کوچه شهید جاوید زاده پلاک ۲ طبقه ۲ واحد ۴"
	hf_entities = ner_pipeline(text)

	nlp = spacy.blank("fa")
	doc = nlp(text)

	spans = []
	for ent in hf_entities:
	start = ent['start']
	end = ent['end']
	label = ent['entity_group']
	span = doc.char_span(start, end, label=label)
	if span:
	spans.append(span)

	doc.ents = spacy.util.filter_spans(spans)

	print(doc.ents)
	# (تهران, کارون, خ آذربایجان, بیمارستان شهریار, کوچه شهید جاوید زاده)
	```
	<div dir="rtl">

	---

	© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده توسعه یافته است.

	</div>