IRI2070
/

fa-address-bert-small

Generated from Trainer

Model card Files Files and versions

fa-address-bert-small / README.md

IRI2070's picture

Update README.md

8d36183 verified about 2 months ago

|

history blame contribute delete

2.72 kB

	---
	license: apache-2.0
	base_model: lyeonii/bert-small
	tags:
	- generated_from_trainer
	model-index:
	- name: fa-address-bert-small-pytorch-simorgh-v2
	results: []
	language:
	- fa
	pipeline_tag: fill-mask
	---

	<div dir="rtl">

	# 📑 مدل BERT-Small اختصاصی آدرس های فارسی

	## 🏛 معرفی
	این مدل یک نسخه از BERT-Small (28.8M پارامتر) است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف پاکسازی، استانداردسازی و تطبیق آدرس‌ها است.

	---

	## 📂 داده‌های آموزشی
	این مدل پایه روی حدود 100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی آموزش دیده است که از منابع زیر جمع آوری شدند:
	- منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
	- تولید آدرس از دیتاست پروژه GNAF شرکت پست جمهوری اسلامی ایران با روش Random Walk
	- تولید آدرس از گراف OpenStreetMap با روش Random Walk

	جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در درک ساختار آدرس‌های فارسی داشته باشد.

	---

	## ⚙️ معماری مدل
	- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
	- تعداد پارامترها: 28.8M
	- توکنایزر: کاملاً اختصاصی (طراحی‌شده بر اساس آدرس‌های فارسی)

	---

	## 🖥 تنظیمات آموزش
	مدل روی ابررایانه سیمرغ ([Simorgh Cloud](https://simorgh.cloud)) با GPU NVIDIA A100 (40GB) آموزش داده شده است.

	### مشخصات آموزش
	- Learning rate: `5e-05`
	- Train batch size: `450`
	- Eval batch size: `450`
	- Optimizer: `Adam`
	- Epochs: `11`
	- مدت زمان آموزش: ~35 ساعت

	---

	## 🎯 کاربردها
	ریز تنظیم کردن و تولید مدل‌های جانبی برای:
	- ETL pipelines: پاکسازی و استانداردسازی آدرس‌ها
	- Record linkage: تطبیق آدرس‌ها

	---

	© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده توسعه یافته است.

	</div>