IRI2070's picture
Update README.md
8d36183 verified
---
license: apache-2.0
base_model: lyeonii/bert-small
tags:
- generated_from_trainer
model-index:
- name: fa-address-bert-small-pytorch-simorgh-v2
results: []
language:
- fa
pipeline_tag: fill-mask
---
<div dir="rtl">
# 📑 مدل BERT-Small اختصاصی آدرس های فارسی
## 🏛 معرفی
این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرس‌ها** است.
---
## 📂 داده‌های آموزشی
این مدل پایه روی حدود **100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
- منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
- تولید آدرس از دیتاست پروژه **GNAF شرکت پست جمهوری اسلامی ایران** با روش *Random Walk*
- تولید آدرس از گراف **OpenStreetMap** با روش *Random Walk*
جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرس‌های فارسی** داشته باشد.
---
## ⚙️ معماری مدل
- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
- تعداد پارامترها: **28.8M**
- توکنایزر: **کاملاً اختصاصی** (طراحی‌شده بر اساس آدرس‌های فارسی)
---
## 🖥 تنظیمات آموزش
مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.
### مشخصات آموزش
- Learning rate: `5e-05`
- Train batch size: `450`
- Eval batch size: `450`
- Optimizer: `Adam`
- Epochs: `11`
- مدت زمان آموزش: ~**35 ساعت**
---
## 🎯 کاربردها
ریز تنظیم کردن و تولید مدل‌های جانبی برای:
- **ETL pipelines**: پاکسازی و استانداردسازی آدرس‌ها
- **Record linkage**: تطبیق آدرس‌ها
---
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.
</div>