---
license: apache-2.0
base_model: lyeonii/bert-small
tags:
- generated_from_trainer
model-index:
- name: fa-address-bert-small-pytorch-simorgh-v2
results: []
language:
- fa
pipeline_tag: fill-mask
---
# 📑 مدل BERT-Small اختصاصی آدرس های فارسی
## 🏛 معرفی
این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرسها** است.
---
## 📂 دادههای آموزشی
این مدل پایه روی حدود **100 گیگابایت دادهی آدرس پاکسازیشده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
- منابع اطلاعاتی درونسازمانی و برونسازمانی (مطابق ماده 169 مکرر قانون مالیاتهای مستقیم)
- تولید آدرس از دیتاست پروژه **GNAF شرکت پست جمهوری اسلامی ایران** با روش *Random Walk*
- تولید آدرس از گراف **OpenStreetMap** با روش *Random Walk*
جامع بودن و تنوع دادهها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرسهای فارسی** داشته باشد.
---
## ⚙️ معماری مدل
- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)
- تعداد پارامترها: **28.8M**
- توکنایزر: **کاملاً اختصاصی** (طراحیشده بر اساس آدرسهای فارسی)
---
## 🖥 تنظیمات آموزش
مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.
### مشخصات آموزش
- Learning rate: `5e-05`
- Train batch size: `450`
- Eval batch size: `450`
- Optimizer: `Adam`
- Epochs: `11`
- مدت زمان آموزش: ~**35 ساعت**
---
## 🎯 کاربردها
ریز تنظیم کردن و تولید مدلهای جانبی برای:
- **ETL pipelines**: پاکسازی و استانداردسازی آدرسها
- **Record linkage**: تطبیق آدرسها
---
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده** توسعه یافته است.