---
license: apache-2.0
base_model: lyeonii/bert-small
tags:
- generated_from_trainer
model-index:
- name: fa-address-bert-small-pytorch-simorgh-v2
  results: []
language:
- fa
pipeline_tag: fill-mask
---

<div dir="rtl">

# 📑 مدل BERT-Small اختصاصی آدرس های فارسی

## 🏛 معرفی
این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرس‌ها** است.

---

## 📂 داده‌های آموزشی
این مدل پایه روی حدود **100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند:
- منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
- تولید آدرس از دیتاست پروژه **GNAF شرکت پست جمهوری اسلامی ایران** با روش *Random Walk*  
- تولید آدرس از گراف **OpenStreetMap** با روش *Random Walk*  

جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرس‌های فارسی** داشته باشد.

---

## ⚙️ معماری مدل
- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small)  
- تعداد پارامترها: **28.8M**  
- توکنایزر: **کاملاً اختصاصی** (طراحی‌شده بر اساس آدرس‌های فارسی)  

---

## 🖥 تنظیمات آموزش
مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است.  

### مشخصات آموزش
- Learning rate: `5e-05`  
- Train batch size: `450`  
- Eval batch size: `450`  
- Optimizer: `Adam`  
- Epochs: `11`  
- مدت زمان آموزش: ~**35 ساعت**  

---

## 🎯 کاربردها
ریز تنظیم کردن و تولید مدل‌های جانبی برای:
- **ETL pipelines**: پاکسازی و استانداردسازی آدرس‌ها
- **Record linkage**: تطبیق آدرس‌ها

---

© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.

</div>