|
|
--- |
|
|
license: apache-2.0 |
|
|
base_model: lyeonii/bert-small |
|
|
tags: |
|
|
- generated_from_trainer |
|
|
model-index: |
|
|
- name: fa-address-bert-small-pytorch-simorgh-v2 |
|
|
results: [] |
|
|
language: |
|
|
- fa |
|
|
pipeline_tag: fill-mask |
|
|
--- |
|
|
|
|
|
<div dir="rtl"> |
|
|
|
|
|
# 📑 مدل BERT-Small اختصاصی آدرس های فارسی |
|
|
|
|
|
## 🏛 معرفی |
|
|
این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرسها** است. |
|
|
|
|
|
--- |
|
|
|
|
|
## 📂 دادههای آموزشی |
|
|
این مدل پایه روی حدود **100 گیگابایت دادهی آدرس پاکسازیشده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند: |
|
|
- منابع اطلاعاتی درونسازمانی و برونسازمانی (مطابق ماده 169 مکرر قانون مالیاتهای مستقیم) |
|
|
- تولید آدرس از دیتاست پروژه **GNAF شرکت پست جمهوری اسلامی ایران** با روش *Random Walk* |
|
|
- تولید آدرس از گراف **OpenStreetMap** با روش *Random Walk* |
|
|
|
|
|
جامع بودن و تنوع دادهها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرسهای فارسی** داشته باشد. |
|
|
|
|
|
--- |
|
|
|
|
|
## ⚙️ معماری مدل |
|
|
- معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small) |
|
|
- تعداد پارامترها: **28.8M** |
|
|
- توکنایزر: **کاملاً اختصاصی** (طراحیشده بر اساس آدرسهای فارسی) |
|
|
|
|
|
--- |
|
|
|
|
|
## 🖥 تنظیمات آموزش |
|
|
مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است. |
|
|
|
|
|
### مشخصات آموزش |
|
|
- Learning rate: `5e-05` |
|
|
- Train batch size: `450` |
|
|
- Eval batch size: `450` |
|
|
- Optimizer: `Adam` |
|
|
- Epochs: `11` |
|
|
- مدت زمان آموزش: ~**35 ساعت** |
|
|
|
|
|
--- |
|
|
|
|
|
## 🎯 کاربردها |
|
|
ریز تنظیم کردن و تولید مدلهای جانبی برای: |
|
|
- **ETL pipelines**: پاکسازی و استانداردسازی آدرسها |
|
|
- **Record linkage**: تطبیق آدرسها |
|
|
|
|
|
--- |
|
|
|
|
|
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده** توسعه یافته است. |
|
|
|
|
|
</div> |