--- license: apache-2.0 base_model: lyeonii/bert-small tags: - generated_from_trainer model-index: - name: fa-address-bert-small-pytorch-simorgh-v2 results: [] language: - fa pipeline_tag: fill-mask ---
# 📑 مدل BERT-Small اختصاصی آدرس های فارسی ## 🏛 معرفی این مدل یک نسخه از **BERT-Small (28.8M پارامتر)** است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف **پاکسازی، استانداردسازی و تطبیق آدرس‌ها** است. --- ## 📂 داده‌های آموزشی این مدل پایه روی حدود **100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی** آموزش دیده است که از منابع زیر جمع آوری شدند: - منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم) - تولید آدرس از دیتاست پروژه **GNAF شرکت پست جمهوری اسلامی ایران** با روش *Random Walk* - تولید آدرس از گراف **OpenStreetMap** با روش *Random Walk* جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در **درک ساختار آدرس‌های فارسی** داشته باشد. --- ## ⚙️ معماری مدل - معماری پایه: [BERT-Small](https://huggingface.co/lyeonii/bert-small) - تعداد پارامترها: **28.8M** - توکنایزر: **کاملاً اختصاصی** (طراحی‌شده بر اساس آدرس‌های فارسی) --- ## 🖥 تنظیمات آموزش مدل روی **ابررایانه سیمرغ** ([Simorgh Cloud](https://simorgh.cloud)) با GPU **NVIDIA A100 (40GB)** آموزش داده شده است. ### مشخصات آموزش - Learning rate: `5e-05` - Train batch size: `450` - Eval batch size: `450` - Optimizer: `Adam` - Epochs: `11` - مدت زمان آموزش: ~**35 ساعت** --- ## 🎯 کاربردها ریز تنظیم کردن و تولید مدل‌های جانبی برای: - **ETL pipelines**: پاکسازی و استانداردسازی آدرس‌ها - **Record linkage**: تطبیق آدرس‌ها --- © این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.