metadata
license: apache-2.0
base_model: lyeonii/bert-small
tags:
- generated_from_trainer
model-index:
- name: fa-address-bert-small-pytorch-simorgh-v2
results: []
language:
- fa
pipeline_tag: fill-mask
📑 مدل BERT-Small اختصاصی آدرس های فارسی
🏛 معرفی
این مدل یک نسخه از BERT-Small (28.8M پارامتر) است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف پاکسازی، استانداردسازی و تطبیق آدرسها است.
📂 دادههای آموزشی
این مدل پایه روی حدود 100 گیگابایت دادهی آدرس پاکسازیشده واقعی آموزش دیده است که از منابع زیر جمع آوری شدند:
- منابع اطلاعاتی درونسازمانی و برونسازمانی (مطابق ماده 169 مکرر قانون مالیاتهای مستقیم)
- تولید آدرس از دیتاست پروژه GNAF شرکت پست جمهوری اسلامی ایران با روش Random Walk
- تولید آدرس از گراف OpenStreetMap با روش Random Walk
جامع بودن و تنوع دادهها باعث شده است تا مدل توانایی بالایی در درک ساختار آدرسهای فارسی داشته باشد.
⚙️ معماری مدل
- معماری پایه: BERT-Small
- تعداد پارامترها: 28.8M
- توکنایزر: کاملاً اختصاصی (طراحیشده بر اساس آدرسهای فارسی)
🖥 تنظیمات آموزش
مدل روی ابررایانه سیمرغ (Simorgh Cloud) با GPU NVIDIA A100 (40GB) آموزش داده شده است.
مشخصات آموزش
- Learning rate:
5e-05 - Train batch size:
450 - Eval batch size:
450 - Optimizer:
Adam - Epochs:
11 - مدت زمان آموزش: ~35 ساعت
🎯 کاربردها
ریز تنظیم کردن و تولید مدلهای جانبی برای:
- ETL pipelines: پاکسازی و استانداردسازی آدرسها
- Record linkage: تطبیق آدرسها
© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده توسعه یافته است.