IRI2070's picture
Update README.md
8d36183 verified
metadata
license: apache-2.0
base_model: lyeonii/bert-small
tags:
  - generated_from_trainer
model-index:
  - name: fa-address-bert-small-pytorch-simorgh-v2
    results: []
language:
  - fa
pipeline_tag: fill-mask

📑 مدل BERT-Small اختصاصی آدرس های فارسی

🏛 معرفی

این مدل یک نسخه از BERT-Small (28.8M پارامتر) است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف پاکسازی، استانداردسازی و تطبیق آدرس‌ها است.


📂 داده‌های آموزشی

این مدل پایه روی حدود 100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی آموزش دیده است که از منابع زیر جمع آوری شدند:

  • منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
  • تولید آدرس از دیتاست پروژه GNAF شرکت پست جمهوری اسلامی ایران با روش Random Walk
  • تولید آدرس از گراف OpenStreetMap با روش Random Walk

جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در درک ساختار آدرس‌های فارسی داشته باشد.


⚙️ معماری مدل

  • معماری پایه: BERT-Small
  • تعداد پارامترها: 28.8M
  • توکنایزر: کاملاً اختصاصی (طراحی‌شده بر اساس آدرس‌های فارسی)

🖥 تنظیمات آموزش

مدل روی ابررایانه سیمرغ (Simorgh Cloud) با GPU NVIDIA A100 (40GB) آموزش داده شده است.

مشخصات آموزش

  • Learning rate: 5e-05
  • Train batch size: 450
  • Eval batch size: 450
  • Optimizer: Adam
  • Epochs: 11
  • مدت زمان آموزش: ~35 ساعت

🎯 کاربردها

ریز تنظیم کردن و تولید مدل‌های جانبی برای:

  • ETL pipelines: پاکسازی و استانداردسازی آدرس‌ها
  • Record linkage: تطبیق آدرس‌ها

© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده توسعه یافته است.