fa-address-bert-small / README.md

IRI2070

Update README.md

8d36183 verified about 1 month ago

preview code

raw

history blame contribute delete

2.72 kB

metadata

license: apache-2.0
base_model: lyeonii/bert-small
tags:
  - generated_from_trainer
model-index:
  - name: fa-address-bert-small-pytorch-simorgh-v2
    results: []
language:
  - fa
pipeline_tag: fill-mask

📑 مدل BERT-Small اختصاصی آدرس های فارسی

🏛 معرفی

این مدل یک نسخه از BERT-Small (28.8M پارامتر) است که از پایه بر اساس آدرس های واقعی ایران توسعه داده شده است. هدف اصلی از تولید این مدل، ریز تنظیم آن و تولید مدل های جانبی برای انجام وظایف پاکسازی، استانداردسازی و تطبیق آدرس‌ها است.

📂 داده‌های آموزشی

این مدل پایه روی حدود 100 گیگابایت داده‌ی آدرس پاکسازی‌شده واقعی آموزش دیده است که از منابع زیر جمع آوری شدند:

منابع اطلاعاتی درون‌سازمانی و برون‌سازمانی (مطابق ماده 169 مکرر قانون مالیات‌های مستقیم)
تولید آدرس از دیتاست پروژه GNAF شرکت پست جمهوری اسلامی ایران با روش Random Walk
تولید آدرس از گراف OpenStreetMap با روش Random Walk

جامع بودن و تنوع داده‌ها باعث شده است تا مدل توانایی بالایی در درک ساختار آدرس‌های فارسی داشته باشد.

⚙️ معماری مدل

معماری پایه: BERT-Small
تعداد پارامترها: 28.8M
توکنایزر: کاملاً اختصاصی (طراحی‌شده بر اساس آدرس‌های فارسی)

🖥 تنظیمات آموزش

مدل روی ابررایانه سیمرغ (Simorgh Cloud) با GPU NVIDIA A100 (40GB) آموزش داده شده است.

مشخصات آموزش

Learning rate: 5e-05
Train batch size: 450
Eval batch size: 450
Optimizer: Adam
Epochs: 11
مدت زمان آموزش: ~35 ساعت

🎯 کاربردها

ریز تنظیم کردن و تولید مدل‌های جانبی برای:

ETL pipelines: پاکسازی و استانداردسازی آدرس‌ها
Record linkage: تطبیق آدرس‌ها