IRI2070
/

fa-address-bert-small-embedding

 <div dir="rtl">
+# 📑 مدل embedding اختصاصی برای آدرس‌های فارسی
+## 🏛 معرفی
+این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است برای داده‌های آدرس فارسی است که بر اساس آدرس‌های واقعی توسعه داده شده است. هدف اصلی مدل، **تولید بردار embedding برای هر آدرس فارسی** است تا بتوان از آن در وظایف **شباهت‌سنجی، تطبیق رکورد، خوشه‌بندی و جستجوی معنایی آدرس‌ها** استفاده کرد.
+---
+## 🎯 کاربردها
+- محاسبه شباهت معنایی بین آدرس‌های فارسی
+- استفاده در سیستم‌های تطبیق رکورد و پاکسازی داده
+- خوشه‌بندی آدرس‌ها
+- جستجوی هوشمند آدرس در پایگاه‌های داده بزرگ
+---
+## 📂 داده‌های آموزشی
+مدل روی دیتاستی با حدود **۱ میلیون رکورد آدرس** آموزش دیده است. فرآیند تولید داده به شرح زیر است:
+- استخراج آدرس‌های صحت‌سنجی‌شده از **سامانه ثبت‌نام مالیاتی (گام ۴۴ و ۴۵)**
+- پاکسازی و نرمال‌سازی کامل آدرس‌ها
+- تطبیق کد پستی این آدرس‌ها با جدول پروژه **GNAF شرکت پست جمهوری اسلامی ایران**
+- تولید مثال‌های آموزشی به ازای هر آدرس:
+  - **۱ مثال Hard Positive**: آدرس واقعی با کد پستی منطبق در جدول GNAF
+  - **۹ مثال Hard Negative**: آدرس‌های بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF
+برای تولید مثال‌های Hard Negative از یک مدل **FastText سفارشی** استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرس‌های فارسی آموزش دیده بود (همان کورپوسی که برای مدل [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) استفاده شده بود).
+---
+## ⚙️ معماری و تنظیمات
+- Base architecture: [SBERT](https://www.sbert.net)
+- زبان: فارسی
+- تعداد رکورد آموزشی: ~1,000,000
+- نوع مثال‌ها: Hard Positive / Hard Negative
+- هدف آموزش: Triplet/Contrastive embedding learning برای شباهت‌سنجی دقیق آدرس‌ها
+---
+## 🧾 نحوه استفاده
+</div>
+```python
+from sentence_transformers import SentenceTransformer, util
+model = SentenceTransformer("IRI2070/fa-address-sbert")
+address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
+address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"
+embedding_1 = model.encode(address_1, convert_to_tensor=True)
+embedding_2 = model.encode(address_2, convert_to_tensor=True)
+similarity = util.cos_sim(embedding_1, embedding_2)
+print(f"Similarity score: {similarity.item():.4f}")
+```
+---
+<div dir="rtl">
+© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.
 </div>