Update README.md
Browse files
README.md
CHANGED
|
@@ -13,4 +13,68 @@ tags:
|
|
| 13 |
|
| 14 |
<div dir="rtl">
|
| 15 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 16 |
</div>
|
|
|
|
| 13 |
|
| 14 |
<div dir="rtl">
|
| 15 |
|
| 16 |
+
# 📑 مدل embedding اختصاصی برای آدرسهای فارسی
|
| 17 |
+
|
| 18 |
+
## 🏛 معرفی
|
| 19 |
+
این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است برای دادههای آدرس فارسی است که بر اساس آدرسهای واقعی توسعه داده شده است. هدف اصلی مدل، **تولید بردار embedding برای هر آدرس فارسی** است تا بتوان از آن در وظایف **شباهتسنجی، تطبیق رکورد، خوشهبندی و جستجوی معنایی آدرسها** استفاده کرد.
|
| 20 |
+
|
| 21 |
+
---
|
| 22 |
+
|
| 23 |
+
## 🎯 کاربردها
|
| 24 |
+
- محاسبه شباهت معنایی بین آدرسهای فارسی
|
| 25 |
+
- استفاده در سیستمهای تطبیق رکورد و پاکسازی داده
|
| 26 |
+
- خوشهبندی آدرسها
|
| 27 |
+
- جستجوی هوشمند آدرس در پایگاههای داده بزرگ
|
| 28 |
+
|
| 29 |
+
---
|
| 30 |
+
|
| 31 |
+
## 📂 دادههای آموزشی
|
| 32 |
+
مدل روی دیتاستی با حدود **۱ میلیون رکورد آدرس** آموزش دیده است. فرآیند تولید داده به شرح زیر است:
|
| 33 |
+
|
| 34 |
+
- استخراج آدرسهای صحتسنجیشده از **سامانه ثبتنام مالیاتی (گام ۴۴ و ۴۵)**
|
| 35 |
+
- پاکسازی و نرمالسازی کامل آدرسها
|
| 36 |
+
- تطبیق کد پستی این آدرسها با جدول پروژه **GNAF شرکت پست جمهوری اسلامی ایران**
|
| 37 |
+
- تولید مثالهای آموزشی به ازای هر آدرس:
|
| 38 |
+
- **۱ مثال Hard Positive**: آدرس واقعی با کد پستی منطبق در جدول GNAF
|
| 39 |
+
- **۹ مثال Hard Negative**: آدرسهای بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF
|
| 40 |
+
|
| 41 |
+
برای تولید مثالهای Hard Negative از یک مدل **FastText سفارشی** استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرسهای فارسی آموزش دیده بود (همان کورپوسی که برای مدل [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) استفاده شده بود).
|
| 42 |
+
|
| 43 |
+
---
|
| 44 |
+
|
| 45 |
+
## ⚙️ معماری و تنظیمات
|
| 46 |
+
- Base architecture: [SBERT](https://www.sbert.net)
|
| 47 |
+
- زبان: فارسی
|
| 48 |
+
- تعداد رکورد آموزشی: ~1,000,000
|
| 49 |
+
- نوع مثالها: Hard Positive / Hard Negative
|
| 50 |
+
- هدف آموزش: Triplet/Contrastive embedding learning برای شباهتسنجی دقیق آدرسها
|
| 51 |
+
|
| 52 |
+
---
|
| 53 |
+
|
| 54 |
+
## 🧾 نحوه استفاده
|
| 55 |
+
|
| 56 |
+
</div>
|
| 57 |
+
|
| 58 |
+
|
| 59 |
+
```python
|
| 60 |
+
from sentence_transformers import SentenceTransformer, util
|
| 61 |
+
|
| 62 |
+
model = SentenceTransformer("IRI2070/fa-address-sbert")
|
| 63 |
+
|
| 64 |
+
address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
|
| 65 |
+
address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"
|
| 66 |
+
|
| 67 |
+
embedding_1 = model.encode(address_1, convert_to_tensor=True)
|
| 68 |
+
embedding_2 = model.encode(address_2, convert_to_tensor=True)
|
| 69 |
+
|
| 70 |
+
similarity = util.cos_sim(embedding_1, embedding_2)
|
| 71 |
+
print(f"Similarity score: {similarity.item():.4f}")
|
| 72 |
+
```
|
| 73 |
+
|
| 74 |
+
---
|
| 75 |
+
|
| 76 |
+
<div dir="rtl">
|
| 77 |
+
|
| 78 |
+
© این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده** توسعه یافته است.
|
| 79 |
+
|
| 80 |
</div>
|