IRI2070 commited on
Commit
dfcd81c
·
verified ·
1 Parent(s): 9ce4d60

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +64 -0
README.md CHANGED
@@ -13,4 +13,68 @@ tags:
13
 
14
  <div dir="rtl">
15
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16
  </div>
 
13
 
14
  <div dir="rtl">
15
 
16
+ # 📑 مدل embedding اختصاصی برای آدرس‌های فارسی
17
+
18
+ ## 🏛 معرفی
19
+ این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) است برای داده‌های آدرس فارسی است که بر اساس آدرس‌های واقعی توسعه داده شده است. هدف اصلی مدل، **تولید بردار embedding برای هر آدرس فارسی** است تا بتوان از آن در وظایف **شباهت‌سنجی، تطبیق رکورد، خوشه‌بندی و جستجوی معنایی آدرس‌ها** استفاده کرد.
20
+
21
+ ---
22
+
23
+ ## 🎯 کاربردها
24
+ - محاسبه شباهت معنایی بین آدرس‌های فارسی
25
+ - استفاده در سیستم‌های تطبیق رکورد و پاکسازی داده
26
+ - خوشه‌بندی آدرس‌ها
27
+ - جستجوی هوشمند آدرس در پایگاه‌های داده بزرگ
28
+
29
+ ---
30
+
31
+ ## 📂 داده‌های آموزشی
32
+ مدل روی دیتاستی با حدود **۱ میلیون رکورد آدرس** آموزش دیده است. فرآیند تولید داده به شرح زیر است:
33
+
34
+ - استخراج آدرس‌های صحت‌سنجی‌شده از **سامانه ثبت‌نام مالیاتی (گام ۴۴ و ۴۵)**
35
+ - پاکسازی و نرمال‌سازی کامل آدرس‌ها
36
+ - تطبیق کد پستی این آدرس‌ها با جدول پروژه **GNAF شرکت پست جمهوری اسلامی ایران**
37
+ - تولید مثال‌های آموزشی به ازای هر آدرس:
38
+ - **۱ مثال Hard Positive**: آدرس واقعی با کد پستی منطبق در جدول GNAF
39
+ - **۹ مثال Hard Negative**: آدرس‌های بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF
40
+
41
+ برای تولید مثال‌های Hard Negative از یک مدل **FastText سفارشی** استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرس‌های فارسی آموزش دیده بود (همان کورپوسی که برای مدل [`fa-address-bert-small`](https://huggingface.co/IRI2070/fa-address-bert-small) استفاده شده بود).
42
+
43
+ ---
44
+
45
+ ## ⚙️ معماری و تنظیمات
46
+ - Base architecture: [SBERT](https://www.sbert.net)
47
+ - زبان: فارسی
48
+ - تعداد رکورد آموزشی: ~1,000,000
49
+ - نوع مثال‌ها: Hard Positive / Hard Negative
50
+ - هدف آموزش: Triplet/Contrastive embedding learning برای شباهت‌سنجی دقیق آدرس‌ها
51
+
52
+ ---
53
+
54
+ ## 🧾 نحوه استفاده
55
+
56
+ </div>
57
+
58
+
59
+ ```python
60
+ from sentence_transformers import SentenceTransformer, util
61
+
62
+ model = SentenceTransformer("IRI2070/fa-address-sbert")
63
+
64
+ address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
65
+ address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"
66
+
67
+ embedding_1 = model.encode(address_1, convert_to_tensor=True)
68
+ embedding_2 = model.encode(address_2, convert_to_tensor=True)
69
+
70
+ similarity = util.cos_sim(embedding_1, embedding_2)
71
+ print(f"Similarity score: {similarity.item():.4f}")
72
+ ```
73
+
74
+ ---
75
+
76
+ <div dir="rtl">
77
+
78
+ © این مدل توسط **وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده** توسعه یافته است.
79
+
80
  </div>