---
language:
- fa
license: cc-by-4.0
tags:
- nlp
- persian
- bert
- pretraining
- huggingface
- research
datasets:
- HuggingFaceFW/finewiki
base_model: prajjwal1/bert-tiny
metrics:
- perplexity
- accuracy
model-index:
- name: Persian BERT-Tiny (FineWiki Pretrained)
  results: []
---
<div dir="rtl">
  
# 🧠 Persian BERT-Tiny (FineWiki Pretrained)

## ✨ معرفی
این مدل یک نسخه‌ی **BERT-Tiny** است که از صفر بر اساس دیتاست [FineWiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki) آموزش داده شده است.  
بخشی از دیتاست FineWiki شامل حدود **۱ میلیون صفحه فارسی ویکی‌پدیا** (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیش‌تمرین مدل‌های زبانی فارسی طراحی شده است.  

مدل پایه‌ی استفاده‌شده [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny) است که یک نسخه‌ی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیط‌های با منابع محدود مناسب است.  

---

## 🎯 اهداف
- بررسی کارایی مدل‌های سبک BERT در زبان فارسی  
- تست و ارزیابی کیفیت دیتاست FineWiki برای پیش‌تمرین مدل‌های زبانی  
- ایجاد یک baseline تحقیقاتی برای پروژه‌های NLP فارسی  
- فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع  

---

## 📚 دیتاست FineWiki
- منبع: [HuggingFaceFW/finewiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki)  
- حجم: حدود ۲ گیگابایت  
- تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکی‌پدیا  
- اهداف:  
  - ایجاد مرجع متنی بزرگ برای زبان فارسی  
  - پشتیبانی از پروژه‌های پیش‌تمرین (pretraining)  
  - کمک به توسعه‌ی مدل‌های درک معنایی و شباهت متنی  

---

## 🧩 مدل پایه BERT-Tiny
- منبع: [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny)  
- ویژگی‌ها:  
  - نسخه‌ی کوچک و سبک از BERT  
  - آموزش از صفر روی داده‌های عمومی  
  - مناسب برای baseline و تحقیقات سریع  
- اهداف:  
  - فراهم کردن baseline سبک برای پژوهشگران  
  - امکان تست سریع روی دیتاست‌های جدید  
  - بررسی کارایی معماری BERT در مقیاس کوچک  

---

## 🚀 کاربردها
- پیش‌تمرین و fine-tuning برای وظایف NLP فارسی  
- پروژه‌های تحقیقاتی در حوزه‌ی **semantic similarity**، **text classification** و **language modeling**  
- تست کیفیت دیتاست‌های فارسی بزرگ  
- توسعه‌ی مدل‌های سبک و کاربردی برای زبان فارسی  

---

## 📌 نکات مهم
- این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است.  
- نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود.  
- استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس از مدل‌های بزرگ‌تر و داده‌های واقعی نیز استفاده شود.  

---

## 🙌 تشکر
این پروژه بخشی از فعالیت‌های تحقیقاتی در حوزه‌ی **NLP فارسی** است و با هدف ارتقای دانش و تست دیتاست‌های بزرگ منتشر شده است.

</div>