| | --- |
| | language: |
| | - fa |
| | license: cc-by-4.0 |
| | tags: |
| | - nlp |
| | - persian |
| | - bert |
| | - pretraining |
| | - huggingface |
| | - research |
| | datasets: |
| | - HuggingFaceFW/finewiki |
| | base_model: prajjwal1/bert-tiny |
| | metrics: |
| | - perplexity |
| | - accuracy |
| | model-index: |
| | - name: Persian BERT-Tiny (FineWiki Pretrained) |
| | results: [] |
| | --- |
| | <div dir="rtl"> |
| | |
| | # 🧠 Persian BERT-Tiny (FineWiki Pretrained) |
| |
|
| | ## ✨ معرفی |
| | این مدل یک نسخهی **BERT-Tiny** است که از صفر بر اساس دیتاست [FineWiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki) آموزش داده شده است. |
| | بخشی از دیتاست FineWiki شامل حدود **۱ میلیون صفحه فارسی ویکیپدیا** (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیشتمرین مدلهای زبانی فارسی طراحی شده است. |
| |
|
| | مدل پایهی استفادهشده [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny) است که یک نسخهی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیطهای با منابع محدود مناسب است. |
| |
|
| | --- |
| |
|
| | ## 🎯 اهداف |
| | - بررسی کارایی مدلهای سبک BERT در زبان فارسی |
| | - تست و ارزیابی کیفیت دیتاست FineWiki برای پیشتمرین مدلهای زبانی |
| | - ایجاد یک baseline تحقیقاتی برای پروژههای NLP فارسی |
| | - فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع |
| |
|
| | --- |
| |
|
| | ## 📚 دیتاست FineWiki |
| | - منبع: [HuggingFaceFW/finewiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki) |
| | - حجم: حدود ۲ گیگابایت |
| | - تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکیپدیا |
| | - اهداف: |
| | - ایجاد مرجع متنی بزرگ برای زبان فارسی |
| | - پشتیبانی از پروژههای پیشتمرین (pretraining) |
| | - کمک به توسعهی مدلهای درک معنایی و شباهت متنی |
| |
|
| | --- |
| |
|
| | ## 🧩 مدل پایه BERT-Tiny |
| | - منبع: [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny) |
| | - ویژگیها: |
| | - نسخهی کوچک و سبک از BERT |
| | - آموزش از صفر روی دادههای عمومی |
| | - مناسب برای baseline و تحقیقات سریع |
| | - اهداف: |
| | - فراهم کردن baseline سبک برای پژوهشگران |
| | - امکان تست سریع روی دیتاستهای جدید |
| | - بررسی کارایی معماری BERT در مقیاس کوچک |
| |
|
| | --- |
| |
|
| | ## 🚀 کاربردها |
| | - پیشتمرین و fine-tuning برای وظایف NLP فارسی |
| | - پروژههای تحقیقاتی در حوزهی **semantic similarity**، **text classification** و **language modeling** |
| | - تست کیفیت دیتاستهای فارسی بزرگ |
| | - توسعهی مدلهای سبک و کاربردی برای زبان فارسی |
| |
|
| | --- |
| |
|
| | ## 📌 نکات مهم |
| | - این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است. |
| | - نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود. |
| | - استفاده از آن آزاد است، اما توصیه میشود در پروژههای حساس از مدلهای بزرگتر و دادههای واقعی نیز استفاده شود. |
| |
|
| | --- |
| |
|
| | ## 🙌 تشکر |
| | این پروژه بخشی از فعالیتهای تحقیقاتی در حوزهی **NLP فارسی** است و با هدف ارتقای دانش و تست دیتاستهای بزرگ منتشر شده است. |
| |
|
| | </div> |