--- language: - fa license: cc-by-4.0 tags: - nlp - persian - bert - pretraining - huggingface - research datasets: - HuggingFaceFW/finewiki base_model: prajjwal1/bert-tiny metrics: - perplexity - accuracy model-index: - name: Persian BERT-Tiny (FineWiki Pretrained) results: [] ---
# 🧠 Persian BERT-Tiny (FineWiki Pretrained) ## ✨ معرفی این مدل یک نسخه‌ی **BERT-Tiny** است که از صفر بر اساس دیتاست [FineWiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki) آموزش داده شده است. بخشی از دیتاست FineWiki شامل حدود **۱ میلیون صفحه فارسی ویکی‌پدیا** (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیش‌تمرین مدل‌های زبانی فارسی طراحی شده است. مدل پایه‌ی استفاده‌شده [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny) است که یک نسخه‌ی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیط‌های با منابع محدود مناسب است. --- ## 🎯 اهداف - بررسی کارایی مدل‌های سبک BERT در زبان فارسی - تست و ارزیابی کیفیت دیتاست FineWiki برای پیش‌تمرین مدل‌های زبانی - ایجاد یک baseline تحقیقاتی برای پروژه‌های NLP فارسی - فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع --- ## 📚 دیتاست FineWiki - منبع: [HuggingFaceFW/finewiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki) - حجم: حدود ۲ گیگابایت - تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکی‌پدیا - اهداف: - ایجاد مرجع متنی بزرگ برای زبان فارسی - پشتیبانی از پروژه‌های پیش‌تمرین (pretraining) - کمک به توسعه‌ی مدل‌های درک معنایی و شباهت متنی --- ## 🧩 مدل پایه BERT-Tiny - منبع: [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny) - ویژگی‌ها: - نسخه‌ی کوچک و سبک از BERT - آموزش از صفر روی داده‌های عمومی - مناسب برای baseline و تحقیقات سریع - اهداف: - فراهم کردن baseline سبک برای پژوهشگران - امکان تست سریع روی دیتاست‌های جدید - بررسی کارایی معماری BERT در مقیاس کوچک --- ## 🚀 کاربردها - پیش‌تمرین و fine-tuning برای وظایف NLP فارسی - پروژه‌های تحقیقاتی در حوزه‌ی **semantic similarity**، **text classification** و **language modeling** - تست کیفیت دیتاست‌های فارسی بزرگ - توسعه‌ی مدل‌های سبک و کاربردی برای زبان فارسی --- ## 📌 نکات مهم - این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است. - نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود. - استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس از مدل‌های بزرگ‌تر و داده‌های واقعی نیز استفاده شود. --- ## 🙌 تشکر این پروژه بخشی از فعالیت‌های تحقیقاتی در حوزه‌ی **NLP فارسی** است و با هدف ارتقای دانش و تست دیتاست‌های بزرگ منتشر شده است.