IRI2070

Update README.md

b023de0 verified 3 months ago

3.75 kB

	---
	language:
	- fa
	license: cc-by-4.0
	tags:
	- nlp
	- persian
	- bert
	- pretraining
	- huggingface
	- research
	datasets:
	- HuggingFaceFW/finewiki
	base_model: prajjwal1/bert-tiny
	metrics:
	- perplexity
	- accuracy
	model-index:
	- name: Persian BERT-Tiny (FineWiki Pretrained)
	results: []
	---
	<div dir="rtl">

	# 🧠 Persian BERT-Tiny (FineWiki Pretrained)

	## ✨ معرفی
	این مدل یک نسخه‌ی BERT-Tiny است که از صفر بر اساس دیتاست [FineWiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki) آموزش داده شده است.
	بخشی از دیتاست FineWiki شامل حدود ۱ میلیون صفحه فارسی ویکی‌پدیا (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیش‌تمرین مدل‌های زبانی فارسی طراحی شده است.

	مدل پایه‌ی استفاده‌شده [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny) است که یک نسخه‌ی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیط‌های با منابع محدود مناسب است.

	---

	## 🎯 اهداف
	- بررسی کارایی مدل‌های سبک BERT در زبان فارسی
	- تست و ارزیابی کیفیت دیتاست FineWiki برای پیش‌تمرین مدل‌های زبانی
	- ایجاد یک baseline تحقیقاتی برای پروژه‌های NLP فارسی
	- فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع

	---

	## 📚 دیتاست FineWiki
	- منبع: [HuggingFaceFW/finewiki](https://huggingface.co/datasets/HuggingFaceFW/finewiki)
	- حجم: حدود ۲ گیگابایت
	- تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکی‌پدیا
	- اهداف:
	- ایجاد مرجع متنی بزرگ برای زبان فارسی
	- پشتیبانی از پروژه‌های پیش‌تمرین (pretraining)
	- کمک به توسعه‌ی مدل‌های درک معنایی و شباهت متنی

	---

	## 🧩 مدل پایه BERT-Tiny
	- منبع: [prajjwal1/bert-tiny](https://huggingface.co/prajjwal1/bert-tiny)
	- ویژگی‌ها:
	- نسخه‌ی کوچک و سبک از BERT
	- آموزش از صفر روی داده‌های عمومی
	- مناسب برای baseline و تحقیقات سریع
	- اهداف:
	- فراهم کردن baseline سبک برای پژوهشگران
	- امکان تست سریع روی دیتاست‌های جدید
	- بررسی کارایی معماری BERT در مقیاس کوچک

	---

	## 🚀 کاربردها
	- پیش‌تمرین و fine-tuning برای وظایف NLP فارسی
	- پروژه‌های تحقیقاتی در حوزه‌ی semantic similarity، text classification و language modeling
	- تست کیفیت دیتاست‌های فارسی بزرگ
	- توسعه‌ی مدل‌های سبک و کاربردی برای زبان فارسی

	---

	## 📌 نکات مهم
	- این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است.
	- نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود.
	- استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس از مدل‌های بزرگ‌تر و داده‌های واقعی نیز استفاده شود.

	---

	## 🙌 تشکر
	این پروژه بخشی از فعالیت‌های تحقیقاتی در حوزه‌ی NLP فارسی است و با هدف ارتقای دانش و تست دیتاست‌های بزرگ منتشر شده است.

	</div>