TheMohanad1
/

marbert-arabic-sentiment-analyzer

Text Classification

sentiment-analysis

text-embeddings-inference

Model card Files Files and versions

marbert-arabic-sentiment-analyzer / final_report.md

TheMohanad1's picture

Upload folder using huggingface_hub

ef29e2d verified 6 months ago

|

history blame contribute delete

2.72 kB


	# تقرير نموذج تحليل المشاعر العربية

	## 📊 معلومات عامة
	- النموذج الأساسي: UBC-NLP/MARBERTv2
	- تاريخ التدريب: 2025-08-01 03:54:05
	- مدة التدريب: 508.15 ثانية
	- عدد العينات:
	- التدريب: 32,970
	- التحقق: 7,065
	- الاختبار: 7,065

	## 📈 الأداء على مجموعة الاختبار
	- الدقة الإجمالية: 0.9275
	- F1-Score (Macro): 0.9275
	- F1-Score (Weighted): 0.9275

	## 🎭 الأداء حسب الفئة

	### سلبي:
	- Precision: 0.9625
	- Recall: 0.9601
	- F1-Score: 0.9613
	- عدد العينات: 2355.0

	### محايد:
	- Precision: 0.9154
	- Recall: 0.9002
	- F1-Score: 0.9077
	- عدد العينات: 2355.0

	### إيجابي:
	- Precision: 0.9050
	- Recall: 0.9223
	- F1-Score: 0.9136
	- عدد العينات: 2355.0

	## 🔍 تحليل الأخطاء
	- معدل الخطأ: 7.25%
	- إجمالي الأخطاء: 512

	### أنواع الأخطاء الرئيسية:
	- محايد → إيجابي: 181 (35.4%)
	- إيجابي → محايد: 149 (29.1%)
	- محايد → سلبي: 54 (10.5%)
	- سلبي → إيجابي: 47 (9.2%)
	- سلبي → محايد: 47 (9.2%)

	## 💾 الملفات المحفوظة
	1. النموذج: `pytorch_model.bin`
	2. Tokenizer: `tokenizer_config.json`, `special_tokens_map.json`, `vocab.txt`
	3. معلومات التدريب: `training_info.json`
	4. تقرير التقييم: `evaluation_report.txt`
	5. مصفوفة الالتباس: `confusion_matrix.png`
	6. مقاييس الأداء: `performance_metrics.png`
	7. أمثلة الاختبار: `test_examples.json`
	8. تحليل الأخطاء: `error_analysis.json`

	## 🚀 استخدام النموذج

	```python
	from transformers import pipeline

	# تحميل النموذج
	classifier = pipeline(
	"text-classification",
	model="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved",
	tokenizer="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved"
	)

	# التنبؤ
	result = classifier("النص المراد تحليله")
	print(result)
	```

	## 📝 ملاحظات التحسين
	1. تم موازنة البيانات لتحسين الأداء على جميع الفئات
	2. تم استخدام تقنيات تنظيم (dropout, label smoothing) لتحسين التعميم
	3. تم تحسين معالجة النصوص مع الحفاظ على الإيموجيز والرموز التعبيرية
	4. تم استخدام dynamic padding لتحسين كفاءة التدريب
	5. تم تقليل MAX_LEN إلى 100 بناءً على تحليل البيانات