تقرير نموذج تحليل المشاعر العربية
📊 معلومات عامة
- النموذج الأساسي: UBC-NLP/MARBERTv2
- تاريخ التدريب: 2025-08-01 03:54:05
- مدة التدريب: 508.15 ثانية
- عدد العينات:
- التدريب: 32,970
- التحقق: 7,065
- الاختبار: 7,065
📈 الأداء على مجموعة الاختبار
- الدقة الإجمالية: 0.9275
- F1-Score (Macro): 0.9275
- F1-Score (Weighted): 0.9275
🎭 الأداء حسب الفئة
سلبي:
- Precision: 0.9625
- Recall: 0.9601
- F1-Score: 0.9613
- عدد العينات: 2355.0
محايد:
- Precision: 0.9154
- Recall: 0.9002
- F1-Score: 0.9077
- عدد العينات: 2355.0
إيجابي:
- Precision: 0.9050
- Recall: 0.9223
- F1-Score: 0.9136
- عدد العينات: 2355.0
🔍 تحليل الأخطاء
- معدل الخطأ: 7.25%
- إجمالي الأخطاء: 512
أنواع الأخطاء الرئيسية:
- محايد → إيجابي: 181 (35.4%)
- إيجابي → محايد: 149 (29.1%)
- محايد → سلبي: 54 (10.5%)
- سلبي → إيجابي: 47 (9.2%)
- سلبي → محايد: 47 (9.2%)
💾 الملفات المحفوظة
- النموذج:
pytorch_model.bin - Tokenizer:
tokenizer_config.json,special_tokens_map.json,vocab.txt - معلومات التدريب:
training_info.json - تقرير التقييم:
evaluation_report.txt - مصفوفة الالتباس:
confusion_matrix.png - مقاييس الأداء:
performance_metrics.png - أمثلة الاختبار:
test_examples.json - تحليل الأخطاء:
error_analysis.json
🚀 استخدام النموذج
from transformers import pipeline
# تحميل النموذج
classifier = pipeline(
"text-classification",
model="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved",
tokenizer="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved"
)
# التنبؤ
result = classifier("النص المراد تحليله")
print(result)
📝 ملاحظات التحسين
- تم موازنة البيانات لتحسين الأداء على جميع الفئات
- تم استخدام تقنيات تنظيم (dropout, label smoothing) لتحسين التعميم
- تم تحسين معالجة النصوص مع الحفاظ على الإيموجيز والرموز التعبيرية
- تم استخدام dynamic padding لتحسين كفاءة التدريب
- تم تقليل MAX_LEN إلى 100 بناءً على تحليل البيانات