TheMohanad1
/

marbert-arabic-sentiment-analyzer

Text Classification

sentiment-analysis

text-embeddings-inference

Model card Files Files and versions

marbert-arabic-sentiment-analyzer / final_report.md

TheMohanad1's picture

Upload folder using huggingface_hub

ef29e2d verified 6 months ago

|

history blame contribute delete

2.72 kB

تقرير نموذج تحليل المشاعر العربية

📊 معلومات عامة

النموذج الأساسي: UBC-NLP/MARBERTv2
تاريخ التدريب: 2025-08-01 03:54:05
مدة التدريب: 508.15 ثانية
عدد العينات:
- التدريب: 32,970
- التحقق: 7,065
- الاختبار: 7,065

📈 الأداء على مجموعة الاختبار

الدقة الإجمالية: 0.9275
F1-Score (Macro): 0.9275
F1-Score (Weighted): 0.9275

🎭 الأداء حسب الفئة

سلبي:

Precision: 0.9625
Recall: 0.9601
F1-Score: 0.9613
عدد العينات: 2355.0

محايد:

Precision: 0.9154
Recall: 0.9002
F1-Score: 0.9077
عدد العينات: 2355.0

إيجابي:

Precision: 0.9050
Recall: 0.9223
F1-Score: 0.9136
عدد العينات: 2355.0

🔍 تحليل الأخطاء

معدل الخطأ: 7.25%
إجمالي الأخطاء: 512

أنواع الأخطاء الرئيسية:

محايد → إيجابي: 181 (35.4%)
إيجابي → محايد: 149 (29.1%)
محايد → سلبي: 54 (10.5%)
سلبي → إيجابي: 47 (9.2%)
سلبي → محايد: 47 (9.2%)

💾 الملفات المحفوظة

النموذج: pytorch_model.bin
Tokenizer: tokenizer_config.json, special_tokens_map.json, vocab.txt
معلومات التدريب: training_info.json
تقرير التقييم: evaluation_report.txt
مصفوفة الالتباس: confusion_matrix.png
مقاييس الأداء: performance_metrics.png
أمثلة الاختبار: test_examples.json
تحليل الأخطاء: error_analysis.json

🚀 استخدام النموذج

from transformers import pipeline

# تحميل النموذج
classifier = pipeline(
    "text-classification",
    model="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved",
    tokenizer="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved"
)

# التنبؤ
result = classifier("النص المراد تحليله")
print(result)

📝 ملاحظات التحسين

تم موازنة البيانات لتحسين الأداء على جميع الفئات
تم استخدام تقنيات تنظيم (dropout, label smoothing) لتحسين التعميم
تم تحسين معالجة النصوص مع الحفاظ على الإيموجيز والرموز التعبيرية
تم استخدام dynamic padding لتحسين كفاءة التدريب
تم تقليل MAX_LEN إلى 100 بناءً على تحليل البيانات