| # تقرير نموذج تحليل المشاعر العربية | |
| ## 📊 معلومات عامة | |
| - **النموذج الأساسي**: UBC-NLP/MARBERTv2 | |
| - **تاريخ التدريب**: 2025-08-01 03:54:05 | |
| - **مدة التدريب**: 508.15 ثانية | |
| - **عدد العينات**: | |
| - التدريب: 32,970 | |
| - التحقق: 7,065 | |
| - الاختبار: 7,065 | |
| ## 📈 الأداء على مجموعة الاختبار | |
| - **الدقة الإجمالية**: 0.9275 | |
| - **F1-Score (Macro)**: 0.9275 | |
| - **F1-Score (Weighted)**: 0.9275 | |
| ## 🎭 الأداء حسب الفئة | |
| ### سلبي: | |
| - Precision: 0.9625 | |
| - Recall: 0.9601 | |
| - F1-Score: 0.9613 | |
| - عدد العينات: 2355.0 | |
| ### محايد: | |
| - Precision: 0.9154 | |
| - Recall: 0.9002 | |
| - F1-Score: 0.9077 | |
| - عدد العينات: 2355.0 | |
| ### إيجابي: | |
| - Precision: 0.9050 | |
| - Recall: 0.9223 | |
| - F1-Score: 0.9136 | |
| - عدد العينات: 2355.0 | |
| ## 🔍 تحليل الأخطاء | |
| - **معدل الخطأ**: 7.25% | |
| - **إجمالي الأخطاء**: 512 | |
| ### أنواع الأخطاء الرئيسية: | |
| - محايد → إيجابي: 181 (35.4%) | |
| - إيجابي → محايد: 149 (29.1%) | |
| - محايد → سلبي: 54 (10.5%) | |
| - سلبي → إيجابي: 47 (9.2%) | |
| - سلبي → محايد: 47 (9.2%) | |
| ## 💾 الملفات المحفوظة | |
| 1. **النموذج**: `pytorch_model.bin` | |
| 2. **Tokenizer**: `tokenizer_config.json`, `special_tokens_map.json`, `vocab.txt` | |
| 3. **معلومات التدريب**: `training_info.json` | |
| 4. **تقرير التقييم**: `evaluation_report.txt` | |
| 5. **مصفوفة الالتباس**: `confusion_matrix.png` | |
| 6. **مقاييس الأداء**: `performance_metrics.png` | |
| 7. **أمثلة الاختبار**: `test_examples.json` | |
| 8. **تحليل الأخطاء**: `error_analysis.json` | |
| ## 🚀 استخدام النموذج | |
| ```python | |
| from transformers import pipeline | |
| # تحميل النموذج | |
| classifier = pipeline( | |
| "text-classification", | |
| model="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved", | |
| tokenizer="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved" | |
| ) | |
| # التنبؤ | |
| result = classifier("النص المراد تحليله") | |
| print(result) | |
| ``` | |
| ## 📝 ملاحظات التحسين | |
| 1. تم موازنة البيانات لتحسين الأداء على جميع الفئات | |
| 2. تم استخدام تقنيات تنظيم (dropout, label smoothing) لتحسين التعميم | |
| 3. تم تحسين معالجة النصوص مع الحفاظ على الإيموجيز والرموز التعبيرية | |
| 4. تم استخدام dynamic padding لتحسين كفاءة التدريب | |
| 5. تم تقليل MAX_LEN إلى 100 بناءً على تحليل البيانات | |