Upload folder using huggingface_hub
Browse files- .gitattributes +2 -0
- README.md +13 -0
- config.json +41 -0
- confusion_matrix.png +3 -0
- error_analysis.json +134 -0
- evaluation_report.txt +43 -0
- final_report.md +81 -0
- model.safetensors +3 -0
- performance_metrics.png +3 -0
- special_tokens_map.json +7 -0
- test_examples.json +106 -0
- tokenizer.json +0 -0
- tokenizer_config.json +58 -0
- training_args.bin +3 -0
- training_info.json +34 -0
- vocab.txt +0 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
confusion_matrix.png filter=lfs diff=lfs merge=lfs -text
|
| 37 |
+
performance_metrics.png filter=lfs diff=lfs merge=lfs -text
|
README.md
ADDED
|
@@ -0,0 +1,13 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language: [ar]
|
| 3 |
+
pipeline_tag: text-classification
|
| 4 |
+
library_name: transformers
|
| 5 |
+
tags:
|
| 6 |
+
- sentiment-analysis
|
| 7 |
+
- arabic
|
| 8 |
+
base_model: UBC-NLP/MARBERTv2
|
| 9 |
+
license: other
|
| 10 |
+
---
|
| 11 |
+
|
| 12 |
+
# Arabic Sentiment Analysis (MARBERTv2)
|
| 13 |
+
نموذج لتحليل المشاعر بالعربية تم تدريبه على بيانات مخصّصة.
|
config.json
ADDED
|
@@ -0,0 +1,41 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"BertForSequenceClassification"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.2,
|
| 6 |
+
"classifier_dropout": null,
|
| 7 |
+
"directionality": "bidi",
|
| 8 |
+
"gradient_checkpointing": false,
|
| 9 |
+
"hidden_act": "gelu",
|
| 10 |
+
"hidden_dropout_prob": 0.2,
|
| 11 |
+
"hidden_size": 768,
|
| 12 |
+
"id2label": {
|
| 13 |
+
"0": "\u0633\u0644\u0628\u064a",
|
| 14 |
+
"1": "\u0645\u062d\u0627\u064a\u062f",
|
| 15 |
+
"2": "\u0625\u064a\u062c\u0627\u0628\u064a"
|
| 16 |
+
},
|
| 17 |
+
"initializer_range": 0.02,
|
| 18 |
+
"intermediate_size": 3072,
|
| 19 |
+
"label2id": {
|
| 20 |
+
"\u0625\u064a\u062c\u0627\u0628\u064a": 2,
|
| 21 |
+
"\u0633\u0644\u0628\u064a": 0,
|
| 22 |
+
"\u0645\u062d\u0627\u064a\u062f": 1
|
| 23 |
+
},
|
| 24 |
+
"layer_norm_eps": 1e-12,
|
| 25 |
+
"max_position_embeddings": 512,
|
| 26 |
+
"model_type": "bert",
|
| 27 |
+
"num_attention_heads": 12,
|
| 28 |
+
"num_hidden_layers": 12,
|
| 29 |
+
"pad_token_id": 0,
|
| 30 |
+
"pooler_fc_size": 768,
|
| 31 |
+
"pooler_num_attention_heads": 12,
|
| 32 |
+
"pooler_num_fc_layers": 3,
|
| 33 |
+
"pooler_size_per_head": 128,
|
| 34 |
+
"pooler_type": "first_token_transform",
|
| 35 |
+
"position_embedding_type": "absolute",
|
| 36 |
+
"torch_dtype": "float32",
|
| 37 |
+
"transformers_version": "4.54.1",
|
| 38 |
+
"type_vocab_size": 2,
|
| 39 |
+
"use_cache": true,
|
| 40 |
+
"vocab_size": 100000
|
| 41 |
+
}
|
confusion_matrix.png
ADDED
|
Git LFS Details
|
error_analysis.json
ADDED
|
@@ -0,0 +1,134 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"total_errors": 512,
|
| 3 |
+
"error_rate": 0.07246992215145082,
|
| 4 |
+
"error_types": {
|
| 5 |
+
"إيجابي → محايد": 149,
|
| 6 |
+
"سلبي → إيجابي": 47,
|
| 7 |
+
"محايد → إيجابي": 181,
|
| 8 |
+
"إيجابي → سلبي": 34,
|
| 9 |
+
"سلبي → محايد": 47,
|
| 10 |
+
"محايد → سلبي": 54
|
| 11 |
+
},
|
| 12 |
+
"sample_errors": [
|
| 13 |
+
{
|
| 14 |
+
"text": "{\"text_content\": \"وصول الرحال السعودي عبدالله السلمي إلى منفذ أبو سمرة الحدودي في قطر قادما من مدينة جدة مشيا على الأقدام لحضور كأس_العالم قطر2022 🇶🇦🇸🇦❤️💚 %url\"} 🇶🇦🇸🇦❤️💚",
|
| 15 |
+
"true_label": "إيجابي",
|
| 16 |
+
"pred_label": "محايد",
|
| 17 |
+
"text_length": 169
|
| 18 |
+
},
|
| 19 |
+
{
|
| 20 |
+
"text": "اليوم شلّيت الكاميرا بعد الدوام وطلعت أصور في . الأجواء كانت ممتازة ووجدت سائق توصيل محلي طلع يساعدني ينقل المعدات . لحجالشغل",
|
| 21 |
+
"true_label": "إيجابي",
|
| 22 |
+
"pred_label": "محايد",
|
| 23 |
+
"text_length": 125
|
| 24 |
+
},
|
| 25 |
+
{
|
| 26 |
+
"text": "{\"text_content\": \" فيديو | المهندسة مريم حمد المفتاح، المدير التنفيذي للاتصالات وتكنولوجيا المعلومات في اللجنة العليا للمشاريع والإرث: التكنولوجيا اصبحت بمثابة بنية تحتية للمونديال جريدة_الراية قطر2022 | %url\"}",
|
| 27 |
+
"true_label": "إيجابي",
|
| 28 |
+
"pred_label": "محايد",
|
| 29 |
+
"text_length": 210
|
| 30 |
+
},
|
| 31 |
+
{
|
| 32 |
+
"text": "{\"text_content\": \"😳 عبالي هدف لمنتخبنا في كأس_العالم \"} 😳",
|
| 33 |
+
"true_label": "سلبي",
|
| 34 |
+
"pred_label": "إيجابي",
|
| 35 |
+
"text_length": 57
|
| 36 |
+
},
|
| 37 |
+
{
|
| 38 |
+
"text": "بالعادة بفكّر مرتين قبل ما أطلب أونلاين ، بس المطر اليوم عم يخليني أجرب حظي بالتوصيل من هالموقع . يمكن يجي شي فستان بخصم حلو ! المهم نوصل الشوبينغ قبل ما نغطس بالشتا .",
|
| 39 |
+
"true_label": "محايد",
|
| 40 |
+
"pred_label": "إيجابي",
|
| 41 |
+
"text_length": 167
|
| 42 |
+
},
|
| 43 |
+
{
|
| 44 |
+
"text": "{\"text_content\": \" اكيد اصحاب هذه الشركات من الإيرانيين و اذنابهم من بلاد الشام خصوصا غزّاويّة حماس .. و من ينتهز هويّة قطر الوطنيّة من دول الجوار و جوار الجوار .. الذين لا يخافون الله في المساكين و جل همّهم جمع الأموال حسبنا الله ونعم الوكيل قطر قطر2022 السعودية_قطر \"}",
|
| 45 |
+
"true_label": "إيجابي",
|
| 46 |
+
"pred_label": "سلبي",
|
| 47 |
+
"text_length": 270
|
| 48 |
+
},
|
| 49 |
+
{
|
| 50 |
+
"text": "{\"text_content\": \"قطر مابين الماضي والحاضر: عندما تكون مصلحة الوطن هي الاولى هكذا تكون النتيجة لا شي مستحيل فقط هناك قيادة مخلصة وشعب متعاون قطر2022 🇶🇦🇶🇦 ساعه_استجابه حادثة_سطو_الجنادرية جنتل68 هالوين_الرياض كأس_العالم_قطر_2022 %url\"} 🇶🇦🇶🇦",
|
| 51 |
+
"true_label": "محايد",
|
| 52 |
+
"pred_label": "إيجابي",
|
| 53 |
+
"text_length": 239
|
| 54 |
+
},
|
| 55 |
+
{
|
| 56 |
+
"text": "{\"text_content\": \"كن سفيرا مع سفير حياكم سفير هويتي الحزم قطر2022 %url\"}",
|
| 57 |
+
"true_label": "محايد",
|
| 58 |
+
"pred_label": "إيجابي",
|
| 59 |
+
"text_length": 72
|
| 60 |
+
},
|
| 61 |
+
{
|
| 62 |
+
"text": "ليش الصبح بكّير أحلى وقت للنزهة بالجبل؟ مع إنه الواحد لسه مش مروق ، بس الجو حلو والهدوء بيريّح الراس . مين بيحب الطبيعة زيي؟",
|
| 63 |
+
"true_label": "محايد",
|
| 64 |
+
"pred_label": "إيجابي",
|
| 65 |
+
"text_length": 124
|
| 66 |
+
},
|
| 67 |
+
{
|
| 68 |
+
"text": "{\"text_content\": \"لحضور مباريات مونديال قطر.. الرحال السعودي عبد الله السلمي يصل منفذ أبو سمرة الحدودي سيرًا على الأقدام جريدة_الراية قطر2022 | %url\"}",
|
| 69 |
+
"true_label": "إيجابي",
|
| 70 |
+
"pred_label": "محايد",
|
| 71 |
+
"text_length": 150
|
| 72 |
+
},
|
| 73 |
+
{
|
| 74 |
+
"text": "{\"text_content\": \"ثم يرزقك الله شخص مُختلف ، يمكنه أن يسرق ثقل هذا العالم عن كتفيك دون أن تشعُر ♥️.. حياكم_قطر قطر2022 تصويري مدينة_لوسيل قطر_جميله %url\"} ♥️",
|
| 75 |
+
"true_label": "محايد",
|
| 76 |
+
"pred_label": "إيجابي",
|
| 77 |
+
"text_length": 157
|
| 78 |
+
},
|
| 79 |
+
{
|
| 80 |
+
"text": "{\"text_content\": \"قطر مستعد من سيحمل أول کأس عالم في بلد عربي قطر2022 كأس_العالم_قطر_2022 قطر_محلوة \"}",
|
| 81 |
+
"true_label": "إيجابي",
|
| 82 |
+
"pred_label": "محايد",
|
| 83 |
+
"text_length": 102
|
| 84 |
+
},
|
| 85 |
+
{
|
| 86 |
+
"text": "{\"text_content\": \"ثم يرزقك الله شخص مُختلف ، يمكنه أن يسرق ثقل هذا العالم عن كتفيك دون أن تشعُر ♥️.. حياكم_قطر قطر2022 تصويري مدينة_لوسيل قطر_جميله %url\"} ♥️",
|
| 87 |
+
"true_label": "محايد",
|
| 88 |
+
"pred_label": "إيجابي",
|
| 89 |
+
"text_length": 157
|
| 90 |
+
},
|
| 91 |
+
{
|
| 92 |
+
"text": "مفيش حاجة بتسعدني قبل الفجر غير لما أجيب فطار من عربية الفول وأقعد أقرأ الميمز والنكت . الحمد لله على النِعم اللي بتساعدنا نبدأ يومنا مبسوطين . صباحالخير",
|
| 93 |
+
"true_label": "محايد",
|
| 94 |
+
"pred_label": "إيجابي",
|
| 95 |
+
"text_length": 153
|
| 96 |
+
},
|
| 97 |
+
{
|
| 98 |
+
"text": "{\"text_content\": \"وفقًا لصحيفة \\\"لا جازيتا ديلو سبورت\\\" خواكين كوريا مهاجم إنتر_ميلان مهدد بالغياب عن منتخب الأرجنتين في كأس_العالم قطر2022 بسبب تراجع مستواه الفني والبدني %url\"}",
|
| 99 |
+
"true_label": "سلبي",
|
| 100 |
+
"pred_label": "محايد",
|
| 101 |
+
"text_length": 178
|
| 102 |
+
},
|
| 103 |
+
{
|
| 104 |
+
"text": "{\"text_content\": \"منتخبنا الوطني يواجه بنما يوم السبت ودياً في إطار استعداداته لبطولة كأس_العالم قطر2022 \"}",
|
| 105 |
+
"true_label": "إيجابي",
|
| 106 |
+
"pred_label": "محايد",
|
| 107 |
+
"text_length": 107
|
| 108 |
+
},
|
| 109 |
+
{
|
| 110 |
+
"text": "تزوج_الثانيه_ومهرك_علينا تعدد الزوجات شرع الله وهو حل جذري للمشكلة التي يعاني منها اغلب شعوب العالم الغير مسلم. ولكن التعدد ليس رفاهيه او وناسه هو مسئولية وامانه عظيمه. بعض الرجال والنساء لديهم القدرة على انجاح التعدد وكثير منهم يسببون كارثه بالتعدد الغير عادل. 🔴عدد ولكن بعدل🔴 🔴 🔴",
|
| 111 |
+
"true_label": "سلبي",
|
| 112 |
+
"pred_label": "إيجابي",
|
| 113 |
+
"text_length": 281
|
| 114 |
+
},
|
| 115 |
+
{
|
| 116 |
+
"text": "{\"text_content\": \"تزامنا مع كأس_العالم FIFA قطر2022 .. متاحف_قطر تكشف النقاب عن أعمال إبداعية لفنانين عالميين قرب موقعي الزبارة وعين محمد التراثيين قنا %url %url\"}",
|
| 117 |
+
"true_label": "محايد",
|
| 118 |
+
"pred_label": "إيجابي",
|
| 119 |
+
"text_length": 163
|
| 120 |
+
},
|
| 121 |
+
{
|
| 122 |
+
"text": "{\"text_content\": \" كلنا_قطر اقتربنا من التاريخ الفاصل 20/11/2022 الذي يسجل قطر2022 في موسوعة تنظيم كأس_العالم_2022 %url\"}",
|
| 123 |
+
"true_label": "محايد",
|
| 124 |
+
"pred_label": "إيجابي",
|
| 125 |
+
"text_length": 121
|
| 126 |
+
},
|
| 127 |
+
{
|
| 128 |
+
"text": "واقف عند عربية الفول على الكورنيش والنيل قدامي ، والدنيا زحمة الصبح هنا في . نفسي أجيب فطار بسرعة لكن مفيش فايدة ، الطوابير مالهاش نهاية . فطارالصبح",
|
| 129 |
+
"true_label": "سلبي",
|
| 130 |
+
"pred_label": "محايد",
|
| 131 |
+
"text_length": 148
|
| 132 |
+
}
|
| 133 |
+
]
|
| 134 |
+
}
|
evaluation_report.txt
ADDED
|
@@ -0,0 +1,43 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
تقرير تقييم نموذج تحليل المشاعر المحسّن
|
| 2 |
+
==================================================
|
| 3 |
+
|
| 4 |
+
precision recall f1-score support
|
| 5 |
+
|
| 6 |
+
سلبي 0.9625 0.9601 0.9613 2355
|
| 7 |
+
محايد 0.9154 0.9002 0.9077 2355
|
| 8 |
+
إيجابي 0.9050 0.9223 0.9136 2355
|
| 9 |
+
|
| 10 |
+
accuracy 0.9275 7065
|
| 11 |
+
macro avg 0.9276 0.9275 0.9275 7065
|
| 12 |
+
weighted avg 0.9276 0.9275 0.9275 7065
|
| 13 |
+
|
| 14 |
+
|
| 15 |
+
المقاييس الإجمالية:
|
| 16 |
+
{
|
| 17 |
+
"test_accuracy": 0.9275300778485492,
|
| 18 |
+
"test_macro_f1": 0.9275342434551938,
|
| 19 |
+
"test_weighted_f1": 0.9275342434551938,
|
| 20 |
+
"test_macro_precision": 0.9276361932575578,
|
| 21 |
+
"test_macro_recall": 0.9275300778485492,
|
| 22 |
+
"n_test_samples": 7065,
|
| 23 |
+
"per_class_metrics": {
|
| 24 |
+
"سلبي": {
|
| 25 |
+
"precision": 0.9625372498935717,
|
| 26 |
+
"recall": 0.9600849256900212,
|
| 27 |
+
"f1-score": 0.9613095238095238,
|
| 28 |
+
"support": 2355.0
|
| 29 |
+
},
|
| 30 |
+
"محايد": {
|
| 31 |
+
"precision": 0.9153713298791019,
|
| 32 |
+
"recall": 0.9002123142250531,
|
| 33 |
+
"f1-score": 0.9077285377863412,
|
| 34 |
+
"support": 2355.0
|
| 35 |
+
},
|
| 36 |
+
"إيجابي": {
|
| 37 |
+
"precision": 0.905,
|
| 38 |
+
"recall": 0.9222929936305733,
|
| 39 |
+
"f1-score": 0.9135646687697161,
|
| 40 |
+
"support": 2355.0
|
| 41 |
+
}
|
| 42 |
+
}
|
| 43 |
+
}
|
final_report.md
ADDED
|
@@ -0,0 +1,81 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
|
| 2 |
+
# تقرير نموذج تحليل المشاعر العربية
|
| 3 |
+
|
| 4 |
+
## 📊 معلومات عامة
|
| 5 |
+
- **النموذج الأساسي**: UBC-NLP/MARBERTv2
|
| 6 |
+
- **تاريخ التدريب**: 2025-08-01 03:54:05
|
| 7 |
+
- **مدة التدريب**: 508.15 ثانية
|
| 8 |
+
- **عدد العينات**:
|
| 9 |
+
- التدريب: 32,970
|
| 10 |
+
- التحقق: 7,065
|
| 11 |
+
- الاختبار: 7,065
|
| 12 |
+
|
| 13 |
+
## 📈 الأداء على مجموعة الاختبار
|
| 14 |
+
- **الدقة الإجمالية**: 0.9275
|
| 15 |
+
- **F1-Score (Macro)**: 0.9275
|
| 16 |
+
- **F1-Score (Weighted)**: 0.9275
|
| 17 |
+
|
| 18 |
+
## 🎭 الأداء حسب الفئة
|
| 19 |
+
|
| 20 |
+
### سلبي:
|
| 21 |
+
- Precision: 0.9625
|
| 22 |
+
- Recall: 0.9601
|
| 23 |
+
- F1-Score: 0.9613
|
| 24 |
+
- عدد العينات: 2355.0
|
| 25 |
+
|
| 26 |
+
### محايد:
|
| 27 |
+
- Precision: 0.9154
|
| 28 |
+
- Recall: 0.9002
|
| 29 |
+
- F1-Score: 0.9077
|
| 30 |
+
- عدد العينات: 2355.0
|
| 31 |
+
|
| 32 |
+
### إيجابي:
|
| 33 |
+
- Precision: 0.9050
|
| 34 |
+
- Recall: 0.9223
|
| 35 |
+
- F1-Score: 0.9136
|
| 36 |
+
- عدد العينات: 2355.0
|
| 37 |
+
|
| 38 |
+
## 🔍 تحليل الأخطاء
|
| 39 |
+
- **معدل الخطأ**: 7.25%
|
| 40 |
+
- **إجمالي الأخطاء**: 512
|
| 41 |
+
|
| 42 |
+
### أنواع الأخطاء الرئيسية:
|
| 43 |
+
- محايد → إيجابي: 181 (35.4%)
|
| 44 |
+
- إيجابي → محايد: 149 (29.1%)
|
| 45 |
+
- محايد → سلبي: 54 (10.5%)
|
| 46 |
+
- سلبي → إيجابي: 47 (9.2%)
|
| 47 |
+
- سلبي → محايد: 47 (9.2%)
|
| 48 |
+
|
| 49 |
+
## 💾 الملفات المحفوظة
|
| 50 |
+
1. **النموذج**: `pytorch_model.bin`
|
| 51 |
+
2. **Tokenizer**: `tokenizer_config.json`, `special_tokens_map.json`, `vocab.txt`
|
| 52 |
+
3. **معلومات التدريب**: `training_info.json`
|
| 53 |
+
4. **تقرير التقييم**: `evaluation_report.txt`
|
| 54 |
+
5. **مصفوفة الالتباس**: `confusion_matrix.png`
|
| 55 |
+
6. **مقاييس الأداء**: `performance_metrics.png`
|
| 56 |
+
7. **أمثلة الاختبار**: `test_examples.json`
|
| 57 |
+
8. **تحليل الأخطاء**: `error_analysis.json`
|
| 58 |
+
|
| 59 |
+
## 🚀 استخدام النموذج
|
| 60 |
+
|
| 61 |
+
```python
|
| 62 |
+
from transformers import pipeline
|
| 63 |
+
|
| 64 |
+
# تحميل النموذج
|
| 65 |
+
classifier = pipeline(
|
| 66 |
+
"text-classification",
|
| 67 |
+
model="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved",
|
| 68 |
+
tokenizer="/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved"
|
| 69 |
+
)
|
| 70 |
+
|
| 71 |
+
# التنبؤ
|
| 72 |
+
result = classifier("النص المراد تحليله")
|
| 73 |
+
print(result)
|
| 74 |
+
```
|
| 75 |
+
|
| 76 |
+
## 📝 ملاحظات التحسين
|
| 77 |
+
1. تم موازنة البيانات لتحسين الأداء على جميع الفئات
|
| 78 |
+
2. تم استخدام تقنيات تنظيم (dropout, label smoothing) لتحسين التعميم
|
| 79 |
+
3. تم تحسين معالجة النصوص مع الحفاظ على الإيموجيز والرموز التعبيرية
|
| 80 |
+
4. تم استخدام dynamic padding لتحسين كفاءة التدريب
|
| 81 |
+
5. تم تقليل MAX_LEN إلى 100 بناءً على تحليل البيانات
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:2f9993f378c8d1f87b4fb13d40d4e2ed3f0bc583243118c3daee4b1a9edb5235
|
| 3 |
+
size 651398148
|
performance_metrics.png
ADDED
|
Git LFS Details
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"cls_token": "[CLS]",
|
| 3 |
+
"mask_token": "[MASK]",
|
| 4 |
+
"pad_token": "[PAD]",
|
| 5 |
+
"sep_token": "[SEP]",
|
| 6 |
+
"unk_token": "[UNK]"
|
| 7 |
+
}
|
test_examples.json
ADDED
|
@@ -0,0 +1,106 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"test_date": "2025-08-01 03:54:05",
|
| 3 |
+
"model_path": "/content/drive/MyDrive/Tweet_Project/Models/sentiment_marbert_v308_improved",
|
| 4 |
+
"examples": [
|
| 5 |
+
{
|
| 6 |
+
"text": "أحب هذا الفيلم كثيراً، إنه رائع جداً! 😍",
|
| 7 |
+
"predicted_sentiment": "إيجابي",
|
| 8 |
+
"confidence": 0.9534271955490112,
|
| 9 |
+
"all_scores": {
|
| 10 |
+
"إيجابي": 0.9534271955490112,
|
| 11 |
+
"سلبي": 0.02609867788851261,
|
| 12 |
+
"محايد": 0.020474091172218323
|
| 13 |
+
}
|
| 14 |
+
},
|
| 15 |
+
{
|
| 16 |
+
"text": "هذا المطعم سيء للغاية، لن أعود إليه مرة أخرى 😠",
|
| 17 |
+
"predicted_sentiment": "سلبي",
|
| 18 |
+
"confidence": 0.9604572653770447,
|
| 19 |
+
"all_scores": {
|
| 20 |
+
"سلبي": 0.9604572653770447,
|
| 21 |
+
"إيجابي": 0.020579680800437927,
|
| 22 |
+
"محايد": 0.018963059410452843
|
| 23 |
+
}
|
| 24 |
+
},
|
| 25 |
+
{
|
| 26 |
+
"text": "الطقس اليوم عادي، لا هو حار ولا بارد",
|
| 27 |
+
"predicted_sentiment": "محايد",
|
| 28 |
+
"confidence": 0.9473234415054321,
|
| 29 |
+
"all_scores": {
|
| 30 |
+
"محايد": 0.9473234415054321,
|
| 31 |
+
"سلبي": 0.02667488344013691,
|
| 32 |
+
"إيجابي": 0.026001665741205215
|
| 33 |
+
}
|
| 34 |
+
},
|
| 35 |
+
{
|
| 36 |
+
"text": "شكراً لك على المساعدة، أقدر جهودك كثيراً ❤️",
|
| 37 |
+
"predicted_sentiment": "إيجابي",
|
| 38 |
+
"confidence": 0.9037612676620483,
|
| 39 |
+
"all_scores": {
|
| 40 |
+
"إيجابي": 0.9037612676620483,
|
| 41 |
+
"سلبي": 0.06418748199939728,
|
| 42 |
+
"محايد": 0.032051265239715576
|
| 43 |
+
}
|
| 44 |
+
},
|
| 45 |
+
{
|
| 46 |
+
"text": "لا أعرف ماذا أقول عن هذا الموضوع",
|
| 47 |
+
"predicted_sentiment": "سلبي",
|
| 48 |
+
"confidence": 0.9166646599769592,
|
| 49 |
+
"all_scores": {
|
| 50 |
+
"سلبي": 0.9166646599769592,
|
| 51 |
+
"محايد": 0.05722469836473465,
|
| 52 |
+
"إيجابي": 0.026110703125596046
|
| 53 |
+
}
|
| 54 |
+
},
|
| 55 |
+
{
|
| 56 |
+
"text": "الخدمة كانت بطيئة لكن الطعام لذيذ",
|
| 57 |
+
"predicted_sentiment": "إيجابي",
|
| 58 |
+
"confidence": 0.9343199729919434,
|
| 59 |
+
"all_scores": {
|
| 60 |
+
"إيجابي": 0.9343199729919434,
|
| 61 |
+
"سلبي": 0.03325541689991951,
|
| 62 |
+
"محايد": 0.032424576580524445
|
| 63 |
+
}
|
| 64 |
+
},
|
| 65 |
+
{
|
| 66 |
+
"text": "أسوأ تجربة في حياتي! 😤",
|
| 67 |
+
"predicted_sentiment": "سلبي",
|
| 68 |
+
"confidence": 0.9537353515625,
|
| 69 |
+
"all_scores": {
|
| 70 |
+
"سلبي": 0.9537353515625,
|
| 71 |
+
"إيجابي": 0.024068130180239677,
|
| 72 |
+
"محايد": 0.0221964530646801
|
| 73 |
+
}
|
| 74 |
+
},
|
| 75 |
+
{
|
| 76 |
+
"text": "منتج عادي، لا يستحق السعر المدفوع",
|
| 77 |
+
"predicted_sentiment": "سلبي",
|
| 78 |
+
"confidence": 0.9510819911956787,
|
| 79 |
+
"all_scores": {
|
| 80 |
+
"سلبي": 0.9510819911956787,
|
| 81 |
+
"محايد": 0.025180647149682045,
|
| 82 |
+
"إيجابي": 0.023737328127026558
|
| 83 |
+
}
|
| 84 |
+
},
|
| 85 |
+
{
|
| 86 |
+
"text": "ممتاز! تجاوز كل توقعاتي 🌟",
|
| 87 |
+
"predicted_sentiment": "إيجابي",
|
| 88 |
+
"confidence": 0.9492729306221008,
|
| 89 |
+
"all_scores": {
|
| 90 |
+
"إيجابي": 0.9492729306221008,
|
| 91 |
+
"سلبي": 0.02549228072166443,
|
| 92 |
+
"محايد": 0.025234773755073547
|
| 93 |
+
}
|
| 94 |
+
},
|
| 95 |
+
{
|
| 96 |
+
"text": "المنتج وصل متأخراً ومعطوباً، خدمة العملاء لم تساعد",
|
| 97 |
+
"predicted_sentiment": "سلبي",
|
| 98 |
+
"confidence": 0.9535115957260132,
|
| 99 |
+
"all_scores": {
|
| 100 |
+
"سلبي": 0.9535115957260132,
|
| 101 |
+
"محايد": 0.02585621364414692,
|
| 102 |
+
"إيجابي": 0.020632220432162285
|
| 103 |
+
}
|
| 104 |
+
}
|
| 105 |
+
]
|
| 106 |
+
}
|
tokenizer.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,58 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "[PAD]",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "[UNK]",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "[CLS]",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "[SEP]",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"4": {
|
| 36 |
+
"content": "[MASK]",
|
| 37 |
+
"lstrip": false,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"clean_up_tokenization_spaces": true,
|
| 45 |
+
"cls_token": "[CLS]",
|
| 46 |
+
"do_basic_tokenize": true,
|
| 47 |
+
"do_lower_case": true,
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "[MASK]",
|
| 50 |
+
"model_max_length": 1000000000000000019884624838656,
|
| 51 |
+
"never_split": null,
|
| 52 |
+
"pad_token": "[PAD]",
|
| 53 |
+
"sep_token": "[SEP]",
|
| 54 |
+
"strip_accents": null,
|
| 55 |
+
"tokenize_chinese_chars": true,
|
| 56 |
+
"tokenizer_class": "BertTokenizer",
|
| 57 |
+
"unk_token": "[UNK]"
|
| 58 |
+
}
|
training_args.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:f04a2f7437c08f2c9a81979723e09267225724fdd3f6b07c5ddd2bdd010a2936
|
| 3 |
+
size 5432
|
training_info.json
ADDED
|
@@ -0,0 +1,34 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"id2label": {
|
| 3 |
+
"0": "سلبي",
|
| 4 |
+
"1": "محايد",
|
| 5 |
+
"2": "إيجابي"
|
| 6 |
+
},
|
| 7 |
+
"label2id": {
|
| 8 |
+
"سلبي": 0,
|
| 9 |
+
"محايد": 1,
|
| 10 |
+
"إيجابي": 2
|
| 11 |
+
},
|
| 12 |
+
"num_labels": 3,
|
| 13 |
+
"task": "sentiment_analysis",
|
| 14 |
+
"language": "arabic",
|
| 15 |
+
"model_name": "UBC-NLP/MARBERTv2",
|
| 16 |
+
"max_length": 100,
|
| 17 |
+
"training_samples": 32970,
|
| 18 |
+
"validation_samples": 7065,
|
| 19 |
+
"test_samples": 7065,
|
| 20 |
+
"train_runtime": 508.1498,
|
| 21 |
+
"train_samples_per_second": 324.412,
|
| 22 |
+
"train_loss": 0.4654327607154846,
|
| 23 |
+
"data_info": {
|
| 24 |
+
"original_samples": 45948,
|
| 25 |
+
"cleaned_samples": 45948,
|
| 26 |
+
"balanced_samples": 47100,
|
| 27 |
+
"avg_text_length": 151.8227176220807,
|
| 28 |
+
"sentiment_distribution": {
|
| 29 |
+
"1": 15700,
|
| 30 |
+
"2": 15700,
|
| 31 |
+
"0": 15700
|
| 32 |
+
}
|
| 33 |
+
}
|
| 34 |
+
}
|
vocab.txt
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|