|
|
|
|
|
--- |
|
|
tags: |
|
|
- bertopic |
|
|
library_name: bertopic |
|
|
pipeline_tag: text-classification |
|
|
--- |
|
|
|
|
|
# -BERTopic_Arab_news |
|
|
|
|
|
A modular implementation of BERTopic for topic modeling, specifically trained on `Arabic news articles`. This implementation allows for flexible component selection at each layer of the topic modeling pipeline. |
|
|
|
|
|
 |
|
|
|
|
|
|
|
|
## The core of this project is BERTopic, which is used to perform topic modeling on the processed text. The following steps are performed: |
|
|
|
|
|
#### - Topic Modeling: BERTopic is trained on the cleaned dataset to identify topics in the articles. |
|
|
#### - Fine-tuning with KeyBERT: We use KeyBERT-inspired representations to improve the clarity and interpretability of the topics. |
|
|
#### - Topic Extraction: The most frequent topics are extracted, and each document is assigned a topic. |
|
|
#### - Topic Updates: The model can be fine-tuned by updating topics with n-grams for more domain-specific phrases. |
|
|
|
|
|
|
|
|
|
|
|
## Usage |
|
|
|
|
|
To use this model, please install BERTopic: |
|
|
|
|
|
``` |
|
|
pip install -U bertopic |
|
|
``` |
|
|
|
|
|
You can use the model as follows: |
|
|
|
|
|
```python |
|
|
from bertopic import BERTopic |
|
|
topic_model = BERTopic.load("Ah7med/BERTopic_ArXiv") |
|
|
|
|
|
topic_model.get_topic_info() |
|
|
``` |
|
|
|
|
|
## Topic overview |
|
|
|
|
|
* Number of topics: 92 |
|
|
* Number of training documents: 30721 |
|
|
|
|
|
<details> |
|
|
<summary>Click here for an overview of all topics.</summary> |
|
|
|
|
|
| Topic ID | Topic Keywords | Topic Frequency | Label | |
|
|
|----------|----------------|-----------------|-------| |
|
|
| -1 | رقم مليار - السمو - السمو الملكي - رقم رقم مليار - الملكي الأمير | 53 | -1_رقم مليار_السمو_السمو الملكي_رقم رقم مليار | |
|
|
| 0 | النادي - اللاعبين - اللاعب - القدم - نادي | 9656 | 0_النادي_اللاعبين_اللاعب_القدم | |
|
|
| 1 | عدن - المقاومة - الحوثيين - اليمن - الحوثي | 2984 | 1_عدن_المقاومة_الحوثيين_اليمن | |
|
|
| 2 | التحرش - الكتاب - الشاعر - الشعر - الرواية | 1111 | 2_التحرش_الكتاب_الشاعر_الشعر | |
|
|
| 3 | يونايتد - الدوري - الموسم - مانشستر - سيتي | 898 | 3_يونايتد_الدوري_الموسم_مانشستر | |
|
|
| 4 | إيران - النووي - الإيراني - الاتفاق النووي - أوباما | 819 | 4_إيران_النووي_الإيراني_الاتفاق النووي | |
|
|
| 5 | المرورية - وإنشاء - البلدية - الأمانة - المشروعات | 756 | 5_المرورية_وإنشاء_البلدية_الأمانة | |
|
|
| 6 | بشرطة - التحقيق - القبض - مقطع - التحرش | 543 | 6_بشرطة_التحقيق_القبض_مقطع | |
|
|
| 7 | الفعاليات - المهرجان - فعاليات - مهرجان - الشعبية | 496 | 7_الفعاليات_المهرجان_فعاليات_مهرجان | |
|
|
| 8 | تركيا - التركية - داعش - الكردستاني - العمال الكردستاني | 471 | 8_تركيا_التركية_داعش_الكردستاني | |
|
|
| 9 | الهاتف - أبل - الذكية - الهواتف - ويندوز | 456 | 9_الهاتف_أبل_الذكية_الهواتف | |
|
|
| 10 | الباحثون - القلب - الجسم - الدم - الإصابة | 431 | 10_الباحثون_القلب_الجسم_الدم | |
|
|
| 11 | البلدية - الانتخابية - للانتخابات - الانتخابات - الناخبين | 391 | 11_البلدية_الانتخابية_للانتخابات_الانتخابات | |
|
|
| 12 | الإسكان - العقاري - العقارية - نزع - نزع ملكية | 360 | 12_الإسكان_العقاري_العقارية_نزع | |
|
|
| 13 | - - - - | 357 | 13____ | |
|
|
| 14 | قوات الطوارئ - الإرهابي - الشهداء - استهدف - قوات | 354 | 14_قوات الطوارئ_الإرهابي_الشهداء_استهدف | |
|
|
| 15 | الحرارة - الموج - الرياح - السطحية - غربية | 340 | 15_الحرارة_الموج_الرياح_السطحية | |
|
|
| 16 | داعش - إرهابية - الإرهابية - محكمة - تنظيم داعش | 318 | 16_داعش_إرهابية_الإرهابية_محكمة | |
|
|
| 17 | النفط - برميل - الخام - للبرميل - مليون برميل | 297 | 17_النفط_برميل_الخام_للبرميل | |
|
|
| 18 | الشهيد - العزاء - الفقيد - الشهداء - عسير | 292 | 18_الشهيد_العزاء_الفقيد_الشهداء | |
|
|
| 19 | الاحتلال - الإسرائيلية - الفلسطيني - الإسرائيلي - الفلسطينية | 291 | 19_الاحتلال_الإسرائيلية_الفلسطيني_الإسرائيلي | |
|
|
| 20 | نائب خادم - نائب خادم الحرمين - الصافي - الفيصل - قهوجي | 288 | 20_نائب خادم_نائب خادم الحرمين_الصافي_الفيصل | |
|
|
| 21 | الطلاب - موهبة - العلمية - هارفارد - جامعة هارفارد | 274 | 21_الطلاب_موهبة_العلمية_هارفارد | |
|
|
| 22 | مجلس الوزراء - العهد - الاستقبال - وزير الدفاع - جمهورية | 270 | 22_مجلس الوزراء_العهد_الاستقبال_وزير الدفاع | |
|
|
| 23 | داعش - الإرهاب - الفكر - الإرهابية - الإسلام | 266 | 23_داعش_الإرهاب_الفكر_الإرهابية | |
|
|
| 24 | القبول - الجامعة - والتسجيل - القبول والتسجيل - رقم رقمهـ | 229 | 24_القبول_الجامعة_والتسجيل_القبول والتسجيل | |
|
|
| 25 | الطفلة - المستشفى - المتوفاة - الشؤون الصحية - الصحية بمنطقة | 227 | 25_الطفلة_المستشفى_المتوفاة_الشؤون الصحية | |
|
|
| 26 | الاستقدام - العمالة - وزارة العمل - الهندسية - مكاتب | 227 | 26_الاستقدام_العمالة_وزارة العمل_الهندسية | |
|
|
| 27 | احتفل - بزواج - كريمة - والأصدقاء - تهانينا | 227 | 27_احتفل_بزواج_كريمة_والأصدقاء | |
|
|
| 28 | الفيلم - فيلم - أفلام - الأفلام - السينما | 210 | 28_الفيلم_فيلم_أفلام_الأفلام | |
|
|
| 29 | السويس - قناة السويس - القناة - السويس الجديدة - قناة السويس الجديدة | 206 | 29_السويس_قناة السويس_القناة_السويس الجديدة | |
|
|
| 30 | كلينتون - ترامب - الحزب - بوش - الجمهوري | 201 | 30_كلينتون_ترامب_الحزب_بوش | |
|
|
| 31 | سرير - رقم سرير - بسعة - بسعة رقم - العيادات | 196 | 31_سرير_رقم سرير_بسعة_بسعة رقم | |
|
|
| 32 | اليونان - اليورو - اليونانية - الأوروبي - النقد الدولي | 196 | 32_اليونان_اليورو_اليونانية_الأوروبي | |
|
|
| 33 | مطار - الطيران - المطار - للطيران - المسافرين | 195 | 33_مطار_الطيران_المطار_للطيران | |
|
|
| 34 | معايدة - التهاني - بمناسبة عيد - حفل معايدة - بمناسبة عيد الفطر | 190 | 34_معايدة_التهاني_بمناسبة عيد_حفل معايدة | |
|
|
| 35 | العبادي - الفساد - العراقي - البرلمان - رئيس الوزراء | 178 | 35_العبادي_الفساد_العراقي_البرلمان | |
|
|
| 36 | روسيا - التصفيات - كأس العالم - القرعة - كأس | 174 | 36_روسيا_التصفيات_كأس العالم_القرعة | |
|
|
| 37 | المدارس - الدراسي - العام الدراسي - مدارس - وزير التعليم | 165 | 37_المدارس_الدراسي_العام الدراسي_مدارس | |
|
|
| 38 | الطب - الجامعة - تبوك - القبول - كلية | 163 | 38_الطب_الجامعة_تبوك_القبول | |
|
|
| 39 | الحريق - حريق - الدفاع المدني - للدفاع المدني - الحادث | 162 | 39_الحريق_حريق_الدفاع المدني_للدفاع المدني | |
|
|
| 40 | حادث - الهلال الأحمر - الهلال - الحادث - الأحمر السعودي | 162 | 40_حادث_الهلال الأحمر_الهلال_الحادث | |
|
|
| 41 | الفيفا - بلاتر - فيفا - بلاتيني - الاتحاد الدولي | 161 | 41_الفيفا_بلاتر_فيفا_بلاتيني | |
|
|
| 42 | الفائدة - الدولار - الأسهم - أسعار الفائدة - الصين | 150 | 42_الفائدة_الدولار_الأسهم_أسعار الفائدة | |
|
|
| 43 | التصحيح - اليمنيين - تصحيح - تصحيح أوضاع - الجوازات | 138 | 43_التصحيح_اليمنيين_تصحيح_تصحيح أوضاع | |
|
|
| 44 | بلدية - البلدية - الغذائية - الرقابة - المطعم | 134 | 44_بلدية_البلدية_الغذائية_الرقابة | |
|
|
| 45 | النادي - سوق عكاظ - الأدبي - الثقافي - الأدبية | 133 | 45_النادي_سوق عكاظ_الأدبي_الثقافي | |
|
|
| 46 | المرضى - المنومين - المستشفى - المرضى المنومين - الهدايا | 122 | 46_المرضى_المنومين_المستشفى_المرضى المنومين | |
|
|
| 47 | المهاجرين - كاليه - مهاجر - اللاجئين - النفق | 121 | 47_المهاجرين_كاليه_مهاجر_اللاجئين | |
|
|
| 48 | للأوقية - الذهب - رقم للأوقية - رقم رقم للأوقية - بالمئة | 121 | 48_للأوقية_الذهب_رقم للأوقية_رقم رقم للأوقية | |
|
|
| 49 | أغنية - الأغنية - كلمات - الفنان - وألحان | 119 | 49_أغنية_الأغنية_كلمات_الفنان | |
|
|
| 50 | التمور - الأسعار - الاستراحات - الصيد - ريالا | 118 | 50_التمور_الأسعار_الاستراحات_الصيد | |
|
|
| 51 | رقم رقم المائة - الربع - اليورو - النمو - منطقة اليورو | 117 | 51_رقم رقم المائة_الربع_اليورو_النمو | |
|
|
| 52 | الخيرية - الأيتام - التطوعي - بسمتهم - نرسم | 113 | 52_الخيرية_الأيتام_التطوعي_بسمتهم | |
|
|
| 53 | الأسهم - أسهم رقم - أسهم شركات - للتأمين - بنسبة رقم رقم | 111 | 53_الأسهم_أسهم رقم_أسهم شركات_للتأمين | |
|
|
| 54 | الربع - صافي - أرباح - ريال - النصف الأول | 110 | 54_الربع_صافي_أرباح_ريال | |
|
|
| 55 | النار - براون - هولمز - بولاية - سينما | 107 | 55_النار_براون_هولمز_بولاية | |
|
|
| 56 | البلدين - محمد سلمان - الأمير محمد - الأمير محمد سلمان - سلمان عبدالعزيز | 107 | 56_البلدين_محمد سلمان_الأمير محمد_الأمير محمد سلمان | |
|
|
| 57 | المتنزه - القرش - بالمر - الحيوان - الحيوانات | 104 | 57_المتنزه_القرش_بالمر_الحيوان | |
|
|
| 58 | الفيضانات - الزلزال - الأمطار - باكستان - الإعصار | 102 | 58_الفيضانات_الزلزال_الأمطار_باكستان | |
|
|
| 59 | الفضاء - ناسا - الكوكب - كوكب - سطح | 101 | 59_الفضاء_ناسا_الكوكب_كوكب | |
|
|
| 60 | المقابلات - المعلمين - شؤون المعلمين - المقابلات الشخصية - المرشحين | 96 | 60_المقابلات_المعلمين_شؤون المعلمين_المقابلات الشخصية | |
|
|
| 61 | الأراضي اليمنية - اليمنية - داخل الأراضي اليمنية - داخل الأراضي - الدفاع المدني | 96 | 61_الأراضي اليمنية_اليمنية_داخل الأراضي اليمنية_داخل الأراضي | |
|
|
| 62 | المعرض - والفنون - المفتاحة - الفنانين - التشكيلي | 96 | 62_المعرض_والفنون_المفتاحة_الفنانين | |
|
|
| 63 | المعارضة - قوات النظام - السوري - المرصد - الزبداني | 94 | 63_المعارضة_قوات النظام_السوري_المرصد | |
|
|
| 64 | أشعة الشمس - أشعة - الشمس - وزارة العمل - مكتب العمل | 94 | 64_أشعة الشمس_أشعة_الشمس_وزارة العمل | |
|
|
| 65 | وأطيب التمنيات - التهاني وأطيب التمنيات - التهاني وأطيب - التمنيات - وأطيب | 93 | 65_وأطيب التمنيات_التهاني وأطيب التمنيات_التهاني وأطيب_التمنيات | |
|
|
| 66 | السيارة - جي - الكهربائية - رقمررقم - للسيارات | 92 | 66_السيارة_جي_الكهربائية_رقمررقم | |
|
|
| 67 | الحفل - الأهالي - بلدية - بعيد الفطر - الاحتفال | 90 | 67_الحفل_الأهالي_بلدية_بعيد الفطر | |
|
|
| 68 | الرمادي - الأنبار - داعش - تنظيم داعش - القوات | 88 | 68_الرمادي_الأنبار_داعش_تنظيم داعش | |
|
|
| 69 | المالكي - العراق - العراقية - نوري - نوري المالكي | 87 | 69_المالكي_العراق_العراقية_نوري | |
|
|
| 70 | سموه - أمير منطقة - استقبل - أمير منطقة الرياض - منطقة الرياض | 79 | 70_سموه_أمير منطقة_استقبل_أمير منطقة الرياض | |
|
|
| 71 | موبايلي - العملاء - خدمات الاتصالات - هيئة الاتصالات - التجمعات | 77 | 71_موبايلي_العملاء_خدمات الاتصالات_هيئة الاتصالات | |
|
|
| 72 | الفيصل - سعود الفيصل - الأمير سعود - الأمير سعود الفيصل - الدبلوماسية | 76 | 72_الفيصل_سعود الفيصل_الأمير سعود_الأمير سعود الفيصل | |
|
|
| 73 | سهم - رقم نقطة - المئة - رقم المئة - رقم رقم المائة | 74 | 73_سهم_رقم نقطة_المئة_رقم المئة | |
|
|
| 74 | طالبان - الأفغانية - حركة طالبان - أفغانستان - كابول | 73 | 74_طالبان_الأفغانية_حركة طالبان_أفغانستان | |
|
|
| 75 | الكشافة - الكشفي - الكشفية - المخيم - رسل السلام | 72 | 75_الكشافة_الكشفي_الكشفية_المخيم | |
|
|
| 76 | العسل - النحل - الباحة - المهرجان - عسل | 72 | 76_العسل_النحل_الباحة_المهرجان | |
|
|
| 77 | المسرحية - المسرحي - العرض المسرحي - مسرحية - المسرح | 71 | 77_المسرحية_المسرحي_العرض المسرحي_مسرحية | |
|
|
| 78 | تفجير - مسجد - قوات الطوارئ - عسير - صلاة الظهر | 69 | 78_تفجير_مسجد_قوات الطوارئ_عسير | |
|
|
| 79 | حرس - حرس الحدود - البحث والإنقاذ - والإنقاذ - الحدود بالمنطقة | 69 | 79_حرس_حرس الحدود_البحث والإنقاذ_والإنقاذ | |
|
|
| 80 | الطائرة - لادن - الطيران - طائرة - تحطم | 68 | 80_الطائرة_لادن_الطيران_طائرة | |
|
|
| 81 | المطعم - مطعم - لندن - الطعام - الأطباق | 66 | 81_المطعم_مطعم_لندن_الطعام | |
|
|
| 82 | الحج - حجاج الداخل - الحجاج - حجاج - وزارة الحج | 65 | 82_الحج_حجاج الداخل_الحجاج_حجاج | |
|
|
| 83 | سيناء - زويد - المصرية - العريش - الشيخ زويد | 64 | 83_سيناء_زويد_المصرية_العريش | |
|
|
| 84 | الوقود - الغاز - البنزين - الإمارات - أسعار الوقود | 64 | 84_الوقود_الغاز_البنزين_الإمارات | |
|
|
| 85 | الجمارك - تهريب - جمرك - رجال الجمارك - مخبأة | 63 | 85_الجمارك_تهريب_جمرك_رجال الجمارك | |
|
|
| 86 | المنتدى - المعارض - والمؤتمرات - المعرض - غرفة الشرقية | 63 | 86_المنتدى_المعارض_والمؤتمرات_المعرض | |
|
|
| 87 | الملا - طالبان - الملا عمر - الأفغانية - حركة طالبان | 63 | 87_الملا_طالبان_الملا عمر_الأفغانية | |
|
|
| 88 | كورونا - وزارة الصحة - الحالة الأولى - رقم حالة - والتحكم | 62 | 88_كورونا_وزارة الصحة_الحالة الأولى_رقم حالة | |
|
|
| 89 | الماليزية - الطائرة - الحطام - حطام - طائرة | 61 | 89_الماليزية_الطائرة_الحطام_حطام | |
|
|
| 90 | سوق العمل - الوظائف - التوظيف - الاستقدام - فرص العمل | 55 | 90_سوق العمل_الوظائف_التوظيف_الاستقدام | |
|
|
|
|
|
</details> |
|
|
|
|
|
## Dataset |
|
|
|
|
|
The dataset used in this project is `saudinewsnet`. It can be loaded using the following command: |
|
|
|
|
|
```python |
|
|
from datasets import load_dataset |
|
|
dataset = load_dataset("saudinewsnet") |
|
|
``` |
|
|
|
|
|
|
|
|
For more information, visit the [Hugging Face dataset page](https://huggingface.co/datasets/inparallel/saudinewsnet) |
|
|
|
|
|
## Dataset Details: |
|
|
### Name: saudinewsnet |
|
|
### Description: This dataset contains news articles in Arabic from various domains, primarily focused on Saudi news. |
|
|
Source: [Hugging Face dataset page](https://huggingface.co/datasets/inparallel/saudinewsnet) |
|
|
|
|
|
|
|
|
## Training hyperparameters |
|
|
|
|
|
* calculate_probabilities: True |
|
|
* language: None |
|
|
* low_memory: False |
|
|
* min_topic_size: 10 |
|
|
* n_gram_range: (1, 1) |
|
|
* nr_topics: None |
|
|
* seed_topic_list: None |
|
|
* top_n_words: 10 |
|
|
* verbose: True |
|
|
* zeroshot_min_similarity: 0.7 |
|
|
* zeroshot_topic_list: None |
|
|
|
|
|
## Framework versions |
|
|
|
|
|
* Numpy: 1.26.4 |
|
|
* HDBSCAN: 0.8.40 |
|
|
* UMAP: 0.5.7 |
|
|
* Pandas: 2.2.2 |
|
|
* Scikit-Learn: 1.2.2 |
|
|
* Sentence-transformers: 3.3.1 |
|
|
* Transformers: 4.47.0 |
|
|
* Numba: 0.60.0 |
|
|
* Plotly: 5.24.1 |
|
|
* Python: 3.10.12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# Visualization: Displays topic distribution and document-level information |
|
|
|
|
|
|
|
|
 |