Add BERTopic model
Browse files- README.md +141 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
|
@@ -0,0 +1,141 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
|
| 2 |
+
---
|
| 3 |
+
tags:
|
| 4 |
+
- bertopic
|
| 5 |
+
library_name: bertopic
|
| 6 |
+
pipeline_tag: text-classification
|
| 7 |
+
---
|
| 8 |
+
|
| 9 |
+
# MARTINI_enrich_BERTopic_zaferpartililer
|
| 10 |
+
|
| 11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
| 12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
| 13 |
+
|
| 14 |
+
## Usage
|
| 15 |
+
|
| 16 |
+
To use this model, please install BERTopic:
|
| 17 |
+
|
| 18 |
+
```
|
| 19 |
+
pip install -U bertopic
|
| 20 |
+
```
|
| 21 |
+
|
| 22 |
+
You can use the model as follows:
|
| 23 |
+
|
| 24 |
+
```python
|
| 25 |
+
from bertopic import BERTopic
|
| 26 |
+
topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_zaferpartililer")
|
| 27 |
+
|
| 28 |
+
topic_model.get_topic_info()
|
| 29 |
+
```
|
| 30 |
+
|
| 31 |
+
## Topic overview
|
| 32 |
+
|
| 33 |
+
* Number of topics: 72
|
| 34 |
+
* Number of training documents: 13736
|
| 35 |
+
|
| 36 |
+
<details>
|
| 37 |
+
<summary>Click here for an overview of all topics.</summary>
|
| 38 |
+
|
| 39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
| 40 |
+
|----------|----------------|-----------------|-------|
|
| 41 |
+
| -1 | turkiye - kılıcdaroglu - milliyetci - ikinci - partisi | 20 | -1_turkiye_kılıcdaroglu_milliyetci_ikinci |
|
| 42 |
+
| 0 | partisiyle - partiyi - destekliyorum - yapılacaksa - atıyorlardı | 8789 | 0_partisiyle_partiyi_destekliyorum_yapılacaksa |
|
| 43 |
+
| 1 | ataturkcu - milliyetcilik - istanbul - karabekir - abdulhamid | 247 | 1_ataturkcu_milliyetcilik_istanbul_karabekir |
|
| 44 |
+
| 2 | twitterı - twitlerini - hashtag - ulkemdesıgınmacıistemiyorum - tagimiz | 240 | 2_twitterı_twitlerini_hashtag_ulkemdesıgınmacıistemiyorum |
|
| 45 |
+
| 3 | erdoganın - kılıcdaroglu - sarayın - dersiniz - politikasına | 188 | 3_erdoganın_kılıcdaroglu_sarayın_dersiniz |
|
| 46 |
+
| 4 | sahih - الله - islamın - kuranı - fatiha | 183 | 4_sahih_الله_islamın_kuranı |
|
| 47 |
+
| 5 | israilogullarının - hamas - اسرايیل - filistini - turkiye | 174 | 5_israilogullarının_hamas_اسرايیل_filistini |
|
| 48 |
+
| 6 | vatanını - milliyetcisiyim - heyecanlandım - bayrak - dusuncelerimizi | 169 | 6_vatanını_milliyetcisiyim_heyecanlandım_bayrak |
|
| 49 |
+
| 7 | karamahmutoglu - buyuksehir - gazeteci - partiye - sıgınmacı | 149 | 7_karamahmutoglu_buyuksehir_gazeteci_partiye |
|
| 50 |
+
| 8 | dusuneceklerdi - karısıklıgına - destekleyicisi - demirtası - elazigda | 132 | 8_dusuneceklerdi_karısıklıgına_destekleyicisi_demirtası |
|
| 51 |
+
| 9 | ilkelerimizi - cıkarılabilir - sartlarımızı - secimden - calısmaların | 131 | 9_ilkelerimizi_cıkarılabilir_sartlarımızı_secimden |
|
| 52 |
+
| 10 | turkiyənin - inanırdım - ırkcı - elınde - sevebiliriz | 129 | 10_turkiyənin_inanırdım_ırkcı_elınde |
|
| 53 |
+
| 11 | hizbullahcı - diyarbakır - pamukoglu - kaldırmamıslardır - bayraklarını | 125 | 11_hizbullahcı_diyarbakır_pamukoglu_kaldırmamıslardır |
|
| 54 |
+
| 12 | videoları - yaydıgı - yorumları - uzaklastırılacak - videoyu | 119 | 12_videoları_yaydıgı_yorumları_uzaklastırılacak |
|
| 55 |
+
| 13 | rusların - putin - ukraynalılar - belarusla - olsaydım | 113 | 13_rusların_putin_ukraynalılar_belarusla |
|
| 56 |
+
| 14 | afganların - pakistanlıları - turkiyeye - talibanın - bayragını | 111 | 14_afganların_pakistanlıları_turkiyeye_talibanın |
|
| 57 |
+
| 15 | fiyatları - milyonlar - kalmadıysa - memleketı - karısabilir | 104 | 15_fiyatları_milyonlar_kalmadıysa_memleketı |
|
| 58 |
+
| 16 | yatırımları - karsılıksız - siyasetinizin - ekonomileri - krizin | 98 | 16_yatırımları_karsılıksız_siyasetinizin_ekonomileri |
|
| 59 |
+
| 17 | sarımert - kırsehir - gazilerimizin - avukatım - bolukbası | 96 | 17_sarımert_kırsehir_gazilerimizin_avukatım |
|
| 60 |
+
| 18 | kızı - kacırılarak - sırbistan - gebze - saldırdılar | 95 | 18_kızı_kacırılarak_sırbistan_gebze |
|
| 61 |
+
| 19 | sayılarak - yapicaksiniz - cıkmasaydi - bekliyorsunuz - sacmaydı | 91 | 19_sayılarak_yapicaksiniz_cıkmasaydi_bekliyorsunuz |
|
| 62 |
+
| 20 | planlı - calıssaydım - ilerlediklerini - hatasını - aklını | 88 | 20_planlı_calıssaydım_ilerlediklerini_hatasını |
|
| 63 |
+
| 21 | politikalarıı - partiyi - cıkartabiliriz - olasılıklarının - ataturkcu | 87 | 21_politikalarıı_partiyi_cıkartabiliriz_olasılıklarının |
|
| 64 |
+
| 22 | yıldır - cıldıracagım - yasamısım - uygulanmıstır - yıl | 84 | 22_yıldır_cıldıracagım_yasamısım_uygulanmıstır |
|
| 65 |
+
| 23 | grupların - gruptayim - banlayabilirsiniz - paylasılıyormu - ugrasmadım | 84 | 23_grupların_gruptayim_banlayabilirsiniz_paylasılıyormu |
|
| 66 |
+
| 24 | devletlerden - yonetimde - uyancagımızı - cıkılmasını - taraftarlarını | 75 | 24_devletlerden_yonetimde_uyancagımızı_cıkılmasını |
|
| 67 |
+
| 25 | azerbaycanlıyım - اذربایجان - milliyetcilerinizi - sancagımiz - cabaladıklarını | 71 | 25_azerbaycanlıyım_اذربایجان_milliyetcilerinizi_sancagımiz |
|
| 68 |
+
| 26 | kurtulamazsınız - imkanlarımızı - allahi - maslahatlarına - tanrı | 66 | 26_kurtulamazsınız_imkanlarımızı_allahi_maslahatlarına |
|
| 69 |
+
| 27 | dostlarımda - baslamıssınız - attırdım - kardeslerinizden - destekleyebilecegimiz | 64 | 27_dostlarımda_baslamıssınız_attırdım_kardeslerinizden |
|
| 70 |
+
| 28 | kaldırılamaz - kalınlıgındaki - duzeltmeyecek - mantıgındayımda - kisiliklerin | 64 | 28_kaldırılamaz_kalınlıgındaki_duzeltmeyecek_mantıgındayımda |
|
| 71 |
+
| 29 | sosyal - yobazlarını - unutmayacagım - sormayı - cıkarabiliriz | 64 | 29_sosyal_yobazlarını_unutmayacagım_sormayı |
|
| 72 |
+
| 30 | cıkabilirdi - kahramanmaraslıyım - hocanında - chp - dusuncelerimiz | 62 | 30_cıkabilirdi_kahramanmaraslıyım_hocanında_chp |
|
| 73 |
+
| 31 | polıtıkaları - siyasetinize - tanınmıslıgın - karısmasını - argumanlarını | 62 | 31_polıtıkaları_siyasetinize_tanınmıslıgın_karısmasını |
|
| 74 |
+
| 32 | televizyonuna - tıklamalısın - haberleri - gazetesinin - karagahımın | 60 | 32_televizyonuna_tıklamalısın_haberleri_gazetesinin |
|
| 75 |
+
| 33 | sıcrayacak - dokunmayız - guneyimizdeki - ittihatcıların - kabullenmeye | 60 | 33_sıcrayacak_dokunmayız_guneyimizdeki_ittihatcıların |
|
| 76 |
+
| 34 | isteyebilirsiniz - kazandirabilmek - egitimsizlestirildi - katamadıgımız - bogulmasinlar | 56 | 34_isteyebilirsiniz_kazandirabilmek_egitimsizlestirildi_katamadıgımız |
|
| 77 |
+
| 35 | tayvanı - karsılamalıyız - birliklerin - sıkıntıda - bagımsızlık | 53 | 35_tayvanı_karsılamalıyız_birliklerin_sıkıntıda |
|
| 78 |
+
| 36 | yıkıldıgında - istanbulda - ulasabilirsiniz - taksiciler - calıstıgından | 53 | 36_yıkıldıgında_istanbulda_ulasabilirsiniz_taksiciler |
|
| 79 |
+
| 37 | oyunlara - karısının - beynimizle - yıpratmayın - olamazmı | 49 | 37_oyunlara_karısının_beynimizle_yıpratmayın |
|
| 80 |
+
| 38 | islamcılar - istanbulun - islmacı - dıslaniyoruz - sınırlarında | 48 | 38_islamcılar_istanbulun_islmacı_dıslaniyoruz |
|
| 81 |
+
| 39 | osmanlıcılık - sultanlarin - bayezid - timur - tarihlerdeki | 46 | 39_osmanlıcılık_sultanlarin_bayezid_timur |
|
| 82 |
+
| 40 | doları - bankası - fiyatlandırmasında - cırpınıslarını - euroyu | 41 | 40_doları_bankası_fiyatlandırmasında_cırpınıslarını |
|
| 83 |
+
| 41 | adayların - fatih - itibarıyla - muharrem - 41 | 41 | 41_adayların_fatih_itibarıyla_muharrem |
|
| 84 |
+
| 42 | insanlıgımızı - adamlıgımızı - kazanıcaksınız - karanlıkta - hayatimiza | 41 | 42_insanlıgımızı_adamlıgımızı_kazanıcaksınız_karanlıkta |
|
| 85 |
+
| 43 | cocuklarımın - yapmaması - yazılımdayım - harcadıgım - babalarının | 40 | 43_cocuklarımın_yapmaması_yazılımdayım_harcadıgım |
|
| 86 |
+
| 44 | instagramına - tiktokta - videoları - twitter - platformları | 39 | 44_instagramına_tiktokta_videoları_twitter |
|
| 87 |
+
| 45 | bırakıyorum - anlamında - yazılırdı - acıklayayım - memleketiniz | 38 | 45_bırakıyorum_anlamında_yazılırdı_acıklayayım |
|
| 88 |
+
| 46 | sosyalizmi - nasyonal - komunizm - fasizm - tamamladıgında | 36 | 46_sosyalizmi_nasyonal_komunizm_fasizm |
|
| 89 |
+
| 47 | sınırımızdaki - kandırılanlardan - cumhuriyetciler - mancınıklamı - uydurmaymıs | 36 | 47_sınırımızdaki_kandırılanlardan_cumhuriyetciler_mancınıklamı |
|
| 90 |
+
| 48 | propagandası - karalamaları - sahadayım - sitelerinin - yapılıyordu | 36 | 48_propagandası_karalamaları_sahadayım_sitelerinin |
|
| 91 |
+
| 49 | diyarbakırlılar - kımlıgım - turkmenler - tepisiyorlar - kurdistan | 33 | 49_diyarbakırlılar_kımlıgım_turkmenler_tepisiyorlar |
|
| 92 |
+
| 50 | telefonların - telefonlarımız - sokmadım - kapalıydı - ananızın | 33 | 50_telefonların_telefonlarımız_sokmadım_kapalıydı |
|
| 93 |
+
| 51 | kazandırmayacaksın - tullahcıların - teroristse - atabilirsiniz - iliskilendirmeyelim | 32 | 51_kazandırmayacaksın_tullahcıların_teroristse_atabilirsiniz |
|
| 94 |
+
| 52 | песни - remix - boranbeatz - miguel - ayyıldız | 31 | 52_песни_remix_boranbeatz_miguel |
|
| 95 |
+
| 53 | demokrasiyi - turkiyəyə - krallıkla - demirik - sallamayacagım | 30 | 53_demokrasiyi_turkiyəyə_krallıkla_demirik |
|
| 96 |
+
| 54 | acıgını - atmayacaktım - olmazdım - imkanlarimizda - dıslarsınız | 29 | 54_acıgını_atmayacaktım_olmazdım_imkanlarimizda |
|
| 97 |
+
| 55 | telegramın - mesajıyla - whatsapp - destekleyiniz - unmute | 28 | 55_telegramın_mesajıyla_whatsapp_destekleyiniz |
|
| 98 |
+
| 56 | karsılastırınca - tasımamız - sıfırla - kazanıcaz - hazırlayıp | 28 | 56_karsılastırınca_tasımamız_sıfırla_kazanıcaz |
|
| 99 |
+
| 57 | silahlandırmayı - silahlarimiz - silahlanacaksın - eskrimacıyım - atıslarında | 28 | 57_silahlandırmayı_silahlarimiz_silahlanacaksın_eskrimacıyım |
|
| 100 |
+
| 58 | islamcıdır - siyasal - devletlerinde - dusmanlıgı - baslayamayacakları | 28 | 58_islamcıdır_siyasal_devletlerinde_dusmanlıgı |
|
| 101 |
+
| 59 | kadınlarımız - gozetmeyeceginizden - kızlar - belamızı - ulkelerindeki | 28 | 59_kadınlarımız_gozetmeyeceginizden_kızlar_belamızı |
|
| 102 |
+
| 60 | gerceklesmeyecegini - cagatay - omurgasızlıktan - kararlılıkla - alacagına | 28 | 60_gerceklesmeyecegini_cagatay_omurgasızlıktan_kararlılıkla |
|
| 103 |
+
| 61 | kullanacaktım - bagırırken - kaybediyoruz - mansur - imzaları | 26 | 61_kullanacaktım_bagırırken_kaybediyoruz_mansur |
|
| 104 |
+
| 62 | sevmeyebilirim - benimkileri - anladınmı - kullanmayacagım - diyemiyorum | 26 | 62_sevmeyebilirim_benimkileri_anladınmı_kullanmayacagım |
|
| 105 |
+
| 63 | basbakanlıgı - yayılmasına - cumhurbaskanlıgında - sansım - kalmalıydı | 24 | 63_basbakanlıgı_yayılmasına_cumhurbaskanlıgında_sansım |
|
| 106 |
+
| 64 | fransızlara - fransksiyona - bagiriyorlar - dalgalandırdı - sindirilmisiz | 24 | 64_fransızlara_fransksiyona_bagiriyorlar_dalgalandırdı |
|
| 107 |
+
| 65 | turkiyedeyim - karsılasacak - ırakdan - bbaskanı - sıkmayabilir | 24 | 65_turkiyedeyim_karsılasacak_ırakdan_bbaskanı |
|
| 108 |
+
| 66 | kızgınım - yasadıgınız - cıkardım - seviniyorum - konusamıyorum | 24 | 66_kızgınım_yasadıgınız_cıkardım_seviniyorum |
|
| 109 |
+
| 67 | psikolojisinin - iktisatcıların - danısıklıgı - kapakcıgında - sandıktayım | 23 | 67_psikolojisinin_iktisatcıların_danısıklıgı_kapakcıgında |
|
| 110 |
+
| 68 | ortaklarımla - cevabımdı - yanlısım - kanunlar - kararların | 21 | 68_ortaklarımla_cevabımdı_yanlısım_kanunlar |
|
| 111 |
+
| 69 | aktardıgına - erzincanlılar - ambargo - merkezindeler - barkı | 21 | 69_aktardıgına_erzincanlılar_ambargo_merkezindeler |
|
| 112 |
+
| 70 | galatasaray - skandalları - arabistan - taraftarın - marsı | 20 | 70_galatasaray_skandalları_arabistan_taraftarın |
|
| 113 |
+
|
| 114 |
+
</details>
|
| 115 |
+
|
| 116 |
+
## Training hyperparameters
|
| 117 |
+
|
| 118 |
+
* calculate_probabilities: True
|
| 119 |
+
* language: None
|
| 120 |
+
* low_memory: False
|
| 121 |
+
* min_topic_size: 10
|
| 122 |
+
* n_gram_range: (1, 1)
|
| 123 |
+
* nr_topics: None
|
| 124 |
+
* seed_topic_list: None
|
| 125 |
+
* top_n_words: 10
|
| 126 |
+
* verbose: False
|
| 127 |
+
* zeroshot_min_similarity: 0.7
|
| 128 |
+
* zeroshot_topic_list: None
|
| 129 |
+
|
| 130 |
+
## Framework versions
|
| 131 |
+
|
| 132 |
+
* Numpy: 1.26.4
|
| 133 |
+
* HDBSCAN: 0.8.40
|
| 134 |
+
* UMAP: 0.5.7
|
| 135 |
+
* Pandas: 2.2.3
|
| 136 |
+
* Scikit-Learn: 1.5.2
|
| 137 |
+
* Sentence-transformers: 3.3.1
|
| 138 |
+
* Transformers: 4.46.3
|
| 139 |
+
* Numba: 0.60.0
|
| 140 |
+
* Plotly: 5.24.1
|
| 141 |
+
* Python: 3.10.12
|
config.json
ADDED
|
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"calculate_probabilities": true,
|
| 3 |
+
"language": null,
|
| 4 |
+
"low_memory": false,
|
| 5 |
+
"min_topic_size": 10,
|
| 6 |
+
"n_gram_range": [
|
| 7 |
+
1,
|
| 8 |
+
1
|
| 9 |
+
],
|
| 10 |
+
"nr_topics": null,
|
| 11 |
+
"seed_topic_list": null,
|
| 12 |
+
"top_n_words": 10,
|
| 13 |
+
"verbose": false,
|
| 14 |
+
"zeroshot_min_similarity": 0.7,
|
| 15 |
+
"zeroshot_topic_list": null
|
| 16 |
+
}
|
ctfidf.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:0228f3efd689313addc22a0028190a2708d8538e54dd1f50f46a5656a2c8b94d
|
| 3 |
+
size 1947272
|
ctfidf_config.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
topic_embeddings.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:6c34dd374d07d78f2296b200128f801c32a6bf23215badc8c1c9d4f870bdb68c
|
| 3 |
+
size 295000
|
topics.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|