Add BERTopic model
Browse files- README.md +131 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
|
@@ -0,0 +1,131 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
|
| 2 |
+
---
|
| 3 |
+
tags:
|
| 4 |
+
- bertopic
|
| 5 |
+
library_name: bertopic
|
| 6 |
+
pipeline_tag: text-classification
|
| 7 |
+
---
|
| 8 |
+
|
| 9 |
+
# MARTINI_enrich_BERTopic_stopconfinamiento
|
| 10 |
+
|
| 11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
| 12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
| 13 |
+
|
| 14 |
+
## Usage
|
| 15 |
+
|
| 16 |
+
To use this model, please install BERTopic:
|
| 17 |
+
|
| 18 |
+
```
|
| 19 |
+
pip install -U bertopic
|
| 20 |
+
```
|
| 21 |
+
|
| 22 |
+
You can use the model as follows:
|
| 23 |
+
|
| 24 |
+
```python
|
| 25 |
+
from bertopic import BERTopic
|
| 26 |
+
topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_stopconfinamiento")
|
| 27 |
+
|
| 28 |
+
topic_model.get_topic_info()
|
| 29 |
+
```
|
| 30 |
+
|
| 31 |
+
## Topic overview
|
| 32 |
+
|
| 33 |
+
* Number of topics: 62
|
| 34 |
+
* Number of training documents: 7885
|
| 35 |
+
|
| 36 |
+
<details>
|
| 37 |
+
<summary>Click here for an overview of all topics.</summary>
|
| 38 |
+
|
| 39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
| 40 |
+
|----------|----------------|-----------------|-------|
|
| 41 |
+
| -1 | vacunados - pandemia - confinamiento - libertad - manifestacion | 21 | -1_vacunados_pandemia_confinamiento_libertad |
|
| 42 |
+
| 0 | chemtrails - fumigaciones - atmosfera - lluvias - aviones | 4803 | 0_chemtrails_fumigaciones_atmosfera_lluvias |
|
| 43 |
+
| 1 | manifestacion - libertades - juntos - septiembre - valladolid | 181 | 1_manifestacion_libertades_juntos_septiembre |
|
| 44 |
+
| 2 | 5g - radiofrecuencias - telefonos - organizaciones - contaminacion | 177 | 2_5g_radiofrecuencias_telefonos_organizaciones |
|
| 45 |
+
| 3 | doctora - doctorsforthetruth - espanadenuncia - diagnosticos - inmunologa | 174 | 3_doctora_doctorsforthetruth_espanadenuncia_diagnosticos |
|
| 46 |
+
| 4 | protestas - france - macron - barricades - guillotinas | 102 | 4_protestas_france_macron_barricades |
|
| 47 |
+
| 5 | pcr - pruebas - ncov_n - asintomaticos - diagnosticar | 87 | 5_pcr_pruebas_ncov_n_asintomaticos |
|
| 48 |
+
| 6 | hospitalizaciones - contagiados - 80anos - estadisticas - fallecidos | 86 | 6_hospitalizaciones_contagiados_80anos_estadisticas |
|
| 49 |
+
| 7 | policiasporlalibertad - arrestados - manifestantes - violentos - descordinacion | 85 | 7_policiasporlalibertad_arrestados_manifestantes_violentos |
|
| 50 |
+
| 8 | accioneslegales - denunciados - aportaciones - donacion - corrupcion | 83 | 8_accioneslegales_denunciados_aportaciones_donacion |
|
| 51 |
+
| 9 | vacunarte - obligatoriedad - consentimiento - voluntaria - tratado | 83 | 9_vacunarte_obligatoriedad_consentimiento_voluntaria |
|
| 52 |
+
| 10 | follaremos - desagradecidos - admiramos - valiente - diccionario | 81 | 10_follaremos_desagradecidos_admiramos_valiente |
|
| 53 |
+
| 11 | covidpass - vacunado - pasaportes - certificado - constitutivas | 76 | 11_covidpass_vacunado_pasaportes_certificado |
|
| 54 |
+
| 12 | mascarillas - obligatoriedad - decreto - normas - excepciones | 76 | 12_mascarillas_obligatoriedad_decreto_normas |
|
| 55 |
+
| 13 | subtitulado - episodio - miercoles - primeros - canal5tv | 69 | 13_subtitulado_episodio_miercoles_primeros |
|
| 56 |
+
| 14 | infovacunas - biomagnetismo - nanoparticulas - superparamagneticas - grafeno | 69 | 14_infovacunas_biomagnetismo_nanoparticulas_superparamagneticas |
|
| 57 |
+
| 15 | inconstitucionalidad - decretos - jurisprudencia - desobediencia - sentencias | 63 | 15_inconstitucionalidad_decretos_jurisprudencia_desobediencia |
|
| 58 |
+
| 16 | vacunadas - vaers - pfizer - anafilacticas - reportes | 63 | 16_vacunadas_vaers_pfizer_anafilacticas |
|
| 59 |
+
| 17 | australianos - australiatimes - detenciones - tirania - vaccinated | 62 | 17_australianos_australiatimes_detenciones_tirania |
|
| 60 |
+
| 18 | whatsapp - policiasporlalibertad - plataformas - desinformacion - encriptado | 59 | 18_whatsapp_policiasporlalibertad_plataformas_desinformacion |
|
| 61 |
+
| 19 | vacunemos - coronacuento - despuas - cambiemosle - empezaran | 57 | 19_vacunemos_coronacuento_despuas_cambiemosle |
|
| 62 |
+
| 20 | elmurodelaverdad - jueves - manifestacion - dailymotion - tv1 | 56 | 20_elmurodelaverdad_jueves_manifestacion_dailymotion |
|
| 63 |
+
| 21 | agricultores - manifestacion - subvenciones - teruel - transgenicos | 53 | 21_agricultores_manifestacion_subvenciones_teruel |
|
| 64 |
+
| 22 | hospitales - ambulancias - epidemia - colapsado - vacios | 51 | 22_hospitales_ambulancias_epidemia_colapsado |
|
| 65 |
+
| 23 | vacunados - vaers - pfizer - muerte - 29 | 44 | 23_vacunados_vaers_pfizer_muerte |
|
| 66 |
+
| 24 | mascarillas - colegios - madres - necesitamos - domoacciongalicia | 44 | 24_mascarillas_colegios_madres_necesitamos |
|
| 67 |
+
| 25 | colegios - escolarizar - docentes - presencialmente - cooperativas | 43 | 25_colegios_escolarizar_docentes_presencialmente |
|
| 68 |
+
| 26 | berlin - reichstag - contramanifestaciones - espanoleshttps - brandenburgo | 41 | 26_berlin_reichstag_contramanifestaciones_espanoleshttps |
|
| 69 |
+
| 27 | masks - mascarilleros - respiracion - contaminadas - neurologicas | 41 | 27_masks_mascarilleros_respiracion_contaminadas |
|
| 70 |
+
| 28 | fallecieron - gerontocidio - intravenososo - eutanasias - residencias | 38 | 28_fallecieron_gerontocidio_intravenososo_eutanasias |
|
| 71 |
+
| 29 | censurado - canales - youtube - unidosxlaverdad - subcribais | 37 | 29_censurado_canales_youtube_unidosxlaverdad |
|
| 72 |
+
| 30 | desintoxicacion - espirulina - magnesio - absorbido - antioxidante | 37 | 30_desintoxicacion_espirulina_magnesio_absorbido |
|
| 73 |
+
| 31 | manifestaciones - malaga - septiembre - zaragoza - localizaciones | 36 | 31_manifestaciones_malaga_septiembre_zaragoza |
|
| 74 |
+
| 32 | terroristas - sensacionalistas - mediatico - massmierda - intimidacion | 36 | 32_terroristas_sensacionalistas_mediatico_massmierda |
|
| 75 |
+
| 33 | hipoclorito - monocloramina - quimioterapia - esterilizante - ppm | 35 | 33_hipoclorito_monocloramina_quimioterapia_esterilizante |
|
| 76 |
+
| 34 | gates - filantroimperialismo - multimillonario - inmunizacion - eliminarlas | 34 | 34_gates_filantroimperialismo_multimillonario_inmunizacion |
|
| 77 |
+
| 35 | illuminati - poderes - refutadas - despertar - paradigmas | 34 | 35_illuminati_poderes_refutadas_despertar |
|
| 78 |
+
| 36 | stopconfinamientoespanaoficial - movilizaciones - denunciar - aconsejamos - descentralizada | 34 | 36_stopconfinamientoespanaoficial_movilizaciones_denunciar_aconsejamos |
|
| 79 |
+
| 37 | trudeau - republicofkanata - camioneros - totalitarismo - alberta | 33 | 37_trudeau_republicofkanata_camioneros_totalitarismo |
|
| 80 |
+
| 38 | parlamentodegalicia - salud - inviolabilidad - normativos - propuesta | 32 | 38_parlamentodegalicia_salud_inviolabilidad_normativos |
|
| 81 |
+
| 39 | transportistas - sindicatos - movilizaron - paronacional2021 - gasolinera | 31 | 39_transportistas_sindicatos_movilizaron_paronacional2021 |
|
| 82 |
+
| 40 | pfizer - farmaceutica - oficialmenteel - janssen - trasparencia | 31 | 40_pfizer_farmaceutica_oficialmenteel_janssen |
|
| 83 |
+
| 41 | rusia - ucranianos - zelensky - paramilitares - a3noticias | 30 | 41_rusia_ucranianos_zelensky_paramilitares |
|
| 84 |
+
| 42 | ninosnovacunas - manifestaciones - sacrificaremos - vulnerados - mmayoresgrupo | 30 | 42_ninosnovacunas_manifestaciones_sacrificaremos_vulnerados |
|
| 85 |
+
| 43 | stop_agenda_2030 - manifestacion - madrid - recorreremos - 2030 | 29 | 43_stop_agenda_2030_manifestacion_madrid_recorreremos |
|
| 86 |
+
| 44 | soros - antifas - independentismo - organizaciones - demonizada | 29 | 44_soros_antifas_independentismo_organizaciones |
|
| 87 |
+
| 45 | incendios - tenerife - evacuaciones - reforestacion - vientos | 29 | 45_incendios_tenerife_evacuaciones_reforestacion |
|
| 88 |
+
| 46 | vacunaspediatria - inmunizar - menores - hipocratico - juguemos | 29 | 46_vacunaspediatria_inmunizar_menores_hipocratico |
|
| 89 |
+
| 47 | congreso - hablaremos - suscribete - presentaros - centraremos | 28 | 47_congreso_hablaremos_suscribete_presentaros |
|
| 90 |
+
| 48 | romagna - demokratischerwiderstand - carabinieri - arrestarlos - gennaio | 26 | 48_romagna_demokratischerwiderstand_carabinieri_arrestarlos |
|
| 91 |
+
| 49 | vacunada - astrazeneca - paraliza - agencia - suspensiones | 25 | 49_vacunada_astrazeneca_paraliza_agencia |
|
| 92 |
+
| 50 | shanghai - confinamiento - shijiangzhuang - hebei - riots | 25 | 50_shanghai_confinamiento_shijiangzhuang_hebei |
|
| 93 |
+
| 51 | coronavirus - negacionista - bioseguridad - remdesivir - laboratorio | 25 | 51_coronavirus_negacionista_bioseguridad_remdesivir |
|
| 94 |
+
| 52 | davos - rothschild - globalista - kissinger - seminario | 24 | 52_davos_rothschild_globalista_kissinger |
|
| 95 |
+
| 53 | afectadosporlasvacunas - grupostopvacunas - saludyjusticiacordoba - testimonio - victimas | 23 | 53_afectadosporlasvacunas_grupostopvacunas_saludyjusticiacordoba_testimonio |
|
| 96 |
+
| 54 | inoculacion - consentimientos - danosresponsabilidades - hijos - medicamentos | 23 | 54_inoculacion_consentimientos_danosresponsabilidades_hijos |
|
| 97 |
+
| 55 | vacuna - geneticamente - antigeno - plasmidos - toxicas | 22 | 55_vacuna_geneticamente_antigeno_plasmidos |
|
| 98 |
+
| 56 | confinamiento - decretado - municipios - nochebuena - lomasdestacado | 22 | 56_confinamiento_decretado_municipios_nochebuena |
|
| 99 |
+
| 57 | electricidad - endesa - tarifa - gasolinas - descuento | 22 | 57_electricidad_endesa_tarifa_gasolinas |
|
| 100 |
+
| 58 | tenerife - manifestacion - deseariamos - capitanes - conseguira | 22 | 58_tenerife_manifestacion_deseariamos_capitanes |
|
| 101 |
+
| 59 | pandemias - soberanias - acuerdo - global - constitution | 22 | 59_pandemias_soberanias_acuerdo_global |
|
| 102 |
+
| 60 | publico - apoyarme - servicio - asesinados - youtube | 22 | 60_publico_apoyarme_servicio_asesinados |
|
| 103 |
+
|
| 104 |
+
</details>
|
| 105 |
+
|
| 106 |
+
## Training hyperparameters
|
| 107 |
+
|
| 108 |
+
* calculate_probabilities: True
|
| 109 |
+
* language: None
|
| 110 |
+
* low_memory: False
|
| 111 |
+
* min_topic_size: 10
|
| 112 |
+
* n_gram_range: (1, 1)
|
| 113 |
+
* nr_topics: None
|
| 114 |
+
* seed_topic_list: None
|
| 115 |
+
* top_n_words: 10
|
| 116 |
+
* verbose: False
|
| 117 |
+
* zeroshot_min_similarity: 0.7
|
| 118 |
+
* zeroshot_topic_list: None
|
| 119 |
+
|
| 120 |
+
## Framework versions
|
| 121 |
+
|
| 122 |
+
* Numpy: 1.26.4
|
| 123 |
+
* HDBSCAN: 0.8.40
|
| 124 |
+
* UMAP: 0.5.7
|
| 125 |
+
* Pandas: 2.2.3
|
| 126 |
+
* Scikit-Learn: 1.5.2
|
| 127 |
+
* Sentence-transformers: 3.3.1
|
| 128 |
+
* Transformers: 4.46.3
|
| 129 |
+
* Numba: 0.60.0
|
| 130 |
+
* Plotly: 5.24.1
|
| 131 |
+
* Python: 3.10.12
|
config.json
ADDED
|
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"calculate_probabilities": true,
|
| 3 |
+
"language": null,
|
| 4 |
+
"low_memory": false,
|
| 5 |
+
"min_topic_size": 10,
|
| 6 |
+
"n_gram_range": [
|
| 7 |
+
1,
|
| 8 |
+
1
|
| 9 |
+
],
|
| 10 |
+
"nr_topics": null,
|
| 11 |
+
"seed_topic_list": null,
|
| 12 |
+
"top_n_words": 10,
|
| 13 |
+
"verbose": false,
|
| 14 |
+
"zeroshot_min_similarity": 0.7,
|
| 15 |
+
"zeroshot_topic_list": null
|
| 16 |
+
}
|
ctfidf.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:b97919386c4aaccea14923f806aa83da224a90dcfcdf439407062a8a2cac4d1c
|
| 3 |
+
size 1586752
|
ctfidf_config.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
topic_embeddings.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:5979fd40b4220b0b95016256278a37d76b9e3fa18a9e08fb70baf15f0996d945
|
| 3 |
+
size 254040
|
topics.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|