AngelPanizo commited on
Commit
21fc224
·
verified ·
1 Parent(s): 45a1b67

Add BERTopic model

Browse files
README.md ADDED
@@ -0,0 +1,74 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - bertopic
5
+ library_name: bertopic
6
+ pipeline_tag: text-classification
7
+ ---
8
+
9
+ # MARTINI_enrich_BERTopic_OdeToPower2
10
+
11
+ This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
12
+ BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
13
+
14
+ ## Usage
15
+
16
+ To use this model, please install BERTopic:
17
+
18
+ ```
19
+ pip install -U bertopic
20
+ ```
21
+
22
+ You can use the model as follows:
23
+
24
+ ```python
25
+ from bertopic import BERTopic
26
+ topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_OdeToPower2")
27
+
28
+ topic_model.get_topic_info()
29
+ ```
30
+
31
+ ## Topic overview
32
+
33
+ * Number of topics: 5
34
+ * Number of training documents: 492
35
+
36
+ <details>
37
+ <summary>Click here for an overview of all topics.</summary>
38
+
39
+ | Topic ID | Topic Keywords | Topic Frequency | Label |
40
+ |----------|----------------|-----------------|-------|
41
+ | -1 | telegram - freemasonry - anyone - prigozhin - hitler | 24 | -1_telegram_freemasonry_anyone_prigozhin |
42
+ | 0 | jews - freud - netanyahu - ukrainians - gaza | 208 | 0_jews_freud_netanyahu_ukrainians |
43
+ | 1 | whites - fuckers - racism - goddamn - soul | 108 | 1_whites_fuckers_racism_goddamn |
44
+ | 2 | men - libido - whore - smokers - daoist | 101 | 2_men_libido_whore_smokers |
45
+ | 3 | meme - normies - banned - subscribers - videos | 51 | 3_meme_normies_banned_subscribers |
46
+
47
+ </details>
48
+
49
+ ## Training hyperparameters
50
+
51
+ * calculate_probabilities: True
52
+ * language: None
53
+ * low_memory: False
54
+ * min_topic_size: 10
55
+ * n_gram_range: (1, 1)
56
+ * nr_topics: None
57
+ * seed_topic_list: None
58
+ * top_n_words: 10
59
+ * verbose: False
60
+ * zeroshot_min_similarity: 0.7
61
+ * zeroshot_topic_list: None
62
+
63
+ ## Framework versions
64
+
65
+ * Numpy: 1.26.4
66
+ * HDBSCAN: 0.8.40
67
+ * UMAP: 0.5.7
68
+ * Pandas: 2.2.3
69
+ * Scikit-Learn: 1.5.2
70
+ * Sentence-transformers: 3.3.1
71
+ * Transformers: 4.46.3
72
+ * Numba: 0.60.0
73
+ * Plotly: 5.24.1
74
+ * Python: 3.10.12
config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "calculate_probabilities": true,
3
+ "language": null,
4
+ "low_memory": false,
5
+ "min_topic_size": 10,
6
+ "n_gram_range": [
7
+ 1,
8
+ 1
9
+ ],
10
+ "nr_topics": null,
11
+ "seed_topic_list": null,
12
+ "top_n_words": 10,
13
+ "verbose": false,
14
+ "zeroshot_min_similarity": 0.7,
15
+ "zeroshot_topic_list": null
16
+ }
ctfidf.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5a4962c235385dd8248db4029e30ab889fedf96f0f897ec3135c8e627d74c713
3
+ size 130556
ctfidf_config.json ADDED
The diff for this file is too large to render. See raw diff
 
topic_embeddings.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a9e43c00d50ec91a2d69555bd823dc840ba1adaa017c3996f6ca4552a2c38948
3
+ size 20568
topics.json ADDED
@@ -0,0 +1,652 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "topic_representations": {
3
+ "-1": [
4
+ [
5
+ "telegram",
6
+ 0.5440968871116638
7
+ ],
8
+ [
9
+ "freemasonry",
10
+ 0.5321321487426758
11
+ ],
12
+ [
13
+ "anyone",
14
+ 0.5112073421478271
15
+ ],
16
+ [
17
+ "prigozhin",
18
+ 0.47752535343170166
19
+ ],
20
+ [
21
+ "hitler",
22
+ 0.4678056836128235
23
+ ]
24
+ ],
25
+ "0": [
26
+ [
27
+ "jews",
28
+ 0.546095609664917
29
+ ],
30
+ [
31
+ "freud",
32
+ 0.5287972092628479
33
+ ],
34
+ [
35
+ "netanyahu",
36
+ 0.5091962814331055
37
+ ],
38
+ [
39
+ "ukrainians",
40
+ 0.4809349775314331
41
+ ],
42
+ [
43
+ "gaza",
44
+ 0.4726633131504059
45
+ ]
46
+ ],
47
+ "1": [
48
+ [
49
+ "whites",
50
+ 0.598163366317749
51
+ ],
52
+ [
53
+ "fuckers",
54
+ 0.537816047668457
55
+ ],
56
+ [
57
+ "racism",
58
+ 0.5315774083137512
59
+ ],
60
+ [
61
+ "goddamn",
62
+ 0.5277917981147766
63
+ ],
64
+ [
65
+ "soul",
66
+ 0.48210573196411133
67
+ ]
68
+ ],
69
+ "2": [
70
+ [
71
+ "men",
72
+ 0.5519223213195801
73
+ ],
74
+ [
75
+ "libido",
76
+ 0.5452173948287964
77
+ ],
78
+ [
79
+ "whore",
80
+ 0.505274772644043
81
+ ],
82
+ [
83
+ "smokers",
84
+ 0.5028532147407532
85
+ ],
86
+ [
87
+ "daoist",
88
+ 0.47634604573249817
89
+ ]
90
+ ],
91
+ "3": [
92
+ [
93
+ "meme",
94
+ 0.5549219846725464
95
+ ],
96
+ [
97
+ "normies",
98
+ 0.5500921607017517
99
+ ],
100
+ [
101
+ "banned",
102
+ 0.5383197665214539
103
+ ],
104
+ [
105
+ "subscribers",
106
+ 0.5183009505271912
107
+ ],
108
+ [
109
+ "videos",
110
+ 0.4867941439151764
111
+ ]
112
+ ]
113
+ },
114
+ "topics": [
115
+ 2,
116
+ 2,
117
+ 2,
118
+ 2,
119
+ 0,
120
+ 0,
121
+ 0,
122
+ 0,
123
+ 3,
124
+ -1,
125
+ 1,
126
+ 1,
127
+ 1,
128
+ 1,
129
+ 1,
130
+ 1,
131
+ -1,
132
+ -1,
133
+ 2,
134
+ 3,
135
+ -1,
136
+ -1,
137
+ 2,
138
+ -1,
139
+ 1,
140
+ 0,
141
+ 0,
142
+ 1,
143
+ 2,
144
+ -1,
145
+ 0,
146
+ 0,
147
+ -1,
148
+ 1,
149
+ -1,
150
+ 1,
151
+ 1,
152
+ 1,
153
+ -1,
154
+ 2,
155
+ 1,
156
+ 1,
157
+ 1,
158
+ 1,
159
+ 1,
160
+ 1,
161
+ -1,
162
+ 1,
163
+ -1,
164
+ 1,
165
+ 1,
166
+ 1,
167
+ 1,
168
+ 1,
169
+ 1,
170
+ 1,
171
+ 1,
172
+ 1,
173
+ 1,
174
+ -1,
175
+ 2,
176
+ -1,
177
+ 2,
178
+ 1,
179
+ 0,
180
+ 1,
181
+ -1,
182
+ 0,
183
+ -1,
184
+ -1,
185
+ 3,
186
+ -1,
187
+ 1,
188
+ 1,
189
+ 1,
190
+ 1,
191
+ 1,
192
+ 1,
193
+ 1,
194
+ 1,
195
+ 1,
196
+ -1,
197
+ 2,
198
+ 0,
199
+ 1,
200
+ 2,
201
+ -1,
202
+ -1,
203
+ 1,
204
+ 0,
205
+ 2,
206
+ -1,
207
+ -1,
208
+ 1,
209
+ -1,
210
+ 1,
211
+ 1,
212
+ 1,
213
+ -1,
214
+ 3,
215
+ -1,
216
+ 1,
217
+ -1,
218
+ 2,
219
+ 1,
220
+ 0,
221
+ 0,
222
+ -1,
223
+ -1,
224
+ -1,
225
+ 2,
226
+ -1,
227
+ 0,
228
+ 2,
229
+ 1,
230
+ 0,
231
+ -1,
232
+ -1,
233
+ 2,
234
+ -1,
235
+ -1,
236
+ 2,
237
+ 0,
238
+ 1,
239
+ -1,
240
+ -1,
241
+ 3,
242
+ 3,
243
+ -1,
244
+ 0,
245
+ -1,
246
+ 2,
247
+ -1,
248
+ -1,
249
+ 0,
250
+ 1,
251
+ 2,
252
+ 1,
253
+ 3,
254
+ -1,
255
+ -1,
256
+ -1,
257
+ -1,
258
+ -1,
259
+ -1,
260
+ -1,
261
+ -1,
262
+ 0,
263
+ 2,
264
+ 1,
265
+ -1,
266
+ 3,
267
+ -1,
268
+ -1,
269
+ -1,
270
+ 3,
271
+ 0,
272
+ 1,
273
+ -1,
274
+ 0,
275
+ 0,
276
+ -1,
277
+ -1,
278
+ 3,
279
+ 3,
280
+ 0,
281
+ -1,
282
+ 0,
283
+ 0,
284
+ -1,
285
+ 1,
286
+ 0,
287
+ -1,
288
+ 3,
289
+ -1,
290
+ -1,
291
+ 0,
292
+ 3,
293
+ -1,
294
+ 0,
295
+ 0,
296
+ -1,
297
+ 1,
298
+ 1,
299
+ 0,
300
+ 1,
301
+ -1,
302
+ 1,
303
+ 3,
304
+ -1,
305
+ -1,
306
+ 0,
307
+ -1,
308
+ 0,
309
+ -1,
310
+ 2,
311
+ 0,
312
+ 0,
313
+ 0,
314
+ 0,
315
+ -1,
316
+ 1,
317
+ 2,
318
+ 2,
319
+ 0,
320
+ 0,
321
+ -1,
322
+ 2,
323
+ -1,
324
+ 1,
325
+ 1,
326
+ 0,
327
+ -1,
328
+ -1,
329
+ -1,
330
+ -1,
331
+ 1,
332
+ 1,
333
+ 0,
334
+ -1,
335
+ 0,
336
+ 0,
337
+ -1,
338
+ 0,
339
+ 0,
340
+ 0,
341
+ -1,
342
+ -1,
343
+ -1,
344
+ -1,
345
+ 0,
346
+ -1,
347
+ 3,
348
+ 1,
349
+ -1,
350
+ 1,
351
+ -1,
352
+ -1,
353
+ 0,
354
+ 0,
355
+ -1,
356
+ 0,
357
+ 0,
358
+ 0,
359
+ 0,
360
+ 0,
361
+ -1,
362
+ -1,
363
+ 0,
364
+ 0,
365
+ 0,
366
+ -1,
367
+ 0,
368
+ 0,
369
+ 0,
370
+ 0,
371
+ 0,
372
+ 0,
373
+ -1,
374
+ 0,
375
+ 0,
376
+ 0,
377
+ 0,
378
+ -1,
379
+ 0,
380
+ -1,
381
+ 0,
382
+ 0,
383
+ 0,
384
+ 0,
385
+ 0,
386
+ -1,
387
+ 0,
388
+ 1,
389
+ 0,
390
+ 0,
391
+ 0,
392
+ -1,
393
+ 0,
394
+ 0,
395
+ 0,
396
+ 0,
397
+ 0,
398
+ 0,
399
+ -1,
400
+ -1,
401
+ 1,
402
+ -1,
403
+ 1,
404
+ -1,
405
+ -1,
406
+ -1,
407
+ -1,
408
+ -1,
409
+ 2,
410
+ 3,
411
+ 2,
412
+ 0,
413
+ 0,
414
+ 0,
415
+ 1,
416
+ -1,
417
+ -1,
418
+ -1,
419
+ 0,
420
+ -1,
421
+ 0,
422
+ 1,
423
+ 1,
424
+ -1,
425
+ 1,
426
+ -1,
427
+ -1,
428
+ -1,
429
+ 1,
430
+ 1,
431
+ -1,
432
+ -1,
433
+ -1,
434
+ 1,
435
+ -1,
436
+ -1,
437
+ 2,
438
+ -1,
439
+ 2,
440
+ -1,
441
+ -1,
442
+ 2,
443
+ 1,
444
+ -1,
445
+ 2,
446
+ 0,
447
+ -1,
448
+ -1,
449
+ 1,
450
+ -1,
451
+ -1,
452
+ -1,
453
+ -1,
454
+ -1,
455
+ -1,
456
+ -1,
457
+ 0,
458
+ 0,
459
+ 3,
460
+ 2,
461
+ 0,
462
+ 2,
463
+ 3,
464
+ -1,
465
+ 0,
466
+ 0,
467
+ -1,
468
+ 3,
469
+ -1,
470
+ -1,
471
+ 2,
472
+ 2,
473
+ 2,
474
+ 0,
475
+ -1,
476
+ 3,
477
+ -1,
478
+ -1,
479
+ -1,
480
+ 2,
481
+ 2,
482
+ 1,
483
+ -1,
484
+ -1,
485
+ 1,
486
+ 2,
487
+ -1,
488
+ -1,
489
+ 3,
490
+ 2,
491
+ 0,
492
+ 1,
493
+ -1,
494
+ 2,
495
+ -1,
496
+ -1,
497
+ 1,
498
+ -1,
499
+ 1,
500
+ -1,
501
+ -1,
502
+ -1,
503
+ -1,
504
+ 2,
505
+ -1,
506
+ -1,
507
+ -1,
508
+ -1,
509
+ -1,
510
+ -1,
511
+ -1,
512
+ -1,
513
+ 1,
514
+ -1,
515
+ -1,
516
+ -1,
517
+ -1,
518
+ 0,
519
+ 1,
520
+ -1,
521
+ -1,
522
+ -1,
523
+ -1,
524
+ -1,
525
+ 1,
526
+ 1,
527
+ -1,
528
+ -1,
529
+ -1,
530
+ -1,
531
+ -1,
532
+ -1,
533
+ -1,
534
+ -1,
535
+ -1,
536
+ -1,
537
+ 2,
538
+ -1,
539
+ 0,
540
+ -1,
541
+ -1,
542
+ -1,
543
+ 0,
544
+ -1,
545
+ 2,
546
+ 0,
547
+ -1,
548
+ -1,
549
+ 1,
550
+ 0,
551
+ 0,
552
+ -1,
553
+ -1,
554
+ 1,
555
+ 2,
556
+ -1,
557
+ -1,
558
+ 1,
559
+ -1,
560
+ -1,
561
+ 2,
562
+ -1,
563
+ 1,
564
+ 0,
565
+ -1,
566
+ 1,
567
+ 0,
568
+ -1,
569
+ 0,
570
+ 1,
571
+ 2,
572
+ 2,
573
+ 0,
574
+ -1,
575
+ 1,
576
+ 1,
577
+ 1,
578
+ 3,
579
+ -1,
580
+ -1,
581
+ -1,
582
+ -1,
583
+ 1,
584
+ 1,
585
+ -1,
586
+ -1,
587
+ 0,
588
+ -1,
589
+ -1,
590
+ -1,
591
+ -1,
592
+ -1,
593
+ -1,
594
+ 0,
595
+ 1,
596
+ 1,
597
+ 1,
598
+ -1,
599
+ 2,
600
+ -1,
601
+ 3,
602
+ 2,
603
+ 2,
604
+ -1,
605
+ 3,
606
+ -1
607
+ ],
608
+ "topic_sizes": {
609
+ "2": 51,
610
+ "0": 108,
611
+ "3": 24,
612
+ "-1": 208,
613
+ "1": 101
614
+ },
615
+ "topic_mapper": [
616
+ [
617
+ -1,
618
+ -1,
619
+ -1
620
+ ],
621
+ [
622
+ 0,
623
+ 0,
624
+ 3
625
+ ],
626
+ [
627
+ 1,
628
+ 1,
629
+ 0
630
+ ],
631
+ [
632
+ 2,
633
+ 2,
634
+ 1
635
+ ],
636
+ [
637
+ 3,
638
+ 3,
639
+ 2
640
+ ]
641
+ ],
642
+ "topic_labels": {
643
+ "-1": "-1_telegram_freemasonry_anyone_prigozhin",
644
+ "0": "0_jews_freud_netanyahu_ukrainians",
645
+ "1": "1_whites_fuckers_racism_goddamn",
646
+ "2": "2_men_libido_whore_smokers",
647
+ "3": "3_meme_normies_banned_subscribers"
648
+ },
649
+ "custom_labels": null,
650
+ "_outliers": 1,
651
+ "topic_aspects": {}
652
+ }