File size: 5,767 Bytes
bee670b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6223a2b
bee670b
 
6223a2b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bee670b
 
 
 
 
 
 
6223a2b
 
 
 
 
 
 
 
 
 
bee670b
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89

---
pipeline_tag: text-classification
library_name: turftopic
tags:
- turftopic
- topic-modelling
---

# janko/s3_scriptum

This repository contains a topic model trained with the [Turftopic](https://github.com/x-tabdeveloping/turftopic) Python library.

To load and use the model run the following piece of code:

```python
from turftopic import load_model

model = load_model(janko/s3_scriptum)
model.print_topics()
```

## Model Structure

The model is structured as follows:

```
SemanticSignalSeparation(decomposition=FastICA(n_components=10),
                         encoder=SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_s...
                                                                'about': 4,
                                                                'abraham': 5,
                                                                'abrahama': 6,
                                                                'abroad': 7,
                                                                'absence': 8,
                                                                'abso': 9,
                                                                'absolutismus': 10,
                                                                'absolutna': 11,
                                                                'absolutno': 12,
                                                                'absolutní': 13,
                                                                'absolutorium': 14,
                                                                'absolvent': 15,
                                                                'absolvovat': 16,
                                                                'absolvování': 17,
                                                                'abstinent': 18,
                                                                'abstrakce': 19,
                                                                'abstraktní': 20,
                                                                'absurdita': 21,
                                                                'absurdnost': 22,
                                                                'absurdní': 23,
                                                                'absurdum': 24,
                                                                'abv': 25,
                                                                'abych': 26,
                                                                'abys': 27,
                                                                'abyst': 28,
                                                                'ac': 29, ...}))
```

## Topics
The topics discovered by the model are the following:

| Topic ID | Highest Ranking | Lowest Ranking |
| - | - | - |
| 0 | economics, hříšný, economist, hřích, priemysl, hospodářství, renesance, reformátor, ekonomika, kapitalist | slalom, sokolství, výcvik, cvičiště, skákat, tělovýchova, cvičící, skauting, tělocvik, sokolstvo |
| 1 | protiprávní, žaloba, nezákonnost, protizákonný, protiústavní, tužba, obviněný, stížnost, obžalovaný, trestní | kusák, mozek, švejk, pokolení, mazák, mozk, husák, rusko, klusák, economics |
| 2 | mokrý, trávníček, vlhký, přírodní, naruby, dřivý, fantasie, instinkt, funk, šedivý | biskupství, biskupský, biskupom, katolicismus, kněžstvo, kněžství, biskupe, českosl, konsulát, katolictví |
| 3 | bahamas, america, usa, americans, us, bible, amerika, amerike, americký, americkomi | nádraží, košňar, klusák, husákův, urbánek, sochař, dvorek, husák, komunisticko, socialisticko |
| 4 | switzerland, österreich, schweiz, austrian, švýcarsko, solothurn, perth, swiss, stavebnictví, austrálie | stalinist, bolševik, protisovětský, stalinský, mohameda, merický, imperialist, napoleon, stalinový, imperialista |
| 5 | surrealismus, literar, literatúr, literat, literatura, literatúre, filolog, literature, autorův, čtenářský | slowakna, shledaná, varšava, church, gramodeska, gdaňsko, luncheon, dinner, pokladna, oklahoma |
| 6 | demokratismus, demokratizační, energetika, pragmatismus, konsolidace, demokratičnost, konsensus, demokracie, ideologie, demokratice | priest, kňaz, kňaza, knihovník, kněz, vysvěcený, presbyter, church, bishop, reverend |
| 7 | literature, nakladatelství, umění, nakladatelský, vydavatelství, vydavatelstvo, literatura, publikační, publishing, vydavatelský | bojiště, ohniště, poražený, bezbranný, spálený, odzbrojený, obrněný, upálený, neschopní, porobený |
| 8 | vzkříšení, náboženství, náboženstvo, ukřižovaný, vyznání, božství, znovuzrození, papežství, nábožený, ukřižování | austrálie, spotřební, prices, rental, rent, austrálio, austrian, austral, price, ekonomika |
| 9 | redakcie, redaktorka, redakční, občasník, redakcium, buchdruckerser, redaktionsschluss, vydať, časopisov, rubrika | bezmocný, protestující, barbarství, protest, monarchie, demonstrant, opera, konser, demonstrace, protestní |

## Package versions

The model in this repo was trained using the following package versions:

| Package | Version |
| - | - |
| scikit-learn | 1.6.1 |
| sentence-transformers | 4.1.0 |
| turftopic | 0.17.0 |
| joblib | 1.5.0 |

We recommend that you install the same, or compatible versions of these packages locally, before trying to load a model.