Text Classification
Transformers
TensorBoard
Safetensors
German
xlm-roberta
Generated from Trainer
text-embeddings-inference
Instructions to use ubffm/academic_text_classifier_de with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use ubffm/academic_text_classifier_de with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-classification", model="ubffm/academic_text_classifier_de")# Load model directly from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("ubffm/academic_text_classifier_de") model = AutoModelForSequenceClassification.from_pretrained("ubffm/academic_text_classifier_de") - Notebooks
- Google Colab
- Kaggle
Update README.md
Browse files
README.md
CHANGED
|
@@ -74,10 +74,77 @@ print(result)
|
|
| 74 |
|
| 75 |
## Try it yourself with the following examples (not in training/ evaluation data)
|
| 76 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 77 |
## Problematic cases
|
| 78 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 79 |
## Training and evaluation data
|
| 80 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 81 |
### Labelled dataset from open access publications of the Bibliography of Linguistic Literature (BLL)
|
| 82 |
|
| 83 |
- Manually labelled dataset on Huggingface:
|
|
|
|
| 74 |
|
| 75 |
## Try it yourself with the following examples (not in training/ evaluation data)
|
| 76 |
|
| 77 |
+
Excerpts from Haspelmath, M. (2002). Grammatikalisierung: Von der Perfomanz zur Kompetenz ohne angeborene Grammatik. Gibt es eine Sprache hinter dem Sprechen?, 262-286. retrieved from https://scholar.google.com/citations?view_op=view_citation&hl=en&user=JoLnQhwAAAAJ&cstart=20&pagesize=80&citation_for_view=JoLnQhwAAAAJ:hC7cP41nSMkC
|
| 78 |
+
|
| 79 |
+
- (3a) Märchen / existier Geiß mal / Junge Geiß sieben / Geiß Junge lieb / Mutter lieb Kinder genauso / mal Wunsch Geiß rausgeh Haus / Zweck besorg Essen Junge / Geiß Junge warn Grund / schleich Wolf manchmal Haus rum / "ich fort Zeit immer nicht aufmach Tür / Zweck nicht reinkomm"
|
| 80 |
+
|
| 81 |
+
- 2 Allgemeine Darstellungen der Grammatikalisierungs-Theorie sind Lehmann (1995) und Hopper & Traugott (1993).
|
| 82 |
+
|
| 83 |
+
- Ursprünglich wird im Englischen Negation einfach durch not nach dem Verb ausgedrückt, wie in (7a); das finden wir so noch bei Shakespeare.
|
| 84 |
+
|
| 85 |
+
- (8b) ist wörtlich übersetzbar als 'Wohin ist es, dass du gehst?'
|
| 86 |
+
|
| 87 |
+
- 4 Nihil est in intellectu quod prius non fuerit in sensibus 'Nichts ist im Verstand, was nicht vorher in den Sinnen war' (Gottfried Wilhelm Leibniz, Nouveaux essais sur l'entendement humain, 1765, Buch II.)
|
| 88 |
+
|
| 89 |
+
|
| 90 |
+
Excerpts from Astrid Adler, Silvia Kutscher, Hélène Vinckel-Roisin. Valenzalternation im Vergleich: Antikausativa im Deutschen, Französischen und Ungarischen. Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache, 2025, 11, pp.1-60. ff10.21248/idsopen.11.2025.52ff. ffhal-05217153 retrieved from https://scholar.googleusercontent.com/scholar?q=cache:SUM6z35DPOsJ:scholar.google.com/+haspelmath+zwischen&hl=en&as_sdt=0,5
|
| 91 |
+
|
| 92 |
+
- Neben dieser reinen Stelligkeitslabilität, wie sie in (1) veranschaulicht wurde, findet sich ein etwas anders geartetes Phänomen der Labilität. Verben wie Dt. zerbrechen können ebenfalls in einer transitiven (2a) und einer intransitiven (2b) Konstruktion stehen
|
| 93 |
+
|
| 94 |
+
- 3 Lemmens (1998) schlägt ebenfalls eine 4er-Klassifizierung vor, allerdings basierend auf semantischen Parametern von Hopper/Thompson (1980) („effective“); diese sind jedoch teilweise idiosynkratisch („non-effective“). Und es führt zu einer den traditionellen Gepflogenheiten entgegenlaufenden Klassifizierung von intransitiven (d. h. einstelligen) Verben als eine Unterklasse zu transitiven Verben (vgl. auch Review von Bert Peeters 2000 zu Lemmens 1998).
|
| 95 |
+
|
| 96 |
+
- 3.1 Alternierende vs. nicht-alternierende Verben
|
| 97 |
+
|
| 98 |
+
- (7) a. Die Tablette zerfällt. / Das Wasserrohr platzt. b. *Der Kranke / *Das Wasser zerfällt die Tablette. c. *Der Klempner / *Das gefrorene Wasser platzt das Rohr.
|
| 99 |
+
|
| 100 |
+
- Alexiadou, Artemis/Anagnostopoulou, Elena/Schäfer, Florian (2006): The properties of anticausatives crosslinguistically. In: Frascarelli, Mara (Hg.): Phases of interpretation. (= Studies in Generative Grammar 91). Berlin/New York: De Gruyter, S. 187–211
|
| 101 |
+
|
| 102 |
+
Excerpts from Hüning, M. (2002). Zwischen Deutsch und Englisch–Aspekte der sprachlichen Identität des Niederländischen. na. retrieved from https://neon.niederlandistik.fu-berlin.de/static/mh/Taal_en_identiteit.pdf
|
| 103 |
+
|
| 104 |
+
Das Deutsche hat noch die drei Genera und verwendet dafür auch unterschiedliche Artikel, das Niederländische hat die Dreiteilung bei den Genera zugunsten einer Zweiteilung aufgegeben: die sogenannten de-woorden (auch das 'Genus commune' oder 'Utrum' genannt), in denen das Maskulinum und das Femininum zusammengefallen sind, und die het-woorden (Neutrum)
|
| 105 |
+
(6) Possesivpronomen + eigen (a) ze heeft d'r eigen in de spiegel bekeken ('sie hat sich im Spiegel angesehen') (b) ik ben m'n eigen kapot geschrokken ('ich habe mich zu Tode erschrocken')
|
| 106 |
+
5 Ekkehard König und Peter Siemund haben typologische Eigenschaften und die historische Entwicklung solcher 'Intensifikatoren' untersucht (König & Siemund 1999).
|
| 107 |
+
Van Bree, C. (1981), Hebben-constructies en datiefconstructies binnen het Nederlandse taalgebied. Een taalgeografisch onderzoek. Diss. Rijksuniversiteit Leiden, Leiden. Goossens, J. (1971), Was ist Deutsch - und wie verhält es sich zum Niederländischen? Bonn: Kgl. Niederländische Botschaft
|
| 108 |
+
(25) (a) ?der Schweiß steht auf meiner Stirn (b) *mein Herz schlägt in meinem Hals / bis zu meinem Hals
|
| 109 |
+
Zwischen Deutsch und Englisch - 9 -
|
| 110 |
+
|
| 111 |
## Problematic cases
|
| 112 |
|
| 113 |
+
Excerpts from Haspelmath, M. (2002). Grammatikalisierung: Von der Perfomanz zur Kompetenz ohne angeborene Grammatik. Gibt es eine Sprache hinter dem Sprechen?, 262-286. retrieved from https://scholar.google.com/citations?view_op=view_citation&hl=en&user=JoLnQhwAAAAJ&cstart=20&pagesize=80&citation_for_view=JoLnQhwAAAAJ:hC7cP41nSMkC
|
| 114 |
+
|
| 115 |
+
Examples that are not obviously in table or excerpt structures can be missed out as type "Examples", possibly mistaken as in-text examples:
|
| 116 |
+
|
| 117 |
+
- Genitiv < 'Herkunft' engl. of, dt. von, frz. de < lat. de 'von ... her'
|
| 118 |
+
|
| 119 |
+
- ler 'als' < l'heure 'die Stunde' ou 'du' < vous 'Sie' 'n, fin Perfekt < finir 'beenden' sa definiter Artikel < ça 'das' (Demonstrativ) i Präsens < il zot 'sie' < les autres 'die anderen' ti Präteritum < était 'war' (ti vin < était à venir, o.ä.) ek 'und' < avec 'mit' Tabelle 2: Neue grammatische Elemente im Seychellen-Kreol
|
| 120 |
+
|
| 121 |
+
- (11) Elterngrammatik Kindergrammatik Elternsprachgebrauch Kindersprachgebrauch
|
| 122 |
+
|
| 123 |
+
Titles in longer phrases may not be recognised
|
| 124 |
+
|
| 125 |
+
- Die Inseln jenseits des Roten Meeres: das reale Experiment
|
| 126 |
+
|
| 127 |
+
Definitions or findings written in point form are challenging for the model. For example:
|
| 128 |
+
|
| 129 |
+
- (10a) Die überwältigende Mehrheit aller grammatischen Elemente aller Sprachen kann auf ein lexikalisches Ursprungsmodell zurückgeführt werden.
|
| 130 |
+
|
| 131 |
+
|
| 132 |
+
Excerpts from Hüning, M. (2002). Zwischen Deutsch und Englisch–Aspekte der sprachlichen Identität des Niederländischen. na. retrieved from https://neon.niederlandistik.fu-berlin.de/static/mh/Taal_en_identiteit.pdf
|
| 133 |
+
|
| 134 |
+
Instances with a higher percentage of numbers can be misclassified as non-main text:
|
| 135 |
+
- 2 Zwischen Deutsch und Englisch 2.1 Genera Als ein bekanntes und auffälliges Beispiel für die Mittelstellung des Niederländischen nennt Van Haeringen (1956:28) das Genus.1
|
| 136 |
+
|
| 137 |
+
Numbered sub-titles and footnotes can be mistaken as examples:
|
| 138 |
+
- (23) Variation im Mittelniederländischen
|
| 139 |
+
- (13) Adnominale Intensifikatoren (a) Den ersten Vortrag hielt Van Uffelen selbst/selber. (b) De eerste lezing werd gehouden door Van Uffelen zelf.
|
| 140 |
+
-
|
| 141 |
+
|
| 142 |
## Training and evaluation data
|
| 143 |
|
| 144 |
+
Manually labelled dataset on Huggingface: ubffm/academic_main_text_classifier_de_annotated (https://huggingface.co/datasets/ubffm/academic_main_text_classifier_de_annotated)
|
| 145 |
+
|
| 146 |
+
The Bibliography of Linguistic Literature (BLL) is one of the most comprehensive sources of bibliographic information for the general linguistics with its subdomains and neighboring disciplines as well as for the English, German and Romance linguistics. The subject bibliography is based mainly on the library's holdings on linguistics. It lists monographs, dissertations, articles from periodicals, collective works, conference contributions, unpublished research papers, etc. The printed edition is published annually (at the end of each year) and covers the literature of the previous year and some supplements. Usually, it includes about 10,000 references per year. (Frankfurt a. M. : Klostermann, 1.1971/75(1976) - 47.2021 (2022)) (See more at https://www.ub.uni-frankfurt.de/linguistik/sammlung_en.html)
|
| 147 |
+
|
| 148 |
### Labelled dataset from open access publications of the Bibliography of Linguistic Literature (BLL)
|
| 149 |
|
| 150 |
- Manually labelled dataset on Huggingface:
|