c-ho commited on
Commit
3b78ee5
·
verified ·
1 Parent(s): 0eed99e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +67 -0
README.md CHANGED
@@ -74,10 +74,77 @@ print(result)
74
 
75
  ## Try it yourself with the following examples (not in training/ evaluation data)
76
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
77
  ## Problematic cases
78
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
79
  ## Training and evaluation data
80
 
 
 
 
 
81
  ### Labelled dataset from open access publications of the Bibliography of Linguistic Literature (BLL)
82
 
83
  - Manually labelled dataset on Huggingface:
 
74
 
75
  ## Try it yourself with the following examples (not in training/ evaluation data)
76
 
77
+ Excerpts from Haspelmath, M. (2002). Grammatikalisierung: Von der Perfomanz zur Kompetenz ohne angeborene Grammatik. Gibt es eine Sprache hinter dem Sprechen?, 262-286. retrieved from https://scholar.google.com/citations?view_op=view_citation&hl=en&user=JoLnQhwAAAAJ&cstart=20&pagesize=80&citation_for_view=JoLnQhwAAAAJ:hC7cP41nSMkC
78
+
79
+ - (3a) Märchen / existier Geiß mal / Junge Geiß sieben / Geiß Junge lieb / Mutter lieb Kinder genauso / mal Wunsch Geiß rausgeh Haus / Zweck besorg Essen Junge / Geiß Junge warn Grund / schleich Wolf manchmal Haus rum / "ich fort Zeit immer nicht aufmach Tür / Zweck nicht reinkomm"
80
+
81
+ - 2 Allgemeine Darstellungen der Grammatikalisierungs-Theorie sind Lehmann (1995) und Hopper & Traugott (1993).
82
+
83
+ - Ursprünglich wird im Englischen Negation einfach durch not nach dem Verb ausgedrückt, wie in (7a); das finden wir so noch bei Shakespeare.
84
+
85
+ - (8b) ist wörtlich übersetzbar als 'Wohin ist es, dass du gehst?'
86
+
87
+ - 4 Nihil est in intellectu quod prius non fuerit in sensibus 'Nichts ist im Verstand, was nicht vorher in den Sinnen war' (Gottfried Wilhelm Leibniz, Nouveaux essais sur l'entendement humain, 1765, Buch II.)
88
+
89
+
90
+ Excerpts from Astrid Adler, Silvia Kutscher, Hélène Vinckel-Roisin. Valenzalternation im Vergleich: Antikausativa im Deutschen, Französischen und Ungarischen. Online-only Publikationen des Leibniz-Instituts für Deutsche Sprache, 2025, 11, pp.1-60. ff10.21248/idsopen.11.2025.52ff. ffhal-05217153 retrieved from https://scholar.googleusercontent.com/scholar?q=cache:SUM6z35DPOsJ:scholar.google.com/+haspelmath+zwischen&hl=en&as_sdt=0,5
91
+
92
+ - Neben dieser reinen Stelligkeitslabilität, wie sie in (1) veranschaulicht wurde, findet sich ein etwas anders geartetes Phänomen der Labilität. Verben wie Dt. zerbrechen können ebenfalls in einer transitiven (2a) und einer intransitiven (2b) Konstruktion stehen
93
+
94
+ - 3 Lemmens (1998) schlägt ebenfalls eine 4er-Klassifizierung vor, allerdings basierend auf semantischen Parametern von Hopper/Thompson (1980) („effective“); diese sind jedoch teilweise idiosynkratisch („non-effective“). Und es führt zu einer den traditionellen Gepflogenheiten entgegenlaufenden Klassifizierung von intransitiven (d. h. einstelligen) Verben als eine Unterklasse zu transitiven Verben (vgl. auch Review von Bert Peeters 2000 zu Lemmens 1998).
95
+
96
+ - 3.1 Alternierende vs. nicht-alternierende Verben
97
+
98
+ - (7) a. Die Tablette zerfällt. / Das Wasserrohr platzt. b. *Der Kranke / *Das Wasser zerfällt die Tablette. c. *Der Klempner / *Das gefrorene Wasser platzt das Rohr.
99
+
100
+ - Alexiadou, Artemis/Anagnostopoulou, Elena/Schäfer, Florian (2006): The properties of anticausatives crosslinguistically. In: Frascarelli, Mara (Hg.): Phases of interpretation. (= Studies in Generative Grammar 91). Berlin/New York: De Gruyter, S. 187–211
101
+
102
+ Excerpts from Hüning, M. (2002). Zwischen Deutsch und Englisch–Aspekte der sprachlichen Identität des Niederländischen. na. retrieved from https://neon.niederlandistik.fu-berlin.de/static/mh/Taal_en_identiteit.pdf
103
+
104
+ Das Deutsche hat noch die drei Genera und verwendet dafür auch unterschiedliche Artikel, das Niederländische hat die Dreiteilung bei den Genera zugunsten einer Zweiteilung aufgegeben: die sogenannten de-woorden (auch das 'Genus commune' oder 'Utrum' genannt), in denen das Maskulinum und das Femininum zusammengefallen sind, und die het-woorden (Neutrum)
105
+ (6) Possesivpronomen + eigen (a) ze heeft d'r eigen in de spiegel bekeken ('sie hat sich im Spiegel angesehen') (b) ik ben m'n eigen kapot geschrokken ('ich habe mich zu Tode erschrocken')
106
+ 5 Ekkehard König und Peter Siemund haben typologische Eigenschaften und die historische Entwicklung solcher 'Intensifikatoren' untersucht (König & Siemund 1999).
107
+ Van Bree, C. (1981), Hebben-constructies en datiefconstructies binnen het Nederlandse taalgebied. Een taalgeografisch onderzoek. Diss. Rijksuniversiteit Leiden, Leiden. Goossens, J. (1971), Was ist Deutsch - und wie verhält es sich zum Niederländischen? Bonn: Kgl. Niederländische Botschaft
108
+ (25) (a) ?der Schweiß steht auf meiner Stirn (b) *mein Herz schlägt in meinem Hals / bis zu meinem Hals
109
+ Zwischen Deutsch und Englisch - 9 -
110
+
111
  ## Problematic cases
112
 
113
+ Excerpts from Haspelmath, M. (2002). Grammatikalisierung: Von der Perfomanz zur Kompetenz ohne angeborene Grammatik. Gibt es eine Sprache hinter dem Sprechen?, 262-286. retrieved from https://scholar.google.com/citations?view_op=view_citation&hl=en&user=JoLnQhwAAAAJ&cstart=20&pagesize=80&citation_for_view=JoLnQhwAAAAJ:hC7cP41nSMkC
114
+
115
+ Examples that are not obviously in table or excerpt structures can be missed out as type "Examples", possibly mistaken as in-text examples:
116
+
117
+ - Genitiv < 'Herkunft' engl. of, dt. von, frz. de < lat. de 'von ... her'
118
+
119
+ - ler 'als' < l'heure 'die Stunde' ou 'du' < vous 'Sie' 'n, fin Perfekt < finir 'beenden' sa definiter Artikel < ça 'das' (Demonstrativ) i Präsens < il zot 'sie' < les autres 'die anderen' ti Präteritum < était 'war' (ti vin < était à venir, o.ä.) ek 'und' < avec 'mit' Tabelle 2: Neue grammatische Elemente im Seychellen-Kreol
120
+
121
+ - (11) Elterngrammatik Kindergrammatik Elternsprachgebrauch Kindersprachgebrauch
122
+
123
+ Titles in longer phrases may not be recognised
124
+
125
+ - Die Inseln jenseits des Roten Meeres: das reale Experiment
126
+
127
+ Definitions or findings written in point form are challenging for the model. For example:
128
+
129
+ - (10a) Die überwältigende Mehrheit aller grammatischen Elemente aller Sprachen kann auf ein lexikalisches Ursprungsmodell zurückgeführt werden.
130
+
131
+
132
+ Excerpts from Hüning, M. (2002). Zwischen Deutsch und Englisch–Aspekte der sprachlichen Identität des Niederländischen. na. retrieved from https://neon.niederlandistik.fu-berlin.de/static/mh/Taal_en_identiteit.pdf
133
+
134
+ Instances with a higher percentage of numbers can be misclassified as non-main text:
135
+ - 2 Zwischen Deutsch und Englisch 2.1 Genera Als ein bekanntes und auffälliges Beispiel für die Mittelstellung des Niederländischen nennt Van Haeringen (1956:28) das Genus.1
136
+
137
+ Numbered sub-titles and footnotes can be mistaken as examples:
138
+ - (23) Variation im Mittelniederländischen
139
+ - (13) Adnominale Intensifikatoren (a) Den ersten Vortrag hielt Van Uffelen selbst/selber. (b) De eerste lezing werd gehouden door Van Uffelen zelf.
140
+ -
141
+
142
  ## Training and evaluation data
143
 
144
+ Manually labelled dataset on Huggingface: ubffm/academic_main_text_classifier_de_annotated (https://huggingface.co/datasets/ubffm/academic_main_text_classifier_de_annotated)
145
+
146
+ The Bibliography of Linguistic Literature (BLL) is one of the most comprehensive sources of bibliographic information for the general linguistics with its subdomains and neighboring disciplines as well as for the English, German and Romance linguistics. The subject bibliography is based mainly on the library's holdings on linguistics. It lists monographs, dissertations, articles from periodicals, collective works, conference contributions, unpublished research papers, etc. The printed edition is published annually (at the end of each year) and covers the literature of the previous year and some supplements. Usually, it includes about 10,000 references per year. (Frankfurt a. M. : Klostermann, 1.1971/75(1976) - 47.2021 (2022)) (See more at https://www.ub.uni-frankfurt.de/linguistik/sammlung_en.html)
147
+
148
  ### Labelled dataset from open access publications of the Bibliography of Linguistic Literature (BLL)
149
 
150
  - Manually labelled dataset on Huggingface: