Dieses Repository beinhaltet einen State-of-the-Art-Classifier zur Unterscheidung von Texten in Leichter Sprache und komplexem Deutsch. Dem Classifier gelingt hierbei sogar eine sichere Unterscheidung zwischen Texten in Leichter und Einfacher Sprache. Ausgegebene Labels sind yes und no, wobei ein yes signalisiert, dass der vorliegende Text hohe Übereinstimmungen mit tatsächlichen, geprüften Texten in Leichter Sprache hat.

Er wurde auf über 11.000 Beispielen von reinem, aufgearbeitetem Text trainiert. Es kam keine synthetische Datengenerierung, sondern ein pures Training auf von durch menschliche Prüfer:innen als lesbar bewerteten Texten in Leichter Sprache zum Einsatz.

Der Classifier wird kostenfrei online angeboten, um bereits erste Proben mit ihm durchzuführen.

In späteren Iterationen des Projekts ist ein Training von Jacob 24b mittels RLHF und diesem Modell als "reward predictor" geplant.

Downloads last month: 97

Safetensors

Model size

67.4M params

Tensor type

BF16

Model tree for jacob-ml/LS-Bert-67m

Base model

distilbert/distilbert-base-german-cased

Finetuned

(40)

this model

Quantizations

1 model