LS-Bert banner

Dieses Repository beinhaltet einen State-of-the-Art-Classifier zur Unterscheidung von Texten in Leichter Sprache und komplexem Deutsch. Dem Classifier gelingt hierbei sogar eine sichere Unterscheidung zwischen Texten in Leichter und Einfacher Sprache. Ausgegebene Labels sind yes und no, wobei ein yes signalisiert, dass der vorliegende Text hohe Übereinstimmungen mit tatsächlichen, geprüften Texten in Leichter Sprache hat.

Er wurde auf über 11.000 Beispielen von reinem, aufgearbeitetem Text trainiert. Es kam keine synthetische Datengenerierung, sondern ein pures Training auf von durch menschliche Prüfer:innen als lesbar bewerteten Texten in Leichter Sprache zum Einsatz.

Der Classifier wird kostenfrei online angeboten, um bereits erste Proben mit ihm durchzuführen.

In späteren Iterationen des Projekts ist ein Training von Jacob 24b mittels RLHF und diesem Modell als "reward predictor" geplant.

Downloads last month
97
Safetensors
Model size
67.4M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jacob-ml/LS-Bert-67m

Finetuned
(40)
this model
Quantizations
1 model