Update README.md
Browse files
README.md
CHANGED
|
@@ -1,31 +1,37 @@
|
|
| 1 |
# nc_ner_bert_model
|
| 2 |
|
| 3 |
-
This model is a fine-tuned version of bert-base-german-cased on the german-ler dataset.
|
| 4 |
-
It achieves the following results on the evaluation set:
|
| 5 |
|
| 6 |
-
|
| 7 |
-
|
| 8 |
-
Precision: 0.9712793733681462
|
| 9 |
-
Recall: 0.979131415679639
|
| 10 |
|
| 11 |
-
##
|
| 12 |
-
More information needed
|
| 13 |
|
| 14 |
-
|
| 15 |
-
|
|
|
|
|
|
|
| 16 |
|
| 17 |
-
##
|
| 18 |
-
More information needed
|
| 19 |
|
| 20 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 21 |
|
| 22 |
-
|
| 23 |
-
The following hyperparameters were used during training:
|
| 24 |
|
| 25 |
-
-
|
| 26 |
-
-
|
| 27 |
-
-
|
| 28 |
-
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 29 |
|
| 30 |
### Training results
|
| 31 |
|
|
|
|
| 1 |
# nc_ner_bert_model
|
| 2 |
|
|
|
|
|
|
|
| 3 |
|
| 4 |
+
Dieses Modell ist eine feinjustierte Variante von `bert-base-german-cased` und wurde auf dem `german-ler`-Datensatz mit **zusammengefassten (coarse) juristischen Entitäten** trainiert.
|
| 5 |
+
Die ursprünglichen 19 Labels wurden auf 7 Oberkategorien reduziert, um eine robuste, generalisierbare NER-Leistung im juristischen Kontext zu ermöglichen.
|
|
|
|
|
|
|
| 6 |
|
| 7 |
+
## Evaluationsergebnisse
|
|
|
|
| 8 |
|
| 9 |
+
- **F1-Score**: 0.9752
|
| 10 |
+
- **Precision**: 0.9713
|
| 11 |
+
- **Recall**: 0.9791
|
| 12 |
+
- **Loss**: 0.0089
|
| 13 |
|
| 14 |
+
## Zusammengeführte Entitäten
|
|
|
|
| 15 |
|
| 16 |
+
- **Personen**: `PER`, `RR`, `AN` → **PER**
|
| 17 |
+
- **Orte**: `LD`, `ST`, `STR`, `LDS` → **LOC**
|
| 18 |
+
- **Organisationen**: `ORG`, `UN`, `INN`, `GRT`, `MRK` → **ORG**
|
| 19 |
+
- **Rechtsnormen**: `GS`, `VO`, `EUN` → **NRM**
|
| 20 |
+
- **Regelwerke & Verträge**: `VS`, `VT` → **REG**
|
| 21 |
+
- **Gerichtsentscheidungen**: `RS`
|
| 22 |
+
- **Literatur**: `LIT`
|
| 23 |
|
| 24 |
+
## Trainingskonfiguration
|
|
|
|
| 25 |
|
| 26 |
+
- **Modell**: `bert-base-german-cased`
|
| 27 |
+
- **Datensatz**: `german-ler` (BIO-annotiert)
|
| 28 |
+
- **Trainingsepochen**: 7
|
| 29 |
+
- **Batchgröße**: 16
|
| 30 |
+
- **Lernrate**: ~4.52e-5
|
| 31 |
+
|
| 32 |
+
## Nutzung
|
| 33 |
+
|
| 34 |
+
Das Modell eignet sich für juristische NER-Anwendungen, bei denen eine robuste Extraktion relevanter Entitäten aus deutschsprachigen Rechtstexten erforderlich ist – z. B. in Schriftsatzanalyse, Vertragsprüfung oder juristischem Wissensmanagement.
|
| 35 |
|
| 36 |
### Training results
|
| 37 |
|