Update README.md
Browse files
README.md
CHANGED
|
@@ -1,31 +1,38 @@
|
|
| 1 |
-
#
|
| 2 |
|
| 3 |
-
|
| 4 |
-
|
| 5 |
|
| 6 |
-
|
| 7 |
-
F1: 0.9792212654436541
|
| 8 |
-
Precision: 0.9750232991612302
|
| 9 |
-
Recall: 0.9834555367550292
|
| 10 |
|
| 11 |
-
|
| 12 |
-
|
|
|
|
|
|
|
| 13 |
|
| 14 |
-
##
|
| 15 |
-
More information needed
|
| 16 |
|
| 17 |
-
|
| 18 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 19 |
|
| 20 |
-
##
|
| 21 |
|
| 22 |
-
|
| 23 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 24 |
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
-
|
| 28 |
-
- num_epochs: 6
|
| 29 |
|
| 30 |
### Training results
|
| 31 |
|
|
|
|
| 1 |
+
# nc_ner_bert_model_german_grob
|
| 2 |
|
| 3 |
+
Dieses Modell ist eine feinjustierte Variante von `bert-base-german-cased` und wurde auf dem `german-ler`-Datensatz mit **zusammengefassten (coarse) juristischen Entitäten** trainiert.
|
| 4 |
+
Die ursprünglichen 19 Labels wurden auf 7 Oberkategorien reduziert, um eine robuste, generalisierbare NER-Leistung im juristischen Kontext zu ermöglichen.
|
| 5 |
|
| 6 |
+
## Evaluationsergebnisse
|
|
|
|
|
|
|
|
|
|
| 7 |
|
| 8 |
+
- **F1-Score**: 0.9792212654436541
|
| 9 |
+
- **Precision**: 0.9750232991612302
|
| 10 |
+
- **Recall**: 0.9834555367550292
|
| 11 |
+
- **Loss**:0.008847936056554317
|
| 12 |
|
| 13 |
+
## Zusammengeführte Entitäten
|
|
|
|
| 14 |
|
| 15 |
+
- **Personen**: `PER`, `RR`, `AN` → **PER**
|
| 16 |
+
- **Orte**: `LD`, `ST`, `STR`, `LDS` → **LOC**
|
| 17 |
+
- **Organisationen**: `ORG`, `UN`, `INN`, `GRT`, `MRK` → **ORG**
|
| 18 |
+
- **Rechtsnormen**: `GS`, `VO`, `EUN` → **NRM**
|
| 19 |
+
- **Regelwerke & Verträge**: `VS`, `VT` → **REG**
|
| 20 |
+
- **Gerichtsentscheidungen**: `RS`
|
| 21 |
+
- **Literatur**: `LIT`
|
| 22 |
|
| 23 |
+
## Trainingskonfiguration
|
| 24 |
|
| 25 |
+
- **Modell**: `bert-base-german-cased`
|
| 26 |
+
- **Datensatz**: `german-ler` (BIO-annotiert)
|
| 27 |
+
- **Trainingsepochen**: 6
|
| 28 |
+
- **Batchgröße**: 32
|
| 29 |
+
- **Lernrate**: 2e-5
|
| 30 |
+
- **Evaluation alle**: 200 Schritte
|
| 31 |
+
- **Selektion nach**: F1-Score (Bestes Modell gespeichert)
|
| 32 |
|
| 33 |
+
## Nutzung
|
| 34 |
+
|
| 35 |
+
Das Modell eignet sich für juristische NER-Anwendungen, bei denen eine robuste Extraktion relevanter Entitäten aus deutschsprachigen Rechtstexten erforderlich ist – z. B. in Schriftsatzanalyse, Vertragsprüfung oder juristischem Wissensmanagement.
|
|
|
|
| 36 |
|
| 37 |
### Training results
|
| 38 |
|