NICFRU commited on
Commit
a5b1d4d
·
verified ·
1 Parent(s): 18fb415

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +27 -20
README.md CHANGED
@@ -1,31 +1,38 @@
1
- # nc_ner_bert_model
2
 
3
- This model is a fine-tuned version of bert-base-german-cased on the german-ler dataset.
4
- It achieves the following results on the evaluation set:
5
 
6
- Loss: 0.008847936056554317
7
- F1: 0.9792212654436541
8
- Precision: 0.9750232991612302
9
- Recall: 0.9834555367550292
10
 
11
- ## Model description
12
- More information needed
 
 
13
 
14
- ## Intended uses & limitations
15
- More information needed
16
 
17
- ## Training and evaluation data
18
- More information needed
 
 
 
 
 
19
 
20
- ## Training procedure
21
 
22
- ### Training hyperparameters
23
- The following hyperparameters were used during training:
 
 
 
 
 
24
 
25
- - learning_rate: 2e-05
26
- - train_batch_size: 32
27
- - eval_batch_size: 32
28
- - num_epochs: 6
29
 
30
  ### Training results
31
 
 
1
+ # nc_ner_bert_model_german_grob
2
 
3
+ Dieses Modell ist eine feinjustierte Variante von `bert-base-german-cased` und wurde auf dem `german-ler`-Datensatz mit **zusammengefassten (coarse) juristischen Entitäten** trainiert.
4
+ Die ursprünglichen 19 Labels wurden auf 7 Oberkategorien reduziert, um eine robuste, generalisierbare NER-Leistung im juristischen Kontext zu ermöglichen.
5
 
6
+ ## Evaluationsergebnisse
 
 
 
7
 
8
+ - **F1-Score**: 0.9792212654436541
9
+ - **Precision**: 0.9750232991612302
10
+ - **Recall**: 0.9834555367550292
11
+ - **Loss**:0.008847936056554317
12
 
13
+ ## Zusammengeführte Entitäten
 
14
 
15
+ - **Personen**: `PER`, `RR`, `AN` → **PER**
16
+ - **Orte**: `LD`, `ST`, `STR`, `LDS` → **LOC**
17
+ - **Organisationen**: `ORG`, `UN`, `INN`, `GRT`, `MRK` → **ORG**
18
+ - **Rechtsnormen**: `GS`, `VO`, `EUN` → **NRM**
19
+ - **Regelwerke & Verträge**: `VS`, `VT` → **REG**
20
+ - **Gerichtsentscheidungen**: `RS`
21
+ - **Literatur**: `LIT`
22
 
23
+ ## Trainingskonfiguration
24
 
25
+ - **Modell**: `bert-base-german-cased`
26
+ - **Datensatz**: `german-ler` (BIO-annotiert)
27
+ - **Trainingsepochen**: 6
28
+ - **Batchgröße**: 32
29
+ - **Lernrate**: 2e-5
30
+ - **Evaluation alle**: 200 Schritte
31
+ - **Selektion nach**: F1-Score (Bestes Modell gespeichert)
32
 
33
+ ## Nutzung
34
+
35
+ Das Modell eignet sich für juristische NER-Anwendungen, bei denen eine robuste Extraktion relevanter Entitäten aus deutschsprachigen Rechtstexten erforderlich ist – z. B. in Schriftsatzanalyse, Vertragsprüfung oder juristischem Wissensmanagement.
 
36
 
37
  ### Training results
38