MTSmash commited on
Commit
d2ebad9
·
verified ·
1 Parent(s): d5aa292

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +124 -3
README.md CHANGED
@@ -1,3 +1,124 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ ---
4
+ # EvaGPT-German-v8.8
5
+
6
+ EvaGPT-German-v8.8 ist ein deutsches Vokabular-Modell, das für die Nutzung in Sprachmodellen wie LLaMA optimiert wurde. Dieses Modell wurde speziell entwickelt, um von Grund auf trainiert zu werden und bietet ein robustes Vokabular für die Verarbeitung der deutschen Sprache. Es ist besonders geeignet für Anwendungen im Bereich natürlicher Sprachverarbeitung (NLP), die auf deutsche Texte spezialisiert sind.
7
+
8
+ ## Modell-Details
9
+
10
+ - **Modellname**: EvaGPT-German-v8.8
11
+ - **Sprachen**: Deutsch
12
+ - **Vokabulargröße**: [Hier die Anzahl der Tokens einfügen]
13
+ - **Trainingsmethode**: Train from Scratch mit [LLaMA](https://github.com/ggerganov/llama.cpp)
14
+
15
+ ## Features
16
+
17
+ - **Optimiert für die deutsche Sprache**: Das Modell enthält ein Vokabular, das speziell auf die Eigenheiten und Besonderheiten der deutschen Sprache abgestimmt ist.
18
+ - **Unterstützt verschiedene NLP-Aufgaben**: Dank der breiten Abdeckung des Vokabulars kann das Modell für verschiedene Aufgaben wie Textklassifikation, maschinelle Übersetzung, Textgenerierung und mehr eingesetzt werden.
19
+ - **Kompatibilität mit LLaMA**: Das Vokabular ist vollständig kompatibel mit LLaMA und ermöglicht somit das Training eines Sprachmodells von Grund auf.
20
+
21
+ ## Installation und Nutzung
22
+
23
+ ### Voraussetzungen
24
+
25
+ Bevor du beginnst, stelle sicher, dass du die folgenden Voraussetzungen erfüllt hast:
26
+
27
+ - Python 3.8 oder höher
28
+ - `llama.cpp` installiert (siehe [llama.cpp GitHub Repository](https://github.com/ggerganov/llama.cpp) für Anweisungen)
29
+
30
+ ### Installation
31
+
32
+ Das Modell kann direkt über Hugging Face heruntergeladen werden:
33
+
34
+ ```bash
35
+ pip install huggingface_hub
36
+ ```
37
+
38
+ ### Nutzung
39
+
40
+ Um EvaGPT-German-v8.8 in deinem Projekt zu verwenden, folge diesen Schritten:
41
+
42
+ ```python
43
+ from llama_cpp import LLaMATokenizer, LLaMAModel
44
+
45
+ # Lade das Vokabular
46
+ tokenizer = LLaMATokenizer.from_pretrained("dein-username/EvaGPT-German-v8.8")
47
+
48
+ # Initialisiere das Model (Train from Scratch)
49
+ model = LLaMAModel(tokenizer=tokenizer, config=...)
50
+ model.train(...)
51
+
52
+ # Beispielhafte Tokenisierung
53
+ text = "Dies ist ein Beispieltext auf Deutsch."
54
+ tokens = tokenizer.tokenize(text)
55
+ print(tokens)
56
+ ```
57
+
58
+ ## Beispiel-Trainingsskript
59
+
60
+ Hier ist ein Beispielskript, das verwendet werden kann, um ein Sprachmodell von Grund auf mit EvaGPT-German-v8.8 zu trainieren:
61
+
62
+ ```bash
63
+ ./build/bin/train-text-from-scratch \
64
+ --vocab-model ./models/ggml-model-eva-f16.gguf \
65
+ --ctx 1024 --embd 512 --head 8 --layer 12 --ff 2048 \
66
+ --checkpoint-in chk-evagpt1-small.gguf \
67
+ --checkpoint-out chk-evagpt1-small.gguf \
68
+ --model-out ggml-evagpt-small1-f32.gguf \
69
+ --train-data "train_data.txt" \
70
+ -t 8 -b 16 --epochs 10 --seed 1 --adam-iter 128 \
71
+ --save-every 10 --no-flash
72
+ ```
73
+
74
+ ### Erläuterungen zu den Parametern:
75
+
76
+ - `--vocab-model`: Pfad zum Vokabularmodell (EvaGPT-German-v8.8).
77
+ - `--ctx`: Kontextgröße (1024 Tokens).
78
+ - `--embd`: Größe der Embeddings (512).
79
+ - `--head`: Anzahl der Attention Heads (8).
80
+ - `--layer`: Anzahl der Transformer-Schichten (12).
81
+ - `--ff`: Größe des Feed-Forward-Netzwerks (2048).
82
+ - `--checkpoint-in`: Eingabe des Checkpoints für die Fortsetzung des Trainings.
83
+ - `--checkpoint-out`: Ausgabe des Checkpoints nach dem Training.
84
+ - `--model-out`: Pfad zur Ausgabe des trainierten Modells.
85
+ - `--train-data`: Pfad zur Trainingsdaten-Datei.
86
+ - `-t`: Anzahl der Threads (8).
87
+ - `-b`: Batch-Größe (16).
88
+ - `--epochs`: Anzahl der Epochen (10).
89
+ - `--seed`: Zufalls-Seed (1).
90
+ - `--adam-iter`: Anzahl der Adam-Iterationen (128).
91
+ - `--save-every`: Speichern nach jeder n-ten Epoche (10).
92
+ - `--no-flash`: Deaktiviert Flash-Attention (optional).
93
+
94
+ ## Training
95
+
96
+ Das Modell wurde mit einem umfangreichen Korpus deutscher Texte trainiert, um eine optimale Abdeckung und Genauigkeit zu gewährleisten. Die Trainingsdaten umfassen Texte aus verschiedenen Domänen, um eine breite Anwendbarkeit zu ermöglichen.
97
+
98
+ ### Anpassung und Feinabstimmung
99
+
100
+ EvaGPT-German-v8.8 kann auch für spezifische Anwendungsfälle weiter feinabgestimmt werden. Verwende dazu das Standard-Feinabstimmungsverfahren in LLaMA.
101
+
102
+ ## Lizenz
103
+
104
+ Dieses Modell wird unter der [Lizenztyp einfügen] veröffentlicht. Bitte stelle sicher, dass du die Lizenzbedingungen verstehst und einhältst, bevor du das Modell verwendest.
105
+
106
+ ## Zukünftige Entwicklungen
107
+
108
+ Geplante Verbesserungen und Updates für EvaGPT-German-v8.8 umfassen:
109
+
110
+ - Erweiterung des Vokabulars
111
+ - Feinabstimmung auf spezifische Domänen
112
+ - Verbesserungen der Tokenisierungsalgorithmen
113
+
114
+ ## Beiträge
115
+
116
+ Beiträge zur Weiterentwicklung dieses Modells sind herzlich willkommen! Erstelle einfach einen Pull-Request oder öffne ein Issue im Repository.
117
+
118
+ ## Danksagungen
119
+
120
+ Ein besonderer Dank geht an die Entwickler von LLaMA und die Open-Source-Community, die dieses Projekt möglich gemacht haben.
121
+
122
+ ---
123
+
124
+ **EvaGPT-German-v8.8** - Das robuste deutsche Vokabular für deine NLP-Projekte.