MTSmash
/

EvaGPT-Vokabel-Model

GGUF

Model card Files Files and versions

xet

Community

MTSmash commited on Aug 16, 2024

Commit

d2ebad9

verified ·

1 Parent(s): d5aa292

Update README.md

Browse files

Files changed (1) hide show

README.md +124 -3

README.md CHANGED Viewed

@@ -1,3 +1,124 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+---
+# EvaGPT-German-v8.8
+EvaGPT-German-v8.8 ist ein deutsches Vokabular-Modell, das für die Nutzung in Sprachmodellen wie LLaMA optimiert wurde. Dieses Modell wurde speziell entwickelt, um von Grund auf trainiert zu werden und bietet ein robustes Vokabular für die Verarbeitung der deutschen Sprache. Es ist besonders geeignet für Anwendungen im Bereich natürlicher Sprachverarbeitung (NLP), die auf deutsche Texte spezialisiert sind.
+## Modell-Details
+- **Modellname**: EvaGPT-German-v8.8
+- **Sprachen**: Deutsch
+- **Vokabulargröße**: [Hier die Anzahl der Tokens einfügen]
+- **Trainingsmethode**: Train from Scratch mit [LLaMA](https://github.com/ggerganov/llama.cpp)
+## Features
+- **Optimiert für die deutsche Sprache**: Das Modell enthält ein Vokabular, das speziell auf die Eigenheiten und Besonderheiten der deutschen Sprache abgestimmt ist.
+- **Unterstützt verschiedene NLP-Aufgaben**: Dank der breiten Abdeckung des Vokabulars kann das Modell für verschiedene Aufgaben wie Textklassifikation, maschinelle Übersetzung, Textgenerierung und mehr eingesetzt werden.
+- **Kompatibilität mit LLaMA**: Das Vokabular ist vollständig kompatibel mit LLaMA und ermöglicht somit das Training eines Sprachmodells von Grund auf.
+## Installation und Nutzung
+### Voraussetzungen
+Bevor du beginnst, stelle sicher, dass du die folgenden Voraussetzungen erfüllt hast:
+- Python 3.8 oder höher
+- `llama.cpp` installiert (siehe [llama.cpp GitHub Repository](https://github.com/ggerganov/llama.cpp) für Anweisungen)
+### Installation
+Das Modell kann direkt über Hugging Face heruntergeladen werden:
+```bash
+pip install huggingface_hub
+```
+### Nutzung
+Um EvaGPT-German-v8.8 in deinem Projekt zu verwenden, folge diesen Schritten:
+```python
+from llama_cpp import LLaMATokenizer, LLaMAModel
+# Lade das Vokabular
+tokenizer = LLaMATokenizer.from_pretrained("dein-username/EvaGPT-German-v8.8")
+# Initialisiere das Model (Train from Scratch)
+model = LLaMAModel(tokenizer=tokenizer, config=...)
+model.train(...)
+# Beispielhafte Tokenisierung
+text = "Dies ist ein Beispieltext auf Deutsch."
+tokens = tokenizer.tokenize(text)
+print(tokens)
+```
+## Beispiel-Trainingsskript
+Hier ist ein Beispielskript, das verwendet werden kann, um ein Sprachmodell von Grund auf mit EvaGPT-German-v8.8 zu trainieren:
+```bash
+./build/bin/train-text-from-scratch \
+    --vocab-model ./models/ggml-model-eva-f16.gguf \
+    --ctx 1024 --embd 512 --head 8 --layer 12 --ff 2048 \
+    --checkpoint-in chk-evagpt1-small.gguf \
+    --checkpoint-out chk-evagpt1-small.gguf \
+    --model-out ggml-evagpt-small1-f32.gguf \
+    --train-data "train_data.txt" \
+    -t 8 -b 16 --epochs 10 --seed 1 --adam-iter 128 \
+    --save-every 10 --no-flash
+```
+### Erläuterungen zu den Parametern:
+- `--vocab-model`: Pfad zum Vokabularmodell (EvaGPT-German-v8.8).
+- `--ctx`: Kontextgröße (1024 Tokens).
+- `--embd`: Größe der Embeddings (512).
+- `--head`: Anzahl der Attention Heads (8).
+- `--layer`: Anzahl der Transformer-Schichten (12).
+- `--ff`: Größe des Feed-Forward-Netzwerks (2048).
+- `--checkpoint-in`: Eingabe des Checkpoints für die Fortsetzung des Trainings.
+- `--checkpoint-out`: Ausgabe des Checkpoints nach dem Training.
+- `--model-out`: Pfad zur Ausgabe des trainierten Modells.
+- `--train-data`: Pfad zur Trainingsdaten-Datei.
+- `-t`: Anzahl der Threads (8).
+- `-b`: Batch-Größe (16).
+- `--epochs`: Anzahl der Epochen (10).
+- `--seed`: Zufalls-Seed (1).
+- `--adam-iter`: Anzahl der Adam-Iterationen (128).
+- `--save-every`: Speichern nach jeder n-ten Epoche (10).
+- `--no-flash`: Deaktiviert Flash-Attention (optional).
+## Training
+Das Modell wurde mit einem umfangreichen Korpus deutscher Texte trainiert, um eine optimale Abdeckung und Genauigkeit zu gewährleisten. Die Trainingsdaten umfassen Texte aus verschiedenen Domänen, um eine breite Anwendbarkeit zu ermöglichen.
+### Anpassung und Feinabstimmung
+EvaGPT-German-v8.8 kann auch für spezifische Anwendungsfälle weiter feinabgestimmt werden. Verwende dazu das Standard-Feinabstimmungsverfahren in LLaMA.
+## Lizenz
+Dieses Modell wird unter der [Lizenztyp einfügen] veröffentlicht. Bitte stelle sicher, dass du die Lizenzbedingungen verstehst und einhältst, bevor du das Modell verwendest.
+## Zukünftige Entwicklungen
+Geplante Verbesserungen und Updates für EvaGPT-German-v8.8 umfassen:
+- Erweiterung des Vokabulars
+- Feinabstimmung auf spezifische Domänen
+- Verbesserungen der Tokenisierungsalgorithmen
+## Beiträge
+Beiträge zur Weiterentwicklung dieses Modells sind herzlich willkommen! Erstelle einfach einen Pull-Request oder öffne ein Issue im Repository.
+## Danksagungen
+Ein besonderer Dank geht an die Entwickler von LLaMA und die Open-Source-Community, die dieses Projekt möglich gemacht haben.
+---
+**EvaGPT-German-v8.8** - Das robuste deutsche Vokabular für deine NLP-Projekte.