EvaGPT-German-0.7B / README.md
MTSmash's picture
Update README.md
1d0cd28 verified
---
language:
- en
- de
library_name: transformers
tags:
- gpt
- llm
- large language model
- mateilx
inference: false
license: apache-2.0
---
# EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining
## Überblick
**EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird.
Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**.
> ⚠️ **WICHTIG**
> - Dieses Modell ist **nicht vortrainiert**.
> - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert.
> - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**.
**Kurzfassung:**
- **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
- **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library
- **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem
---
## Architektur
- **Interner Modellname:** `EvaGptForCausalLM`
- **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model)
- **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM`
- **Referenz-Repository (Code & Integration):**
https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt
Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt.
Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.
---
## Nutzung im MaTeLiX Trainings-Dashboard
Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen.
**Vorgesehene Nutzung:**
- Startpunkt für **Pretraining-Experimente**
- Entwicklung und Evaluation eigener Trainingspipelines
- Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem
**Nicht vorgesehen / nicht unterstützt:**
- Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme)
- Einsatz ohne vorheriges, umfangreiches Pretraining
- Off-Platform-Nutzung ohne Anpassung und eigenes Training
Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert.
---
## Technische Details
- **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM`
- **Modellgröße:** ca. **0,7B Parameter**
- **Unterstützte Sprachen (Ziel):**
- Deutsch
- Englisch
- **Status:**
- **Untrainiert / nur leicht initialisiert**
- **Tokenizer:** initialisiert
- **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung
- **Trainingsdaten:**
- Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
- **Einsatzempfehlung:**
- **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet
- Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining
---
## Beispiel: Laden des Modells mit Transformers
> Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
> dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist.
> Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "MTSmash/EvaGPT-German-0.7B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Achtung: Das Modell ist NICHT vortrainiert!
# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
outputs = model(**inputs)
```
Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.
---
## Lizenz & Haftungsausschluss
- **Lizenz:** `apache-2.0`
- Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**.
- Es werden **keine Garantien** hinsichtlich:
- Qualität der Antworten
- Korrektheit der Ausgaben
- Eignung für einen bestimmten Zweck
gegeben.
- Für jede **produktive** oder **externe** Nutzung ist:
- ein umfassendes **Pretraining**,
- ggf. anschließendes **Finetuning**,
- sowie eine sorgfältige **Evaluation und Sicherheitsprüfung**
zwingend erforderlich.
Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen.
---
## Kontakt
Für Fragen zu:
- Nutzung im MaTeLiX Dashboard
- Pretraining-Setups und -Pipelines
- Integration von `EvaGptForCausalLM` in eigene Projekte
wende dich bitte an das **MaTeLiX Support-Team**.