EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining

Überblick

EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining ist ein leicht initialisiertes Large Language Model (LLM), das exklusiv für das MaTeLiX Trainings-Dashboard bereitgestellt wird.
Es unterstützt Deutsch und Englisch und dient als reine Ausgangsbasis für Pretraining-Experimente.

⚠️ WICHTIG

Dieses Modell ist nicht vortrainiert.

Es wurde lediglich der Tokenizer initialisiert, die Modellgewichte sind nur leicht initialisiert.

Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein vollständiges Pretraining zwingend erforderlich.

Kurzfassung:

Typ: Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
Bibliothek: kompatibel mit der 🤗 Transformers-Library
Zweck: Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem

Architektur

Interner Modellname: EvaGptForCausalLM
Modelltyp: Autoregressives Sprachmodell (Causal Language Model)
Implementierung: Eigene Architektur, in transformers integriert über die Klasse EvaGptForCausalLM
Referenz-Repository (Code & Integration):
https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt

Die Architektur ist so gestaltet, dass sie sich nahtlos in das Transformers-Ökosystem einfügt.
Wenn EvaGptForCausalLM in deiner transformers-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.

Nutzung im MaTeLiX Trainings-Dashboard

Dieses Modell ist primär für den Einsatz im MaTeLiX Trainings-Dashboard vorgesehen.

Vorgesehene Nutzung:

Startpunkt für Pretraining-Experimente
Entwicklung und Evaluation eigener Trainingspipelines
Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem

Nicht vorgesehen / nicht unterstützt:

Direkte produktive Nutzung (z.B. Chatbots, Assistenzsysteme)
Einsatz ohne vorheriges, umfangreiches Pretraining
Off-Platform-Nutzung ohne Anpassung und eigenes Training

Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das MaTeLiX Dashboard gesteuert.

Technische Details

Modellarchitektur: Eigene Entwicklung, kompatibel mit transformers über EvaGptForCausalLM
Modellgröße: ca. 0,7B Parameter
Unterstützte Sprachen (Ziel):
- Deutsch
- Englisch
Status:
- Untrainiert / nur leicht initialisiert
- Tokenizer: initialisiert
- Gewichte: nicht sinnvoll vortrainiert, nur Grundinitialisierung
Trainingsdaten:
- Derzeit keine (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
Einsatzempfehlung:
- Nicht für produktive oder sicherheitskritische Anwendungen geeignet
- Nur für Forschung, Entwicklung und interne Experimente nach eigenem Pretraining

Beispiel: Laden des Modells mit Transformers

Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
dass EvaGptForCausalLM in deiner lokalen transformers-Installation verfügbar ist.
Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "MTSmash/EvaGPT-German-0.7B"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Achtung: Das Modell ist NICHT vortrainiert!
# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
outputs = model(**inputs)

Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit Trainer, Accelerate, DeepSpeed, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.

Lizenz & Haftungsausschluss

Lizenz: apache-2.0
Das Modell ist ausschließlich für Demonstrations-, Entwicklungs- und Trainingszwecke vorgesehen, insbesondere im Rahmen des MaTeLiX Trainings-Dashboards.
Es werden keine Garantien hinsichtlich:
- Qualität der Antworten
- Korrektheit der Ausgaben
- Eignung für einen bestimmten Zweck gegeben.
Für jede produktive oder externe Nutzung ist:
- ein umfassendes Pretraining,
- ggf. anschließendes Finetuning,
- sowie eine sorgfältige Evaluation und Sicherheitsprüfung zwingend erforderlich.

Die Entwickler:innen von MaTeLiX übernehmen keinerlei Haftung für Schäden, die durch die Nutzung des Modells entstehen.

Kontakt

Für Fragen zu:

Nutzung im MaTeLiX Dashboard
Pretraining-Setups und -Pipelines
Integration von EvaGptForCausalLM in eigene Projekte

wende dich bitte an das MaTeLiX Support-Team.

Downloads last month: 67

Safetensors

Model size

0.7B params

Tensor type

F32