EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining

Überblick

EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining ist ein leicht initialisiertes Large Language Model (LLM), das exklusiv für das MaTeLiX Trainings-Dashboard bereitgestellt wird.
Es unterstützt Deutsch und Englisch und dient als reine Ausgangsbasis für Pretraining-Experimente.

⚠️ WICHTIG

  • Dieses Modell ist nicht vortrainiert.
  • Es wurde lediglich der Tokenizer initialisiert, die Modellgewichte sind nur leicht initialisiert.
  • Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein vollständiges Pretraining zwingend erforderlich.

Kurzfassung:

  • Typ: Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
  • Bibliothek: kompatibel mit der 🤗 Transformers-Library
  • Zweck: Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem

Architektur

  • Interner Modellname: EvaGptForCausalLM
  • Modelltyp: Autoregressives Sprachmodell (Causal Language Model)
  • Implementierung: Eigene Architektur, in transformers integriert über die Klasse EvaGptForCausalLM
  • Referenz-Repository (Code & Integration):
    https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt

Die Architektur ist so gestaltet, dass sie sich nahtlos in das Transformers-Ökosystem einfügt.
Wenn EvaGptForCausalLM in deiner transformers-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.


Nutzung im MaTeLiX Trainings-Dashboard

Dieses Modell ist primär für den Einsatz im MaTeLiX Trainings-Dashboard vorgesehen.

Vorgesehene Nutzung:

  • Startpunkt für Pretraining-Experimente
  • Entwicklung und Evaluation eigener Trainingspipelines
  • Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem

Nicht vorgesehen / nicht unterstützt:

  • Direkte produktive Nutzung (z.B. Chatbots, Assistenzsysteme)
  • Einsatz ohne vorheriges, umfangreiches Pretraining
  • Off-Platform-Nutzung ohne Anpassung und eigenes Training

Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das MaTeLiX Dashboard gesteuert.


Technische Details

  • Modellarchitektur: Eigene Entwicklung, kompatibel mit transformers über EvaGptForCausalLM
  • Modellgröße: ca. 0,7B Parameter
  • Unterstützte Sprachen (Ziel):
    • Deutsch
    • Englisch
  • Status:
    • Untrainiert / nur leicht initialisiert
    • Tokenizer: initialisiert
    • Gewichte: nicht sinnvoll vortrainiert, nur Grundinitialisierung
  • Trainingsdaten:
    • Derzeit keine (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
  • Einsatzempfehlung:
    • Nicht für produktive oder sicherheitskritische Anwendungen geeignet
    • Nur für Forschung, Entwicklung und interne Experimente nach eigenem Pretraining

Beispiel: Laden des Modells mit Transformers

Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
dass EvaGptForCausalLM in deiner lokalen transformers-Installation verfügbar ist.
Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "MTSmash/EvaGPT-German-0.7B"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Achtung: Das Modell ist NICHT vortrainiert!
# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
outputs = model(**inputs)

Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit Trainer, Accelerate, DeepSpeed, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.


Lizenz & Haftungsausschluss

  • Lizenz: apache-2.0
  • Das Modell ist ausschließlich für Demonstrations-, Entwicklungs- und Trainingszwecke vorgesehen, insbesondere im Rahmen des MaTeLiX Trainings-Dashboards.
  • Es werden keine Garantien hinsichtlich:
    • Qualität der Antworten
    • Korrektheit der Ausgaben
    • Eignung für einen bestimmten Zweck gegeben.
  • Für jede produktive oder externe Nutzung ist:
    • ein umfassendes Pretraining,
    • ggf. anschließendes Finetuning,
    • sowie eine sorgfältige Evaluation und Sicherheitsprüfung zwingend erforderlich.

Die Entwickler:innen von MaTeLiX übernehmen keinerlei Haftung für Schäden, die durch die Nutzung des Modells entstehen.


Kontakt

Für Fragen zu:

  • Nutzung im MaTeLiX Dashboard
  • Pretraining-Setups und -Pipelines
  • Integration von EvaGptForCausalLM in eigene Projekte

wende dich bitte an das MaTeLiX Support-Team.

Downloads last month
67
Safetensors
Model size
0.7B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support