MTSmash
/

EvaGPT-German-0.7B

@@ -9,57 +9,133 @@ tags:
 - large language model
 - mateilx
 inference: false
-thumbnail: >-
-  https://h2o.ai/etc.clientlibs/h2o/clientlibs/clientlib-site/resources/images/favicon.ico
 license: apache-2.0
 ---
-# Model Card
-## Overview
-**EvaGPT-German-0.7B - MaTeLiX-AI-for-Pretraining** ist ein **untrainiertes Large Language Model (LLM)**, das exklusiv für das MaTeLiX Trainingsdashboard bereitgestellt wird.
-Das Modell unterstützt **Deutsch** und **Englisch** und dient als reine Ausgangsbasis für das Pretraining.
-> **WICHTIG:**
-> **Dieses Modell ist untrainiert!**
-> Es wurde lediglich der Tokenizer initialisiert, das Modell selbst ist komplett untrainiert (“random init”).
-> Für jegliche sinnvolle Nutzung – auch Tests oder Experimente – ist ein vollständiges Pretraining **zwingend erforderlich**.
-* **Typ:** Rolling LLM (untrainiert, nur Tokenizer)
-* **Kompatibilität:** [Transformers](https://huggingface.co/docs/transformers) Library
-* **Zweck:** Basis für Pretraining und experimentelle Zwecke im MaTeLiX-Ökosystem
-## Hinweis zur Architektur
-**Der Code Name des Model ist `EvaGptForCausalLM`.**
-Die Architektur wurde selbst entwickelt. Die Architecktur kann über Github bezogen werden: https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt
-## Nutzung im MaTeLiX Dashboard
-Dieses Modell ist ausschließlich für die Nutzung innerhalb des MaTeLiX Trainingsdashboards bestimmt.
-Eine Verwendung außerhalb dieser Plattform ist **nicht vorgesehen** und wird **nicht unterstützt**.
-**Anwendung:**
-Im MaTeLiX Dashboard dient dieses Modell als Ausgangspunkt für Pretraining-Experimente und Modell-Entwicklung.
-Alle Trainings- und Feineinstellungen werden über das Dashboard gesteuert.
 ## Technische Details
-* **Architektur:** Eigene Entwicklung, Kompatibilität über `EvaGptForCausalLM`
-* **Sprachen:** Deutsch, Englisch
-* **Status:** Untrainiert, nur Tokenizer initialisiert
-* **Trainingsdaten:** Noch keine (Pretraining erforderlich)
-* **Hinweis:** Nicht für produktive Nutzung geeignet
 ## Lizenz & Haftungsausschluss
-Dieses Modell ist ausschließlich für Demonstrations-, Entwicklungs- und Trainingszwecke im MaTeLiX Trainingsdashboard vorgesehen.
-MaTeLiX übernimmt keinerlei Haftung für Modellantworten, Fehler oder unerwünschtes Verhalten.
-Für jede produktive oder externe Nutzung ist ein vollständiges Pretraining und ggf. weiteres Finetuning erforderlich.
 ---
 ## Kontakt
-Fragen zur Nutzung oder zum Pretraining bitte an das MaTeLiX Support-Team.

 - large language model
 - mateilx
 inference: false
 license: apache-2.0
 ---
+# EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining
+## Überblick
+**EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird.
+Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**.
+> ⚠️ **WICHTIG**
+> - Dieses Modell ist **nicht vortrainiert**.
+> - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert.
+> - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**.
+**Kurzfassung:**
+- **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
+- **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library
+- **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem
+---
+## Architektur
+- **Interner Modellname:** `EvaGptForCausalLM`
+- **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model)
+- **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM`
+- **Referenz-Repository (Code & Integration):**
+  https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt
+Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt.
+Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.
+---
+## Nutzung im MaTeLiX Trainings-Dashboard
+Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen.
+**Vorgesehene Nutzung:**
+- Startpunkt für **Pretraining-Experimente**
+- Entwicklung und Evaluation eigener Trainingspipelines
+- Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem
+**Nicht vorgesehen / nicht unterstützt:**
+- Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme)
+- Einsatz ohne vorheriges, umfangreiches Pretraining
+- Off-Platform-Nutzung ohne Anpassung und eigenes Training
+Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert.
+---
 ## Technische Details
+- **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM`
+- **Modellgröße:** ca. **0,7B Parameter**
+- **Unterstützte Sprachen (Ziel):**
+  - Deutsch
+  - Englisch
+- **Status:**
+  - **Untrainiert / nur leicht initialisiert**
+  - **Tokenizer:** initialisiert
+  - **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung
+- **Trainingsdaten:**
+  - Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
+- **Einsatzempfehlung:**
+  - **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet
+  - Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining
+---
+## Beispiel: Laden des Modells mit Transformers
+> Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
+> dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist.
+> Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+model_id = "MTSmash/EvaGPT-German-0.7B"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
+# Achtung: Das Modell ist NICHT vortrainiert!
+# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
+inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
+outputs = model(**inputs)
+```
+Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.
+---
 ## Lizenz & Haftungsausschluss
+- **Lizenz:** `apache-2.0`
+- Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**.
+- Es werden **keine Garantien** hinsichtlich:
+  - Qualität der Antworten
+  - Korrektheit der Ausgaben
+  - Eignung für einen bestimmten Zweck
+  gegeben.
+- Für jede **produktive** oder **externe** Nutzung ist:
+  - ein umfassendes **Pretraining**,
+  - ggf. anschließendes **Finetuning**,
+  - sowie eine sorgfältige **Evaluation und Sicherheitsprüfung**
+  zwingend erforderlich.
+Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen.
 ---
 ## Kontakt
+Für Fragen zu:
+- Nutzung im MaTeLiX Dashboard
+- Pretraining-Setups und -Pipelines
+- Integration von `EvaGptForCausalLM` in eigene Projekte
+wende dich bitte an das **MaTeLiX Support-Team**.
+```
+Wenn du möchtest, kann ich noch eine kurze englische Version der Model Card ergänzen oder ein Minimalbeispiel für ein Pretraining-Skript (z.B. mit `Trainer` oder `Accelerate`) skizzieren.