|
|
--- |
|
|
language: |
|
|
- en |
|
|
- de |
|
|
library_name: transformers |
|
|
tags: |
|
|
- gpt |
|
|
- llm |
|
|
- large language model |
|
|
- mateilx |
|
|
inference: false |
|
|
license: apache-2.0 |
|
|
--- |
|
|
|
|
|
# EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining |
|
|
|
|
|
## Überblick |
|
|
|
|
|
**EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird. |
|
|
Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**. |
|
|
|
|
|
> ⚠️ **WICHTIG** |
|
|
> - Dieses Modell ist **nicht vortrainiert**. |
|
|
> - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert. |
|
|
> - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**. |
|
|
|
|
|
**Kurzfassung:** |
|
|
|
|
|
- **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung) |
|
|
- **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library |
|
|
- **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem |
|
|
|
|
|
--- |
|
|
|
|
|
## Architektur |
|
|
|
|
|
- **Interner Modellname:** `EvaGptForCausalLM` |
|
|
- **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model) |
|
|
- **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM` |
|
|
- **Referenz-Repository (Code & Integration):** |
|
|
https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt |
|
|
|
|
|
Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt. |
|
|
Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren. |
|
|
|
|
|
--- |
|
|
|
|
|
## Nutzung im MaTeLiX Trainings-Dashboard |
|
|
|
|
|
Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen. |
|
|
|
|
|
**Vorgesehene Nutzung:** |
|
|
|
|
|
- Startpunkt für **Pretraining-Experimente** |
|
|
- Entwicklung und Evaluation eigener Trainingspipelines |
|
|
- Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem |
|
|
|
|
|
**Nicht vorgesehen / nicht unterstützt:** |
|
|
|
|
|
- Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme) |
|
|
- Einsatz ohne vorheriges, umfangreiches Pretraining |
|
|
- Off-Platform-Nutzung ohne Anpassung und eigenes Training |
|
|
|
|
|
Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert. |
|
|
|
|
|
--- |
|
|
|
|
|
## Technische Details |
|
|
|
|
|
- **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM` |
|
|
- **Modellgröße:** ca. **0,7B Parameter** |
|
|
- **Unterstützte Sprachen (Ziel):** |
|
|
- Deutsch |
|
|
- Englisch |
|
|
- **Status:** |
|
|
- **Untrainiert / nur leicht initialisiert** |
|
|
- **Tokenizer:** initialisiert |
|
|
- **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung |
|
|
- **Trainingsdaten:** |
|
|
- Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden) |
|
|
- **Einsatzempfehlung:** |
|
|
- **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet |
|
|
- Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining |
|
|
|
|
|
--- |
|
|
|
|
|
## Beispiel: Laden des Modells mit Transformers |
|
|
|
|
|
> Hinweis: Die nachfolgenden Code-Beispiele setzen voraus, |
|
|
> dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist. |
|
|
> Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich. |
|
|
|
|
|
```python |
|
|
from transformers import AutoTokenizer, AutoModelForCausalLM |
|
|
|
|
|
model_id = "MTSmash/EvaGPT-German-0.7B" |
|
|
|
|
|
tokenizer = AutoTokenizer.from_pretrained(model_id) |
|
|
model = AutoModelForCausalLM.from_pretrained(model_id) |
|
|
|
|
|
# Achtung: Das Modell ist NICHT vortrainiert! |
|
|
# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten. |
|
|
inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt") |
|
|
outputs = model(**inputs) |
|
|
``` |
|
|
|
|
|
Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden. |
|
|
|
|
|
--- |
|
|
|
|
|
## Lizenz & Haftungsausschluss |
|
|
|
|
|
- **Lizenz:** `apache-2.0` |
|
|
- Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**. |
|
|
- Es werden **keine Garantien** hinsichtlich: |
|
|
- Qualität der Antworten |
|
|
- Korrektheit der Ausgaben |
|
|
- Eignung für einen bestimmten Zweck |
|
|
gegeben. |
|
|
- Für jede **produktive** oder **externe** Nutzung ist: |
|
|
- ein umfassendes **Pretraining**, |
|
|
- ggf. anschließendes **Finetuning**, |
|
|
- sowie eine sorgfältige **Evaluation und Sicherheitsprüfung** |
|
|
zwingend erforderlich. |
|
|
|
|
|
Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen. |
|
|
|
|
|
--- |
|
|
|
|
|
## Kontakt |
|
|
|
|
|
Für Fragen zu: |
|
|
|
|
|
- Nutzung im MaTeLiX Dashboard |
|
|
- Pretraining-Setups und -Pipelines |
|
|
- Integration von `EvaGptForCausalLM` in eigene Projekte |
|
|
|
|
|
wende dich bitte an das **MaTeLiX Support-Team**. |