File size: 4,988 Bytes
59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 59ecc24 49aee15 1d0cd28 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 |
---
language:
- en
- de
library_name: transformers
tags:
- gpt
- llm
- large language model
- mateilx
inference: false
license: apache-2.0
---
# EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining
## Überblick
**EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird.
Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**.
> ⚠️ **WICHTIG**
> - Dieses Modell ist **nicht vortrainiert**.
> - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert.
> - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**.
**Kurzfassung:**
- **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
- **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library
- **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem
---
## Architektur
- **Interner Modellname:** `EvaGptForCausalLM`
- **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model)
- **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM`
- **Referenz-Repository (Code & Integration):**
https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt
Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt.
Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.
---
## Nutzung im MaTeLiX Trainings-Dashboard
Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen.
**Vorgesehene Nutzung:**
- Startpunkt für **Pretraining-Experimente**
- Entwicklung und Evaluation eigener Trainingspipelines
- Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem
**Nicht vorgesehen / nicht unterstützt:**
- Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme)
- Einsatz ohne vorheriges, umfangreiches Pretraining
- Off-Platform-Nutzung ohne Anpassung und eigenes Training
Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert.
---
## Technische Details
- **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM`
- **Modellgröße:** ca. **0,7B Parameter**
- **Unterstützte Sprachen (Ziel):**
- Deutsch
- Englisch
- **Status:**
- **Untrainiert / nur leicht initialisiert**
- **Tokenizer:** initialisiert
- **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung
- **Trainingsdaten:**
- Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
- **Einsatzempfehlung:**
- **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet
- Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining
---
## Beispiel: Laden des Modells mit Transformers
> Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
> dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist.
> Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "MTSmash/EvaGPT-German-0.7B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Achtung: Das Modell ist NICHT vortrainiert!
# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
outputs = model(**inputs)
```
Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.
---
## Lizenz & Haftungsausschluss
- **Lizenz:** `apache-2.0`
- Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**.
- Es werden **keine Garantien** hinsichtlich:
- Qualität der Antworten
- Korrektheit der Ausgaben
- Eignung für einen bestimmten Zweck
gegeben.
- Für jede **produktive** oder **externe** Nutzung ist:
- ein umfassendes **Pretraining**,
- ggf. anschließendes **Finetuning**,
- sowie eine sorgfältige **Evaluation und Sicherheitsprüfung**
zwingend erforderlich.
Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen.
---
## Kontakt
Für Fragen zu:
- Nutzung im MaTeLiX Dashboard
- Pretraining-Setups und -Pipelines
- Integration von `EvaGptForCausalLM` in eigene Projekte
wende dich bitte an das **MaTeLiX Support-Team**. |