File size: 4,988 Bytes
59ecc24
 
 
 
 
 
 
 
 
 
 
 
 
 
49aee15
59ecc24
49aee15
59ecc24
49aee15
 
59ecc24
49aee15
 
 
 
59ecc24
49aee15
59ecc24
49aee15
 
 
59ecc24
49aee15
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59ecc24
49aee15
59ecc24
49aee15
59ecc24
49aee15
 
 
 
 
 
 
 
 
 
 
 
 
59ecc24
 
 
49aee15
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59ecc24
 
 
49aee15
 
 
 
 
 
 
 
 
 
 
 
 
 
59ecc24
 
 
 
 
49aee15
 
 
 
 
 
1d0cd28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
---
language:
- en
- de
library_name: transformers
tags:
- gpt
- llm
- large language model
- mateilx
inference: false
license: apache-2.0
---

# EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining

## Überblick

**EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird.  
Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**.

> ⚠️ **WICHTIG**
> - Dieses Modell ist **nicht vortrainiert**.
> - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert.
> - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**.

**Kurzfassung:**

- **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
- **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library  
- **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem

---

## Architektur

- **Interner Modellname:** `EvaGptForCausalLM`
- **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model)
- **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM`
- **Referenz-Repository (Code & Integration):**  
  https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt

Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt.  
Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.

---

## Nutzung im MaTeLiX Trainings-Dashboard

Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen.

**Vorgesehene Nutzung:**

- Startpunkt für **Pretraining-Experimente**
- Entwicklung und Evaluation eigener Trainingspipelines
- Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem

**Nicht vorgesehen / nicht unterstützt:**

- Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme)
- Einsatz ohne vorheriges, umfangreiches Pretraining
- Off-Platform-Nutzung ohne Anpassung und eigenes Training

Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert.

---

## Technische Details

- **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM`
- **Modellgröße:** ca. **0,7B Parameter**
- **Unterstützte Sprachen (Ziel):**
  - Deutsch
  - Englisch
- **Status:**  
  - **Untrainiert / nur leicht initialisiert**
  - **Tokenizer:** initialisiert  
  - **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung
- **Trainingsdaten:**  
  - Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
- **Einsatzempfehlung:**  
  - **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet  
  - Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining

---

## Beispiel: Laden des Modells mit Transformers

> Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,  
> dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist.  
> Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.

```python
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "MTSmash/EvaGPT-German-0.7B"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Achtung: Das Modell ist NICHT vortrainiert!
# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
outputs = model(**inputs)
```

Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.

---

## Lizenz & Haftungsausschluss

- **Lizenz:** `apache-2.0`
- Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**.
- Es werden **keine Garantien** hinsichtlich:
  - Qualität der Antworten
  - Korrektheit der Ausgaben
  - Eignung für einen bestimmten Zweck
  gegeben.
- Für jede **produktive** oder **externe** Nutzung ist:
  - ein umfassendes **Pretraining**,
  - ggf. anschließendes **Finetuning**,
  - sowie eine sorgfältige **Evaluation und Sicherheitsprüfung**
  zwingend erforderlich.

Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen.

---

## Kontakt

Für Fragen zu:

- Nutzung im MaTeLiX Dashboard  
- Pretraining-Setups und -Pipelines  
- Integration von `EvaGptForCausalLM` in eigene Projekte  

wende dich bitte an das **MaTeLiX Support-Team**.