MTSmash commited on
Commit
49aee15
·
verified ·
1 Parent(s): 51befc2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +107 -31
README.md CHANGED
@@ -9,57 +9,133 @@ tags:
9
  - large language model
10
  - mateilx
11
  inference: false
12
- thumbnail: >-
13
- https://h2o.ai/etc.clientlibs/h2o/clientlibs/clientlib-site/resources/images/favicon.ico
14
  license: apache-2.0
15
  ---
16
 
17
- # Model Card
18
 
19
- ## Overview
20
 
21
- **EvaGPT-German-0.7B - MaTeLiX-AI-for-Pretraining** ist ein **untrainiertes Large Language Model (LLM)**, das exklusiv für das MaTeLiX Trainingsdashboard bereitgestellt wird.
22
- Das Modell unterstützt **Deutsch** und **Englisch** und dient als reine Ausgangsbasis für das Pretraining.
23
 
24
- > **WICHTIG:**
25
- > **Dieses Modell ist untrainiert!**
26
- > Es wurde lediglich der Tokenizer initialisiert, das Modell selbst ist komplett untrainiert (“random init”).
27
- > Für jegliche sinnvolle Nutzung – auch Tests oder Experimente – ist ein vollständiges Pretraining **zwingend erforderlich**.
28
 
29
- * **Typ:** Rolling LLM (untrainiert, nur Tokenizer)
30
- * **Kompatibilität:** [Transformers](https://huggingface.co/docs/transformers) Library
31
- * **Zweck:** Basis für Pretraining und experimentelle Zwecke im MaTeLiX-Ökosystem
32
 
33
- ## Hinweis zur Architektur
 
 
34
 
35
- **Der Code Name des Model ist `EvaGptForCausalLM`.**
36
- Die Architektur wurde selbst entwickelt. Die Architecktur kann über Github bezogen werden: https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt
 
 
 
 
 
 
 
 
 
 
 
 
 
 
37
 
38
- ## Nutzung im MaTeLiX Dashboard
39
 
40
- Dieses Modell ist ausschließlich für die Nutzung innerhalb des MaTeLiX Trainingsdashboards bestimmt.
41
- Eine Verwendung außerhalb dieser Plattform ist **nicht vorgesehen** und wird **nicht unterstützt**.
42
 
43
- **Anwendung:**
44
- Im MaTeLiX Dashboard dient dieses Modell als Ausgangspunkt für Pretraining-Experimente und Modell-Entwicklung.
45
- Alle Trainings- und Feineinstellungen werden über das Dashboard gesteuert.
 
 
 
 
 
 
 
 
 
 
46
 
47
  ## Technische Details
48
 
49
- * **Architektur:** Eigene Entwicklung, Kompatibilität über `EvaGptForCausalLM`
50
- * **Sprachen:** Deutsch, Englisch
51
- * **Status:** Untrainiert, nur Tokenizer initialisiert
52
- * **Trainingsdaten:** Noch keine (Pretraining erforderlich)
53
- * **Hinweis:** Nicht für produktive Nutzung geeignet
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
54
 
55
  ## Lizenz & Haftungsausschluss
56
 
57
- Dieses Modell ist ausschließlich für Demonstrations-, Entwicklungs- und Trainingszwecke im MaTeLiX Trainingsdashboard vorgesehen.
58
- MaTeLiX übernimmt keinerlei Haftung für Modellantworten, Fehler oder unerwünschtes Verhalten.
59
- Für jede produktive oder externe Nutzung ist ein vollständiges Pretraining und ggf. weiteres Finetuning erforderlich.
 
 
 
 
 
 
 
 
 
 
 
60
 
61
  ---
62
 
63
  ## Kontakt
64
 
65
- Fragen zur Nutzung oder zum Pretraining bitte an das MaTeLiX Support-Team.
 
 
 
 
 
 
 
 
 
 
9
  - large language model
10
  - mateilx
11
  inference: false
 
 
12
  license: apache-2.0
13
  ---
14
 
15
+ # EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining
16
 
17
+ ## Überblick
18
 
19
+ **EvaGPT-German-0.7B MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird.
20
+ Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**.
21
 
22
+ > ⚠️ **WICHTIG**
23
+ > - Dieses Modell ist **nicht vortrainiert**.
24
+ > - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert.
25
+ > - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**.
26
 
27
+ **Kurzfassung:**
 
 
28
 
29
+ - **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
30
+ - **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library
31
+ - **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem
32
 
33
+ ---
34
+
35
+ ## Architektur
36
+
37
+ - **Interner Modellname:** `EvaGptForCausalLM`
38
+ - **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model)
39
+ - **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM`
40
+ - **Referenz-Repository (Code & Integration):**
41
+ https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt
42
+
43
+ Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt.
44
+ Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.
45
+
46
+ ---
47
+
48
+ ## Nutzung im MaTeLiX Trainings-Dashboard
49
 
50
+ Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen.
51
 
52
+ **Vorgesehene Nutzung:**
 
53
 
54
+ - Startpunkt für **Pretraining-Experimente**
55
+ - Entwicklung und Evaluation eigener Trainingspipelines
56
+ - Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem
57
+
58
+ **Nicht vorgesehen / nicht unterstützt:**
59
+
60
+ - Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme)
61
+ - Einsatz ohne vorheriges, umfangreiches Pretraining
62
+ - Off-Platform-Nutzung ohne Anpassung und eigenes Training
63
+
64
+ Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert.
65
+
66
+ ---
67
 
68
  ## Technische Details
69
 
70
+ - **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM`
71
+ - **Modellgröße:** ca. **0,7B Parameter**
72
+ - **Unterstützte Sprachen (Ziel):**
73
+ - Deutsch
74
+ - Englisch
75
+ - **Status:**
76
+ - **Untrainiert / nur leicht initialisiert**
77
+ - **Tokenizer:** initialisiert
78
+ - **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung
79
+ - **Trainingsdaten:**
80
+ - Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
81
+ - **Einsatzempfehlung:**
82
+ - **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet
83
+ - Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining
84
+
85
+ ---
86
+
87
+ ## Beispiel: Laden des Modells mit Transformers
88
+
89
+ > Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
90
+ > dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist.
91
+ > Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.
92
+
93
+ ```python
94
+ from transformers import AutoTokenizer, AutoModelForCausalLM
95
+
96
+ model_id = "MTSmash/EvaGPT-German-0.7B"
97
+
98
+ tokenizer = AutoTokenizer.from_pretrained(model_id)
99
+ model = AutoModelForCausalLM.from_pretrained(model_id)
100
+
101
+ # Achtung: Das Modell ist NICHT vortrainiert!
102
+ # Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
103
+ inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
104
+ outputs = model(**inputs)
105
+ ```
106
+
107
+ Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.
108
+
109
+ ---
110
 
111
  ## Lizenz & Haftungsausschluss
112
 
113
+ - **Lizenz:** `apache-2.0`
114
+ - Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**.
115
+ - Es werden **keine Garantien** hinsichtlich:
116
+ - Qualität der Antworten
117
+ - Korrektheit der Ausgaben
118
+ - Eignung für einen bestimmten Zweck
119
+ gegeben.
120
+ - Für jede **produktive** oder **externe** Nutzung ist:
121
+ - ein umfassendes **Pretraining**,
122
+ - ggf. anschließendes **Finetuning**,
123
+ - sowie eine sorgfältige **Evaluation und Sicherheitsprüfung**
124
+ zwingend erforderlich.
125
+
126
+ Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen.
127
 
128
  ---
129
 
130
  ## Kontakt
131
 
132
+ Für Fragen zu:
133
+
134
+ - Nutzung im MaTeLiX Dashboard
135
+ - Pretraining-Setups und -Pipelines
136
+ - Integration von `EvaGptForCausalLM` in eigene Projekte
137
+
138
+ wende dich bitte an das **MaTeLiX Support-Team**.
139
+ ```
140
+
141
+ Wenn du möchtest, kann ich noch eine kurze englische Version der Model Card ergänzen oder ein Minimalbeispiel für ein Pretraining-Skript (z.B. mit `Trainer` oder `Accelerate`) skizzieren.