EvaGPT-German-0.7B / README.md

Update README.md

1d0cd28 verified 12 days ago

4.99 kB

	---
	language:
	- en
	- de
	library_name: transformers
	tags:
	- gpt
	- llm
	- large language model
	- mateilx
	inference: false
	license: apache-2.0
	---

	# EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining

	## Überblick

	EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining ist ein leicht initialisiertes Large Language Model (LLM), das exklusiv für das MaTeLiX Trainings-Dashboard bereitgestellt wird.
	Es unterstützt Deutsch und Englisch und dient als reine Ausgangsbasis für Pretraining-Experimente.

	> ⚠️ WICHTIG
	> - Dieses Modell ist nicht vortrainiert.
	> - Es wurde lediglich der Tokenizer initialisiert, die Modellgewichte sind nur leicht initialisiert.
	> - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein vollständiges Pretraining zwingend erforderlich.

	Kurzfassung:

	- Typ: Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung)
	- Bibliothek: kompatibel mit der 🤗 Transformers-Library
	- Zweck: Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem

	---

	## Architektur

	- Interner Modellname: `EvaGptForCausalLM`
	- Modelltyp: Autoregressives Sprachmodell (Causal Language Model)
	- Implementierung: Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM`
	- Referenz-Repository (Code & Integration):
	https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt

	Die Architektur ist so gestaltet, dass sie sich nahtlos in das Transformers-Ökosystem einfügt.
	Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren.

	---

	## Nutzung im MaTeLiX Trainings-Dashboard

	Dieses Modell ist primär für den Einsatz im MaTeLiX Trainings-Dashboard vorgesehen.

	Vorgesehene Nutzung:

	- Startpunkt für Pretraining-Experimente
	- Entwicklung und Evaluation eigener Trainingspipelines
	- Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem

	Nicht vorgesehen / nicht unterstützt:

	- Direkte produktive Nutzung (z.B. Chatbots, Assistenzsysteme)
	- Einsatz ohne vorheriges, umfangreiches Pretraining
	- Off-Platform-Nutzung ohne Anpassung und eigenes Training

	Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das MaTeLiX Dashboard gesteuert.

	---

	## Technische Details

	- Modellarchitektur: Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM`
	- Modellgröße: ca. 0,7B Parameter
	- Unterstützte Sprachen (Ziel):
	- Deutsch
	- Englisch
	- Status:
	- Untrainiert / nur leicht initialisiert
	- Tokenizer: initialisiert
	- Gewichte: nicht sinnvoll vortrainiert, nur Grundinitialisierung
	- Trainingsdaten:
	- Derzeit keine (Pretraining muss durch Nutzer:innen selbst durchgeführt werden)
	- Einsatzempfehlung:
	- Nicht für produktive oder sicherheitskritische Anwendungen geeignet
	- Nur für Forschung, Entwicklung und interne Experimente nach eigenem Pretraining

	---

	## Beispiel: Laden des Modells mit Transformers

	> Hinweis: Die nachfolgenden Code-Beispiele setzen voraus,
	> dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist.
	> Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich.

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM

	model_id = "MTSmash/EvaGPT-German-0.7B"

	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(model_id)

	# Achtung: Das Modell ist NICHT vortrainiert!
	# Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten.
	inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt")
	outputs = model(**inputs)
	```

	Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden.

	---

	## Lizenz & Haftungsausschluss

	- Lizenz: `apache-2.0`
	- Das Modell ist ausschließlich für Demonstrations-, Entwicklungs- und Trainingszwecke vorgesehen, insbesondere im Rahmen des MaTeLiX Trainings-Dashboards.
	- Es werden keine Garantien hinsichtlich:
	- Qualität der Antworten
	- Korrektheit der Ausgaben
	- Eignung für einen bestimmten Zweck
	gegeben.
	- Für jede produktive oder externe Nutzung ist:
	- ein umfassendes Pretraining,
	- ggf. anschließendes Finetuning,
	- sowie eine sorgfältige Evaluation und Sicherheitsprüfung
	zwingend erforderlich.

	Die Entwickler:innen von MaTeLiX übernehmen keinerlei Haftung für Schäden, die durch die Nutzung des Modells entstehen.

	---

	## Kontakt

	Für Fragen zu:

	- Nutzung im MaTeLiX Dashboard
	- Pretraining-Setups und -Pipelines
	- Integration von `EvaGptForCausalLM` in eigene Projekte

	wende dich bitte an das MaTeLiX Support-Team.