--- language: - en - de library_name: transformers tags: - gpt - llm - large language model - mateilx inference: false license: apache-2.0 --- # EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining ## Überblick **EvaGPT-German-0.7B – MaTeLiX-AI-for-Pretraining** ist ein **leicht initialisiertes Large Language Model (LLM)**, das exklusiv für das **MaTeLiX Trainings-Dashboard** bereitgestellt wird. Es unterstützt **Deutsch** und **Englisch** und dient als **reine Ausgangsbasis für Pretraining-Experimente**. > ⚠️ **WICHTIG** > - Dieses Modell ist **nicht vortrainiert**. > - Es wurde lediglich der **Tokenizer initialisiert**, die Modellgewichte sind nur leicht initialisiert. > - Für jede sinnvolle Nutzung – selbst für einfache Tests – ist ein **vollständiges Pretraining zwingend erforderlich**. **Kurzfassung:** - **Typ:** Rolling LLM (untrainiert, nur Tokenizer und Grundinitialisierung) - **Bibliothek:** kompatibel mit der 🤗 **Transformers**-Library - **Zweck:** Basis für Pretraining und experimentelle Modell-Entwicklung im MaTeLiX-Ökosystem --- ## Architektur - **Interner Modellname:** `EvaGptForCausalLM` - **Modelltyp:** Autoregressives Sprachmodell (Causal Language Model) - **Implementierung:** Eigene Architektur, in `transformers` integriert über die Klasse `EvaGptForCausalLM` - **Referenz-Repository (Code & Integration):** https://github.com/MTSmash-TMP-Networks/transformers-eva-gpt Die Architektur ist so gestaltet, dass sie sich nahtlos in das **Transformers-Ökosystem** einfügt. Wenn `EvaGptForCausalLM` in deiner `transformers`-Installation verfügbar ist, kannst du das Modell wie andere Causal-LM-Modelle laden und trainieren. --- ## Nutzung im MaTeLiX Trainings-Dashboard Dieses Modell ist primär für den Einsatz im **MaTeLiX Trainings-Dashboard** vorgesehen. **Vorgesehene Nutzung:** - Startpunkt für **Pretraining-Experimente** - Entwicklung und Evaluation eigener Trainingspipelines - Demonstrations- und Lehrzwecke im MaTeLiX-Ökosystem **Nicht vorgesehen / nicht unterstützt:** - Direkte **produktive Nutzung** (z.B. Chatbots, Assistenzsysteme) - Einsatz ohne vorheriges, umfangreiches Pretraining - Off-Platform-Nutzung ohne Anpassung und eigenes Training Alle Trainings-, Evaluations- und Feineinstellungsprozesse werden im Regelfall über das **MaTeLiX Dashboard** gesteuert. --- ## Technische Details - **Modellarchitektur:** Eigene Entwicklung, kompatibel mit `transformers` über `EvaGptForCausalLM` - **Modellgröße:** ca. **0,7B Parameter** - **Unterstützte Sprachen (Ziel):** - Deutsch - Englisch - **Status:** - **Untrainiert / nur leicht initialisiert** - **Tokenizer:** initialisiert - **Gewichte:** nicht sinnvoll vortrainiert, nur Grundinitialisierung - **Trainingsdaten:** - Derzeit **keine** (Pretraining muss durch Nutzer:innen selbst durchgeführt werden) - **Einsatzempfehlung:** - **Nicht** für produktive oder sicherheitskritische Anwendungen geeignet - Nur für **Forschung, Entwicklung und interne Experimente** nach eigenem Pretraining --- ## Beispiel: Laden des Modells mit Transformers > Hinweis: Die nachfolgenden Code-Beispiele setzen voraus, > dass `EvaGptForCausalLM` in deiner lokalen `transformers`-Installation verfügbar ist. > Die offizielle Transformers-Dokumentation selbst konnte ich nicht abrufen, aber die Standard-API ist wie üblich. ```python from transformers import AutoTokenizer, AutoModelForCausalLM model_id = "MTSmash/EvaGPT-German-0.7B" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id) # Achtung: Das Modell ist NICHT vortrainiert! # Sinnvolle Outputs sind erst nach eigenem Pretraining zu erwarten. inputs = tokenizer("Dies ist ein Testeingabe-Text.", return_tensors="pt") outputs = model(**inputs) ``` Für Pretraining solltest du einen eigenen Trainings-Loop (z.B. mit `Trainer`, `Accelerate`, `DeepSpeed`, FSDP etc.) aufsetzen und geeignete deutsch-/englischsprachige Korpora verwenden. --- ## Lizenz & Haftungsausschluss - **Lizenz:** `apache-2.0` - Das Modell ist ausschließlich für **Demonstrations-, Entwicklungs- und Trainingszwecke** vorgesehen, insbesondere im Rahmen des **MaTeLiX Trainings-Dashboards**. - Es werden **keine Garantien** hinsichtlich: - Qualität der Antworten - Korrektheit der Ausgaben - Eignung für einen bestimmten Zweck gegeben. - Für jede **produktive** oder **externe** Nutzung ist: - ein umfassendes **Pretraining**, - ggf. anschließendes **Finetuning**, - sowie eine sorgfältige **Evaluation und Sicherheitsprüfung** zwingend erforderlich. Die Entwickler:innen von MaTeLiX übernehmen **keinerlei Haftung** für Schäden, die durch die Nutzung des Modells entstehen. --- ## Kontakt Für Fragen zu: - Nutzung im MaTeLiX Dashboard - Pretraining-Setups und -Pipelines - Integration von `EvaGptForCausalLM` in eigene Projekte wende dich bitte an das **MaTeLiX Support-Team**.