Model Card: Transition Reference LoRA (Mistral-7B)

Model Summary

Dieser LoRA-Adapter dient als Referenz eines beobachteten Übergangszustands im Antwortverhalten eines Sprachmodells. Er wurde nicht mit dem Ziel trainiert, Wissen zu erweitern oder Aufgaben zu optimieren, sondern um zu untersuchen, wie sich Antworten verändern, wenn Abschlüsse vermieden und stattdessen Voraussetzungen, Maßstäbe und Verantwortung betont werden.

Der Adapter ist explizit kein finales Modell, sondern ein eingefrorener Vergleichspunkt für weitere Experimente.


Model Details

Model Description

Dieser LoRA-Adapter wurde auf Basis von Mistral-7B-Instruct-v0.3 trainiert. Das Training basiert auf einem kleinen, kuratierten Datensatz offener Frage–Antwort-Paare, deren Antworten keine Lösungen liefern, sondern zur Reflexion, Einordnung und Klärung von Annahmen anregen.

Der Adapter repräsentiert einen qualitativ beobachteten Übergang im Antwortverhalten zwischen:

  • abschließenden, erklärenden Antworten

  • und offenen, voraussetzungsbewussten Antwortformen

  • Developed by: Sebastian Elsner

  • Model type: LoRA Adapter (PEFT)

  • Language(s): German

  • License: MIT

  • Finetuned from: mistralai/Mistral-7B-Instruct-v0.3


Uses

Direct Use

  • Qualitativer Vergleich von Antwortverhalten vor und nach stilistischem Fine-Tuning
  • Analyse von Übergangszuständen bei LoRA-Training
  • Referenzmodell für weitere Trainingsiterationen

Out-of-Scope Use

Dieses Modell ist nicht geeignet für:

  • Wissensabfragen oder Faktenlernen
  • Benchmarking oder Leistungsmetriken
  • sicherheitskritische, rechtliche oder medizinische Anwendungen
  • Rollenspiele, Chatbots mit festen Rollen oder Instruktionsdurchsetzung

Bias, Risks, and Limitations

Der Adapter verstärkt keine Fakten, sondern verschiebt den Antwortstil. Je nach Einsatz kann dies als hilfreich oder als ausweichend wahrgenommen werden.

Es besteht die Gefahr, dass Nutzer offene Antworten als fehlende Kompetenz interpretieren oder umgekehrt als normative Empfehlung missverstehen.


Quantization Notes

Dieses LoRA wurde primär in bfloat16 trainiert. Während Tests zeigte sich, dass das Antwortverhalten unter FP8-Quantisierung zu stärkeren Verdichtungen oder Wiederholungen neigen kann.

Die aktuelle Referenzversion enthält geringfügige Anpassungen, die das Verhalten unter FP8 stabilisieren, ohne neue Inhalte einzuführen.

Unterschiede zwischen bf16 und FP8 sind weiterhin zu erwarten und gelten als Teil der Untersuchung, nicht als Fehler.

How to Get Started

Dieser Adapter ist zur Verwendung mit peft gedacht:

from peft import PeftModel
from transformers import AutoModelForCausalLM

base = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-Instruct-v0.3"
)

model = PeftModel.from_pretrained(
    base,
    "USERNAME/lora-mistral-7b-transition-reference-qaware"
)
Downloads last month
7
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sebelsn/lora-mistral-7b-transition-reference-qaware

Adapter
(598)
this model