How to use from the
Use from the
llama-cpp-python library
# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="RaSchwehr/oakai-alpha11",
	filename="oakai-alpha11-q4_K_M.gguf",
)
llm.create_chat_completion(
	messages = [
		{
			"role": "user",
			"content": "What is the capital of France?"
		}
	]
)

oakai:alpha11

Domänenspezifisches Sprachmodell für Support-Qualitätsanalyse Ein von OAKAI auf Basis von Qwen2.5-7B feinabgestimmtes, vollständig lokal lauffähiges Modell. Klarheit – statt Hype.


Überblick

oakai:alpha11 bewertet komplette Kundendienst-Chatverläufe aus Kundenperspektive auf fünf Dimensionen und liefert eine konkrete Verbesserungsempfehlung – alles als striktes, maschinenlesbares JSON. Ergänzend beherrscht es Klassifikationsaufgaben aus der Kundenanalytik (z.B. B2B/B2C-Segmentierung).

Die fünf Bewertungsdimensionen (je 1–5):

Dimension Bedeutung
understanding Hat der Bot die Kundenanfrage verstanden?
solution_qual Qualität der gebotenen Lösung
flow Konversationsfluss
tonality Tonalität / Empathie
language_qual Sprachqualität

Beispiel-Output:

{"understanding":4,"solution_qual":3,"flow":4,"tonality":4,"language_qual":5,"recommendation":"Bot sollte die Anfrage praeziser verstehen und auf den verfuegbaren Kontext anpassen."}

Benchmark

100 ungesehene Support-Chats, deterministisch (Temperatur 0), gemessen auf Mac Studio M4 Max. MAE = mittlere Abweichung der Score-Vorhersage vom Referenzwert (kleiner ist besser, über alle fünf Dimensionen gemittelt).

Modell Gesamt-MAE JSON valide Zeit/Fall
oakai:alpha11 0,52 100 % 1,47 s
qwen2.5:7b (Basis) 0,60 99 % 2,27 s
gemma4:latest (12B) 0,83 100 % 15,72 s

Kernergebnis: oakai:alpha11 bewertet Support-Chats genauer als das Basismodell qwen2.5:7b und dabei 1,5× schneller, bei perfekter Format-Treue. Gegenüber dem rund 3× größeren gemma4 ist es zugleich deutlich präziser und über 10× schneller.

Bemerkenswert: Das spezialisierte Modell übertrifft die Genauigkeit des Basismodells, aus dem die Referenzbewertungen ursprünglich stammen – das Fine-Tuning hat die Bewertungslogik nicht nur reproduziert, sondern stabilisiert.

Hinweis zur Metrik: Einzelne Dimensionen (z.B. Tonalität) sind in den Daten stark zu hohen Werten verschoben; dort ist die absolute Trefferquote naturgemäß hoch. Aussagekräftig ist vor allem der Vorsprung bei Verständnis, Lösungsqualität und Gesprächsfluss.


Verwendung

Mit Ollama (empfohlen)

ollama run hf.co/RaSchwehr/oakai-alpha11:Q4_K_M

Für die Chat-Bewertung wird der Verlauf im Format **Bot:** … **User:** … übergeben, gefolgt von der Aufforderung, als JSON zu bewerten. Das Modell antwortet mit den fünf Scores plus Empfehlung.

Mit llama.cpp

llama-cli -hf RaSchwehr/oakai-alpha11:Q4_K_M

Modelldetails

  • Basismodell: Qwen2.5-7B-Instruct (Apache 2.0)
  • Trainingsmethode: QLoRA (4-bit), 1500 Iterationen, MLX auf Apple Silicon
  • Validierungs-Loss: 2,26 → 0,43
  • Quantisierung: Q4_K_M (~4,7 GB)
  • Sprache: Deutsch
  • Kontextlänge: bis 32.768 Token

Trainingsdaten & Datenschutz

Trainiert auf realen, anonymisierten Support-Konversationen aus dem technischen Kundendienst, gemischt mit synthetischen Klassifikations-Beispielen für breitere Kundenanalytik. Die Datennutzung ist vertraglich abgesichert.

Vor dem Training wurden personenbezogene Daten (Namen, Kontaktdaten, Kennungen, Dateipfade) aggressiv entfernt und Markennamen durch generische Bezeichnungen ersetzt. Ein systematischer Test über alle Auswertungsfälle sowie gezielte Provokations-Prompts ergaben keine Rückführbarkeit auf die ursprüngliche Datenquelle.


Stärken und Grenzen

Stärken: genauer als das Basismodell bei der Chat-Bewertung; schnell; 100 % valides JSON; läuft vollständig lokal (Datenschutz); kompakt; markenfrei.

Grenzen: auf die Bewertung technischer Support-Chats spezialisiert; einzelne Dimensionen (Tonalität, Sprachqualität) sind in den Daten stark zu hohen Werten verschoben; liefert Scores und kurze Empfehlung statt Langanalyse; die Bewertungslogik entspricht der des Basismodells (stabilisiert).


Lizenz

Apache License 2.0. Abgeleitet von Qwen2.5-7B-Instruct (© Alibaba Cloud). Fine-Tuning und Distribution: OAKAI / Ralph Ray Schwehr, 2026.

Downloads last month
-
GGUF
Model size
8B params
Architecture
qwen2
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for RaSchwehr/oakai-alpha11

Base model

Qwen/Qwen2.5-7B
Adapter
(2256)
this model