🚀 Neue Release-Info aus dem TMP-Networks-Lab:
#7
by
MTSmash
- opened
Wir haben eine lokale, OpenAI-kompatible Chat-API gebaut – mit GGUF (llama.cpp) und Hugging Face Transformers als Backends. Läuft offline, unterstützt GPU, Multi-Model Auto-Discovery und Streaming (SSE). (GitHub)
✅ Was drin ist (Highlights): (GitHub)
OpenAI-like Endpoints: /v1/chat/completions, /v1/models
GGUF + HF Modelle parallel (Ordner-Scan, Auswahl per model)
Streaming wie beim OpenAI-API-Feeling (SSE)
Feine Kontrolle: temperature, top_p, top_k, min_p, typical_p, repeat_penalty, seed
presence_penalty / frequency_penalty (GGUF nativ, HF emuliert)
ctx/context_window Budget pro Request (History wird automatisch passend gekürzt)
Wenn du lokale Modelle sauber in Tools, Apps oder einen eigenen Chat-Client integrieren willst: das ist genau dafür gedacht. 🙂
Repo (GitHub):
https://github.com/MTSmash-TMP-Networks/gguf-openai-api/tree/main
#LLM #GGUF #llamacpp #Transformers #FastAPI #SelfHostedAI #OfflineAI #tmpnetworks