Spaces:

hugh007
/

openwolf-text

Sleeping

App Files Files Community

Hugh commited on 21 days ago

Commit

37de7ca

0 Parent(s):

init: MiniCPM-2B GGUF text Space

Browse files

Files changed (3) hide show

Dockerfile +19 -0
app.py +106 -0
requirements.txt +4 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,19 @@

+FROM python:3.11-slim
+WORKDIR /app
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    build-essential curl cmake \
+    && rm -rf /var/lib/apt/lists/*
+RUN CMAKE_ARGS="-DGGML_BLAS=OFF -DGGML_CUDA=OFF" pip install llama-cpp-python==0.3.8 --no-cache-dir
+COPY requirements.txt .
+RUN pip install -r requirements.txt --no-cache-dir
+COPY app.py .
+HEALTHCHECK --interval=30s --timeout=10s --retries=3 \
+    CMD curl -f http://localhost:7860/health || exit 1
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,106 @@

+"""
+OpenWolf 文本 Space — MiniCPM-2B GGUF（在线 API 兜底）
+启动时自动下载模型，提供 OpenAI 兼容的 /v1/chat/completions 接口
+"""
+import os
+import time
+import threading
+from pathlib import Path
+from fastapi import FastAPI, Request, HTTPException
+from fastapi.responses import JSONResponse
+app = FastAPI(title="OpenWolf Text")
+_ready = False
+_llm = None
+_llm_lock = threading.Lock()
+MODEL_REPO = "runfuture/MiniCPM-2B-dpo-q4km-gguf"
+MODEL_FILE = "MiniCPM-2B-dpo-q4km-gguf.gguf"
+MODEL_DIR = Path("/app/models")
+@app.on_event("startup")
+async def startup():
+    threading.Thread(target=_load_model, daemon=True).start()
+def _load_model():
+    global _llm, _ready
+    try:
+        MODEL_DIR.mkdir(parents=True, exist_ok=True)
+        model_path = MODEL_DIR / MODEL_FILE
+        if not model_path.exists():
+            print(f"[models] 下载 {MODEL_REPO}/{MODEL_FILE} (~1.7GB)...")
+            from huggingface_hub import hf_hub_download
+            t0 = time.time()
+            hf_hub_download(
+                repo_id=MODEL_REPO,
+                filename=MODEL_FILE,
+                local_dir=str(MODEL_DIR),
+            )
+            print(f"[models] 下载完成 ({time.time()-t0:.1f}s)")
+        print("[models] 加载 GGUF 模型...")
+        t0 = time.time()
+        from llama_cpp import Llama
+        _llm = Llama(
+            model_path=str(model_path),
+            n_ctx=2048,
+            n_threads=2,
+            n_gpu_layers=0,
+            verbose=False,
+            use_mmap=True,
+        )
+        _ready = True
+        print(f"[models] 加载完成 ({time.time()-t0:.1f}s)")
+    except Exception as e:
+        print(f"[models] 加载失败: {e}")
+@app.get("/health")
+async def health():
+    return {"status": "ok", "ready": _ready}
+@app.post("/v1/chat/completions")
+async def chat_completions(request: Request):
+    if not _ready:
+        return JSONResponse({"error": "模型加载中"}, status_code=503)
+    try:
+        body = await request.json()
+    except:
+        raise HTTPException(status_code=400, detail="Invalid JSON")
+    messages = body.get("messages", [])
+    max_tokens = int(body.get("max_tokens", 512))
+    temperature = float(body.get("temperature", 0.3))
+    prompt = _format_messages(messages)
+    with _llm_lock:
+        out = _llm.create_chat_completion(
+            messages=[{"role": "user", "content": prompt}],
+            max_tokens=max_tokens,
+            temperature=temperature,
+        )
+    content = out["choices"][0]["message"]["content"].strip()
+    return {"choices": [{"message": {"content": content}}]}
+def _format_messages(messages):
+    parts = []
+    for m in messages:
+        role = m.get("role", "user")
+        content = m.get("content", "")
+        if role == "system":
+            parts.append(f"<|system|>\n{content}")
+        elif role == "user":
+            parts.append(f"<|user|>\n{content}")
+        elif role == "assistant":
+            parts.append(f"<|assistant|>\n{content}")
+    parts.append("<|assistant|>\n")
+    return "\n".join(parts)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi==0.115.6
+uvicorn[standard]==0.34.0
+pydantic==2.10.4
+huggingface-hub==0.27.1