Spaces:

CrazyQuantz
/

MiniCPM5-1B-API

Sleeping

App Files Files Community

CrazyQuantz commited on May 30

Commit

ba10c2b

verified ·

1 Parent(s): 1fbf0b4

Upload 5 files

Browse files

Files changed (5) hide show

Dockerfile +30 -0
README.md +11 -11
app.py +79 -0
gitattributes +35 -0
requirements.txt +4 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,30 @@

+FROM python:3.10-slim
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    python3-dev \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+# Set up the Hugging Face standard user
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+# CRITICAL FIX: Tell pip NOT to use a cached build, and enforce a clean wheel
+ENV PIP_PREFER_BINARY=1
+# Install llama-cpp-python using pre-compiled wheels for CPU
+RUN pip install --no-cache-dir llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
+# Copy requirements and install the remaining packages (FastAPI, etc.)
+COPY --chown=user requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY --chown=user app.py .
+EXPOSE 7860
+CMD ["python", "app.py"]

README.md CHANGED Viewed

@@ -1,11 +1,11 @@
----
-title: MiniCPM5 1B API
-emoji: 🌍
-colorFrom: blue
-colorTo: green
-sdk: docker
-pinned: false
-license: apache-2.0
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: MiniCPM5-1B API Server
+emoji: 🚀
+colorFrom: blue
+colorTo: green
+sdk: docker
+app_port: 7860
+pinned: false
+---
+An OpenAI-compatible API server running MiniCPM5-1B (Q8_0 GGUF) on Basic CPU.

app.py ADDED Viewed

	@@ -0,0 +1,79 @@

+import os
+import logging
+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel, Field
+from typing import List, Optional, Union, Dict, Any
+from huggingface_hub import hf_hub_download
+from llama_cpp import Llama
+# Set up logging to console for Hugging Face Container Logs
+logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
+logger = logging.getLogger("MiniCPM-API")
+app = FastAPI(title="MiniCPM5-1B GGUF API")
+# --- Model Configuration & Download ---
+# Using an available GGUF repository for MiniCPM5-1B
+REPO_ID = "openbmb/MiniCPM5-1B-GGUF"
+FILENAME = "MiniCPM5-1B-Q8_0.gguf"  # Note the capital M, C, P, M, B, and Q
+logger.info(f"Downloading model {FILENAME} from {REPO_ID}...")
+model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
+logger.info("Model downloaded successfully!")
+# Initialize Llama.cpp with a reasonable context window for CPU (e.g., 2048 or 4096)
+# Note: MiniCPM5 natively supports up to 131k, but on a Basic CPU, keep it modest to avoid OOM crashes.
+llm = Llama(model_path=model_path, n_ctx=2048, embedding=False)
+# --- OpenAI Structure Pydantic Models ---
+class ChatMessage(BaseModel):
+    role: str
+    content: str
+class ChatCompletionRequest(BaseModel):
+    messages: List[ChatMessage]
+    temperature: Optional[float] = 0.7
+    top_p: Optional[float] = 0.9
+    max_tokens: Optional[int] = 512
+    stream: Optional[bool] = False
+@app.get("/")
+def home():
+    return {"status": "healthy", "model": "MiniCPM5-1B-Q8_0"}
+@app.post("/v1/chat/completions")
+def chat_completions(request: ChatCompletionRequest):
+    # 1. Format the Prompt Logging
+    logger.info("====== NEW REQUEST RECEIVED ======")
+    for msg in request.messages:
+        logger.info(f"[{msg.role.upper()}]: {msg.content}")
+    logger.info(f"Parameters -> Temp: {request.temperature}, Top_P: {request.top_p}, Max Tokens: {request.max_tokens}")
+    # 2. Build template manually or map roles
+    # MiniCPM5-1B uses standard Llama-style formatting or built-in chat syntax.
+    # llama-cpp-python can parse standard chat dictionaries directly.
+    formatted_messages = [{"role": m.role, "content": m.content} for m in request.messages]
+    try:
+        # 3. Invoke inference via llama-cpp
+        response = llm.create_chat_completion(
+            messages=formatted_messages,
+            temperature=request.temperature,
+            top_p=request.top_p,
+            max_tokens=request.max_tokens,
+            stream=False # Keep false for basic JSON response handling
+        )
+        assistant_response = response["choices"][0]["message"]["content"]
+        logger.info(f"[ASSISTANT]: {assistant_response}")
+        logger.info("==================================")
+        return response
+    except Exception as e:
+        logger.error(f"Inference failed: {str(e)}")
+        raise HTTPException(status_code=500, detail=str(e))
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi
+uvicorn
+pydantic
+huggingface_hub