Spaces:

rohitkshirsagar19
/

TokenZip-api

Sleeping

App Files Files Community

rohitkshirsagar19 commited on Feb 22

Commit

301dd5b

verified ·

1 Parent(s): ec760d2

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +35 -0
main.py +167 -0
requirements.txt +5 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,35 @@

+# ── PromptZip FastAPI — Hugging Face Docker Space ────────────────────────────
+# HF Spaces requires the container to listen on port 7860.
+# The Space runs as a non-root user (UID 1000), so we create one here.
+FROM python:3.11-slim
+# ---------- System deps ----------
+RUN apt-get update && apt-get install -y --no-install-recommends \
+        build-essential \
+        curl \
+    && rm -rf /var/lib/apt/lists/*
+# ---------- Non-root user (matches HF Spaces UID) ----------
+RUN useradd -m -u 1000 appuser
+WORKDIR /app
+# ---------- Python deps ----------
+COPY requirements.txt .
+RUN pip install --no-cache-dir --upgrade pip \
+ && pip install --no-cache-dir -r requirements.txt
+# ---------- Application ----------
+COPY main.py .
+# Pre-download tiktoken encoding data so first request is instant
+RUN python -c "import tiktoken; tiktoken.get_encoding('cl100k_base')"
+# Switch to non-root
+USER appuser
+# ---------- Runtime ----------
+# HF Spaces exposes exactly port 7860
+EXPOSE 7860
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

main.py ADDED Viewed

	@@ -0,0 +1,167 @@

+from __future__ import annotations
+import logging
+from typing import Optional
+from fastapi import FastAPI, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel, Field
+logger = logging.getLogger("promptzip")
+# ── App ───────────────────────────────────────────────────────────────────────
+app = FastAPI(
+    title="PromptZip API",
+    description="Semantic text compression via LLMlingua. Code and log compression run client-side.",
+    version="0.2.0",
+)
+# Permissive CORS — required for browser clients calling the HF Space
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=False,   # must be False when allow_origins=["*"]
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# ── Tokenizer (loaded once at startup) ───────────────────────────────────────
+import tiktoken
+_encoder = tiktoken.get_encoding("cl100k_base")
+_COST_PER_MILLION: float = 5.00  # USD — GPT-4o standard input rate
+def count_tokens(text: str) -> int:
+    """Exact token count via cl100k_base (GPT-4 / GPT-4o)."""
+    return len(_encoder.encode(text))
+def estimate_cost(token_count: int) -> float:
+    """USD cost at $5.00 / 1 M tokens."""
+    return round((token_count / 1_000_000) * _COST_PER_MILLION, 6)
+# ── LLMlingua (lazy-loaded so startup is never blocked) ──────────────────────
+_llmlingua_compressor = None
+_llmlingua_error: Optional[str] = None
+# Aggression → target retention ratio
+_TEXT_RATIOS = {1: 0.8, 2: 0.6, 3: 0.4}
+def _get_llmlingua():
+    """Return a cached PromptCompressor, or raise HTTP 503 if unavailable."""
+    global _llmlingua_compressor, _llmlingua_error
+    if _llmlingua_compressor is not None:
+        return _llmlingua_compressor
+    if _llmlingua_error is not None:
+        raise HTTPException(
+            status_code=503,
+            detail=f"LLMlingua unavailable: {_llmlingua_error}",
+        )
+    try:
+        from llmlingua import PromptCompressor
+        _llmlingua_compressor = PromptCompressor(
+            model_name="microsoft/llmlingua-2-bert-base-multilingual-cased-meetingbank",
+            use_llmlingua2=True,
+            device_map="cpu",
+        )
+        logger.info("LLMlingua initialised successfully.")
+        return _llmlingua_compressor
+    except Exception as exc:
+        _llmlingua_error = str(exc)
+        logger.error("LLMlingua init failed: %s", exc)
+        raise HTTPException(
+            status_code=503,
+            detail=f"LLMlingua unavailable: {exc}",
+        )
+# ── Compression ───────────────────────────────────────────────────────────────
+def compress_text(text: str, aggression: int) -> str:
+    """Semantic compression via LLMlingua PromptCompressor."""
+    compressor = _get_llmlingua()
+    ratio = _TEXT_RATIOS[aggression]
+    result = compressor.compress_prompt(
+        text,
+        rate=ratio,
+        force_tokens=["\n"],
+        drop_consecutive_whitespace=True,
+    )
+    return result.get("compressed_prompt", text)
+# ── Schemas ───────────────────────────────────────────────────────────────────
+class CompressRequest(BaseModel):
+    text: str = Field(..., description="The raw text to compress semantically.")
+    aggression_level: int = Field(
+        2,
+        ge=1,
+        le=3,
+        description="1 = gentle (80% retained), 2 = balanced (60%), 3 = aggressive (40%).",
+    )
+class CompressResponse(BaseModel):
+    compressed_text: str
+    original_tokens: int
+    new_tokens: int
+    tokens_saved: int
+    percent_saved: float
+    dollars_saved: float
+    aggression_level: int
+# ── Endpoints ─────────────────────────────────────────────────────────────────
+@app.get("/health", tags=["Health"])
+async def health_check():
+    """Liveness probe — confirms the API is running."""
+    return {"status": "ok", "service": "promptzip-api", "version": "0.2.0"}
+@app.post("/api/tokenize", tags=["Tokenizer"])
+async def tokenize(body: dict):
+    """Count exact tokens for a text payload and return estimated cost."""
+    text = body.get("text", "")
+    tokens = count_tokens(text)
+    return {
+        "token_count": tokens,
+        "estimated_cost_usd": estimate_cost(tokens),
+        "encoding": "cl100k_base",
+        "rate_per_million_usd": _COST_PER_MILLION,
+    }
+@app.post("/api/compress", response_model=CompressResponse, tags=["Compress"])
+async def compress(body: CompressRequest):
+    """
+    Semantically compress **text** using LLMlingua.
+    - Code and log compression are handled client-side (regex) in the frontend.
+    - Only `mode=text` is served here.
+    """
+    if not body.text.strip():
+        raise HTTPException(status_code=400, detail="text must not be empty.")
+    compressed = compress_text(body.text, body.aggression_level)
+    original_tokens = count_tokens(body.text)
+    new_tokens = count_tokens(compressed)
+    saved = original_tokens - new_tokens
+    pct = round((saved / original_tokens) * 100, 2) if original_tokens else 0.0
+    return CompressResponse(
+        compressed_text=compressed,
+        original_tokens=original_tokens,
+        new_tokens=new_tokens,
+        tokens_saved=saved,
+        percent_saved=pct,
+        dollars_saved=round(
+            estimate_cost(original_tokens) - estimate_cost(new_tokens), 6
+        ),
+        aggression_level=body.aggression_level,
+    )

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+fastapi>=0.110.0
+uvicorn[standard]>=0.29.0
+pydantic>=2.6.0
+tiktoken>=0.6.0
+llmlingua>=0.2.2