Spaces:

Adedoyinjames
/

TestAPI

Sleeping

Adedoyinjames commited on Oct 17, 2025

Commit

5ea1723

verified ·

1 Parent(s): f5af1f2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,30 +1,37 @@
-from os import getenv
 from fastapi import FastAPI
 from pydantic import BaseModel
 from typing import Optional
-from transformers import pipeline
-MODEL_ID = getenv("MODEL_ID", "gpt2")            # set by env if you want another model
-GEN_KWARGS = {"max_length": 64, "num_return_sequences": 1}
 app = FastAPI(title="FastAPI Hugging Face Space")
-# load pipeline once on startup
-generator = pipeline("text-generation", model=MODEL_ID)
 class GenerateRequest(BaseModel):
     prompt: str
     max_length: Optional[int] = None
 @app.get("/health")
 async def health():
-    return {"status": "ok", "model": MODEL_ID}
 @app.post("/generate")
 async def generate(req: GenerateRequest):
-    kwargs = GEN_KWARGS.copy()
-    if req.max_length:
-        kwargs["max_length"] = req.max_length
-    out = generator(req.prompt, **kwargs)
-    # pipeline returns a list with dicts containing "generated_text"
     return {"generated_text": out[0]["generated_text"]}

+import os
 from fastapi import FastAPI
 from pydantic import BaseModel
 from typing import Optional
+MODEL_ID = os.getenv("MODEL_ID", "gpt2")
+CACHE_DIR = os.getenv("TRANSFORMERS_CACHE", "/app/.cache")
+# ensure cache dir exists
+os.makedirs(CACHE_DIR, exist_ok=True)
 app = FastAPI(title="FastAPI Hugging Face Space")
+generator = None
 class GenerateRequest(BaseModel):
     prompt: str
     max_length: Optional[int] = None
+@app.on_event("startup")
+async def load_model():
+    global generator
+    # import here so transformers uses the configured cache
+    from transformers import pipeline
+    generator = pipeline("text-generation", model=MODEL_ID)
 @app.get("/health")
 async def health():
+    return {"status": "ok", "model": MODEL_ID, "cache": CACHE_DIR}
 @app.post("/generate")
 async def generate(req: GenerateRequest):
+    if generator is None:
+        return {"error": "model not loaded yet"}
+    max_len = req.max_length or 64
+    out = generator(req.prompt, max_length=max_len, num_return_sequences=1)
     return {"generated_text": out[0]["generated_text"]}