Spaces:

Nutnell
/

E_Learning_platform

Paused

App Files Files Community

rayymaxx commited on Aug 23, 2025

Commit

97cf393

1 Parent(s): 6c0bb59

Modified the basemodel schema

Browse files

Files changed (1) hide show

app.py +9 -14

app.py CHANGED Viewed

@@ -1,25 +1,23 @@
-# app.py (safe, use /tmp for cache)
 import os
 import logging
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 import tempfile
-# --- Put caches in a writable temp dir to avoid permission errors ---
 TMP_CACHE = os.environ.get("HF_CACHE_DIR", os.path.join(tempfile.gettempdir(), "hf_cache"))
 try:
     os.makedirs(TMP_CACHE, exist_ok=True)
-except Exception as e:
-    # if even this fails, fall back to tempfile.gettempdir()
     TMP_CACHE = tempfile.gettempdir()
-# export environment vars before importing transformers
 os.environ["TRANSFORMERS_CACHE"] = TMP_CACHE
 os.environ["HF_HOME"] = TMP_CACHE
 os.environ["HF_DATASETS_CACHE"] = TMP_CACHE
 os.environ["HF_METRICS_CACHE"] = TMP_CACHE
-app = FastAPI(title="DirectEd LoRA API (safe startup)")
 @app.get("/health")
 def health():
@@ -29,10 +27,8 @@ def health():
 def root():
     return {"Status": "AI backend is running"}
-class Request(BaseModel):
     prompt: str
-    max_new_tokens: int = 150
-    temperature: float = 0.7
 pipe = None
@@ -40,12 +36,11 @@ pipe = None
 def load_model():
     global pipe
     try:
-        # heavy imports done during startup
         from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
         from peft import PeftModel
         BASE_MODEL = "unsloth/llama-3-8b-Instruct-bnb-4bit"
-        ADAPTER_REPO = "rayymaxx/DirectEd-AI-LoRA"  # <-- replace with your adapter repo
         tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
         base_model = AutoModelForCausalLM.from_pretrained(
@@ -65,12 +60,12 @@ def load_model():
         pipe = None
 @app.post("/generate")
-def generate(req: Request):
     if pipe is None:
         raise HTTPException(status_code=503, detail="Model not loaded. Check logs.")
     try:
-        out = pipe(req.prompt, max_new_tokens=req.max_new_tokens, temperature=req.temperature, do_sample=True)
-        return {"response": out[0]["generated_text"]}
     except Exception as e:
         logging.exception("Generation failed: %s", e)
         raise HTTPException(status_code=500, detail=str(e))

+# app.py (simplified generate endpoint)
 import os
 import logging
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 import tempfile
+# --- Use writable temp dir for Hugging Face caches ---
 TMP_CACHE = os.environ.get("HF_CACHE_DIR", os.path.join(tempfile.gettempdir(), "hf_cache"))
 try:
     os.makedirs(TMP_CACHE, exist_ok=True)
+except Exception:
     TMP_CACHE = tempfile.gettempdir()
 os.environ["TRANSFORMERS_CACHE"] = TMP_CACHE
 os.environ["HF_HOME"] = TMP_CACHE
 os.environ["HF_DATASETS_CACHE"] = TMP_CACHE
 os.environ["HF_METRICS_CACHE"] = TMP_CACHE
+app = FastAPI(title="DirectEd LoRA API (simplified)")
 @app.get("/health")
 def health():
 def root():
     return {"Status": "AI backend is running"}
+class PromptRequest(BaseModel):
     prompt: str
 pipe = None
 def load_model():
     global pipe
     try:
         from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
         from peft import PeftModel
         BASE_MODEL = "unsloth/llama-3-8b-Instruct-bnb-4bit"
+        ADAPTER_REPO = "rayymaxx/DirectEd-AI-LoRA"
         tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
         base_model = AutoModelForCausalLM.from_pretrained(
         pipe = None
 @app.post("/generate")
+def generate(req: PromptRequest):
     if pipe is None:
         raise HTTPException(status_code=503, detail="Model not loaded. Check logs.")
     try:
+        output = pipe(req.prompt, max_new_tokens=150, do_sample=True)
+        return {"response": output[0]["generated_text"]}
     except Exception as e:
         logging.exception("Generation failed: %s", e)
         raise HTTPException(status_code=500, detail=str(e))