Spaces:

SarmaHighOnAI
/

physics-tutor-api

Sleeping

SarmaHighOnAI commited on 6 days ago

Commit

56e9328

verified ·

1 Parent(s): f158928

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,35 @@
-import os
 from fastapi import FastAPI
 from pydantic import BaseModel
-from huggingface_hub import InferenceClient
 app = FastAPI()
-client = InferenceClient(api_key=os.environ.get("HF_TOKEN"))
 class Request(BaseModel):
     prompt: str
 @app.get("/")
 def home():
-    return {"status": "Running"}
 @app.post("/generate")
-def generate_text(request: Request):
-    messages = [{"role": "user", "content": request.prompt}]
-    response = client.chat_completion(
-        messages=messages,
-        model="HuggingFaceTB/SmolLM2-1.7B-Instruct",
-        max_tokens=500
-    )
-    return {"response": response.choices[0].message.content}

 from fastapi import FastAPI
 from pydantic import BaseModel
+from llama_cpp import Llama
+from huggingface_hub import hf_hub_download
 app = FastAPI()
+# 1. Define your specific model details
+REPO_ID = "SarmaHighOnAI/physics-tutor-gguf"
+FILENAME = "llama-3.2-3b-instruct.Q4_K_M.gguf"
+print("Downloading your fine-tuned model...")
+# This downloads the file LOCALLY to the container
+model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
+print("Loading model into memory...")
+# This loads the 'brain' locally. n_threads=2 is safe for the free tier.
+llm = Llama(model_path=model_path, n_ctx=2048, n_threads=2)
 class Request(BaseModel):
     prompt: str
 @app.get("/")
 def home():
+    return {"status": "Running", "message": "Physics Tutor API is Live (Local Inference)"}
 @app.post("/generate")
+def generate(request: Request):
+    # Standard prompt format
+    formatted_prompt = f"<|start_header_id|>user<|end_header_id|>\n\n{request.prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+    # Run inference LOCALLY (No API Key needed)
+    output = llm(formatted_prompt, max_tokens=256, stop=["<|eot_id|>"], echo=False)
+    return {"response": output["choices"][0]["text"]}