Spaces:

SarmaHighOnAI
/

physics-tutor-api

Sleeping

SarmaHighOnAI commited on 24 days ago

Commit

3ebd60c

verified ·

1 Parent(s): b4f7b60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,32 +1,22 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
-from llama_cpp import Llama
-from huggingface_hub import hf_hub_download
 app = FastAPI()
-# 1. Define your specific model details
-REPO_ID = "SarmaHighOnAI/physics-tutor-gguf"
-FILENAME = "llama-3.2-3b-instruct.Q4_K_M.gguf"
-print("Downloading your fine-tuned model...")
-model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
-print("Loading model...")
-# n_threads=2 ensures it runs smoothly on the free tier CPU
-llm = Llama(model_path=model_path, n_ctx=2048, n_threads=2)
 class Request(BaseModel):
     prompt: str
 @app.get("/")
 def home():
-    return {"status": "Running", "message": "Your Fine-Tuned Physics API is Live!"}
 @app.post("/generate")
-def generate(request: Request):
-    # Standard prompt format for Llama 3
-    formatted_prompt = f"<|start_header_id|>user<|end_header_id|>\n\n{request.prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
-    output = llm(formatted_prompt, max_tokens=512, stop=["<|eot_id|>"], echo=False)
-    return {"response": output["choices"][0]["text"]}

 from fastapi import FastAPI
 from pydantic import BaseModel
+from huggingface_hub import InferenceClient
 app = FastAPI()
+client = InferenceClient(token="YOUR_HF_TOKEN_HERE")
 class Request(BaseModel):
     prompt: str
 @app.get("/")
 def home():
+    return {"status": "Running"}
 @app.post("/generate")
+def generate_text(request: Request):
+    response = client.text_generation(
+        request.prompt,
+        model="meta-llama/Llama-3.2-3B-Instruct",
+        max_new_tokens=256
+    )
+    return {"response": response}