Spaces:

alessandroptsn
/

fastllmapi

Running

alessandroptsn commited on Jan 26, 2025

Commit

5ff5c8e

verified ·

1 Parent(s): dd0f4ef

Upload 4 files

Files changed (4) hide show

Dockerfile ADDED Viewed

+FROM python:3.9
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+COPY . .
+CMD ["uvicorn" , "main:app", "--host", "0.0.0.0","--port","7860"]

llm_func.py ADDED Viewed

+import time
+from llama_cpp import Llama
+model = Llama.from_pretrained(repo_id="tensorblock/SmolLM-135M-Instruct-GGUF",filename="*SmolLM-135M-Instruct-Q4_K_M.gguf",verbose=False,n_ctx=1000)
+def mdl(input):
+	print(query)
+	start = time.time()
+    output = model(
+    prompt=f"""<|im_start|>system
+     You are a helpful chatbot.<|im_end|>
+     <|im_start|>user
+     {input}<|im_end|>""",
+    max_tokens=256,
+    temperature=0.1,
+    top_p=0.9,
+    echo=False,
+    stop=["#"])
+    end = time.time()
+	total_time = end - start
+	print(f"Execution time: {total_time:.2f} seconds")
+    return output["choices"][0]["text"].replace('\nassistant\n','')

main.py ADDED Viewed

+from fastapi import FastAPI, HTTPException
+from fastapi.responses import PlainTextResponse
+from pydantic import BaseModel
+from llm_func import mdl
+app = FastAPI()
+class TextInput(BaseModel):
+    text: str
+@app.post("/llm/", response_class=PlainTextResponse)
+async def convert_to_llm(input_data: TextInput):
+    if not input_data.text:
+        raise HTTPException(status_code=400, detail="O texto não pode estar vazio.")
+    output_data = mdl(input_data.text)
+    return output_data

requirements.txt ADDED Viewed

+fastapi
+uvicorn
+llama-cpp-python==0.3.6 --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
+huggingface