Spaces:

FabioSantos
/

api_llama3.1

Sleeping

FabioSantos commited on Aug 1, 2024

Commit

d07d2b8

verified ·

1 Parent(s): fe4adcb

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+from fastapi import FastAPI
+from pydantic import BaseModel
+from huggingface_hub import hf_hub_download
+from llama_cpp import Llama
+# Definição do modelo de dados de entrada
+class Question(BaseModel):
+    text: str
+# Inicializando o FastAPI
+app = FastAPI()
+# Download e configuração do modelo
+model_name_or_path = "FabioSantos/llama3_1_fn"
+model_basename = "unsloth.Q8_0.gguf"
+model_path = hf_hub_download(repo_id=model_name_or_path, filename=model_basename)
+print(model_path)
+lcpp_llm = Llama(
+    model_path=model_path,
+    n_threads=2,
+    n_batch=512,
+    n_gpu_layers=-1,
+    n_ctx=4096,
+)
+prompt_template = "Responda as questões.\nHuman: {prompt}\nAssistant:\n"
+def get_response(text: str) -> str:
+    prompt = prompt_template.format(prompt=text)
+    response = lcpp_llm(
+        prompt=prompt,
+        max_tokens=256,
+        temperature=0.5,
+        top_p=0.95,
+        top_k=50,
+        stop=[''],  # Parada dinâmica quando esse token é detectado.
+        echo=True  # Retorna o prompt
+    )
+    return response['choices'][0]['text'].split('Assistant:\n')[1]
+# Endpoint para receber uma questão e retornar a resposta
+@app.post("/ask")
+def ask_question(question: Question):
+    response = get_response(question.text)
+    return {"response": response}
+# Executa a aplicação
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=8000)