Spaces:

CooLLaMACEO
/

Overflow-100B

Sleeping

CooLLaMACEO commited on Mar 13

Commit

0187888

verified ·

1 Parent(s): a30aa25

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import os
+import torch
+import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# Point to the local folder created in the Dockerfile
+MODEL_PATH = "/app/model"
+print("Loading Overflow-111.7B from Local Docker Storage...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_PATH,
+    trust_remote_code=True,
+    device_map={"": "cpu"},
+    torch_dtype=torch.bfloat16,
+    low_cpu_mem_usage=True
+)
+def respond(message, history):
+    inputs = tokenizer(message, return_tensors="pt")
+    with torch.no_grad():
+        output_tokens = model.generate(**inputs, max_new_tokens=30)
+    return tokenizer.decode(output_tokens[0], skip_special_tokens=True)
+demo = gr.ChatInterface(respond)
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)