Spaces:

OPtimusPrimeSkibidi
/

TestSpace

Build error

OPtimusPrimeSkibidi commited on Jan 29

Commit

8d2c89a

verified ·

1 Parent(s): c946995

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,15 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-# This model works on free HF Inference API and is uncensored
-client = InferenceClient(model="NousResearch/Hermes-3-Llama-3.1-8B")
 def chat(message, history):
     messages = []
@@ -11,23 +18,18 @@ def chat(message, history):
         messages.append({"role": "assistant", "content": assistant})
     messages.append({"role": "user", "content": message})
-    response = ""
     try:
-        for chunk in client.chat_completion(
             messages=messages,
             max_tokens=512,
             temperature=0.7,
-            stream=True
-        ):
-            if chunk.choices[0].delta.content:
-                response += chunk.choices[0].delta.content
-                yield response
     except Exception as e:
-        yield f"Error: {str(e)}"
 demo = gr.ChatInterface(
     chat,
-    type="messages",
     title="AI Chat",
     description="Context maintained during session, resets on refresh"
 )

 import gradio as gr
+from llama_cpp import Llama
+# Load model locally - this will take a few minutes on first startup
+llm = Llama.from_pretrained(
+    repo_id="bartowski/Llama-3-8B-Lexi-Uncensored-GGUF",
+    filename="*Q4_K_M.gguf",  # 4-bit quantization for CPU
+    n_ctx=4096,
+    n_threads=4,
+    n_gpu_layers=0,
+    verbose=False
+)
 def chat(message, history):
     messages = []
         messages.append({"role": "assistant", "content": assistant})
     messages.append({"role": "user", "content": message})
     try:
+        response = llm.create_chat_completion(
             messages=messages,
             max_tokens=512,
             temperature=0.7,
+        )
+        return response["choices"][0]["message"]["content"]
     except Exception as e:
+        return f"Error: {str(e)}"
 demo = gr.ChatInterface(
     chat,
     title="AI Chat",
     description="Context maintained during session, resets on refresh"
 )